AI競馬で回収率100%越えを目指して

はなむけ競馬場

python プログラム

【1日目】COMPREHENSIVE DATA EXPLORATION WITH PYTHON 写経

投稿日:

COMPREHENSIVE DATA EXPLORATION WITH PYTHON(https://www.kaggle.com/pmarcelino/comprehensive-data-exploration-with-python)のコードを写経し、復習として学んだことを書き留める。

土地の価格を予想するコンペの一つ。https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data

目的変数を調べる


#トレーニングデータの読み込み

df_train = pd.read_csv("../input/house-prices-advanced-regression-techniques/train.csv")

df_train["SalePrice"].describe()


</pre>
<pre>count      1460.000000
mean     180921.195890
std       79442.502883
min       34900.000000
25%      129975.000000
50%      163000.000000
75%      214000.000000
max      755000.000000
Name: SalePrice, dtype: float64</pre>
<pre>

 

最初に目的変数の分布を見て、変な感じになっていないか確認。

 

目的変数の分布を可視化


import seaborn as sns

#ヒストグラムを表示

sns.displot(df_train["SalePrice"])

図を見ると正規分布ではなく、右に偏った分布となっている。

住宅の価格は青天井であることが示され、正規分布とはなっていない。

 

目的変数と各変数の関係を可視化

効いてくる変数を調べるために、分布図にして関連するか見る。


#㎡当たりの価格

var = "GrLivArea"

data = pd.concat([df_train["SalePrice"],df_train["GrLivArea"]],axis=1)

data.plot.scatter(var,"SalePrice",ylim=(1))

正の分布を示していて、この変数はSalePriceと関連している可能性が高い。

個人的にはPandasのDataframeにはそのまま図を作成することができることを知れたことが大きい。

matplotlibを最初に宣言しておく必要はある。

カテゴリ変数と目的変数の関係性を調べる

先ほどのは目的変数と説明変数のどちらも数字であった場合のもの。

カテゴリ変数の場合は箱ひげ図?でどうなっているかを見る。

 


var = "OverallQual"
data = pd.concat([df_train["SalePrice"],df_train[var]],axis=1)
f,ax = plt.subplots(figsize=(8,6))
fig = sns.boxplot(x=var,y="SalePrice",data=data)
fig.axis(ymin=0,ymax=800000)

カテゴリ変数の値が大きくなるほど、住宅の価格が右肩上がりになっている。

-python, プログラム

Copyright© はなむけ競馬場 , 2021 All Rights Reserved Powered by AFFINGER5.