AI競馬で回収率100%越えを目指して

はなむけ競馬場

python プログラム 競馬

3歳未勝利戦における月や年ごとのタイム差について

投稿日:

競馬の3歳未勝利の芝における月の影響を考えた。

おそらく未勝利戦で一勝でもすると、未勝利戦には参加できなくなるはずである。

2歳未勝利戦から通算すれば、それぞれの馬が何試合か戦っているはず。

その間最長で2年程度で、馬も成長してく。

つまり、何歳の何月に発走したかで、タイムに少しくらい偏りがあるのではないかと思った。

未勝利戦ギリギリまで粘っている馬が強いのか微妙であるが、それぞれ成長しているはず。

月ごとののタイム差


import seaborn as sns
import matplotlib.pyplot as plt
month = train.groupby("発走月").apply(lambda group:group.sort_values(by="日時",axis=0,inplace=False))
sns.set(font='Yu Mincho')
sns.distplot(month.loc[1]["修正タイム"],label="1月")
sns.distplot(month.loc[2]["修正タイム"],label="2月")
sns.distplot(month.loc[3]["修正タイム"],label="3月")
sns.distplot(month.loc[4]["修正タイム"],label="4月")
sns.distplot(month.loc[5]["修正タイム"],label="5月")
sns.distplot(month.loc[6]["修正タイム"],label="6月")
sns.distplot(month.loc[7]["修正タイム"],label="7月")
sns.distplot(month.loc[8]["修正タイム"],label="8月")
sns.distplot(month.loc[9]["修正タイム"],label="9月")
plt.legend()
plt.show()

 

大きな差ではないものの、8-9月に発走した馬はそれ以外に比べて速いタイムを出す傾向にある。

4-7月の馬は比較的正規分布っぽいタイムの分布を見せている。

一応その馬が何月に発走しているのかという特徴量を加えてみたい。

年ごとのタイム差

交差検定を行おうとしたときに、各Foldのデータセットに差がないほうが好ましい。

古いデータと新しいデータのタイムにばらつきがあるのなら、どこかで線引きをしなくてはならない。

2020年の馬は品種改良により2012年の馬より明らかに早くなっているようであるなら、学習に使うデータを検討しなくてはならない。


year = train.groupby("発走年").apply(lambda group:group.sort_values(by="日時",axis=0,inplace=False))

import matplotlib.pyplot as plt
sns.set(font='Yu Mincho')
sns.distplot(year.loc[2012]["修正タイム"],label="2012")
sns.distplot(year.loc[2013]["修正タイム"],label="2013")
sns.distplot(year.loc[2014]["修正タイム"],label="2014")
sns.distplot(year.loc[2015]["修正タイム"],label="2015")
sns.distplot(year.loc[2016]["修正タイム"],label="2016")
sns.distplot(year.loc[2017]["修正タイム"],label="2017")
sns.distplot(year.loc[2018]["修正タイム"],label="2018")
sns.distplot(year.loc[2019]["修正タイム"],label="2019")
sns.distplot(year.loc[2020]["修正タイム"],label="2020")

plt.legend()
plt.show()

年ごとのタイムの分布を表した図。

概ねどの年も同じような分布をしているようには見える。

ただ、年によって70~71秒台が頻発しているときがある。これを許容するかどうかというところだと思う。削りたいたくから結局使ってしまうと思うが。

気になるのは2012年の青線の箇所。

分布の山も他と比べると小さいし、ゆがんでいる。

68~69秒台がやけに多く、他の分布と比べると少しおかしい。

2012年以降と以前で何かが違ったということだろうか。

競馬場の作りが変わっている? それともただただデータ収集が悪いせいだろうか。

どちらにしろ2012年のデータを使って学習はあまりしたくないと感じた。

-python, プログラム, 競馬

Copyright© はなむけ競馬場 , 2021 All Rights Reserved Powered by AFFINGER5.