競馬のファクターを分析する方法
閉じる
閉じる

新しい記事を投稿しました。シェアして読者に伝えましょう

×

競馬のファクターを分析する方法

2018-07-05 11:28


    今回は予定を変更して、先にデータ分析をする方法を書きます。

    このブログを読んでくださる方の中には、独自のデータベースを作って研究している方もいらっしゃると思いますが、一般人にはなかなかハードルが高いです。

    私もそんなことはできないので、競馬ソフトTARGETを使って分析し、Excelを使って指数を作成しました。インターネッツ原始人なので、プログラミングという高度な事ができないのです。

    ですので、今回もTARGETを使ってデータを分析する方法をお伝えします。
    ただし、基礎的な操作等は紹介しません。使い方は公式HP等を見てください。

    この記事の結論から言うと、
    手順を正しく踏んでデータ分析をする。
    信頼できるデータだけを用いて分析をする。
    今回の記事はこれだけです。これだけですが、非常に重要な事です。
    「そりゃそうでしょ?」と思われるかもしれませんが、ほとんどの人がこれが出来ていません。また、これが出来ない人達が大好きなのが特定レースの「過去10年分のデータ」です(例えば、宝塚記念過去10年分とか)。特定レース過去10年分データを根拠に馬券を購入したことがある人は、この意味を理解していないと思ってくだされば結構です。

    では、一つ例を出します。やってはいけない例です。
    こちらの種牡馬別データを見てください。


    これは単勝回収率が高い順に並べたものですが、このデータだけでも回収率が100%を超える種牡馬の馬を多数見つける事ができました。これで競馬勝ち組です!

    ・・・本当にそうでしょうか?
    「過去データ上で回収率順に並べて、単勝回収率が高いから、この種牡馬は過小評価される種牡馬である。」という理由以外に、このデータから語れる事はありません。
    私は競馬歴が浅いので、ほとんどの種牡馬の特徴すら知りませんし、芝で走るのかダートで走るのかもよくわかりません。つまり、過去データ上で回収率が高いという過去データ上の事実があったとしても、それを説明できるだけの説明力(論理)が不足しています。

    こういうデータは使えません。データ分析には、必ず論理が要ります。
    データ分析をする手順

    ①納得できる論理的な仮説を立てる

    ②信頼できるデータを確保する

    ③仮説の真偽を判定する

    必ず、①→②→③のこの順序で行ってください。
    例は、全くこの手順に法っていませんね。
    仮説も立てずにまずデータを見て回収率が高いデータだけを抽出しようとしています。
    やってみるとわかりますが、こういうやり方は何度やっても失敗します。実際には使えない馬券術になります。

    データは、仮説の真偽を判定するツールとして使ってください。



    では、次に信頼できるデータを確保するとはどういう事かを説明していきます。

    最初に単勝オッズ別のデータを見てください。2008年~2018年までのデータです。


    単勝オッズからわかる事は、オッズは長期的にみて馬の強さを現しているファクターであるということです。オッズが低くなるほど勝率が上がり、高くなるほど下がります。綺麗に相関していますね。

    ここで注目して欲しいのは、勝率、複勝率です。
    例えば、50~99.9倍の馬では勝率1.1%、複勝率6.0%になっていますね。

    では、イメージして欲しいのですが、コインの裏表を当てるゲーム(1/2)と、サイコロの目を当てるゲーム(1/6)では、どちらが少ない試行回数で確率に収束するでしょうか?
    当然、コインの裏表を当てるほうが、少ない試行回数で確率に収束します。つまり、的中率が高いほうが少ない試行回数で確率通りの結果になるということです。これは競馬でも同じ事が言えます。

    では、50~99.9倍の馬の単勝馬券(1.1%)がどれくらいで確率通りに収束するのかを数学的に計算してみましょう。
    以前に配布した資金管理君NEOでは、収束までの期間を計算してくれます。


    勝率1.1%では、約34539Rで誤差±10%の範疇に収まる事がわかります。

    ただ、ここまで細かい計算をしなくても、概算することができるようです。
    参照サイト:確率思考への転換 より引用
    ""確率分母の100倍の試行回数をこなせば、95%の確率で誤差±20%以内の確率になる
     確率分母の400倍の試行回数をこなせば、95%の確率で誤差±10%以内の確率になる""

    「95%の確率で」というのは、危険度5%ということです。
    誤差±10%というのは、例えば1%であれば1/100ですから、1/90~1/110の範囲内に収まるということです。10%であれば1/10ですから、1/9~1/11の範囲内ですね。

    簡易的な計算では、勝率1.1%は、約1/90.9ですので、分母である90.9を使います。
    誤差±10%であれば、90.9*400=36360
    で、34539と多少の誤差はあれど、大体似たような数値になります。

    では、的中率別に必要試行回数の一覧をご覧ください。
    危険度5%誤差±10%で計算


    ファクターを分析する際には、データ数が非常に重要になってきます。
    信頼できるデータを用いて分析する」というのは、ファクターを分析する際のデータ数を確保するという意味もあります。

    では、例として馬体重というファクターを見てみましょう。
    ここでは「馬体重500㎏以上の馬のみ」を抽出し、芝とダートにわけて見ていきます。
    そのデータがこちらです。


    芝でデータ数28176、ダートでデータ数49518、全体で77694です。
    では、芝とダート別に単勝オッズ別に見てみましょう。



    芝では30~49.9倍の回収率が高いですが、50倍を超えると回収率が低くなってますね。
    ですが、複勝率ですら5.7%しかないオッズゾーンで、サンプル数が3440しかありません。
    的中率5.7%では計算上サンプル数は6355は欲しい所ですから、データが足りていません。
    よって、複勝で見るにしても、50倍以上のデータは信頼がおけるデータとは言えません。



    ダートは少し芝よりもサンプル数が多くなっており、50~99.9倍の区間の複勝率6.2%の必要試行回数は5811回です。つまり、必要試行回数に足りていると考えられるので、信頼のおけるデータと言えます。

    馬体重は比較的サンプル数が確保しやすい普遍的なファクターですが、もっと他の細分化されたファクターであれば、オッズゾーンで5000ものデータ数を確保するのは難しくなってきます。
    データを分析する上で、複勝率・複勝回収率を使うのは、単勝に比べて的中率が高いから、必要試行回数が少なくて済むからです。
    仮にデータ数が2000しか無いのであれば、x*400=2000ですから、x=5、つまり1/5=20%の的中率があればある程度信頼のおけるデータという事になります。
    よって、的中率20%であれば、単勝オッズ20倍までのオッズあたりですから、20倍までに絞って分析するとある程度信頼のおけるデータであると言えます。

    今回は過去データ10年ほどしか見ていないのでデータが足りない部分が出てきましたが、普遍的なデータであれば20年ほど見ればもっとサンプル数を確保しやすくなります。



    馬券への応用

    必要試行回数という考え方は馬券にも応用ができます。
    仮に単勝オッズ50~99.9倍の馬の単勝を買うとすると的中率は約1%です。
    1%の馬の必要試行回数は38000回ほどですので、1%の馬に38000R賭ければ1/90~1/110の間に収まる確率が95%ということです。

    では、試行回数が稼ぎ辛い競馬において、38000Rを賭けるというのは、一体何十年かかりますでしょうか…。また、それだけ分散の大きい賭け方のためには、下振れに耐えるために資金を分割せねばなりませんね。複利運用なんて全くできませんし、例え期待値が高い馬だったとしても、投資競馬には全く向かないと言えます。

    以前の記事で、競馬は的中率が大事だということ、複利コロガシを狙うことを目的にすると書かせていただきましたが、そういう観点から言っても非常に効率の悪い買い目と言えます。

    期待値は高くても、資金回転率が著しく低い買い目であり、収益性は低く分散が大きいのです。



    今回は予定を変更してファクターの分析方法について書きました。
    次回は多分、予想の実践編をやります。多分。

    →Part.6:オリジナル指数の作り方

    広告
    コメントを書く
    コメントをするには、
    ログインして下さい。