困ったらアンサンブル

機械学習をしたモデルでバックテストすることは、システムトレーダーならば高頻度で実施することでしょう。そのバックテストの結果で１％でも勝率を上げたいのは皆の共通認識だと思います。

しかしながら、そのバックテストには必ずや最適化・オーバーフィッティングという文字がつきまとい、パラメーター弄りには本当に意味があるのか疑問が付きまといます。

機械学習の分野では、作成したモデルが本当に未知のデータで役に立つか否かを示す言葉として’汎化性能’というものがあり、汎化性能が高いと言えば、アウトオブサンプル・未知のデータでも予測性能が高いという意味で使われます。

ようするに汎化性能の高さこそが我々の目指すものとなります。

その汎化性能を高めるために有効なのが、アンサンブルという手法です。

先日、推薦図書として紹介した’Kaggleで勝つデータ分析の技術’にはこう書いてあります。

”単一のモデルでのスコアに限界があっても、複数のモデルを組み合わせて予測することでスコアが向上する場合があり、そのように予測することをアンサンブルと言います。アンサンブルでは、それぞれのモデルの精度が高いだけでなく、それらのモデルが多様な時にスコアが向上しやすいです”

Kaggleで勝つデータ分析の技術（推薦書籍11）

まじかっ！、この文言には私は飛びつきました。
しかも後日にはネタにしますが、Numeraiのダウンロードデータセットにある’analysis and tips’にはしきりにensambleしなさい的なコメントがあるので、実務上、効果があるのでしょう。
（※実際にNumeraiの運用は強者の作ったモデルのアンサンブルそのもので運用している、と考えてもよい）

なので、実際に自分のモデルでやってみました。

私のやったアンサンブルはシンプルで2つのモデルを作り、その予測値を重みづけをして足し合わせてみました。下のような式です。

Prediction＝w1xPrediction_1+w2xPrediction_2
*w1,w2は単なるウエート

イメージ的には成績の悪い方に引っ張られそうですが、やってみます。

まずは1モデル目。バリデーション区間の勝率は60.89％、トータルリターン120％。