今週はずっと機械学習をPCで回していてブログ更新できていませんでした。

今感じているのは、機械学習は便利だという事です。
儲かるか否かは保証はしませんが。

今日はそんな便利な機械学習のイメージを書いてみようと思います。 
最近の機械学習の学習コードを使うと、特徴量さえ用意すれば、モデル化は勝手にやってくれます。
非常に楽なので、重点的に取り組むべきは特徴量の探索という事になってきます。

機械学習では‘特徴量’と‘目的変数’の事を理解すれば、あとはプログラムに任せて計算するだけなので、その2つのキーワードのイメージを整えれば、勉強次第ですぐにモデル化・実装までゆけると思います。 

特徴量・説明変数とは 

いくつか、このブログでは分析方法を紹介しており、下の記事ではNYの騰落%を特徴量・説明変数としてます。

これはまさしく、線形単回帰のモデルですね。 

次に線形重回帰モデルだと↓の記事で紹介しています。

 機械学習を勉強する上でも線形回帰モデルの理解は重要です。
機械学習を始めよう!と思った人はまずは線形回帰モデルを勉強してください。

 特徴量候補は無限大だと思います。
テクニカル分析の指標でもサザエさんの視聴率でも良いのです。
※サザエさんの視聴率は大和証券が株価に対する相関について過去に発表してます。 

北米の月次自動車販売台数でも良いのです。
データとなるならば、まずは有効性を見てみる、というのが良いと思います。 
最も気を付けるべきは予測する目的変数に対して過去のデータであるというのがポイントです。  

目的変数とは 

予測したい対象を目的変数と言います。
たいていの場合、期間リターンを目的変数とします。
オプション等であれば期間ボラティリティー、価格そのものを予測したいのであれば、価格を目的変数とします。

もっと違う考え方として、ある期間において下げるか上がるかのみを考える問題に置き換えることもできます。
その際には目的変数は0と1のみになります。 

そして学習モデルへ 

機械学習では説明変数で数式モデルを構成し、その数式モデルから得られた結果と目的変数との差をドンドン少なくするように係数を変える「学習」を行ってゆきます。
上で出てくる「差」を損失関数といい、これを最小する計算を行うのが機械学習というものです。 

機械学習のモデルは線形回帰からニューラルネットワーク、決定木、ランダムフォレスト、SVMなど様々なモデルがありますので、必要に応じてそのモデルを切り替えて計算して実装すればよいのです。

 今日はイメージでしたが、後日、線形回帰モデルの作成をPythonでやってみるなどして、記事にしてゆこうと思います。