
この記事では、AIを作ってみよう:株価予測(3/4) に続き、使ったデータの解説をします。
データを簡単に解説
下記が学習に使ったデータでした。
このデータは1行が1日分のデータとなっており、2010/03/01~2019/02/14の10年分があります。1行は「日付、日経平均の始値、最高値、最安値、終値」の順に並んでいます。
学習には終値があればいいため、プログラムの内部では終値のみを切り出して使っています。
また、学習時は10日分のデータを1つの塊にして学習しています。これは再帰ニューラルネットワークというディープラーニングモデルが順序性を学習するため、できるだけ連続したデータを渡すためです。データが日付順に並んでいることが重要です。
予測データのほうはこのような内容でした。
10日分の連続したデータになっています。10日分を渡すことによって、その翌日1日分の数値を予測するというAIになっているからです。
データの入手先
参考までに、データをダウンロードしたサイトとダウンロード方法を紹介します。
「日経平均株価」の「日次データ」をクリックしてダウンロードします。こちらにあるのは3年分です。より多くのデータを取得したい場合は、証券会社に登録して証券会社より取得する必要があります。
あなたの予測にも使える
このプログラムを利用すれば、あなたが予測したい株価や数値予測に使うことができます。
日経平均でなく、他の指数や個別株の株価など、順序性のあるものであれば、その過去データを取得できれば予測することができます。
その際は、プログラムを少し変える必要があります。入力データのカラム(横に何種類のデータを並べるか)の変更です。ちょっと難易度が高いと思う人は、入力データのほうを合わせるという手もあります。データの足りない部分にダミーを入れて無理やり5つ並べます。「日付、ダミー、ダミー、ダミー、ダミー、数値」などのように編集してください。
いかがでしょうか。
時系列ディープラーニングを用いて未来の株価を予測してみました。より高度な未来を予測したい場合は、適するデータの収集、モデルの選択、モデルのチューニング、その前に様々な視点で検討した企画が必要になってきます。