この記事では、AIを作ってみよう:消費予測(3/6) に続き、使ったデータの解説をします。
データを簡単に解説
下記が学習に使ったデータでした。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 |
weather,alcohol 4,129.83 2,116.22 4,105.37 4,152.77 10,149.17 4,82.65 4,102.69 10,92.68 4,97.71 4,134.38 4,125.44 2,146.33 4,85.14 4,94.26 4,124.52 4,98.44 4,122.98 10,157.55 2,148.52 4,118.56 4,104.7 10,127.53 4,138.76 4,143.8 4,127.26 2,156.01 4,91.04 4,92.78 4,84.86 4,116.63 |
このデータは1行が1日分のデータとなっており、全部で30日分のデータです。
1行1日分には、2つのデータ(天気、お酒の消費量)が並び、カンマで区切られています。これらは、筆者が2つのデータを異なるデータ元からダウンロードして組み合わせたものです。
天気のほうは数字で表現されています。1=快晴、2=晴れ、3=薄曇、4=曇、といった具合です。AIとしては「快晴」という言葉より数値を与えてあげるほうが早く計算できるからです。気象庁からデータをダウンロードしたものです。
お酒の消費量のほうは、統計局の家計調査データをダウンロードして一部を取り出したものです。1世帯あたりの円の数値です。入手先は下に書いています。
次に、予測データはこうなっていました。
1 2 |
weather 4 |
これは、2020/07/31の天気を示しています。この日のお酒の消費量を予測したいわけですから、お酒の消費量データは不要ですし、学習データに入れません。
データの入手先
参考までに、データをダウンロードしたサイトとダウンロード方法を紹介します。
このサイトで地域を選び、データの種類に「時別値」を選び、項目に「天気」を選び、期間を指定して「CSVファイルをダウンロード」を実行すると天気データがダウンロードできます。筆者は時間毎の天気データから12時だけを抽出しました。
このサイトのキーワード検索で「家計調査 日別」と検索して必要な月のファイルをダウンロードします。データには食品、飲料、その他、など全ての消費物資があるので、「お酒」のデータだけに編集しています。
2つのデータをExcelで開いて組み合わせた(Linuxのpasteコマンドでも可能です)後に、csvファイルとして保存します。
AI開発では、このようにあらゆるサイトや顧客のデータを工夫することから始まります。
あなたの予測にも使える
このプログラムを利用すれば、あなたが予測したい事象に使うことができます。
例えばお店を経営していれば、消費量データのところをあなたのお店の売上に変更すればいいのです。すると天気が売上にどう影響しているのかAIが学び、未来の売上を予測することができます。
他にも例えば道路の渋滞や、ラーメン屋に並ぶ人数などを予測したいと思いませんか。過去のデータさえあれば可能です。
さて、今回のプログラムは簡単なデータ構造にしましたが、AIをもっと賢くするには、データの量や種類を増やすという方法もあります。
次の記事では、プログラムやデータを改善してAIを賢くする方法を書きます。