データ分析

AIを作ってみよう:消費予測(6/6)

更新日:

消費予測

 

AIを作ってみよう:消費予測(5/6) までの記事で、AIを作り、精度を上げるためにデータを拡張するといったことをしました。

データの量や種類を増やすほどAIは正確になっていきますが、実はもう少し効率のよい方法があります。それは、最初から重要なデータだけ使うという方法です。

重要なデータだけ使う? そんなことができれば苦労しない! と思いますよね。統計的機械学習には簡単に実行できてしまう命令があります。

この記事では、データの相関性を求め、重要なデータだけ使う方法をお教えします。

 

消費量に関係ないデータがある

 

データの種類は最終的に「天気、気温、雨量、日照時間、気圧、風速、湿度」まで増やしました。ただ、この全てがお酒の消費量に関係するかは分かりませんね。

それをAIに学習してもらっているんですが、もし影響のないデータが分かれば、次回からデータを取得する必要がなくなります。

統計的機械学習には、データの要・不要を判断してくれる計算があります。主成分分析といいます。

一度実行して、次回からデータ収集を簡素化するようにしましょう。

カラムの影響有無

 

 

不要なデータを知る方法(主成分分析)

 

不要なデータは主成分分析という命令ですぐ分かってしまいます。

下記のプログラムをコピペして実行してみてください。

データのほうは、AIを作ってみよう:お酒の消費予測その5でコピペした学習データをそのまま使います。

  1. 下記のプログラムをコピペして「data-select.py」というファイル名でデスクトップに保存します。

  2. AIを作ってみよう:お酒の消費予測(5/6)にアクセスし、tenkisake-gakushu-data2.csv をコピペしてこのファイル名で保存し、デスクトップへ置きます。

  3. プロンプトを開きます。(Windowsの場合は Windowsスタートボタン→「cmd」を実行、Macの場合は Terminalを実行)

  4. 「cd desktop」を実行します。

  5. 「python data-select.py」を実行し、数分待ちます。

 

 

結果の見方

結果は少し分かりにくいかもしれませんが解説をします。

1行目は、データの種類「天気、気温、雨量、日照時間、気圧風速湿度」のうち結果に強く影響している上位4つをTrueと表示しています。いま下線になっているデータが結果に強く影響しているということです。これは4つ選ぶよう指示したからで、この個数は変えることができます。

2行目は、データ各種が結果にどの程度影響しているかの割合です。ただ順番は強い割合の順に並んでしまっています。最初の0.33は、「天気、気温、雨量、日照時間、気圧、風速、湿度」のうち最も結果に影響するどれかのデータが、データ全体の33%の強さで結果に影響しているという意味です。データのどれを指すかは見えていません。

1、2行目を合わせて解釈すれば、結果に強く影響しているのは、「天気気圧、風速、湿度」であり、その合計割合は約78%(33+19+15+11)です。一般的には60~80%ぐらいのデータを使うのが良いと言われているので、この4データで予測しても十分だということですね。

もし興味がある人は、データをこの4種類のみに編集し、プログラムを4データのみ使うように改修して実行してみてください。

少しですが結果が改善することがあります。また少しですが計算時間が早くなっています。

次回からは、4つのデータさえ収集すればいいことになりました。また、データが大量になるほど計算時間が短縮できます。 

  

 

いかがでしたか。

このように、本当に必要なデータというものを分析することで、データ収集の手間が少なくなり、計算時間が早くなるというメリットがあります。扱うデータが大きいほど有効です。

  

  

-データ分析

Copyright© やさしいAIの始め方 , 2024 All Rights Reserved Powered by STINGER.