ざっくり言うと
統計、AIといったノウハウを駆使し、様々なデータ解析・分析を行います。「データサイエンティスト」「データ分析者」とも言われます。
ディープラーニングより統計的機械学習といった分類のAIモデルを使います。AIモデルの分類についてはこちら -> AIの種類~ありそうで無い分類表~
実際に顧客案件をやってみると、技術的要素よりデータをどのように活用するか考える課題解決的な要素が強いです。
具体的な例は
・入退場人数のデータから混雑の要因を調べる、予測する
・ECサイトのクリック履歴から、トレンドや推奨商品を明らかにする
・降水量データから災害規模を予測する
・商業施設の購買データや来場者数を総合的に分析し活性化案を考える
・システムのログを収集し故障を予測する
といったものがあります。
予測をする目的と、原因を調べる目的とに分かれますね。
仕事の全体像
分類の仕方は色々ありますが、だいたいデータアナリストの仕事は以下の要素になります。
- 企画
- データ準備
- データ分析
- レポーティング
1.企画
企画では以下のようなことを行います。
- 分析テーマを考える
上記具体例にあるような、どんなデータからどのように活用するかのアイデアを創出します。活用方法が分からない顧客が多いため、知見を持っているほど有利です。必要なデータをここで決めます。
- 実現性を確認する
データアクセス性、測定効果可能性から実現性を確認します。テーマを考えても、データの抽出が手間だったり効果が低い場合は実施しないほうがいいという決断もします。
2.データ準備
データを収集するだけでも以外に手間がかかります。必要に応じて以下を行うため技術も必要です。データクレンジングとも言います。
- DBのテーブル連携を考慮して抽出する、または複数の装置からログを収集して連結する
- 不要なカラムの除外
- データの欠落を埋める
- データの異常値を除外する
- 数値の正規化(標準化)をする
※ カラムとはデータの縦列、レコードとはデータの横列を意味します。
3.データ分析
データ分析では以下のようなことを行います。
- データの統計、可視化
現在持っているデータをそのまま統計やグラフ化をし、傾向を見ます。
- 予測モデルの作成と評価
データを統計的機械学習にかけ、学習後に予測を行います。予測結果の精度を出し、必要であればチューニングをします。アルゴリズムの選択やパラメータの変更、データの重要度の確認などが必要になります。
効果のある分析へ
こうして予測された未来の数値、例えば災害の規模、商業施設の入場者数、製造物の欠陥件数などを用いて、将来に備えた準備ができます。顧客がこれを実現できて初めて効果があると言えます。
苦労してデータ分析を行っても、想像したような成果が出ないことがよくあります。顧客にとっては、効果がなければ費用と時間を使った意味がありませんね。
データ分析が成功するためには、最初の企画と実現性確認が非常に重要です。このタイミングでデータの把握作業を始めていいかもしれません。
以上、データアナリストの行う所作を紹介しました。
次の記事では、データ準備やデータ分析で具体的に使うプログラムを紹介します。 -> データアナリストって何やるの? (2/2)