「my daiz」のユーザー属性分析をPythonを用いた機械学習で実施
「主成分分析」で分析精度を高める
株式会社NTTドコモ様
株式会社NTTドコモ様が提供するサービス「my daiz(マイデイズ)」において、AWS SageMakerとGoogle Cloud が提供するVertex AI上で、Pythonを用いた機械学習によるユーザー属性分析を行いました。
my daizはNTTドコモ様が提供するエージェントサービスで、ユーザーの端末の位置情報や登録したスケジュールなどの情報をもとに、一人ひとりの生活リズムや好みを学習し、さまざまな問いかけに対話で応えたり、出発時間に合わせて天気や電車の遅延情報を知らせるなど、あなたに合ったタイミングで、あなたに合った情報をお届けするサービスです。
今回、テックファームは本サービスのデータ分析を行い、my daizの利用者の属性を分類しました。
お客様のご要望
これまで活用されていなかった自社で蓄積されてきたデータ(ユーザーの年齢・性別・利用時間帯・地域・契約情報など)を利用し、ユーザー属性の把握を行い、今後のマーケティング施策に役立てたいというご要望がありました。
データ分析の手順と期間
分析ステップ
今回、データ分析は以下の4ステップで行いました。
Step1:ゴール設定 分析結果で何を得たいのか具体的なゴールを設定する/KPIツリーの作成
Step2:データ調査 データベースに存在する「種類」「形式」「分布」を確認し、分析に利用するデータを決定
Step3:データ加工 データの整合性や一貫性を保つため、データのクレンジング・名寄せ・補完等を行う
Step4:データ分析 K-meansクラスタリング手法を採用。さらに主成分分析(PCA)を実施
データ分析の期間
2024年1月〜6月で実施
テックファームのソリューション|プロジェクトの特徴と工夫ポイント
K-meansクラスタリング手法で効率的かつ効果的な顧客セグメンテーションを実現
今回のデータ分析では、K-means(ケイミーンズ)と呼ばれるクラスタリング手法を採用しました。K-meansとは、クラスタリングと呼ばれるデータ分類手法の一つです。データをk個のクラスタ(グループ)に厳選して、似た性質を持つデータ同士をまとめ、異なる性質のデータとは分けて分類する手法です。
K-meansでデータ分析するメリットとしては、大量のデータを効率的にグループ化でき、クラスタリングの結果が視覚的にわかりやすくなることが挙げられます。
今回の手法は、お客様の課題としても挙げられていたマーケティングの顧客セグメンテーションとの親和性が高いことも特徴です。
メモリと時間の消費を防ぐために数テラバイトのデータを効率的に削減
統計学の区間推定を用いて、母平均と母分散データを維持したまま、かつ許容誤差をなるべく小さくし、データ数をうまく抽出(サンプリング)してデー タ分析を行いました。その結果、数テラバイトのデータ量でも、K-meansでのメモリ大量消費を防ぎ、効率的に分析することができました。
最適なクラスタ数を判断するためにエルボー法を活用
最適なクラスター数を把握するためエルボー法を活用し、効率的なグルーピングを実現することができました。
エルボー法は、K-meansクラスタリングにおいて、適切なクラスター数(kの値)を決定するための手法です。K-meansでは事前にクラスタ数を指定する必要があるため、どのkの値が最適かを判断するためにエルボー法がよく使われます。
エルボー法で最適なクラスタ数を見つけることで、モデルの正確性が向上しました。
分析結果の精度を高めるため「主成分分析」を実施
今回のデータ分析ではK-meansクラスタリング手法を採用しましたが、クラスタリング手法のみでは、理想とする形にデータを分類することができなかったため、さらに主成分分析(PCA: Principal Component Analysis)を行うことで分析精度を高めることができました。
K-meansクラスタリングの対象となる100種類以上のデータに対して主成分分析を行い、次元削減を行うことで、10個ほどの主成分データを抽出しました。これに対してクラスタリングを実施することによりデータの最も重要なグループの属性分けができました。
主成分分析とは?
データの次元を削減するための手法です。多くの変数(特徴量)を持つデータセットを、情報の損失を抑えるために少数の新しい変数に変換することで、データの構造を最大限に表現することができます。
プロジェクトでのアウトプット
今回の分析結果として、my daizの全ユーザーを10程度の属性に分けた形でレポートとして提出しました。本レポート結果によりユーザー属性の見える化を実現し、ユーザーのペルソナが描きやすくなりました。
今後は、これらの結果をマーケティング活用することで、新規ユーザの獲得施策や、契約率上げるための施策に役立てていく予定です。
本プロジェクトの体制
本プロジェ クトではテックファームでAI/データ分析グループに在籍するデータサイエンティストエンジニアが参画しました。
データサイエンティスト 井口 貴裕:
大学では宇宙船のデータを測定し、データをクラスタリングすることでその起源を明らかにしていく研究を実施。テックファームにはエンジニアとして入社後、検索エンジンの開発、米国ラスベガスにて決算システムの開発やマネーロンダリングを検知するためのエンジン開発プロジェクトをリード。帰国後は、大手メディア向けデータ分析基盤の設計、構築およびTableau、Looker Studio等を使用したデータの可視化・分析業務、大手金融企業が運営するBtoCサービスで顧客の社内外のデータを組み合わせた解析に従事。