データ分析が失敗するシンプルな理由とは

データ分析の報告を受けて、こう思ったことはありませんか?「だから何?」

分析手法は高度だし、可視化されたチャートは目を引きます。しかし、どうしてこういう反応になってしまうのでしょうか。もしあなたがデータアナリストなら、分析結果を報告したときに「ポカン」とされてしまったことはありませんか?もし心当たりがあるなら、聴衆はこう思っているかもしれません ・・だから何?

そこで今回は、たいへんな苦労をしてようやく仕上げたデータ分析が、結果として失敗してしまう理由について、考えてみたいと思います。

データ分析が失敗する理由

それは企画に問題があります。定形のデータ分析なら話は別ですが、組織の意思決定をサポートするような正解のないタスクなら、最初の企画が重要になります。企画といってもピンとこないかもしれませんが、そのデータ分析で何を知りたいのか?、目的・ゴールと言ってもよいかもしれません。まず企画をつくり、どのデータを使いどう分析すればどんな結果が得られそうか仮説を立て、実際に分析をし、結果について解釈を加える、企画→仮説→データ分析→解釈、この流れが必要です。

ウルトラマンの動向は?

例として、ウルトラマンの最近の動向について考えてみましょう。とりあえず、最近の動向なのでニュース記事をソースにしましょう。「ウルトラマン」に関する最近のニュース記事約200件を収集して、テキスト分析します。以下は頻度分析ですが、「シン」「映画」「公開」が目立ちます。先日公開した映画「シン・ウルトラマン」に関する話題が多そうだと想像できます。

次に、これらのワードの共起ネットワーク(同時出現の様子)を見てみましょう。1つの丸は1つのワードを示しています。丸が大きいほど、他のワードと同時に出現しているワードという意味です。話題の中心にあるワード、つまりキーワードです。また、つながりの密度を計算し、いくつかのグループに分けています。話題にしているテーマが異なっているイメージです。全体として、大きな3つのグループを中心に、周囲に複数のテーマがかなり強いつながりを持って関連していることがわかります。

中心付近の3つのグループを詳しく見てみると、1つ目は監督や出演者など制作に関するテーマ、2つ目は楽曲や関連商品に関するテーマ、3つ目は企業や行政機関の関連動向に関するテーマです。また周辺グループもほぼシン・ウルトラマンに関する記事で、直近のウルトラマンに関するニュースはシン・ウルトラマン一色だと言ってよいと思います。ところで、これらはあえてデータ分析するほどの内容でしょうか?まさに ・・だから何?

制作に関するテーマ
楽曲、関連商品に関するテーマ
企業や行政機関の関連動向

理想は「気付き」

以上の内容は容易に予想できたし、まぁそうだよね、という結果です。頭の中でぼんやり予想していたことが、データで示された形です。データで示されることで、意思決定を後押しするという、一定の効果は期待できるかもしれません。でも、「だから何?」の正体はここにあります。やはり、最新の手法を取り入れ、工数をかけて分析する以上、期待値は上がってしまいます。データ分析によって何らかの「気付き」を提供できなければ、その期待を裏切ることになってしまうのです。

さきほどのウルトラマンのケースなら、むしろ、twitterのつぶやきの方が、新たな気付きにつながるかもしれません。どうやら、シン・ウルトラマンの評価については、賛否両論があるようです。そういった気付きが欲しいなら、情報ソースも分析手法も見直す必要が出てきます。

したがって、データアナリストは、気付きを提供するために最大限の努力をするべきです。そのためには、依頼者の問題意識を共有することが重要です。問題意識は何で、データ分析で何を知りたいのか?、逆に言うと、知らないことは何か?こうした内容を徹底的に掘り下げてから、データ分析を行うべきです。これが、データ分析の前段階である「企画」を重要視する理由です。