使用目的に応じたネットワーク分析とは【ノードとエッジの関係】

大量のデータを処理することでしか見えてこない情報があります。そのひとつがネットワーク分析ですが、弊社では、例えば競合分析として、開発の中心人物を特定するとか、あるいはマーケティング目的として、ニュース記事のワードのつながりからトレンドを把握するとか、最近では、新型コロナの感染追跡にこれを利用する、などの事例があります。しかしながら、対象となる人物や、キーワード等(ノード)を単に線(エッジ)でつなげばよいかというと、そう単純ではありません。今回はその辺について、考えてみたいと思います。

使用目的に応じたネットワーク分析とは

使用目的に応じ、少なくとも2つの方法で、ネットワーク図を作成できると便利です。ひとつは、重要なノードを見つけるためのネットワーク図、もうひとつは、ノード間の接点を漏らさなためのネットワーク図です。前者は、中心人物の特定や、キーワード(中心的な概念)の特定が目的となり、後者は、例えば濃厚接触者の割り出しなどが目的となります。図で説明した方がはやいので、以下、簡単なデータで説明します。

ネットワーク図の作り方

まずは重要なノードを見つけるためのネットワーク図について、解説します。

例えば、1つの文献に、Aさん,Bさん,Cさん,Dさん,Eさんの5人が関わったという情報があったとします。これらは、左から右へ、重要度の高い順に並んでいるとしましょう。つまり、左端のAさんに最も重みがあるデータだとします。その場合、この5人のネットワーク図を以下のように描画すると、中心人物がAさんであることがとても分かりやすくなります。

例えば特許や論文では、概ね筆頭に中心人物が記載されています。したがって、左端の人物に重みのあるデータとなっていますので、このような描画が適しています。あるいは、最後に(右端に)、その研究の責任者的な立場の人物が記載されていることも多いです。研究をリードしているわけではないが、違った意味で重要人物です。しかしながら、こういった人の組み合わせを大量に処理することによって、右端の人物も中心に浮かび上がってくることがわかります。つまり、多くの組み合わせで、Eさんが右端に記載されていれば、矢印が集まってくることが分かりますね。矢印が外側へ多く向かっているのが中心人物、矢印が内側へ多く向かっているのが責任者的人物、ということです。

キーワードでも同様です。ある文章に対して、重要度順にキーワードを貼り付けることができれば、キーワードのネットワーク図がつくれます。どのようなキーワードを中心に話が展開されているか、全体のトレンドを示すいくつかの切り口を抽出することができます。

しかしながら、このネットワーク図には弱点があります。重要なノードを見つけるにはいいですが、接点を洗い出すには向かないということです。例えば、上記の例では、AさんとBさんはつながっている、AさんとCさんはつながっている、・・ですが、BさんとCさんもつながっているはずです。あるいはCさんとDさんもつながっているはずですが、この図では、それらは省略されています。重要なノードを見つけるという目的には、それらの情報は不要だからです。では、つながり自体が重要なケースではどうすればよいでしょうか。

中心ノード探索用のネットワーク図

次に、接点を漏らさなためのネットワーク図について、解説します。

例えば、1つの部屋に、Aさん,Bさん,Cさん,Dさん,Eさんの5人が同席したという情報があったとします。接点があるかないかを問題にしますので、5人の重要度はあまり関係がありません。つまり、どういう順番でも、問題になりません。この場合のネットワーク図を描画すると、以下のようになります。

例えば、新型コロナの感染追跡を行う場合、BさんとCさんの接点が欠けていたり、CさんDさんの接点が欠けていては、正しく追跡できません。したがって、この場合には、このように全ての接点を描画する必要があります。あるいは、特定の人物に近づくために、人脈をトレースするような場合にも、このようなネットワーク図が必要です。

接点追跡用のネットワーク図

実際のデータで、2つを比較してみましょう。

50件の文献情報をもとにした、研究者のネットワーク図です。分かりやすくするために、2つともクラスタリング処理しています。各クラスタごとに比較していただければ分かると思いますが、上図では中心ノードが分かりやすくなっていますね。ただし、ソフトウエアの機能を使って、つながりの追跡を行うと、上図ではズレが生じることが分かります。

ただし問題は、下図のようなフルコネクトのネットワーク図の作成では、多くのデータ処理が必要となり、処理時間も描画時間も多くかかってしまいます。したがって、目的に応じ、どのようなネットワーク図が適しているかを考えた上でデータ処理することが重要です。

Star
Fully Connected

ポイントはデータの前処理

ネットワーク図を作成するためのツールは、有料のものから無料のものまで、既に多く存在ます。しかしながら、どのツールも、入力するためのデータが必要であって、そのデータをどう処理するかによって、描画される図も変わってきます。データを予め重要度順に並べたり、文章からキーワードを切り出したり、中心ノードを見つけるためのデータ処理や、接点追跡を行うためのデータ処理など、ポイントはむしろデータの前処理にあると言えるでしょう。

今回の分析は、情報分析ツール「Quark Apps」を使っています。Quark Appsは、2つのネットワーク図いずれも出力することが可能です。キーワードを重要度順に抽出する機能も持っています。情報の自動収集、前処理、ビジュアル化、機械学習(AI)をExcelから操作できるようにした、Quarkオリジナルのパッケージです。