『データ分析の力 因果関係に迫る思考法』要約まとめ

ビッグデータに象徴される情報技術の発達によって、さまざまなデータが容易に手に入るようになっています。マーケティングや営業において、いかにデータを分析して活用するかが企業の重要課題になってきました。しかし、データをどう分析していいのかわからない……という人も多いのでは? データ分析の知識がないと、誤った分析結果を導きだし、ムダな労力とお金を使うことになりかねません。正しいデータ分析方法とは?

 データ分析でもっとも重要なことは、因果関係を見極めることだという。同時に、因果関係を立証することはきわめて困難なことでもある。たとえばアイスクリームを売る企業が広告を出すことを検討していたとする。そこで、広告を出さなかった2009年と広告を出した2010年のデータを比較したところ、売上が40%上がっていた。「広告に効果あり」と結論づけたくなるところだが、それは早計というもの。「相関関係」が推論されるだけであり、「因果関係」が立証されたことにはならないのだ。

 なぜなら広告の他にもさまざまな要因の影響があり得るからだ。たとえば2009年が冷夏で、2010年が猛暑だったという気温の変化も考えられるし、2008年のリーマンショックで落ち込んでいた消費が、2010年あたりから上向きはじめたという景気の変化も考えられる。これらはまだ過去のデータとして存在するが、「消費者の好みが変わった」といったデータは、世の中に存在しない可能性が高い。

 ということは、数千万円を投資して広告を出しても、売上が上がらない可能性がある。こうした損失を出さないためにも、因果関係を見極める必要があるのだ。しかし、実際のところ、世の中には相関関係と因果関係を混同した怪しい分析結果が溢れていると著者は指摘する。たとえば「新社長に代わった次の年に株価が上昇した。新社長の改革の成果である」という新聞記事があったとする。しかし、実際は景気が上向いた影響かもしれず、いくらでも他の要因が考えられるにも関わらず、断定してしまっているのだ。

 因果関係を見極めるには、考えられるだけの他の要因のデータを集め、その他の影響を排除していくというのが伝統的な方法である。しかし、別の要因が無限に考えられるという問題がある。これを解決する最良の方法が、因果関係を科学的に立証することが可能な「ランダム化比較試験(RCT)」である。

 これは「介入効果」を観測するもので、同じ結果になるはずの2つのグループを、「介入グループ」と「比較グループ」にわけて比較する手法だ。たとえば「電力価格と節電」の関係を調べる場合、同じ地域の世帯を2つのグループに分けて、一方は数時間の間、電力価格を上昇させ、一方は普段どおりにしておく。もし2つのグループの間で電力消費量に差が出れば、電力価格の因果関係が識別できる。

 その際、大事なことは必ずランダム(無作為)にグループ分けをすること。たとえば自ら参加した人たちでグループ分けをすると節電意識の高い人が集まる可能性が考えられるし、地域でわけると世帯年収の差があったりもする。さらに各グループに十分なサンプル数を充てる必要がある。少ないサンプル数で平均値を計算すると誤差が出るため、正確なデータとは言えなくなってしまうのだ。

「ランダム化比較試験」は、「答えたい問いのためにデータを作りにいく」という考え方の手法であり、因果関係を見極めるには最良の方法だが。その一方で、これを実施しようとすると多大な費用と労力がかかり、さらに各機関の協力が必要になることが最大の弱点。そこで、すでに存在するデータを上手く利用して分析しようとするのが「自然実験」であり、3つの手法がある。

 ひとつめの「RDデザイン」は、介入があった「境界線」をもとに分析するという手法。たとえば日本では70歳から医療費の自己負担額が3割から1割になる。70歳以上の患者のほうが70歳未満の患者より医療サービスをより多く利用する、という仮説が成り立つわけだが、高齢になればなるほど増えるのは当然といえば当然。しかし、69歳から70歳の「境界線」で外来患者数が急に上昇していることがデータから読み取れれば、医療費の自己負担額が影響しているという推論が成り立つ。

 2つめの「集積分析」は、インセンティブが階段状になっている仕組みを利用して分析する手法。累進課税制度を例にとると、年間所得に応じて税率が上がる「境界線」に所得者分布が集中する。このデータから所得税率の因果関係を検証することができる。

 3つめの「パネル・データ分析」は、複数のグループに対し、複数期間観測するという手法。たとえば個人の毎月の電力消費データや、複数の企業の財務データが複数期間観測できる場合に可能となる。その際、介入が起こる以前の期間のデータを集めることと、介入があった後の期間においても、それ以外の要因の影響がなかったか入念にチェックする必要がある。

 いずれも「あたかも実験が起きたかのような状況」を上手く利用する方法だが、介入がなかった場合のデータが世の中に存在しないことや、境界線付近の因果関係に限定されるといった弱点を持つ。どんなデータ分析手法にも不完全性や限界があることを認識しておくことが大切だと著者は指摘する。

「誰かのデータ分析」に基づいて職場の重要な決定がくだされる場面は多い。しかし、データ分析の専門家からすると、間違った方法のデータ分析や恣意的なデータ分析など、信頼性に欠ける分析結果が少なくないという。「誰かのデータ分析に騙されないために」も因果関係を見極める力が重要になってきているのだ。

『データ分析の力』3つのポイント

●対象となるデータの他に、さまざまな要因があり得ることを検討する

●「介入がなかったグループ」と比較し、科学的に検証する

●どんなデータ分析にも不完全性や限界があることを認識する

文●大寺 明