誰もあえて口にしないが、相関関係のモデルが導き出した予測の大半は間違っている。
解説
今日、多くの企業が巨大なデータベースをもとに、顧客行動の分析を進めている。
例えば、小売り大手のターゲット。同社は「母親になる女性」という顧客層の売上を増やしたかった。そこでデータサイエンティストが、買い物客の「妊娠指数」を評価する予測モデルを作成した。これは、出産前の女性が購入する傾向が高い25種類の商品を選び、その購入額をもとに妊娠している可能性を計算するものだ。
予測モデルを構築する際は、大勢の顧客の「購入履歴」を調べる。すると、あちらこちらで繰り返される購入パターンが見つかる。例えば、特大のバッグを買った人の多くが、後にベビーベッドを買っているかもしれない。
予測モデルが選んだ25の商品とベビー用品の関係を証明するために、アナリストは大量の購入履歴を精査する。ある人の購入履歴が、妊娠が予想される顧客グループの購入パターンと似ていれば、その人は妊娠しているだろうという予測が成り立つ。この「似ている」人のアプローチは、あらゆる予測モデルの基本となる。
だが、ある商品をどうして買ったのか、その本当の理由を計測することなどできるのだろうか。
一般に社会科学の統計モデルは、人間の行動の理由ではなく、相関関係をもとにしている。しかし、現実世界の相関関係は、物理学の法則などとは異なり、一貫性とはほど遠い。あなたがきょう緑色の傘を持っているからといって、次に買う傘も緑色とは限らない。つまり、統計モデルは因果関係を無視したものなのだ。
この構造的な限界は、データがどれだけ大量にあっても乗り越えられない。
編集部のコメント
『ナンバーセンス ビッグデータの嘘を見抜く「統計リテラシー」の身につけ方』は、読者に統計リテラシーの大切さを教えてくれる本です。大学ランキングやお得な割引クーポン、失業率など、身近な例を基に、データの本質を見極める方法を解説します。
著者のカイザー・ファング氏は、統計的手法を広告やマーケティングに適用する、統計のプロフェッショナル。氏によれば、この本のタイトルである「ナンバーセンス」とは統計リテラシーのことで、問題のあるデータや解説を見た時に “何かが違う”と感じる、罠を見抜く知恵のことだといいます。
ビッグデータの時代になり、大量のデータが無料で簡単に手に入るようになりました。その結果、私たちはデータを分析したグラフや数字、解説を目にする機会が多くなっています。また、それを判断材料として、意思決定を行うこともしばしばあります。
しかし、その分析結果は正しいのでしょうか?
著者によれば、ビッグデータをもとに多くの人たちが分析を行い、様々な理論や視点が生まれることで、矛盾や混乱が増えて、意見の不一致や信頼度の低下につながるといいます。
私たちが分析の正誤を知るためには、データの本質を見極める力=ナンバーセンスを身につける必要があります。数字やグラフに振り回されず、賢い選択を行うために、本書を一読することをおすすめします。