今回はhoxo_mさんのブログ『ほくそ笑む』からご寄稿いただきました。
※すべての画像が表示されない場合は、http://getnews.jp/archives/381597をごらんください。
■統計的消去で擬似相関を見抜こう!
今日は初心者向け記事です。
●はじめに
ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。
身長に対する算数の点数のグラフは次のようになりました。
(画像が見られない方は下記URLからご覧ください)
http://px1img.getnews.jp/img/archives/2013/07/24.jpg
なんと、身長の高い子供の方が、算数の点数が高いという結果になりました!
身長が算数の能力に関係しているなんて、すごい発見です!
しかしながら、結論から言うと、この結果は間違っています。
なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。
年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。
この関係を図で表すと次のようになります。
(画像が見られない方は下記URLからご覧ください)
http://px1img.getnews.jp/img/archives/2013/07/32.jpg
つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。
このような相関を擬似相関と言います。
統計解析では、このような擬似相関に騙されてしまうと、誤った結論を導いてしまいます。
今日は、擬似相関に騙されないために、疑似相関を見抜く統計的テクニックについて説明しようと思います。
●データの準備
まずはデータの準備です。
データとしては上で説明したものを使用します。
data