ワタミ渡邉さんに「統計グラフか標準偏差を出せ」と言ってみよう『科学者のニュースの読み方』vol.28
閉じる
閉じる

新しい記事を投稿しました。シェアして読者に伝えましょう

×

ワタミ渡邉さんに「統計グラフか標準偏差を出せ」と言ってみよう『科学者のニュースの読み方』vol.28

2013-06-09 18:00
    『科学者のニュースの読み方』vol.28
    ■ワタミ渡邉さんに「統計グラフか標準偏差を出せ」と言ってみよう

     諌山さんのブログ記事「平均という数字のトリック」という、ワタミの渡邉さんが自社がブラック企業ではないことの説明に平均年収や平均残業時間を根拠にしていたことに対しての話を読みました。まったくもってそのとおりだなと思ったのと、標準偏差という値について補足しておくのがいいかもしれないと思ったのとで、ここに書いてみることにします。

     平均の定義はご存じのとおり、複数の値を合計して母体数で割ったもののことをいいます。繰り返しただけの同じ事象を平均化することは精度を高める目的という最も有意義な使い方です。一方で繰り返しではなく異なって当然な事象を平均化することは母体のおおまかな指標を意味するものでしかありません。平均値からはもととなった値や母体を知る術がなく、この影の部分に知られたくない裏事情を隠すことができ、母体のおおまかな指標でよく用いられます。

     さて、簡単な算数の時間です。例をとりあげます。

    [例1]
    9, 10, 10, 11の平均は
    (9+10+10+11)/4 = 10

    [例2]
    2, 7, 12, 19の平均は
    (2+7+12+19)/4 = 10

     例1のような母体は、繰り返しただけの同じ事象の場合によく見かけます。理屈上同じであるはずの値ですが誤差があるため若干のずれが生じてしまいます。ただしその誤差は増減ともに量と頻度が同程度であるはずならば、平均化によって無視できるという考え方に基づきます。例2はかなり極端にしましたが、このような母体は、異なって当然な事象をまとめるときによく使います。あるクラスの生徒の平均身長、ある都市の住人の平均年齢といったように、絶対に同じであるはずがない値をまとめておおよその指標として表したものでしかありません。区別する例として大気汚染物質の濃度の測定をとりあげると、同じ時間に同じ場所で10回測定した値を平均化したもはおおいにやってくれとなりますが、異なる時間や異なる場所で10回測定した値を平均化したものはちょっと待てとなりますよね。
     2つの例はどちらも平均値が10なので、この値だけ見せられたところで中身がどうなっているのかは区別できません。その場合は中身を見せろということになれば統計グラフをもらうのがいいのですが、多くの母体の平均値を比べる作業をするときにはいちいち統計に目を通すのも面倒です。

     そこでどれだけ値にばらつきがあるかを数値にして表す手段があります。標準偏差というものです。

    数式を出すと難しそうな印象を与えてしまうので、計算手順を書いていきます。

    [1] まず平均値を算出して準備します。
    [2] 値と平均値の差をとって二乗します。これを個々すべての値でやります。
    [3] 二乗した値をすべて合計します。
    [4] 合計値の平方根(ルート)をとります。

    平均値からずれた値を二乗して合計するので、平均値から離れるほど、そして離れた値が多いほど標準偏差が大きくなるわけです。さきほどの例で計算してみましょう。

    [例1]
    平均値 = 10
    (9-10)^2 = 1
    (10-10)^2 = 0
    (10-10)^2 = 0
    (11-10)^2 = 1
    合計 = 2
    √1 = 1.4

    [例2]
    平均値 = 10
    (2-10)^2 = 64
    (7-10)^2 = 9
    (12-10)^2 = 4
    (19-10)^2 = 81
    合計 = 158
    √158 = 12.6

    ということで1.4, 12.6と大差となりました。同じであるはずがない値の平均を比べるとき、値のばらつきが気になる場合には標準偏差を要求し、平均値と並べてみるのがいいですよという、統計ギミックの話でした。年収や勤務時間なんて同じ会社の従業員なら全員違って当たり前。ここは渡邉さんに「標準偏差を出せ」と突き詰めたいところですね。

    ■ついでに偏差値も説明してみる

     せっかく標準偏差を説明したので、学校の受験でよく使う偏差値も書いてみます。成績は自分の得点が平均点と比べてどれだけ高いか低いかで評価できそうなものですが、ここに同じ試験を受けた人たちの得点のばらつきが考慮されて偏差値を用いる日本の風習があります。

    計算手順は以下のとおり。

    [1] 得点と平均点の差をとります。
    [2] それに 10/標準偏差 をかけます。
    [3] それに50をたします。

    [3]は得点差の原点を50に補正する意味でしかないのですが、[2]が何を意味するのか。標準偏差で割っているので、その試験の得点に著しいばらつきがあるほど偏差値は50に近くなっていきます。
     たとえば、あなたは平均点が60点だった試験で95点もとれた優等生だとしましょう。しかし、同じ試験を受けた人たちの点数が55-65点のように平均点に近い人ばかりだったとしたら標準偏差が小さいので偏差値は大きくなりますが、20-30点のぼろぼろな人と90-100点のような完璧なひとばかりのような極端な得点分布だったとしたら標準偏差が大きいので偏差値は小さくなります。
     凡人ばかりの世界で優秀だったら「おめぇすげーな!!」になりますが、天才と馬鹿しかいない世界で優秀でも「あぁ、お前もできるほうか」になるということです。
    わからなくもない補正ですが、これが成績を表す指標として適切なのかはまた別議論ですね。

    広告
    コメントを書く
    コメントをするには、
    ログインして下さい。