統計学を直感的に理解する(「平均」が隠していること)

統計学とは、データを理解するための数学であり、ばらついた数字の山から信頼できる信号を取り出すための数学です。統計には二つの仕事があります。すでに手元にあるものを要約すること(あるクラスのテストの点数、ある月の売上)と、全体を見ることができないものについて推論すること(千人へのアンケートから国全体の意見を読み取ること)です。この記事では、その両方の考え方をゼロから組み立て、おなじみの用語(平均、中央値、標準偏差、ベル型曲線)が実際にはどこから来ているのかを見ていきます。
統計学には評判の問題があります。多くの学生が統計に出会うのは、暗記すべき公式の寄せ集めとしてです。これは分散の公式、あれは標準誤差の公式、三つめは相関係数の公式、というように。公式が当てはめられ、答えが計算され、それでも意味はやってこないのです。
それを正していきましょう。
一つではなく二つの仕事
入門統計学の授業で扱うことは、すべて次の二つのどちらかに収まります。
記述統計は、手元にあるデータを要約します。学校の全生徒の身長を測ったなら、記述統計はその何百もの数字を、本質をとらえるいくつかの数字へと煮詰めます。つまり、典型的な身長、身長がどれくらいばらつくか、分布の形がどんな様子かです。
推測統計は、手元にないデータについて推論します。地球上のすべての大人の身長を測ることはできないので、サンプルを測って全員について何かを推測します。アンケート、医療試験、品質管理が活躍するのがここです。こちらはより強力な半分であり、その全体が記述統計の半分の上に成り立っています。
統計でのほとんどの混乱は、「自分は手元にあるものを記述しているのか、それとも手元にないものを推測しているのか」と問えば解けてしまいます。まずは記述から始めましょう。
中心:データがどこにあるか
どんなデータセットについても最初の問いは「典型的な値は何か」です。これには正直な答えが三つあり、それらはわざとずれています。
平均は、多くの人が言うところの平均値です。すべてを足して個数で割ります。すべての値を使うのが強みであり、同時に弱みでもあります。
中央値は、データを並べ替えたときの真ん中の値です。半分の値がその上にあり、半分が下にあります。極端な値がどれだけ極端かは無視し、位置だけを気にします。
最頻値は、最も多く現れる値です。平均できないもの、たとえば最もよく売れる靴のサイズのようなものに対して機能する唯一の指標です。
対称的なデータでは、三つともだいたい同じ場所に落ち着き、その区別は理屈っぽく感じられます。しかしデータが歪んだ分布になった瞬間、その区別は理屈の話ではなくなります。
九人の学校教師と一人の億万長者がいる部屋を思い浮かべてください。中央値の所得は普通の教師を表します。真ん中の人が教師だからです。平均の所得は数千万単位になります。億万長者が引き上げてしまうからです。どちらの数字も正しいのです。しかし部屋の典型的な人について正直なのは一方だけです。
これは統計を読むうえで最も大切な習慣です。誰かが「平均」を報告したら、それが平均値なのか中央値なのかを問い、データが歪んでいないかを問いましょう。所得、住宅価格、待ち時間、再生回数は、ほとんどいつも歪んでおり、平均値はほとんどいつもそれを良く見せてしまいます。
ばらつき:なぜ中心だけでは足りないのか
二つのデータセットがまったく同じ平均を共有していながら、まるで似ていないということがあります。
クラスAの点数:70、72、70、68、70。平均:70。 クラスBの点数:40、95、100、50、65。平均:70。
同じ平均でも、まったく別の物語です。クラスAは安定しています。クラスBは荒れています。平均だけでは両者を区別できないので、ばらつきを表す数字が必要になります。
おおざっぱな指標が範囲で、最大値から最小値を引いたものです。簡単ですがもろいものです。二つの数字だけに依存し、一つの外れ値で台無しになるからです。
本格的な指標が標準偏差で、その背後にある考え方は公式が思わせるよりずっと単純です。「平均すると、それぞれの値は平均からどれくらい離れているか」と問うのです。各値の平均からの距離を測り、それらの距離の一種の平均をとります。標準偏差が小さければ、すべてが中心の近くに寄り集まっています(クラスA)。大きければ、値はあちこちに飛び散っています(クラスB)。
公式が距離を二乗してから最後に平方根をとる(生の距離をそのまま平均するのではなく)のは、おもにプラスとマイナスのずれが打ち消し合わないようにするためと、大きなずれをより重く数えるためです。けれども意味は決して変わりません。標準偏差とは、平均からの典型的な距離であり、データと同じ単位で報告されます。テストの点数の標準偏差が8点なら、「だいたいプラスマイナス8点」が、点数がどれくらいさまようかの感覚になります。
平均は「どこか」を教えてくれます。標準偏差は、その「どこか」がどれだけ一つひとつの場合を表すと信頼してよいかを教えてくれます。
形:ベル型曲線と、それがどこにでもある理由
中心とばらつきがわかると、自然と次の問いはデータ全体の形になります。それぞれの値がどれくらいの頻度で現れるかを描けば、分布が得られます。
最も有名な形が正規分布、すなわちベル型曲線です。対称的で、ほとんどの値は平均の近くに集まり、極端なほうへ進むにつれてだんだん少なくなります。身長、測定誤差、そして多くの自然な量がこれにぴったり従います。
ベル型曲線がこれほど頻繁に現れるのには深い理由があります。ある量が、多くの小さく独立した影響の合計であるとき(あなたの身長は遺伝に栄養に睡眠、さらに他の何百もの後押しを足したものです)、その結果は、一つひとつの影響がどうふるまうかにほとんどよらず、ベル型曲線へと近づいていきます。これが統計学全体の中で最も重要な結果の一つ、中心極限定理の大まかな考え方であり、正規分布がこれほど多くの推論の標準的な背景になっている理由です。
ベル型曲線は標準偏差に具体的な見返りも与えてくれます。正規分布のデータでは、約68パーセントの値が平均から標準偏差1個ぶんの範囲に収まり、約95パーセントが2個ぶん、約99.7パーセントが3個ぶんの範囲に収まります。ですから大人の身長が平均170cm、標準偏差7cmなら、およそ95パーセントの人が156cmから184cmのあいだに収まります。ばらつきの数字は抽象的なものでなくなり、ものごとが実際にどこに落ち着くかを予測しはじめるのです。
相関は因果関係ではない
二つの量が一緒に動くとき、それらは相関していると言います。背の高い人は体重が重い傾向があります。身長と体重は正の相関があります。一方が上がれば、もう一方も上がります。
落とし穴は、相関を原因の証拠として扱ってしまうことです。アイスクリームの売上と溺死は毎年夏に一緒に増えます。アイスクリームが溺死を引き起こすわけではありません。隠れた第三の要因、つまり暑い天気が両方を引き起こしているのです。これが交絡変数であり、相関だけでは決して因果関係を立証できない理由です。
相関は本物の手がかりです。どこを見ればよいかを教えてくれます。しかしAがBを引き起こすと主張するには、もっと多くのものが必要です。対照実験、もっともらしい仕組み、そして交絡変数の排除です。「Xをする人は長生きする」と告げる見出しは、ほとんどいつも相関に頼っており、ほとんどいつも言い過ぎています。それを懐疑的に読むことは、統計が教えてくれる最も役立つことの一つです。
推論:少数がどうやって多数を代弁するのか
さて、強力な半分です。千人への全国アンケートが3億人を代表すると主張します。これがばかげた話でないのはなぜでしょうか。
鍵となる洞察は、ランダムさはまとまると予測可能になるということです。あなたの標本が本当にランダムで代表的であれば、確率の数学が、あなたの推定がどれくらいずれていそうかを教えてくれます。その不確かさは誤差の範囲として報告されます。「52パーセント、プラスマイナス3ポイント」は、本当の数字が49から55パーセントのあいだである可能性がとても高いという意味です。
推論を信頼できるかどうかは、二つのことで決まります。
- 標本サイズはランダムな雑音を抑えます。標本が大きいほど誤差の範囲は狭くなりますが、収穫は逓減します。誤差を半分にするには、およそ4倍の標本が必要です。
- 標本の質は偏りを左右し、偏りのほうがより致命的な問題です。同じウェブサイトを訪れる百万人へのアンケートは、その国ではなくそのウェブサイトについて教えてくれるだけです。どんな標本サイズも、特定の人々を体系的に除外している標本を直せません。代表性が先で、サイズはすでに公平な標本を鋭くするだけです。
だからこそ、どんな統計についても問うべきは「研究がどれくらい大規模だったか」だけではなく、「実際に誰が含まれていて、誰が取り残されたか」なのです。
注意すべきよくある落とし穴
統計は正直です。しかしその報じられ方はしばしば正直ではありません。見抜くべきいくつかのパターンを挙げます。
- 平均でならされた平均。 「顧客満足度の平均は高い」は、とても満足している人ととても怒っている人に二分された集団を隠していることがあり、真ん中はほとんどいません。中心だけでなく、いつもばらつきを問いましょう。
- 切り詰められた軸。 縦軸が0ではなく90から始まる棒グラフは、ごくわずかな差を劇的な崖に変えてしまいます。数字は本物でも、絵は嘘をついています。
- 分母の欠落。 「件数が倍増」は、それが2から4なのか、200万から400万なのかを知らなければ意味がありません。百分率の変化は、それが測られる基準と同じ意味しか持ちません。
- 都合よく選ばれた両端。 開始日と終了日をうまく選べば、ほとんどどんな傾向も上向きにも下向きにも見せられます。
これが数学の他の分野とどうつながるか
統計は単独で成り立っているわけではありません。あなたがすでに出会ったかもしれない考え方の上に乗っています。統計は確率から組み立てられており、確率はランダムな標本がどうふるまうか、そして誤差の範囲がどこから来るかのルールを供給します。統計は、報告するほぼすべての結果について、百分率や比率に頼っています。そして統計が頼りにするなめらかな曲線、つまり分布を確率に変えるベル型曲線の下の面積の計算は、データに応用された、微積分でおなじみの積分の考え方そのものです。
Math Zenで統計を練習するとき、問題は記述的な指標(平均・中央値・標準偏差を計算して比べる)から、分布を読み取り、標本について推論することへと進んでいきます。計算機に数字を吐き出させるのではなく手で解くことこそが、正しい問いを立てる勘を育てます。この中心は正直か、このばらつきは信頼できるほど小さいか、この相関は本当に何かを語っているのか。さまざまな問題のタイプを時間をかけて混ぜながら、練習の流れに組み込まれた間隔反復を使うことが、直感をテストのあとに薄れさせるのではなく、定着させてくれるのです。
まとめ
統計は二つの仕事です。手元にあるデータを記述することと、手元にないデータについて推論することです。記述には三つの数字が必要です。中心(平均か中央値、そしてデータが歪んでいるときはどちらを選ぶかが大切)、ばらつき(標準偏差、中心からの典型的な距離)、そして形(多くの場合ベル型曲線)です。推論には、まず代表的で、次に大きい標本と、正直な誤差の範囲が必要です。
次に統計を目にしたら、ただ数字を読むだけにしないでください。問いましょう。平均か中央値か。ばらつきはどれくらいか。標本に誰が含まれていたか。相関か原因か。この四つの問いが、統計を公式の壁から、だまされないための道具へと変えてくれます。
よくある質問
- 平均(平均値)、中央値、最頻値の違いは何ですか?
- 平均(平均値)は算術平均で、すべての値の合計を個数で割ったものです。中央値はデータを並べ替えたときの真ん中の値で、上半分と下半分に分かれます。最頻値は最も多く現れる値です。対称的なデータでは三つはほぼ一致しますが、データが歪んでいるとずれていきます。そして、まさにそのときこそどれを選ぶかが大切になります。
- 平均値ではなく中央値を使うべきなのはどんなときですか?
- ごく少数の極端な値が平均値を実態とかけ離れた場所まで引っ張ってしまうときは、いつでも中央値を使いましょう。所得、住宅価格、応答時間などが典型例です。教師が大勢いる部屋に億万長者が一人いるだけで、平均所得は誤解を招くものになりますが、中央値はその部屋の典型的な人をきちんと表してくれます。
- 標準偏差は実際には何を測っているのですか?
- 標準偏差は、データが平均のまわりにどれくらい散らばっているかを、データそのものと同じ単位で測ります。標準偏差が小さければ、値は平均の近くにぎゅっと集まっています。大きければ、広く散らばっています。これは平均値では答えられない問い、つまり「典型はどのくらい典型的か」に答えてくれます。
- 相関と因果関係の違いは何ですか?
- 相関とは、二つのものが一緒に動く傾向があるということです。因果関係とは、一方が実際にもう一方を引き起こすということです。アイスクリームの売上と溺水は一緒に増えますが、どちらも他方の原因ではありません。夏の暑さが両方を引き起こしているのです。相関は調べる価値のある手がかりですが、それ自体が証拠になることは決してありません。
- なぜ標本サイズは大きいほうがよいのですか?
- 標本が大きいほどランダムな雑音は小さくなり、結果が本当の母集団を反映しやすくなります。ただし落とし穴があります。サイズは偏った標本を直せません。同じウェブサイトを見ている百万人へのアンケートは、それでも偏っています。サイズそのものよりも代表性のほうが重要で、推定が鋭くなるのはそのあとの話です。


