math-concepts

直观理解统计学(“平均数”到底藏了什么)

2026年5月29日1 分钟阅读
直观理解统计学(“平均数”到底藏了什么)

统计学是把数据理出头绪的数学,是从一堆参差不齐的数字里抽出可靠信号的方法。它做两件事:一是总结你手头已有的东西(一个班的考试成绩,一个月的销售额),二是让你能对那些无法看全的事物进行推理(用一千个人的民意调查去揣摩整个国家的看法)。这篇文章会从头搭起这两个想法,再告诉你那些熟悉的术语(平均数、中位数、标准差、钟形曲线)究竟从何而来。

统计学有个名声上的麻烦。许多学生第一次接触它时,把它当成一袋要死记硬背的公式:这个算方差,那个算标准误,第三个算相关系数。公式套上去,答案算出来,意义却始终没有露面。

我们来把这件事掰开讲清楚。

两件事,不是一件

入门统计课里的所有内容,都能塞进两个桶之一。

描述统计总结你已有的数据。如果你量了一所学校里每个学生的身高,描述统计会把那几百个数字浓缩成寥寥几个,抓住其中的精华:一个典型身高,身高之间差异有多大,分布的形状是什么样子。

推断统计对你没有的数据进行推理。你没法量遍地球上每个成年人的身高,于是你量一个样本,再推断出关于所有人的结论。民意调查、医学试验、质量控制都住在这里。它是更强大的那一半,而它完全建立在描述那一半之上。

统计学里几乎所有的困惑,只要你问一句就能理清:我是在描述手头的东西,还是在推断我没有的东西?先从描述开始。

中心:数据落在哪里

关于任何一组数据的第一个问题都是“什么是典型值?”。诚实的答案有三个,而且它们故意彼此不一致。

平均数就是大多数人口中的“平均”:全部加起来,再除以个数。它用上了每一个数值,这既是它的长处,也是它的短处。

中位数是数据排序后正中间的那个值。一半数值在它上面,一半在它下面。它不在乎极端值有多极端,只在乎位置。

众数是出现次数最多的那个值。它是唯一一个能用在无法求平均之物上的指标,比如卖得最多的鞋码。

对于对称的数据,这三个差不多落在同一处,区别显得像是学究式的纠缠。可一旦数据呈偏态分布,这种区别就立刻不再是学究问题了。

设想一个房间里有九位中小学老师和一位亿万富翁。中位收入描述的是一位普通老师,因为正中间那个人就是老师。平均收入却高达几千万,因为亿万富翁把它拽了上去。两个数字都没错。但只有一个对屋里一个典型的人是诚实的。

这是阅读统计数据时最重要的一个习惯:当有人报出一个“平均”,要问问它是平均数还是中位数,再问问数据是不是偏态的。收入、房价、等待时间、播放量几乎总是偏态的,而平均数几乎总是把它们美化了。

离散程度:为什么光有中心还不够

两组数据可以拥有完全相同的平均数,却毫无相似之处。

A 班成绩:70、72、70、68、70。平均数:70。 B 班成绩:40、95、100、50、65。平均数:70。

平均数一样,故事却截然不同。A 班很稳定。B 班很混乱。光靠平均数无法把它们区分开来,所以我们需要一个表示离散程度的数。

粗糙的版本是极差,即最大值减去最小值。它简单却脆弱,因为它只取决于两个数,一个异常值就能把它毁掉。

正经的版本是标准差,它背后的想法比公式看上去要简单得多。问一句:平均而言,每个数值离平均数有多远?量出每个数值到平均数的距离,再对这些距离取一种平均。标准差小,意味着一切都紧挨着中心(A 班);标准差大,意味着数值被甩得四面八方(B 班)。

公式之所以先把距离平方、最后再开一次方根(而不是直接对原始距离求平均),主要是为了让正负的差距不会互相抵消,也为了让较大的偏差占更重的分量。但它的含义从未改变:标准差就是离平均数的典型距离,用和数据相同的单位来报告。如果考试成绩的标准差是 8 分,那么“上下浮动 8 分”就是你对成绩游走幅度的直觉。

平均数告诉你在哪里。标准差告诉你,这个“在哪里”用来描述任何单独一个案例时,你能信它几分。

形状:钟形曲线,以及它为什么无处不在

有了中心和离散程度,下一个自然的问题就是数据整体的形状。把每个值出现的频率画出来,你就得到一个分布。

最有名的形状是正态分布,也就是钟形曲线:对称,大多数数值簇拥在平均数附近,越往两端走就越来越少。身高、测量误差以及许多自然量都相当贴近它。

钟形曲线如此频繁地出现,背后有个深刻的原因。当一个量是许多微小且彼此独立的影响之和时(你的身高是基因加营养加睡眠再加上百个别的推力),结果就会趋向钟形曲线,几乎与每一个单独影响如何表现无关。这就是整个统计学里最重要的结论之一,中心极限定理的大致意思,也正因如此,正态分布成了大量推断默认的背景。

钟形曲线还给标准差带来了实实在在的回报。对于正态数据,大约 68% 的数值落在平均数上下一个标准差之内,约 95% 落在两个标准差之内,约 99.7% 落在三个标准差之内。所以,如果成年人身高的平均数是 170 厘米、标准差是 7 厘米,那么大约 95% 的人身高在 156 到 184 厘米之间。这个离散程度的数字不再抽象,而是开始预测事物实际落在哪里。

相关不等于因果

当两个量一起变动时,我们说它们是相关的。个子高的人往往体重也大:身高和体重正相关。一个上升,另一个也跟着上升。

陷阱在于把相关当成因果的证明。每年夏天,冰淇淋销量和溺水死亡人数都一起上升。冰淇淋并不导致溺水。一个隐藏的第三方因素,炎热的天气,同时推动了两者。这就是混杂变量,也正是相关性本身永远无法确立因果关系的原因。

相关性是一条货真价实的线索。它告诉你该往哪里看。但要声称 A 导致 B,你还需要更多:一个对照实验,一个说得通的机制,以及对混杂变量的排除。那些宣称“做 X 的人活得更久”的标题,几乎总是建立在相关性之上,也几乎总是言过其实。带着怀疑去读它们,是统计学教给你的最有用的本领之一。

推断:少数人如何替多数人发言

现在来看强大的那一半。一项 1000 人的全国民意调查声称能代表 3 亿人。这怎么会不荒唐?

关键的洞见是:随机性在大批量上是可预测的。如果你的样本确实是随机且具有代表性的,概率的数学就能告诉你,你的估计大概会偏差多少。这个不确定性会以误差范围的形式报告出来:“52%,上下浮动 3 个百分点”意思是真实数字很可能落在 49% 到 55% 之间。

有两件事决定了你能否信任一个推断:

  • 样本量控制随机噪声。样本越大,误差范围越窄,不过回报会递减,把误差减半大约需要四倍的样本。
  • 样本质量控制偏差,而偏差是更致命的问题。一项调查了一百万个都访问同一个网站的人,告诉你的是关于那个网站的事,而不是关于这个国家的事。再大的样本量也修不好一个系统性地把某些人排除在外的样本。代表性排在第一位;样本量只能让一个本就公正的样本更精确。

正因如此,面对任何一项统计数据,要问的不只是“这项研究规模多大”,而是“到底有谁被纳入了,又有谁被落下了”。

要当心的常见陷阱

统计学是诚实的。它被报道出来的方式往往不是。下面几种套路值得留意:

  • 被平均掉的平均。 “平均客户满意度很高”可能掩盖了一群分裂的客户:极满意的和极愤怒的各占一边,中间几乎没人。永远要问离散程度,而不只是中心。
  • 被截断的坐标轴。 一张柱状图,纵轴从 90 而不是从 0 开始,就能把微小的差异变成一道惊人的悬崖。数字是真的,画面却在撒谎。
  • 缺失的分母。 “病例翻了一番”没有意义,除非你知道那是从 2 到 4,还是从两百万到四百万。一个百分比变化的意义,全看它是相对哪个基数来衡量的。
  • 挑拣过的起止点。 选对起始和结束的日期,几乎任何趋势都能被做成向上或向下。

这与数学的其余部分如何相连

统计学并非孤立存在。它坐落在一些你也许早已遇见过的想法之上。它建立在概率之上,由概率提供随机样本如何表现、误差范围从何而来的规则。它在几乎每一个报告出来的结果里都倚靠百分比和比例。而它所依赖的那些光滑曲线,那些把分布变成概率的钟形曲线下面积计算,正是微积分里同样的积分思想,应用到了数据上。

当你在 Math Zen 里练习统计学时,题目会从描述性指标(计算并比较平均数、中位数和标准差)逐步进阶到读懂分布、对样本进行推理。亲手做这些题,而不是让计算器吐出一个数字,正是培养你去问对问题的本能:这个中心诚实吗,这个离散程度小到足以信任吗,这个相关性真的告诉了我什么吗?随着时间推移把这些题型穿插混合,借助练习流程里内置的间隔重复,才能让直觉真正扎根,而不是考完试就消退。

要点

统计学就是两件事:描述你已有的数据,推断你没有的数据。描述需要三个数:一个中心(平均数或中位数,数据偏态时这个选择很要紧),一个离散程度(标准差,离中心的典型距离),以及一个形状(往往是钟形曲线)。推断需要一个先讲代表性、再讲规模的样本,以及一个诚实的误差范围。

下次你看到一项统计数据时,别只读那个数字。要问:平均数还是中位数?离散程度有多大?样本里都是谁?是相关还是因果?这四个问题,能把统计学从一堵公式墙,变成一件让你不被忽悠的工具。

常见问题

平均数、中位数和众数有什么区别?
平均数就是算术平均,把所有数值加起来再除以个数。中位数是数据排序后正中间的那个值,一半在它上面,一半在它下面。众数是出现次数最多的那个值。对于对称的数据,它们差不多落在同一处;可一旦数据呈偏态分布,它们就会彼此拉开,而这恰恰是选择哪一个最关键的时刻。
什么时候该用中位数而不是平均数?
只要有少数极端值会把平均数拽到一个不具代表性的位置,就该用中位数。收入、房价和响应时间都是经典例子。一屋子老师里混进一个亿万富翁,平均收入就会变得具有误导性,而中位数依然能描述屋里一个典型的人。
标准差到底度量的是什么?
标准差度量的是数据围绕平均数的离散程度,单位和数据本身相同。标准差小,意味着数值紧紧聚拢在平均数附近;标准差大,意味着它们四散分布。它回答了平均数回答不了的问题:所谓的“典型”,到底有多典型。
相关性和因果关系有什么区别?
相关性是指两件事往往一起变动。因果关系是指其中一件真的导致了另一件发生。冰淇淋销量和溺水人数会一起上升,但谁也不是对方的原因,是夏天的炎热同时推高了两者。相关性是一条值得追查的线索,但它本身永远不是证据。
为什么样本量越大越好?
样本越大,随机噪声就越小,结果也就更可能反映真实的总体。问题在于:再大的样本量也修不好一个有偏的样本。哪怕调查了一百万个都看同一个网站的人,结果依然是扭曲的。代表性比单纯的样本量更重要,只有在保证代表性之后,样本量才能让估计更精确。