平均数、中位数和众数有什么区别？

平均数就是算术平均，把所有数值加起来再除以个数。中位数是数据排序后正中间的那个值，一半在它上面，一半在它下面。众数是出现次数最多的那个值。对于对称的数据，它们差不多落在同一处；可一旦数据呈偏态分布，它们就会彼此拉开，而这恰恰是选择哪一个最关键的时刻。

什么时候该用中位数而不是平均数？

只要有少数极端值会把平均数拽到一个不具代表性的位置，就该用中位数。收入、房价和响应时间都是经典例子。一屋子老师里混进一个亿万富翁，平均收入就会变得具有误导性，而中位数依然能描述屋里一个典型的人。

标准差到底度量的是什么？

标准差度量的是数据围绕平均数的离散程度，单位和数据本身相同。标准差小，意味着数值紧紧聚拢在平均数附近；标准差大，意味着它们四散分布。它回答了平均数回答不了的问题：所谓的“典型”，到底有多典型。

为什么样本量越大越好？

样本越大，随机噪声就越小，结果也就更可能反映真实的总体。问题在于：再大的样本量也修不好一个有偏的样本。哪怕调查了一百万个都看同一个网站的人，结果依然是扭曲的。代表性比单纯的样本量更重要，只有在保证代表性之后，样本量才能让估计更精确。

直观理解统计学（“平均数”到底藏了什么）

统计学是把数据理出头绪的数学，是从一堆参差不齐的数字里抽出可靠信号的方法。它做两件事：一是总结你手头已有的东西（一个班的考试成绩，一个月的销售额），二是让你能对那些无法看全的事物进行推理（用一千个人的民意调查去揣摩整个国家的看法）。这篇文章会从头搭起这两个想法，再告诉你那些熟悉的术语（平均数、中位数、标准差、钟形曲线）究竟从何而来。

统计学有个名声上的麻烦。许多学生第一次接触它时，把它当成一袋要死记硬背的公式：这个算方差，那个算标准误，第三个算相关系数。公式套上去，答案算出来，意义却始终没有露面。

我们来把这件事掰开讲清楚。

两件事，不是一件

入门统计课里的所有内容，都能塞进两个桶之一。

描述统计总结你已有的数据。如果你量了一所学校里每个学生的身高，描述统计会把那几百个数字浓缩成寥寥几个，抓住其中的精华：一个典型身高，身高之间差异有多大，分布的形状是什么样子。

推断统计对你没有的数据进行推理。你没法量遍地球上每个成年人的身高，于是你量一个样本，再推断出关于所有人的结论。民意调查、医学试验、质量控制都住在这里。它是更强大的那一半，而它完全建立在描述那一半之上。

统计学里几乎所有的困惑，只要你问一句就能理清：我是在描述手头的东西，还是在推断我没有的东西？先从描述开始。

中心：数据落在哪里

关于任何一组数据的第一个问题都是“什么是典型值？”。诚实的答案有三个，而且它们故意彼此不一致。

平均数就是大多数人口中的“平均”：全部加起来，再除以个数。它用上了每一个数值，这既是它的长处，也是它的短处。

中位数是数据排序后正中间的那个值。一半数值在它上面，一半在它下面。它不在乎极端值有多极端，只在乎位置。

众数是出现次数最多的那个值。它是唯一一个能用在无法求平均之物上的指标，比如卖得最多的鞋码。

对于对称的数据，这三个差不多落在同一处，区别显得像是学究式的纠缠。可一旦数据呈偏态分布，这种区别就立刻不再是学究问题了。

设想一个房间里有九位中小学老师和一位亿万富翁。中位收入描述的是一位普通老师，因为正中间那个人就是老师。平均收入却高达几千万，因为亿万富翁把它拽了上去。两个数字都没错。但只有一个对屋里一个典型的人是诚实的。

这是阅读统计数据时最重要的一个习惯：当有人报出一个“平均”，要问问它是平均数还是中位数，再问问数据是不是偏态的。收入、房价、等待时间、播放量几乎总是偏态的，而平均数几乎总是把它们美化了。

离散程度：为什么光有中心还不够

两组数据可以拥有完全相同的平均数，却毫无相似之处。

A 班成绩：70、72、70、68、70。平均数：70。 B 班成绩：40、95、100、50、65。平均数：70。

平均数一样，故事却截然不同。A 班很稳定。B 班很混乱。光靠平均数无法把它们区分开来，所以我们需要一个表示离散程度的数。

粗糙的版本是极差，即最大值减去最小值。它简单却脆弱，因为它只取决于两个数，一个异常值就能把它毁掉。

正经的版本是标准差，它背后的想法比公式看上去要简单得多。问一句：平均而言，每个数值离平均数有多远？量出每个数值到平均数的距离，再对这些距离取一种平均。标准差小，意味着一切都紧挨着中心（A 班）；标准差大，意味着数值被甩得四面八方（B 班）。

公式之所以先把距离平方、最后再开一次方根（而不是直接对原始距离求平均），主要是为了让正负的差距不会互相抵消，也为了让较大的偏差占更重的分量。但它的含义从未改变：标准差就是离平均数的典型距离，用和数据相同的单位来报告。如果考试成绩的标准差是 8 分，那么“上下浮动 8 分”就是你对成绩游走幅度的直觉。

平均数告诉你在哪里。标准差告诉你，这个“在哪里”用来描述任何单独一个案例时，你能信它几分。

形状：钟形曲线，以及它为什么无处不在

有了中心和离散程度，下一个自然的问题就是数据整体的形状。把每个值出现的频率画出来，你就得到一个分布。

最有名的形状是正态分布，也就是钟形曲线：对称，大多数数值簇拥在平均数附近，越往两端走就越来越少。身高、测量误差以及许多自然量都相当贴近它。

钟形曲线如此频繁地出现，背后有个深刻的原因。当一个量是许多微小且彼此独立的影响之和时（你的身高是基因加营养加睡眠再加上百个别的推力），结果就会趋向钟形曲线，几乎与每一个单独影响如何表现无关。这就是整个统计学里最重要的结论之一，中心极限定理的大致意思，也正因如此，正态分布成了大量推断默认的背景。

钟形曲线还给标准差带来了实实在在的回报。对于正态数据，大约 68% 的数值落在平均数上下一个标准差之内，约 95% 落在两个标准差之内，约 99.7% 落在三个标准差之内。所以，如果成年人身高的平均数是 170 厘米、标准差是 7 厘米，那么大约 95% 的人身高在 156 到 184 厘米之间。这个离散程度的数字不再抽象，而是开始预测事物实际落在哪里。

推断：少数人如何替多数人发言

现在来看强大的那一半。一项 1000 人的全国民意调查声称能代表 3 亿人。这怎么会不荒唐？

关键的洞见是：随机性在大批量上是可预测的。如果你的样本确实是随机且具有代表性的，概率的数学就能告诉你，你的估计大概会偏差多少。这个不确定性会以误差范围的形式报告出来：“52%，上下浮动 3 个百分点”意思是真实数字很可能落在 49% 到 55% 之间。

有两件事决定了你能否信任一个推断：

样本量控制随机噪声。样本越大，误差范围越窄，不过回报会递减，把误差减半大约需要四倍的样本。
样本质量控制偏差，而偏差是更致命的问题。一项调查了一百万个都访问同一个网站的人，告诉你的是关于那个网站的事，而不是关于这个国家的事。再大的样本量也修不好一个系统性地把某些人排除在外的样本。代表性排在第一位；样本量只能让一个本就公正的样本更精确。

正因如此，面对任何一项统计数据，要问的不只是“这项研究规模多大”，而是“到底有谁被纳入了，又有谁被落下了”。

要当心的常见陷阱

统计学是诚实的。它被报道出来的方式往往不是。下面几种套路值得留意：

被平均掉的平均。 “平均客户满意度很高”可能掩盖了一群分裂的客户：极满意的和极愤怒的各占一边，中间几乎没人。永远要问离散程度，而不只是中心。
被截断的坐标轴。 一张柱状图，纵轴从 90 而不是从 0 开始，就能把微小的差异变成一道惊人的悬崖。数字是真的，画面却在撒谎。
缺失的分母。 “病例翻了一番”没有意义，除非你知道那是从 2 到 4，还是从两百万到四百万。一个百分比变化的意义，全看它是相对哪个基数来衡量的。
挑拣过的起止点。 选对起始和结束的日期，几乎任何趋势都能被做成向上或向下。

这与数学的其余部分如何相连

统计学并非孤立存在。它坐落在一些你也许早已遇见过的想法之上。它建立在概率之上，由概率提供随机样本如何表现、误差范围从何而来的规则。它在几乎每一个报告出来的结果里都倚靠百分比和比例。而它所依赖的那些光滑曲线，那些把分布变成概率的钟形曲线下面积计算，正是微积分里同样的积分思想，应用到了数据上。

当你在 Math Zen 里练习统计学时，题目会从描述性指标（计算并比较平均数、中位数和标准差）逐步进阶到读懂分布、对样本进行推理。亲手做这些题，而不是让计算器吐出一个数字，正是培养你去问对问题的本能：这个中心诚实吗，这个离散程度小到足以信任吗，这个相关性真的告诉了我什么吗？随着时间推移把这些题型穿插混合，借助练习流程里内置的间隔重复，才能让直觉真正扎根，而不是考完试就消退。

要点

统计学就是两件事：描述你已有的数据，推断你没有的数据。描述需要三个数：一个中心（平均数或中位数，数据偏态时这个选择很要紧），一个离散程度（标准差，离中心的典型距离），以及一个形状（往往是钟形曲线）。推断需要一个先讲代表性、再讲规模的样本，以及一个诚实的误差范围。

下次你看到一项统计数据时，别只读那个数字。要问：平均数还是中位数？离散程度有多大？样本里都是谁？是相关还是因果？这四个问题，能把统计学从一堵公式墙，变成一件让你不被忽悠的工具。

直观理解统计学（“平均数”到底藏了什么）

两件事，不是一件

中心：数据落在哪里

离散程度：为什么光有中心还不够

形状：钟形曲线，以及它为什么无处不在

相关不等于因果

推断：少数人如何替多数人发言

要当心的常见陷阱

这与数学的其余部分如何相连

要点

常见问题

相关文章

直观理解概率（为什么"百万分之一"是在骗你）

直观理解百分比（小费、折扣与百分比变化）

直观理解分数（不用切披萨）