直观理解概率（为什么"百万分之一"是在骗你）

天气预报说有 30% 的降雨概率。一份针对罕见疾病的检测呈阳性。彩票头奖累积到了两亿美元，你的同事正一沓一沓地买票。在这每一种场合里，你的直觉都会冒出一个判断，而这个判断通常是错的。概率就是数学直觉最经常出错的地方，连聪明人也不例外，连教这门课的人也不例外。数字本身并不难，难的是围绕它们的本能。

这篇文章要给你看清概率究竟是什么、为什么熟悉的直觉会失灵、以及如何把它纠正过来。数学很简单，思维方式的转变才是难的部分，而它在几乎每个领域都能带来回报：天气、医学、体育、金融、赌博、机器学习，乃至飞机和开车之间日常的风险判断。

唯一的核心：数数

把其他东西全部剥掉，概率其实就是数数。要算一个事件的概率，你数出该事件发生的结果数，然后除以一开始的全部可能结果数。这就是它完整的定义。这一章里所有的公式，不过是在仔细地教你怎么数。

掷一颗均匀的六面骰子。掷出 4 的概率是一个结果（4）除以六个全部结果（1 到 6），也就是 1/6。掷出偶数的概率是三个结果（2、4、6）除以六个全部结果，也就是 3/6，即 1/2。掷出大于 7 的数的概率是 0 个结果除以 6，等于 0，因为这种结果根本不存在。

如果这听起来像是分数，那是因为它就是分数。正如我们在那篇分数文章里讲过的，分数是一个还没算完的除法。概率正是把同样的想法用在结果上：满足条件的那部分除以全部。整门学科从头到尾都是分数。

唯一的麻烦是：随着情境变复杂，"数结果"会越来越难。剩下那些章节，排列、组合、条件概率、贝叶斯定理，不过都是在情境不像骰子那么简单时，怎么把数数做对的精细记账方式。

独立事件：概率为什么相乘

假设你抛一枚均匀的硬币两次。连续两次都是正面的概率是多少？

很多人会猜 1/2 加 1/2，等于 1，这显然不可能对。也有人答 1/2，听上去保险一点，但同样是错的。正确答案是 1/2 乘以 1/2，等于 1/4，而背后的道理值得停下来想一想，因为正是这一步打破了大多数初学者的直觉。

当两个事件相互独立（一个事件的结果不会影响另一个事件的结果）时，两件事都发生的概率等于它们各自概率的乘积。为什么是相乘？把两次抛硬币的所有可能结果列出来：HH、HT、TH、TT。一共四种，其中只有一种是 HH，所以答案是 1/4。乘法只是这种枚举的一种捷径。

同样的想法解释了为什么长连胜如此罕见。连续抛出十次正面的概率是 (1/2) 的十次方，大约是 1024 分之 1。不是不可能，但确实不常见。而随机猜中一个六位数密码的概率是 (1/10) 的六次方，正好就是百万分之一。这种"百万分之一"是货真价实的。我们马上就会遇到一些不货真价实的。

当事件并不独立时

独立性是在概率题里最常被破坏的假设。如果你从一副牌里抽两张而第一张不放回，第二张牌的概率就和第一张不一样了，因为这副牌已经变了。一副牌有 52 张，其中 4 张 A，所以第一张抽到 A 的概率是 4/52。当你抽走一张 A 后，牌堆里剩 51 张，其中有 3 张 A，所以第二张是 A 的概率变成了 3/51。两张连续抽到 A 的概率因此是 4/52 乘以 3/51，大约是 0.45%。

这就是条件概率：在另一个事件已经发生的前提下，某个事件发生的概率。它写作 P(B|A)，也是大多数现实推理真正想问的东西。"明天下雨的概率是多少？"是一个数。"在雷达显示市区上空有雷雨云团的前提下，明天下雨的概率是多少？"是另一个数，而且大得多。新信息会重新整理相关结果的计数。

概率里大部分"悖论"都是把条件悄悄藏起来的条件概率题。把条件理清楚，悖论通常就消失了。

生日悖论

下面这个问题几乎能难倒所有人。在一间有 23 个人的房间里，至少有两个人生日相同的概率是多少？

直觉答案是很小，因为一年有 365 天，而房间里只有 23 个人。但实际答案略高于 50%。如果房间里有 50 个人，会上升到 97%。如果是 70 个人，会超过 99.9%。这就是生日悖论，它不是宇宙的 bug，而是直觉数数的 bug。

陷阱在于：你问的并不是"有人和我同一天生日的概率"，而是"任意两个人同一天生日的概率"。23 个人里有 C(23, 2) 即 253 对不同的两人组合，每一对都有一个微小的概率撞上同一天生日。这是相当多的机会，而小概率累加起来比直觉想象的快得多。

这条规律是普适的。当某个事件的机会数随平方增长（每一对、每一次互动）时，原本罕见的事件很快就会变得常见。每对 1/365 的概率，一旦凑出 253 对，整体上就成了一件大概率发生的事。

基础比率与"百万分之一"的把戏

某种检测对一种万分之一发病率的疾病有"99% 的准确率"。你检测呈阳性。你真的患病的概率是多少？

很多人，包括医生在内，会猜大约 99%。正确答案接近 1%。

下面是为什么。设想一万个随机的人。其中大约有 1 个人真的患病，检测大概会把他查出来。剩下的 9999 人没有这病，但 99% 准确率的检测会把 1% 的健康人误判为阳性，也就是大约 100 个假阳性。所以在每 101 个阳性结果里，100 个是误报，只有 1 个是真的。在阳性的前提下你确实患病的概率，差不多是 101 分之 1，约 1%。

这就是基础比率谬误。当底层事件本身很罕见（基础比率很低）时，即使是非常准确的检测，产出的也大多是假阳性。大多数人完全跳过基础比率，只盯着检测的准确率看，于是得到一个错了两个数量级的答案。

这个教训远不止医学。"百万分之一"这种数字总应该触发一个追问：是什么的百万分之一？每天一次的百万分之一？每年？每次尝试？每个人？一个"日发生概率为百万分之一"的事件，如果天数足够多，每年大约会发生 365 次；如果人口足够多，每年会发生大约 80 亿次。把人口和时间窗口算进去之后，"百万分之一"通常就不再罕见了。本文开头那段也是同样的道理：新闻里报道的大多数"奇迹"，都是那些有几十亿次机会发生的"百万分之一"事件。

赌徒谬误

一台轮盘转了八次都是红色。黑色总该来了吧？

不该。轮盘没有记忆。下一次转出黑色的概率，和第一次完全一样。这就是赌徒谬误：相信过去的独立事件会改变未来事件的概率。它们不会。

这个错误的镜像版本是手感谬误：相信一个刚连续命中几球的球员更可能命中下一球。对硬币和轮盘来说这显然是错的，因为它们没有记忆。对人类的表现来说，情况确实复杂一些（真实的技术存在，真实的势头有时也存在），但底层的教训依然成立：大多数连胜其实是一种动物本能在做模式匹配，这种动物天生就要在有规律和没规律的地方都努力找规律。

概率会出现在哪里

一旦你掌握了"数数"这个框架，概率就会随处可见。

天气预报：30% 的降雨概率意味着，在大量类似的天气条件下，大约 30% 的情况下会下雨。它不是保证，也不是抛硬币。

医学：每一项检测、筛查、风险评分，背后都藏着上面那个基础比率把戏。"阳性"对常见病和罕见病的含义截然不同，"99% 准确"如果脱离基础比率，几乎没有任何意义。

保险与金融：每一笔保费、每一项预期收益、每一个风险模型，都是对所有可能结果的加权平均。数学其实就是概率乘以收益，再对所有情景求和。

标准化考试：SAT、ACT、GRE、AP 统计学、GCSE 都包含概率题，其中很多其实是穿着马甲的条件概率问题。正如我们在SAT 数学备考指南里指出的，难点不在算术，而在识别题目的结构。

机器学习：每一个分类器输出的都是概率，每一个评估指标（精确率、召回率、ROC 曲线）都是条件概率和基础比率的精细应用。基础比率谬误在这里又会再次出场：一个在罕见事件上 99% 准确的模型，上线后可能依然没用。

怎么快速估算概率

大多数日常的概率问题不需要精确答案，需要的是一个又快又站得住脚的估计。下面这几招能让你走完大半路程。

先翻成分数，再换成百分数或小数。"百分之一"就是 1/100，就是 1%，就是 0.01。正如我们在心算技巧那篇里讲过的，在这几种写法之间来回切换的熟练度，是性价比最高的能力之一，因为几乎每一道概率题最后都要在各种记号之间翻译。

永远先找基础比率，尤其是当有人给你扔出一个针对罕见事件的"准确率"时。如果基础比率很小，那个准确率就是误导。

仔细检查独立性。两个事件看上去独立，实际上却由同一原因驱动（同一个病人身上的多项检测、同一行业里的多只股票、同一个班级里的多个学生）。当事件共享一个隐藏的原因时，把它们的概率直接相乘，得到的答案不是过小就是过大。

对"百万分之一"做压力测试。问自己：是什么的百万分之一？跨多少人？跨多长时间？大多数所谓"罕见"的事件，一旦把机会数算进去，就一点都不罕见了。

练习如何练成反射

概率是模式识别最重要的话题，因为同一道题会以二十种不同的伪装出现。一个反复见过这些结构（独立 vs 依赖，有放回 vs 无放回，条件 vs 联合）的学生，几秒之内就能识别出题目类型，算术会从这种识别里自然落下来。

Math Zen 的桶式进阶系统正好契合这门学科本应被学习的方式。最早的桶讲简单实验（骰子、纸牌、硬币）的结果计数。中期的桶反复操练乘法法则和并集的加法法则，并把不同类型的题目混着练，让大脑学会先识别情境，而不是机械套公式。后期的桶处理条件概率、期望值，以及几个经典谜题（生日悖论、蒙提霍尔问题、基础比率题）。因为练习短而有间隔，你会得到一次又一次识别结构的机会，最终把规则练成反射。

归根结底

概率就是一个想法：数出符合条件的结果，除以全部存在的结果，并对所涉事件是否真的独立保持诚实。所谓"悖论"，不过是直觉在数和数学不同的东西。事件独立时就乘。要算两件事至少发生一件的概率时就加（再减去重叠部分，免得重复计数）。新信息出现时就做条件化。永远先找基础比率，尤其是当有人甩给你一个"百万分之一"时。

一旦你开始问"是什么的百万分之一？跨多少人？跨多长时间？"，日常世界就不再以同样的方式显得随机了。彩票变成了一个有罕见头奖的、小幅期望亏损的赌博。医学检测变成了一个关于基础比率的问题。手感连胜变成了大脑给一个巧合穿上了因果关系的外衣。数字没有变，你读它们的方式变了，而这种改变会让你受用一辈子。

直观理解概率（为什么"百万分之一"是在骗你）

直观理解概率（为什么"百万分之一"是在骗你）

唯一的核心：数数

独立事件：概率为什么相乘

当事件并不独立时

生日悖论

基础比率与"百万分之一"的把戏

赌徒谬误

概率会出现在哪里

怎么快速估算概率

练习如何练成反射

归根结底

相关文章

直观理解分数（不用切披萨）

真正有效的心算技巧（以及为什么有效）

如何备考SAT数学：一份完整的学习计划