확률을 직관적으로 이해하기 (왜 "백만 분의 일"은 당신을 속이는가)

일기예보가 비 올 확률 30%라고 합니다. 희귀병에 대한 의료 검사가 양성으로 나옵니다. 복권 잭팟이 2억 달러에 이르렀고 동료가 표 한 무더기를 사들이고 있습니다. 이 모든 상황에서 당신의 직감은 의견을 가지고 있고, 그 직감은 대개 틀립니다. 확률은 수학적 직관이 가장 많은 사람을, 가장 자주 실패하게 만드는 분야입니다. 똑똑한 사람도, 심지어 이 과목을 가르치는 사람도 예외가 아닙니다. 숫자 자체는 어렵지 않습니다. 그 주위를 둘러싼 본능이 사람을 잘못된 길로 이끌 뿐입니다.

이 글은 확률이 실제로 무엇인지, 익숙한 직관이 왜 무너지는지, 그리고 그것을 어떻게 고칠 수 있는지를 그림으로 보여주는 글입니다. 수학은 단순합니다. 더 어려운 부분은 사고방식의 전환이고, 그 보상은 사람이 만지는 거의 모든 영역에서 돌아옵니다. 날씨, 의학, 스포츠, 금융, 도박, 머신러닝, 심지어 비행기 대 자동차 같은 평범한 위험 판단에까지요.

단 하나의 아이디어: 세기

다른 모든 것을 걷어내고 나면, 확률은 결국 세기입니다. 어떤 사건의 확률을 구하려면, 그 사건이 일어나는 결과의 수를 세고, 처음에 가지고 있던 전체 결과의 수로 나눕니다. 그것이 정의의 전부입니다. 이 단원에 등장하는 모든 공식은 잘 세기 위한 신중한 방법일 뿐입니다.

공정한 6면 주사위를 굴립니다. 4가 나올 확률은 한 가지 결과(4)를 전체 여섯 가지 결과(1부터 6까지)로 나눈 1/6입니다. 짝수가 나올 확률은 세 가지 결과(2, 4, 6)를 전체 여섯으로 나눈 3/6, 즉 1/2입니다. 7보다 큰 수가 나올 확률은 0가지 결과를 6으로 나눈 0인데, 그런 결과는 존재하지 않기 때문입니다.

이 그림이 분수처럼 들린다면, 그건 실제로 분수이기 때문입니다. 분수에 관한 글에서 보여드렸듯이, 분수는 아직 수행되지 않은 나눗셈입니다. 확률은 바로 그 아이디어를 결과에 적용한 것입니다. 일치하는 결과의 수를 전체 결과의 수로 나눈 것이죠. 이 주제는 처음부터 끝까지 분수입니다.

문제는, 상황이 복잡해질수록 "결과를 세는 일"이 어려워진다는 점입니다. 이 단원의 나머지(순열, 조합, 조건부 확률, 베이즈 정리)는 주사위만큼 단순하지 않은 상황에서 잘 세기 위한 신중한 부기법일 뿐입니다.

독립 사건: 확률이 곱해질 때

공정한 동전을 두 번 던진다고 합시다. 연속으로 두 번 앞면이 나올 확률은 얼마일까요?

많은 사람들이 1/2 더하기 1/2, 즉 1이라고 추측하는데, 이는 분명히 옳을 수 없습니다. 어떤 이들은 1/2이라고 답하는데, 더 안전해 보이지만 이 역시 틀립니다. 정답은 1/2 곱하기 1/2, 즉 1/4이고, 그 이유는 잠시 생각해 볼 가치가 있습니다. 대부분의 초보자에게 직관이 무너지는 바로 그 지점이기 때문입니다.

두 사건이 독립일 때(한쪽의 결과가 다른 쪽의 결과에 아무 영향도 주지 않을 때), 둘 다 일어날 확률은 각각의 확률을 곱한 값입니다. 왜 곱할까요? 동전 두 번 던지기의 가능한 모든 결과를 나열해 보세요. 앞앞, 앞뒤, 뒤앞, 뒤뒤. 총 네 가지이고, 그중 앞앞은 단 하나이므로 답은 1/4입니다. 곱셈은 그 나열을 짧게 줄인 지름길에 불과합니다.

같은 아이디어가 긴 연속이 왜 그렇게 드문지를 설명합니다. 앞면이 열 번 연속으로 나올 확률은 (1/2)의 10제곱, 즉 약 1,024분의 1입니다. 불가능하지는 않지만 흔한 일도 아닙니다. 그리고 무작위로 6자리 PIN을 한 번에 맞힐 확률은 (1/10)의 6제곱, 즉 백만 분의 일입니다. 이것이 진짜 "백만 분의 일"입니다. 곧 그렇지 않은 여러 경우를 만나게 될 것입니다.

사건이 독립이 아닐 때

독립성은 다른 어떤 가정보다도 더 많은 확률 문제를 망가뜨리는 가정입니다. 카드 한 벌에서 카드를 두 장 뽑는데 첫 번째 카드를 다시 넣지 않는다면, 두 번째 카드의 확률은 첫 번째와 같지 않습니다. 카드 한 벌의 구성이 바뀌었기 때문이죠. 카드는 52장이고 에이스는 4장이므로, 처음에 에이스를 뽑을 확률은 4/52입니다. 에이스를 뽑은 뒤에는 51장의 카드와 3장의 에이스가 남으므로, 두 번째 에이스의 확률은 3/51입니다. 따라서 연속으로 두 번 에이스가 나올 확률은 4/52 곱하기 3/51, 약 0.45%입니다.

이것이 조건부 확률입니다. 어떤 사건이 이미 일어났다는 조건 아래에서 다른 사건이 일어날 확률이죠. P(B|A)로 적고, 현실의 추론이 실제로 원하는 대부분이 바로 이것입니다. "내일 비가 올 확률은?"은 하나의 숫자입니다. "도시 위에 폭풍 세포가 보인다는 레이더 결과를 고려할 때 내일 비가 올 확률은?"은 또 다른, 훨씬 더 큰 숫자입니다. 새로운 정보가 관련 결과의 셈을 다시 정렬하는 것이죠.

확률에서 "역설"이라고 불리는 대부분은 조건부가 조용히 숨겨진 조건부 확률 문제입니다. 그 조건부를 풀어내면 역설은 대개 사라집니다.

생일 역설

거의 모든 사람을 걸려 넘어지게 하는 질문이 있습니다. 23명이 있는 방에서, 그중 적어도 두 명이 같은 생일을 가질 확률은 얼마일까요?

직관적인 답은 작습니다. 365일이 있고 사람은 23명뿐이니까요. 실제 답은 50%를 살짝 넘습니다. 방에 50명이 있으면 97%까지 올라가고, 70명이면 99.9%를 넘어섭니다. 이것이 생일 역설이고, 우주의 결함이 아닙니다. 직관이 세는 방식의 결함입니다.

함정은 이렇습니다. 당신은 "누군가 내 생일을 공유할 확률"을 묻고 있는 게 아닙니다. "어떤 두 사람이라도 생일을 공유할 확률"을 묻고 있는 것입니다. 23명이 있으면 23 중에서 2를 고르는 경우, 즉 253쌍의 사람 조합이 있고, 각 쌍은 일치할 작은 확률을 가집니다. 그것은 많은 기회이고, 작은 확률은 직감이 예상하는 것보다 훨씬 빠르게 쌓입니다.

이 교훈은 일반적입니다. 어떤 사건의 기회 수가 이차적으로 증가할 때(모든 쌍, 모든 상호작용), 희귀한 사건이 빠르게 흔해집니다. 한 쌍당 365분의 1짜리 확률이, 253쌍이 모이면 절반을 훌쩍 넘는 확률로 변합니다.

기저율과 백만 분의 일 트릭

10,000명 중 1명이 걸리는 질병에 대해 "99% 정확한" 의료 검사가 있습니다. 당신이 양성 판정을 받았습니다. 실제로 그 질병에 걸려 있을 확률은 얼마일까요?

의사를 포함한 많은 사람들이 99% 근처라고 추측합니다. 정답은 1%에 더 가깝습니다.

이유는 이렇습니다. 무작위로 10,000명이 있다고 상상해 보세요. 그중 약 1명이 그 질병을 가지고 있고, 검사는 아마도 그 사람을 잡아낼 것입니다. 나머지 9,999명은 질병이 없지만, 99% 정확한 검사는 건강한 사람의 1%를 양성으로 잘못 분류하므로 약 100명의 거짓 양성이 발생합니다. 따라서 양성 결과 101건마다, 100건은 잘못된 경보이고 1건만이 진짜입니다. 양성 검사 결과를 받았을 때 실제로 질병이 있을 확률은 대략 101분의 1, 약 1%입니다.

이것이 기저율 오류입니다. 바탕이 되는 사건이 드물 때(낮은 기저율), 매우 정확한 검사조차 대부분 거짓 양성을 만들어냅니다. 대부분의 사람은 기저율을 완전히 건너뛰고 검사 정확도만 생각하다가, 두 자릿수의 오차가 있는 답에 도달합니다.

이 교훈은 의학을 훌쩍 넘어 일반화됩니다. "백만 분의 일"이라는 숫자는 항상 후속 질문을 떠올리게 해야 합니다. 무엇의 백만 분의 일인가? 하루당? 1년당? 시도당? 사람당? 하루에 백만 분의 일짜리 사건은, 세상에 충분한 날이 있다면 1년에 약 365번 일어나고, 세상에 충분한 사람이 있다면 1년에 약 80억 번 일어납니다. 인구와 시간 창을 함께 접어 넣고 나면, "백만 분의 일"은 보통 더는 드물게 느껴지지 않습니다. 이 글의 첫머리에 등장하는 헤드라인도 같은 식으로 작동합니다. 뉴스에 보도되는 대부분의 "기적"은 일어날 기회가 수십억 번 있었던 백만 분의 일짜리 사건일 뿐입니다.

도박사의 오류

룰렛 휠이 여덟 번 연속으로 빨강이 나왔습니다. 이제 검정이 나올 차례 아닐까요?

아닙니다. 휠에는 기억이 없습니다. 다음 회전에서 검정이 나올 확률은 첫 번째 회전과 동일합니다. 이것이 도박사의 오류, 즉 과거의 독립 사건이 미래 사건의 확률을 바꾼다는 믿음입니다. 그렇지 않습니다.

같은 실수의 거울상은 핫 핸드 오류입니다. 방금 몇 번 연속으로 슛을 성공시킨 선수가 다음 슛도 성공할 가능성이 더 높다고 믿는 것이죠. 동전 던지기와 룰렛에서는 이는 분명히 틀린데, 장치에 기억이 없기 때문입니다. 인간 수행에서는 그림이 솔직히 더 복잡합니다(실제 실력이 존재하고, 진짜 흐름이 가끔 존재합니다). 그러나 바탕에 깔린 교훈은 그대로입니다. 대부분의 연속은, 패턴이 있든 없든 패턴을 찾도록 진화한 동물의 패턴 매칭일 뿐입니다.

확률이 등장하는 곳

세기라는 틀을 손에 쥐고 나면, 확률은 어디에나 보이기 시작합니다.

일기예보: 비 올 확률 30%란, 비슷한 대기 조건의 큰 집합 중 약 30%에서 비가 내렸다는 뜻입니다. 보장도 아니고, 동전 던지기도 아닙니다.

의학: 모든 검사, 선별, 위험 점수에는 위에서 본 기저율 트릭이 들어갑니다. "양성" 검사 결과는 흔한 질환과 드문 질환에서 매우 다른 의미를 지니며, 기저율 없이 "99% 정확"이라는 말은 거의 의미가 없습니다.

보험과 금융: 모든 보험료, 기대 수익, 위험 모형은 가능한 결과들에 대한 가중 평균입니다. 그 수학은 결국 확률 곱하기 보상을 모든 가능한 시나리오에 대해 합한 것입니다.

표준화 시험: SAT, ACT, GRE, AP 통계, GCSE 모두 확률 문제를 포함하고, 그중 많은 수가 위장된 조건부 확률 문제입니다. SAT 준비 가이드에서 언급했듯이, 핵심은 산수가 아니라 구조를 알아보는 일입니다.

머신러닝: 모든 분류기는 확률을 만들어내고, 모든 지표(정밀도, 재현율, ROC 곡선)는 조건부 확률과 기저율을 신중하게 적용한 결과입니다. 여기서도 기저율 오류가 다시 등장합니다. 드문 사건에서 99% 정확한 모형도 실제 운영 환경에서는 쓸모없을 수 있습니다.

확률을 빠르게 추정하기

대부분의 실생활 확률 문제는 정확한 답을 필요로 하지 않습니다. 빠르고 방어 가능한 추정이면 충분합니다. 거기까지 데려다주는 동작들은 다음과 같습니다.

먼저 분수로 번역하고, 그다음 백분율이나 소수로 옮기세요. "100분의 1"은 1/100이고, 1%이고, 0.01입니다. 암산 트릭 글에서 다뤘듯이, 이런 변환에 익숙해지는 것은 키울 수 있는 가장 지렛대가 큰 기술 중 하나입니다. 거의 모든 확률 문제가 표기법 사이의 번역으로 끝나기 때문이죠.

항상 기저율을 찾아보세요. 특히 누군가 드문 사건의 정확도 숫자를 들이밀 때 그렇습니다. 기저율이 작다면, 정확도 숫자는 오해를 불러오기 쉽습니다.

독립성을 신중하게 점검하세요. 두 사건이 독립처럼 보이지만 사실 한쪽이 다른 쪽을 끌고 가는 경우가 있습니다(같은 환자의 검사 결과들, 같은 업종의 주식들, 같은 반의 학생들). 사건이 숨겨진 공통 원인을 공유할 때, 확률을 그냥 곱하면 너무 작거나 너무 큰 답이 나옵니다.

"백만 분의 일"을 압박 시험에 부치세요. 무엇당? 몇 명에 걸쳐서? 얼마나 오래? 대부분의 "드문" 사건은, 기회를 다 세고 나면 드물지 않습니다.

연습은 어떻게 반사신경을 만드는가

확률은 패턴 인식이 가장 중요한 주제입니다. 같은 문제가 스무 가지 다른 옷을 입고 등장하기 때문이죠. 구조를 보고 또 본 학생(독립 대 종속, 복원 대 비복원, 조건부 대 결합)은 몇 초 안에 구조를 알아채기 시작하고, 산수는 그 인식에서 자연스럽게 따라 나옵니다.

Math Zen의 버킷 진행은 이 주제가 실제로 학습되기를 원하는 방식과 깔끔하게 맞아떨어집니다. 초반 버킷은 단순한 실험(주사위, 카드, 동전)에서 결과를 세는 일을 다룹니다. 중간 버킷은 곱셈 법칙과 합집합의 덧셈 법칙을 반복 훈련하면서, 두뇌가 공식을 무작정 적용하는 대신 상황을 식별하도록 섞인 연습을 제공합니다. 후반 버킷은 조건부 확률, 기댓값, 그리고 고전적인 수수께끼들(생일 역설, 몬티 홀, 기저율 문제)을 다룹니다. 연습이 짧고 간격을 두기 때문에, 구조를 알아챌 기회가 반복해서 주어지고, 그 반복이 결국 규칙을 반사신경으로 바꾸어 놓습니다.

핵심 정리

확률은 하나의 아이디어입니다. 일치하는 결과를 세고, 존재하는 모든 결과로 나누고, 당신이 세고 있는 사건이 정말로 독립인지에 대해 정직하게 굴어라. "역설"은 그저 직감이 수학과는 다른 무언가를 세고 있는 상황일 뿐입니다. 사건이 독립이면 곱하세요. 둘 중 어느 한쪽이 일어날 확률을 원할 때는 더하세요(중복은 빼서, 두 번 세지 않도록). 새로운 정보가 들어오면 조건을 거세요. 항상 기저율을 찾으세요, 특히 누군가 "백만 분의 일"을 들이밀 때.

"무엇의 백만 분의 일인가, 무엇당, 몇 번에 걸쳐?"라고 묻기 시작하면, 일상의 세계는 이전과 같은 방식으로 무작위하게 느껴지지 않게 됩니다. 복권은 드물게 잭팟이 터지는 작은 기댓값 손실이 됩니다. 의료 검사는 기저율에 관한 질문이 됩니다. 핫 스트릭은 두뇌가 인과의 옷을 입혀준 우연의 일치가 됩니다. 숫자는 변하지 않지만, 그것을 읽는 방식은 변합니다. 그리고 그 변화는 평생에 걸쳐 보상을 가져다줍니다.

확률을 직관적으로 이해하기 (왜 "백만 분의 일"은 당신을 속이는가)

확률을 직관적으로 이해하기 (왜 "백만 분의 일"은 당신을 속이는가)

단 하나의 아이디어: 세기

독립 사건: 확률이 곱해질 때

사건이 독립이 아닐 때

생일 역설

기저율과 백만 분의 일 트릭

도박사의 오류

확률이 등장하는 곳

확률을 빠르게 추정하기

연습은 어떻게 반사신경을 만드는가

핵심 정리

관련 게시물

분수를 직관적으로 이해하기 (피자 조각 없이)

실제로 효과 있는 암산 비법 (그리고 그 이유)

SAT 수학 준비 방법: 완벽한 학습 계획