math-concepts

통계학을 직관적으로 이해하기 ("평균"이 감추는 것)

2026년 5월 29일7분 소요
통계학을 직관적으로 이해하기 ("평균"이 감추는 것)

통계학은 데이터를 이해하는 수학이에요. 들쭉날쭉한 숫자 더미에서 믿을 만한 신호를 뽑아내는 학문이죠. 통계는 두 가지 일을 해요. 이미 가지고 있는 것(한 학급의 시험 점수, 한 달치 매출)을 요약하고, 전부 다 볼 수는 없는 것(천 명을 대상으로 한 설문에서 나라 전체의 의견을)을 추론하게 해 줘요. 이 글에서는 두 개념을 바닥부터 쌓아 올린 뒤, 익숙한 용어들(평균, 중앙값, 표준편차, 종형 곡선)이 실제로 어디서 나왔는지 보여드릴게요.

통계학에는 평판 문제가 있어요. 많은 학생이 통계를 외워야 할 공식 보따리로 만나요. 이건 분산용, 저건 표준오차용, 또 하나는 상관계수용. 공식을 적용하고 답을 계산하지만, 의미는 끝내 도착하지 않죠.

이걸 바로잡아 볼게요.

일은 둘, 하나가 아니에요

통계학 입문 과정의 모든 내용은 두 갈래 중 하나에 들어가요.

기술통계는 가지고 있는 데이터를 요약해요. 한 학교 학생 모두의 키를 쟀다면, 기술통계는 그 수백 개의 숫자를 본질을 담은 몇 개로 졸여 내요. 전형적인 키가 얼마인지, 키가 얼마나 다양한지, 분포의 모양이 어떻게 생겼는지를요.

추론통계는 가지고 있지 않은 데이터를 추론해요. 지구상 모든 성인의 키를 잴 수는 없으니, 표본을 재서 전체에 관한 무언가를 추론하죠. 여론조사, 의학 임상시험, 품질 관리가 여기에 살아요. 더 강력한 절반이고, 이 절반은 전적으로 기술통계 절반 위에 놓여 있어요.

통계학에서 생기는 거의 모든 혼란은 이 질문 하나로 풀려요. 나는 가진 것을 묘사하고 있나, 아니면 가지지 않은 것을 추론하고 있나? 묘사부터 시작해 봐요.

중심: 데이터가 자리 잡는 곳

어떤 데이터든 첫 질문은 "전형적인 값이 뭐지?"예요. 정직한 답이 셋 있는데, 이들은 일부러 서로 어긋나요.

평균은 대부분의 사람이 그냥 평균이라 부르는 것이에요. 전부 더해서 개수로 나누죠. 모든 값을 쓰는데, 그게 강점이자 약점이에요.

중앙값은 데이터를 정렬했을 때 한가운데 오는 값이에요. 값의 절반이 위에, 절반이 아래에 앉아요. 극단값이 얼마나 극단적인지는 무시하고 오직 위치만 신경 써요.

최빈값은 가장 자주 나타나는 값이에요. 가장 많이 팔린 신발 사이즈처럼 평균을 낼 수 없는 것에 쓸 수 있는 유일한 값이죠.

대칭적인 데이터에서는 셋 다 대략 같은 자리에 떨어져서 구분이 학문적인 이야기처럼 느껴져요. 하지만 데이터가 치우치는 순간, 그 구분은 더 이상 학문적인 이야기가 아니게 돼요.

교사 아홉 명과 억만장자 한 명이 있는 방을 떠올려 봐요. 소득의 중앙값은 평범한 교사를 묘사해요. 한가운데 사람이 교사니까요. 소득의 평균은 수천만 단위예요. 억만장자가 끌어올리니까요. 두 숫자 다 맞아요. 하지만 그 방의 전형적인 사람에 대해 정직한 건 하나뿐이에요.

이것이 통계를 읽을 때 가장 중요한 습관 하나예요. 누군가 "평균"을 보고할 때, 그게 평균인지 중앙값인지 물어보고, 데이터가 치우쳐 있는지 물어보세요. 소득, 집값, 대기 시간, 조회수는 거의 늘 치우쳐 있고, 평균은 거의 늘 그것들을 부풀려 보여 줘요.

산포: 중심만으로는 부족한 이유

두 데이터 집합이 정확히 같은 평균을 가지면서도 전혀 닮지 않을 수 있어요.

A반 점수: 70, 72, 70, 68, 70. 평균: 70. B반 점수: 40, 95, 100, 50, 65. 평균: 70.

같은 평균인데 이야기는 완전히 달라요. A반은 한결같아요. B반은 들쑥날쑥하고요. 평균만으로는 둘을 구분할 수 없으니, 산포를 나타낼 숫자가 필요해요.

거친 버전은 범위예요. 가장 큰 값에서 가장 작은 값을 뺀 거죠. 쉽지만 약해요. 단 두 숫자에만 의존하니 이상치 하나면 무너지거든요.

진지한 버전은 표준편차인데, 그 바탕에 깔린 생각은 공식이 풍기는 인상보다 단순해요. 이렇게 물어보세요. 평균적으로, 각 값은 평균에서 얼마나 떨어져 있나? 각 값이 평균에서 떨어진 거리를 재고, 그 거리들의 일종의 평균을 내요. 표준편차가 작으면 모든 게 중심 가까이 옹기종기 모여 있고(A반), 크면 값들이 멀리까지 흩뿌려져 있다는 뜻이에요(B반).

공식이 거리를 제곱했다가 마지막에 제곱근을 취하는(그냥 원래 거리를 평균 내지 않고) 이유는, 대체로 양수 간격과 음수 간격이 서로 상쇄되지 않게 하고, 더 큰 편차가 더 무겁게 반영되게 하려는 거예요. 하지만 의미는 변하지 않아요. 표준편차는 평균에서 떨어진 전형적인 거리이고, 데이터와 같은 단위로 보고돼요. 시험 점수의 표준편차가 8점이라면, "대략 8점 안팎"이 점수가 얼마나 흔들리는지에 대한 감각이 되는 거죠.

평균은 어디인지를 말해 줘요. 표준편차는 그 "어디"를 개별 사례 하나하나에 적용할 때 얼마나 믿어도 되는지를 말해 줘요.

모양: 종형 곡선과 그것이 어디에나 있는 이유

중심과 산포가 생기면, 자연스러운 다음 질문은 데이터의 전체 모양이에요. 각 값이 얼마나 자주 나타나는지 그리면 분포가 나와요.

가장 유명한 모양은 정규분포, 즉 종형 곡선이에요. 대칭이고, 대부분의 값이 평균 근처에 몰려 있으며, 극단으로 갈수록 점점 줄어들죠. 키, 측정 오차, 그리고 많은 자연 현상의 양들이 이 모양을 거의 그대로 따라요.

종형 곡선이 이토록 자주 나타나는 데는 깊은 이유가 있어요. 어떤 양이 작고 독립적인 여러 영향의 합일 때(여러분의 키는 유전자 더하기 영양 더하기 수면 더하기 백여 가지 자잘한 영향이죠), 각 영향이 어떻게 움직이든 거의 상관없이 결과는 종형 곡선 쪽으로 수렴해요. 이것이 통계학 전체에서 가장 중요한 결과 중 하나인 중심극한정리의 대략적인 아이디어이고, 정규분포가 그토록 많은 추론의 기본 배경이 되는 이유예요.

종형 곡선은 표준편차에 구체적인 보상도 안겨 줘요. 정규분포 데이터에서는 값의 약 68퍼센트가 평균에서 표준편차 1개 이내에, 약 95퍼센트가 2개 이내에, 약 99.7퍼센트가 3개 이내에 떨어져요. 그래서 성인 키의 평균이 170cm이고 표준편차가 7cm라면, 사람들의 약 95퍼센트가 156에서 184cm 사이에 들어가요. 산포 숫자가 추상적이기를 멈추고 실제로 값이 어디에 떨어질지 예측하기 시작하는 거죠.

상관관계는 인과관계가 아니에요

두 양이 함께 움직일 때, 우리는 그것들이 상관관계가 있다고 말해요. 키가 큰 사람이 몸무게도 더 나가는 경향이 있죠. 키와 몸무게는 양의 상관관계가 있어요. 하나가 올라가면 다른 하나도 올라가요.

함정은 상관관계를 원인의 증거로 다루는 거예요. 아이스크림 판매량과 익사 사망자는 여름마다 함께 늘어요. 아이스크림이 익사를 일으키지는 않죠. 숨은 제3의 요인, 즉 더운 날씨가 둘 다를 끌어올려요. 이것이 교란변수이고, 상관관계 하나만으로는 결코 인과관계를 입증할 수 없는 이유예요.

상관관계는 진짜 단서예요. 어디를 봐야 할지 알려 주죠. 하지만 A가 B를 일으킨다고 주장하려면 더 필요해요. 통제된 실험, 그럴듯한 메커니즘, 그리고 교란변수의 제거요. "X를 하는 사람이 더 오래 산다"고 발표하는 헤드라인은 거의 늘 상관관계에 기대고, 거의 늘 과하게 나아가요. 그걸 회의적으로 읽는 것이 통계가 가르쳐 주는 가장 유용한 일 중 하나예요.

추론: 어떻게 소수가 다수를 대변하나

이제 강력한 절반이에요. 1,000명을 대상으로 한 전국 여론조사가 3억 명을 대표한다고 주장해요. 이게 어떻게 터무니없지 않은 걸까요?

핵심 통찰은 무작위성이 큰 덩어리로 보면 예측 가능하다는 거예요. 표본이 진정으로 무작위이고 대표성이 있다면, 확률의 수학이 여러분의 추정치가 얼마나 빗나갈 가능성이 있는지 알려 줘요. 그 불확실성은 오차 범위로 보고돼요. "52퍼센트, 플러스마이너스 3포인트"는 참값이 49에서 55퍼센트 사이일 가능성이 매우 높다는 뜻이에요.

추론을 믿어도 되는지는 두 가지가 결정해요.

  • 표본 크기는 무작위 잡음을 통제해요. 표본이 클수록 오차 범위가 좁아지지만, 수확 체감이 있어요. 오차를 절반으로 줄이려면 표본이 대략 네 배 필요해요.
  • 표본 품질은 편향을 통제하고, 편향이 더 치명적인 문제예요. 모두 같은 웹사이트를 방문하는 백만 명을 대상으로 한 설문은 그 웹사이트에 대해 알려 줄 뿐, 나라에 대해 알려 주지 않아요. 어떤 표본 크기도 사람들을 체계적으로 배제하는 표본을 고칠 수는 없어요. 대표성이 먼저예요. 크기는 이미 공정한 표본을 날카롭게 다듬어 줄 뿐이에요.

이것이 어떤 통계든 던져야 할 질문이 "연구 규모가 얼마나 컸나"만이 아니라 "실제로 누가 들어갔고, 누가 빠졌나"인 이유예요.

조심해야 할 흔한 함정들

통계는 정직해요. 그것이 보고되는 방식은 종종 그렇지 않고요. 잡아내야 할 몇 가지 패턴이 있어요.

  • 평균으로 뭉개진 평균. "평균 고객 만족도가 높다"는 말은 아주 만족한 사람과 아주 화난 사람으로 갈린 무리를, 중간에는 거의 아무도 없는 상태를 감출 수 있어요. 중심만이 아니라 산포에 대해 늘 물어보세요.
  • 잘린 축. 세로축이 0이 아니라 90에서 시작하는 막대그래프는 아주 작은 차이를 극적인 절벽으로 둔갑시켜요. 숫자는 진짜지만, 그림은 거짓말을 해요.
  • 사라진 분모. "사례가 두 배가 됐다"는 말은 그게 둘에서 넷인지 이백만에서 사백만인지 모르면 의미가 없어요. 퍼센트 변화는 그것이 측정되는 기준만큼만 의미가 있어요.
  • 입맛대로 고른 시점. 시작과 끝 날짜를 잘 고르면 거의 어떤 추세든 위나 아래를 가리키게 만들 수 있어요.

이것이 나머지 수학과 어떻게 이어지나

통계학은 홀로 서 있지 않아요. 이미 만나 봤을 법한 개념들 위에 앉아 있어요. 통계는 확률 위에서 만들어져요. 확률이 무작위 표본이 어떻게 행동하는지, 오차 범위가 어디서 나오는지에 대한 규칙을 공급하거든요. 또한 보고하는 거의 모든 결과에서 퍼센트와 비율에 기대요. 그리고 통계가 의존하는 매끄러운 곡선, 즉 분포를 확률로 바꾸는 종형 곡선 아래 넓이 계산은, 데이터에 적용된 미적분의 바로 그 적분 아이디어예요.

Math Zen에서 통계를 연습하면, 문제는 기술적 측도(평균, 중앙값, 표준편차를 계산하고 비교하기)에서 출발해 분포를 읽고 표본에 대해 추론하는 데까지 나아가요. 계산기가 숫자를 뱉어 내게 두는 대신 손으로 직접 풀어 보는 것, 그것이 올바른 질문을 던지는 본능을 길러 줘요. 이 중심은 정직한가, 이 산포는 믿을 만큼 작은가, 이 상관관계가 실제로 내게 뭔가를 말해 주고 있나? 시간을 두고 이런 문제 유형들을 섞는 것, 연습 흐름에 내장된 간격 반복을 활용하는 것이, 직관을 시험 후 흐려지지 않고 몸에 붙게 만들어요.

핵심 정리

통계학은 두 가지 일이에요. 가진 데이터를 묘사하는 일과 가지지 않은 데이터를 추론하는 일이죠. 묘사에는 세 가지 숫자가 필요해요. 중심(평균이나 중앙값, 데이터가 치우치면 선택이 중요해요), 산포(표준편차, 중심에서 떨어진 전형적인 거리), 그리고 모양(흔히 종형 곡선)이에요. 추론에는 우선 대표성이 있고 그다음으로 큰 표본, 그리고 정직한 오차 범위가 필요해요.

다음에 통계를 보거든, 숫자만 읽지 마세요. 물어보세요. 평균인가 중앙값인가? 산포는 얼마나 되나? 표본에 누가 있었나? 상관관계인가 원인인가? 이 네 가지 질문이 통계를 공식의 벽에서 속지 않기 위한 도구로 바꿔 줘요.

자주 묻는 질문

평균, 중앙값, 최빈값의 차이는 무엇인가요?
평균은 산술 평균으로, 모든 값을 더한 뒤 개수로 나눈 값이에요. 중앙값은 데이터를 정렬했을 때 한가운데 오는 값으로, 위와 아래에 절반씩 놓여요. 최빈값은 가장 자주 나타나는 값이고요. 대칭적인 데이터에서는 세 값이 일치하지만, 데이터가 치우치면 서로 벌어지는데, 바로 그때 어떤 값을 고르느냐가 중요해져요.
평균 대신 중앙값을 써야 할 때는 언제인가요?
몇몇 극단적인 값이 평균을 대표성 없는 곳으로 끌고 갈 때는 언제든 중앙값을 쓰세요. 소득, 집값, 응답 시간이 대표적인 경우예요. 교사들로 가득한 방에 억만장자 한 명이 들어오면 평균 소득은 오해를 부르지만, 중앙값은 여전히 그 방의 전형적인 사람을 잘 묘사해요.
표준편차는 실제로 무엇을 재나요?
표준편차는 데이터가 평균을 중심으로 얼마나 퍼져 있는지를, 데이터 자체와 같은 단위로 재요. 표준편차가 작으면 값들이 평균 가까이에 빽빽하게 모여 있고, 크면 넓게 흩어져 있다는 뜻이에요. 평균이 답하지 못하는 질문, 즉 "전형적인 값이 얼마나 전형적인가"에 답해 주죠.
상관관계와 인과관계의 차이는 무엇인가요?
상관관계는 두 가지가 함께 움직이는 경향이 있다는 뜻이에요. 인과관계는 하나가 실제로 다른 하나를 일어나게 한다는 뜻이고요. 아이스크림 판매량과 익사 사고는 함께 늘어나지만 둘 중 어느 쪽도 다른 쪽의 원인이 아니에요. 여름의 더위가 둘 다를 끌어올리는 거죠. 상관관계는 조사해 볼 만한 단서이지, 그 자체로 증거가 되지는 않아요.
왜 표본 크기가 클수록 좋은가요?
표본이 클수록 무작위 잡음이 줄어들어, 결과가 진짜 모집단을 반영할 가능성이 높아져요. 다만 함정이 있어요. 크기는 편향된 표본을 고칠 수 없어요. 모두 같은 웹사이트를 읽는 백만 명을 대상으로 한 설문은 여전히 치우쳐 있어요. 대표성이 단순한 크기보다 더 중요하고, 그다음에야 비로소 크기가 추정치를 더 날카롭게 다듬어 줘요.