Как интуитивно понять статистику (что скрывает «среднее»)

Статистика это математика осмысления данных, извлечения надёжного сигнала из груды чисел, которые меняются. У неё две задачи: она обобщает то, что у вас уже есть (оценки за контрольную в классе, месяц продаж), и она позволяет рассуждать о том, чего вы не можете увидеть целиком (мнения целой страны по опросу тысячи человек). Эта статья выстраивает обе идеи с нуля, а затем показывает, откуда на самом деле берутся знакомые термины (среднее, медиана, стандартное отклонение, колоколообразная кривая).
У статистики проблемы с репутацией. Многие студенты встречают её как мешок формул, которые надо вызубрить: эта для дисперсии, та для стандартной ошибки, третья для коэффициента корреляции. Формулы применяются, ответы вычисляются, а смысл так и не приходит.
Давайте это исправим.
Две задачи, а не одна
Всё во вводном курсе статистики попадает в одну из двух корзин.
Описательная статистика обобщает данные, которые у вас есть. Если вы измерили рост каждого ученика в школе, описательная статистика сводит эти сотни чисел к нескольким, которые передают суть: типичный рост, насколько рост варьируется, как выглядит форма распределения.
Выводная статистика рассуждает о данных, которых у вас нет. Вы не можете измерить рост каждого взрослого на Земле, поэтому вы измеряете выборку и делаете вывод обо всех. Здесь живут опросы, медицинские испытания и контроль качества. Это более мощная половина, и она целиком опирается на описательную половину.
Почти любая путаница в статистике проясняется, как только вы спросите: я описываю то, что у меня есть, или делаю вывод о том, чего у меня нет? Начнём с описания.
Центр: где находятся данные
Первый вопрос о любом наборе данных: «какое значение типично?» Есть три честных ответа, и они расходятся намеренно.
Среднее это то, что большинство людей называет средним арифметическим: сложите всё, разделите на количество. Оно использует каждое значение, и в этом его сила и слабость.
Медиана это среднее значение после сортировки данных. Половина значений лежит выше него, половина ниже. Она игнорирует, насколько экстремальны крайности, и заботится только о позиции.
Мода это значение, которое встречается чаще всего. Это единственная мера, которая работает для вещей, которые нельзя усреднить, например для самого продаваемого размера обуви.
Для симметричных данных все три оказываются примерно в одном месте, и различие кажется академическим. Различие перестаёт быть академическим в тот момент, когда данные становятся асимметричными.
Представьте комнату с девятью школьными учителями и одним миллиардером. Медианный доход описывает обычного учителя, потому что человек в середине это учитель. Средний доход составляет десятки миллионов, потому что миллиардер тянет его вверх. Оба числа верны. Только одно честно описывает типичного человека в комнате.
Это самая важная привычка при чтении статистики: когда кто-то сообщает «среднее», спросите, среднее это арифметическое или медиана, и спросите, асимметричны ли данные. Доходы, цены на жильё, время ожидания и число просмотров почти всегда асимметричны, и среднее почти всегда их приукрашивает.
Разброс: почему центра недостаточно
Два набора данных могут иметь в точности одинаковое среднее и быть совершенно непохожими.
Оценки класса A: 70, 72, 70, 68, 70. Среднее: 70. Оценки класса B: 40, 95, 100, 50, 65. Среднее: 70.
Одно и то же среднее, совершенно разные истории. Класс A стабилен. Класс B хаотичен. Одно лишь среднее не может их различить, поэтому нам нужно число для разброса.
Грубый вариант это размах, самое большое значение минус самое маленькое. Он прост, но хрупок, потому что зависит всего от двух чисел и один выброс его рушит.
Серьёзный вариант это стандартное отклонение, и идея за ним проще, чем подсказывает формула. Спросите: насколько в среднем каждое значение отстоит от среднего? Измерьте расстояние каждого значения от среднего, затем возьмите своего рода среднее этих расстояний. Маленькое стандартное отклонение означает, что всё жмётся к центру (класс A). Большое означает, что значения разбросаны далеко и широко (класс B).
Причина, по которой формула возводит расстояния в квадрат, а затем в конце берёт квадратный корень (а не просто усредняет исходные расстояния), в основном в том, чтобы положительные и отрицательные отклонения не сокращались и чтобы большие отклонения весили больше. Но смысл никогда не меняется: стандартное отклонение это типичное расстояние от среднего, выраженное в тех же единицах, что и данные. Если у оценок за контрольную стандартное отклонение 8 баллов, то «плюс-минус 8 баллов» это ваше ощущение того, насколько оценки гуляют.
Среднее говорит вам, где. Стандартное отклонение говорит, насколько вы можете доверять этому «где» при описании любого отдельного случая.
Форма: колоколообразная кривая и почему она повсюду
Когда у вас есть центр и разброс, естественный следующий вопрос это общая форма данных. Постройте график того, как часто встречается каждое значение, и вы получите распределение.
Самая знаменитая форма это нормальное распределение, колоколообразная кривая: симметричная, с большинством значений, сгруппированных около среднего, и всё меньшим их числом по мере движения к крайностям. Рост, ошибки измерений и многие природные величины следуют ей довольно точно.
Колоколообразная кривая появляется так часто по глубокой причине. Когда величина это сумма множества малых независимых влияний (ваш рост это гены плюс питание плюс сон плюс сотня других толчков), результат стремится к колоколообразной кривой почти независимо от того, как ведёт себя каждое отдельное влияние. Это примерная идея одного из важнейших результатов во всей статистике, центральной предельной теоремы, и именно поэтому нормальное распределение это фон по умолчанию для большей части выводной статистики.
Колоколообразная кривая также даёт стандартному отклонению конкретную отдачу. Для нормальных данных около 68 процентов значений попадают в пределах одного стандартного отклонения от среднего, около 95 процентов в пределах двух, и около 99,7 процента в пределах трёх. Поэтому если рост взрослых имеет среднее 170 см и стандартное отклонение 7 см, то примерно 95 процентов людей попадают между 156 и 184 см. Число разброса перестаёт быть абстрактным и начинает предсказывать, где вещи на самом деле оказываются.
Корреляция это не причинно-следственная связь
Когда две величины меняются вместе, мы говорим, что они коррелируют. Более высокие люди обычно весят больше: рост и вес положительно коррелируют. Когда одно растёт, растёт и другое.
Ловушка в том, чтобы воспринимать корреляцию как доказательство причины. Продажи мороженого и число смертей от утопления растут вместе каждое лето. Мороженое не вызывает утопления. Скрытый третий фактор, жаркая погода, вызывает оба. Это смешивающая переменная, и именно из-за неё одна лишь корреляция никогда не устанавливает причинно-следственную связь.
Корреляция это настоящая зацепка. Она говорит, куда смотреть. Но чтобы утверждать, что A вызывает B, нужно больше: контролируемый эксперимент, правдоподобный механизм и исключение смешивающих переменных. Заголовки, которые объявляют «люди, делающие X, живут дольше», почти всегда опираются на корреляцию и почти всегда перегибают. Читать такое со скепсисом это одна из самых полезных вещей, которым учит статистика.
Вывод: как немногие говорят за многих
Теперь мощная половина. Национальный опрос 1000 человек претендует на то, чтобы представлять 300 миллионов. Как это не абсурдно?
Ключевое озарение в том, что случайность предсказуема в массе. Если ваша выборка действительно случайна и репрезентативна, математика вероятностей говорит, насколько ваша оценка скорее всего отклонится. Эта неопределённость сообщается как предел погрешности: «52 процента, плюс-минус 3 пункта» означает, что истинная величина с большой вероятностью находится между 49 и 55 процентами.
Две вещи определяют, можете ли вы доверять выводу:
- Размер выборки управляет случайным шумом. Большие выборки дают более узкие пределы погрешности, хоть и с убывающей отдачей: чтобы вдвое уменьшить погрешность, нужно примерно в четыре раза больше выборки.
- Качество выборки управляет смещением, и смещение это более опасная проблема. Опрос миллиона человек, которые все заходят на один и тот же сайт, расскажет вам об этом сайте, а не о стране. Никакой размер выборки не исправит выборку, которая систематически исключает людей. Репрезентативность важнее всего; размер лишь уточняет уже честную выборку.
Вот почему о любой статистике стоит спрашивать не только «насколько большим было исследование», но и «кто на самом деле в нём участвовал и кого оставили за бортом».
Распространённые ловушки, на которые стоит обращать внимание
Статистика честна. То, как её преподносят, часто нет. Несколько схем, которые стоит ловить:
- Усреднённое до неузнаваемости среднее. «Средняя удовлетворённость клиентов высока» может скрывать разделённую толпу очень довольных и очень злых клиентов, почти без кого-либо посередине. Всегда спрашивайте о разбросе, а не только о центре.
- Обрезанная ось. Столбчатая диаграмма, у которой вертикальная ось начинается с 90, а не с 0, превращает крошечную разницу в драматический обрыв. Числа настоящие; картинка лжёт.
- Отсутствующий знаменатель. «Число случаев удвоилось» бессмысленно, если не знать, идёт ли речь о росте с двух до четырёх или с двух миллионов до четырёх миллионов. Процентное изменение значимо лишь настолько, насколько значима база, относительно которой оно измеряется.
- Выбранные с умыслом точки. Подберите правильные начальную и конечную даты, и почти любую тенденцию можно заставить указывать вверх или вниз.
Как это связано с остальной математикой
Статистика не стоит особняком. Она опирается на идеи, с которыми вы, возможно, уже встречались. Она построена на вероятности, которая поставляет правила того, как ведут себя случайные выборки и откуда берутся пределы погрешности. Она опирается на проценты и пропорции почти в каждом результате, который сообщает. А гладкие кривые, на которые она полагается, вычисления площади под колоколообразной кривой, которые превращают распределение в вероятность, это те же идеи интегрирования из математического анализа, применённые к данным.
Когда вы практикуете статистику в Math Zen, задачи продвигаются от описательных мер (вычисление и сравнение средних, медиан и стандартных отклонений) к чтению распределений и рассуждениям о выборках. Решать их вручную, а не позволять калькулятору выдать число, это то, что вырабатывает инстинкт задавать правильный вопрос: честен ли этот центр, достаточно ли мал этот разброс, чтобы ему доверять, действительно ли эта корреляция мне о чём-то говорит? Смешивание этих типов задач со временем, с помощью интервального повторения, встроенного в поток практики, это то, что закрепляет интуицию, а не даёт ей угаснуть после контрольной.
Вывод
Статистика это две задачи: описание данных, которые у вас есть, и вывод о данных, которых у вас нет. Описанию нужны три числа: центр (среднее или медиана, и выбор имеет значение, когда данные асимметричны), разброс (стандартное отклонение, типичное расстояние от центра) и форма (часто колоколообразная кривая). Выводу нужна выборка, которая сначала репрезентативна, а затем велика, и честный предел погрешности.
В следующий раз, когда увидите статистику, не просто читайте число. Спросите: среднее или медиана? Насколько велик разброс? Кто был в выборке? Корреляция или причина? Эти четыре вопроса превращают статистику из стены формул в инструмент, который не даёт себя обмануть.
Частые вопросы
- В чём разница между средним, медианой и модой?
- Среднее (среднее арифметическое) это сумма всех значений, делённая на их количество. Медиана это значение в середине отсортированного набора данных: половина значений выше неё, половина ниже. Мода это значение, которое встречается чаще всего. Для симметричных данных они совпадают, но расходятся, когда распределение становится асимметричным, и именно тогда выбор начинает иметь значение.
- Когда стоит использовать медиану вместо среднего?
- Используйте медиану всякий раз, когда несколько крайних значений могли бы утянуть среднее в нерепрезентативную сторону. Доходы, цены на жильё и время отклика это классические случаи. Один миллиардер в комнате учителей делает средний доход обманчивым, но медиана по-прежнему описывает типичного человека в комнате.
- Что на самом деле измеряет стандартное отклонение?
- Стандартное отклонение измеряет, насколько данные разбросаны вокруг среднего, в тех же единицах, что и сами данные. Маленькое стандартное отклонение означает, что значения тесно сгруппированы около среднего. Большое означает, что они разбросаны широко. Оно отвечает на вопрос, на который не может ответить среднее: насколько типично «типичное».
- В чём разница между корреляцией и причинно-следственной связью?
- Корреляция означает, что две величины склонны меняться вместе. Причинно-следственная связь означает, что одна на самом деле вызывает другую. Продажи мороженого и число утоплений растут вместе, но ни одно не вызывает другое: причина в обоих случаях летняя жара. Корреляция это зацепка, которую стоит изучить, но сама по себе она никогда не является доказательством.
- Почему больший объём выборки лучше?
- Большие выборки уменьшают случайный шум, поэтому результат с большей вероятностью отражает истинную совокупность. Но есть нюанс: размер не исправит смещённую выборку. Опрос миллиона человек, которые все читают один и тот же сайт, всё равно будет искажён. Репрезентативность важнее, чем чистый размер, и только после неё размер уточняет оценку.


