math-concepts

Entender la estadística de forma intuitiva (lo que el "promedio" oculta)

29 de mayo de 202611 min de lectura
Entender la estadística de forma intuitiva (lo que el "promedio" oculta)

La estadística es la matemática de darle sentido a los datos: extraer una señal confiable de un montón de números que varían. Tiene dos funciones: resumir lo que ya tienes (las calificaciones de una clase, las ventas de un mes) y razonar sobre lo que no puedes ver en su totalidad (las opiniones de todo un país a partir de una encuesta de mil personas). Este artículo construye ambas ideas desde cero y muestra de dónde provienen los términos familiares: media, mediana, desviación estándar y la curva normal.

La estadística tiene un problema de reputación. Muchos estudiantes la conocen como una bolsa de fórmulas que memorizar: esta para la varianza, aquella para el error estándar, una tercera para el coeficiente de correlación. Las fórmulas se aplican, los resultados se calculan y el significado nunca llega.

Vamos a cambiar eso.

Dos funciones, no una

Todo en un curso introductorio de estadística cae en uno de dos grupos.

La estadística descriptiva resume los datos que ya tienes. Si mediste la estatura de todos los estudiantes de una escuela, la estadística descriptiva condensa esas cientos de cifras en unas pocas que capturan la esencia: una estatura típica, cuánto varían las estaturas y cómo se ve la forma de la distribución.

La estadística inferencial razona sobre los datos que no tienes. No puedes medir la estatura de todos los adultos del planeta, así que mides una muestra e inferes algo sobre todos. Aquí es donde viven las encuestas, los ensayos médicos y el control de calidad. Es la mitad más poderosa, y se apoya por completo en la mitad descriptiva.

Casi toda la confusión en estadística se aclara en cuanto te preguntas: ¿estoy describiendo lo que tengo o infiriendo sobre lo que no tengo? Empieza por describir.

El centro: dónde se sitúan los datos

La primera pregunta sobre cualquier conjunto de datos es "¿cuál es un valor típico?". Hay tres respuestas honestas, y difieren a propósito.

La media es lo que la mayoría llama promedio: suma todo y divide entre la cantidad de datos. Utiliza todos los valores, lo cual es su fortaleza y su debilidad.

La mediana es el valor central una vez que ordenas los datos. La mitad de los valores están por encima y la otra mitad por debajo. Ignora cuán extremos son los extremos y solo le importa la posición.

La moda es el valor que aparece con más frecuencia. Es la única que funciona para cosas que no se pueden promediar, como la talla de zapato más vendida.

Con datos simétricos, las tres caen aproximadamente en el mismo lugar y la distinción parece académica. La distinción deja de ser académica en el momento en que los datos son asimétricos.

Imagina una sala con nueve maestros y un multimillonario. La mediana de ingresos describe a un maestro normal, porque la persona del medio es un maestro. La media de ingresos está en decenas de millones, porque el multimillonario la arrastra hacia arriba. Ambas cifras son correctas. Solo una es honesta sobre una persona típica en la sala.

Este es el hábito más importante cuando lees estadísticas: cuando alguien reporta un "promedio", pregunta si es una media o una mediana, y si los datos son asimétricos. Los ingresos, los precios de las casas, los tiempos de espera y los conteos de visitas casi siempre son asimétricos, y la media casi siempre los embellece.

La dispersión: por qué el centro no es suficiente

Dos conjuntos de datos pueden compartir exactamente la misma media y no parecerse en nada.

Calificaciones de la clase A: 70, 72, 70, 68, 70. Media: 70. Calificaciones de la clase B: 40, 95, 100, 50, 65. Media: 70.

El mismo promedio, historias completamente distintas. La clase A es consistente. La clase B es caótica. La media sola no puede distinguirlas, por eso necesitamos un número para la dispersión.

La versión más simple es el rango: el valor más grande menos el más pequeño. Es fácil pero frágil, porque depende de solo dos números y un valor atípico lo arruina.

La versión seria es la desviación estándar, y la idea detrás de ella es más simple de lo que sugiere la fórmula. Pregúntate: en promedio, ¿qué tan lejos está cada valor de la media? Mide la distancia de cada valor respecto a la media y luego calcula una especie de promedio de esas distancias. Una desviación estándar pequeña significa que todo se agrupa cerca del centro (clase A). Una grande significa que los valores están esparcidos lejos (clase B).

La razón por la que la fórmula eleva las distancias al cuadrado y luego saca una raíz cuadrada al final (en lugar de simplemente promediar las distancias directas) es principalmente para que las diferencias positivas y negativas no se cancelen, y para que las desviaciones mayores cuenten más. Pero el significado nunca cambia: la desviación estándar es la distancia típica respecto al promedio, expresada en las mismas unidades que los datos. Si las calificaciones tienen una desviación estándar de 8 puntos, entonces "más o menos 8 puntos" es tu idea de cuánto varían las calificaciones.

La media te dice dónde. La desviación estándar te dice cuánto puedes confiar en ese "dónde" para describir cualquier caso individual.

La forma: la curva normal y por qué está en todas partes

Una vez que tienes el centro y la dispersión, la siguiente pregunta natural es la forma general de los datos. Grafica con qué frecuencia ocurre cada valor y obtienes una distribución.

La forma más famosa es la distribución normal, la curva de campana: simétrica, con la mayoría de los valores agrupados cerca de la media y cada vez menos a medida que te alejas hacia los extremos. Las estaturas, los errores de medición y muchas cantidades naturales la siguen de cerca.

La curva de campana aparece tan seguido por una razón profunda. Cuando una cantidad es la suma de muchas pequeñas influencias independientes (tu estatura depende de los genes, la nutrición, el sueño y cien factores más), el resultado tiende hacia una curva de campana, casi sin importar cómo se comporte cada influencia individual. Esa es la idea aproximada detrás de uno de los resultados más importantes de toda la estadística, el teorema central del límite, y es por eso que la distribución normal es el telón de fondo predeterminado para gran parte de la inferencia.

La curva de campana también le da a la desviación estándar un resultado concreto. Para datos normales, aproximadamente el 68 por ciento de los valores caen dentro de una desviación estándar de la media, alrededor del 95 por ciento dentro de dos, y cerca del 99.7 por ciento dentro de tres. Así que si las estaturas de los adultos tienen una media de 170 cm y una desviación estándar de 7 cm, entonces aproximadamente el 95 por ciento de las personas miden entre 156 y 184 cm. El número de dispersión deja de ser abstracto y comienza a predecir dónde caen realmente las cosas.

Correlación no es causalidad

Cuando dos cantidades se mueven juntas, decimos que están correlacionadas. Las personas más altas tienden a pesar más: la estatura y el peso están correlacionados positivamente. Cuando uno sube, el otro también.

La trampa es tratar la correlación como prueba de causa. Las ventas de helado y las muertes por ahogamiento aumentan juntas cada verano. El helado no causa los ahogamientos. Un tercer factor oculto, el calor, impulsa a ambos. Esto es una variable de confusión, y es la razón por la que la correlación sola nunca establece causalidad.

La correlación es una pista genuina. Te dice dónde buscar. Pero para afirmar que A causa B, necesitas más: un experimento controlado, un mecanismo plausible y la eliminación de las variables de confusión. Los titulares que anuncian "las personas que hacen X viven más tiempo" casi siempre se basan en correlación, y casi siempre van demasiado lejos. Leerlos con escepticismo es una de las cosas más útiles que enseña la estadística.

Inferencia: cómo unos pocos hablan por muchos

Ahora la mitad más poderosa. Una encuesta nacional de 1,000 personas afirma representar a 300 millones. ¿Cómo no es absurdo eso?

La clave está en que la aleatoriedad es predecible en grandes cantidades. Si tu muestra es genuinamente aleatoria y representativa, la matemática de la probabilidad te dice qué tan lejos puede estar tu estimación. Esa incertidumbre se reporta como un margen de error: "52 por ciento, más o menos 3 puntos" significa que la cifra real está muy probablemente entre el 49 y el 55 por ciento.

Dos factores determinan si puedes confiar en una inferencia:

  • El tamaño de la muestra controla el ruido aleatorio. Las muestras más grandes dan márgenes de error más estrechos, aunque con rendimientos decrecientes: reducir el error a la mitad requiere aproximadamente cuatro veces la muestra.
  • La calidad de la muestra controla el sesgo, y el sesgo es el problema más grave. Una encuesta de un millón de personas que visitan el mismo sitio web te habla de ese sitio web, no del país. Ningún tamaño de muestra corrige una muestra que excluye sistemáticamente a ciertos grupos. La representatividad va primero; el tamaño solo afina una muestra que ya es justa.

Por eso la pregunta que debes hacerte sobre cualquier estadística no es solo "¿qué tan grande fue el estudio?" sino "¿quién estaba realmente en él y quién fue excluido?".

Trampas comunes que debes detectar

La estadística es honesta. La forma en que se reporta muchas veces no lo es. Algunos patrones que conviene identificar:

  • El promedio que borra la diversidad. "La satisfacción promedio del cliente es alta" puede ocultar un grupo dividido entre clientes muy satisfechos y muy insatisfechos, con casi nadie en el medio. Pregunta siempre por la dispersión, no solo por el centro.
  • El eje truncado. Un gráfico de barras cuyo eje vertical empieza en 90 en lugar de 0 convierte una diferencia minúscula en un precipicio dramático. Los números son reales; la imagen miente.
  • El denominador que falta. "Los casos se duplicaron" no dice nada sin saber si fue de dos a cuatro o de dos millones a cuatro millones. Un cambio porcentual solo es significativo en relación con la base sobre la que se mide.
  • Los puntos de corte elegidos a conveniencia. Elige las fechas de inicio y fin correctas y casi cualquier tendencia puede hacerse apuntar hacia arriba o hacia abajo.

Cómo se conecta esto con el resto de las matemáticas

La estadística no existe de forma aislada. Se asienta sobre ideas que quizás ya conoces. Está construida a partir de la probabilidad, que aporta las reglas sobre cómo se comportan las muestras aleatorias y de dónde vienen los márgenes de error. Se apoya en los porcentajes y las proporciones para casi todos los resultados que reporta. Y las curvas suaves en las que se basa, los cálculos de área bajo la curva normal que convierten una distribución en una probabilidad, son las mismas ideas de integración del cálculo, aplicadas a los datos.

Cuando practicas estadística en Math Zen, los problemas avanzan desde las medidas descriptivas (calcular y comparar medias, medianas y desviaciones estándar) hasta la lectura de distribuciones y el razonamiento sobre muestras. Trabajarlos a mano, en lugar de dejar que una calculadora escupa un número, es lo que construye el instinto para hacer las preguntas correctas: ¿es honesto este centro?, ¿es la dispersión lo suficientemente pequeña como para confiar en ella?, ¿esta correlación realmente me está diciendo algo? Combinar esos tipos de problemas a lo largo del tiempo, usando la repetición espaciada integrada en el flujo de práctica, es lo que hace que la intuición perdure en lugar de desvanecerse después del examen.

La conclusión

La estadística tiene dos funciones: describir los datos que tienes e inferir sobre los datos que no tienes. Para describir se necesitan tres números: un centro (media o mediana, y la elección importa cuando los datos son asimétricos), una dispersión (desviación estándar, la distancia típica respecto al centro) y una forma (generalmente la curva de campana). Para inferir se necesita una muestra que sea representativa primero y grande después, y un margen de error honesto.

La próxima vez que veas una estadística, no te limites a leer el número. Pregunta: ¿media o mediana? ¿Cuánta dispersión hay? ¿Quién formaba parte de la muestra? ¿Correlación o causalidad? Esas cuatro preguntas transforman la estadística de una pared de fórmulas en una herramienta para no dejarte engañar.

Preguntas comunes

¿Cuál es la diferencia entre media, mediana y moda?
La media es el promedio aritmético: la suma de todos los valores dividida entre la cantidad de datos. La mediana es el valor central cuando los datos están ordenados, con la mitad por encima y la mitad por debajo. La moda es el valor que aparece con más frecuencia. Las tres coinciden cuando los datos son simétricos, pero se separan cuando los datos son asimétricos, que es justamente cuando la elección importa.
¿Cuándo debo usar la mediana en lugar de la media?
Usa la mediana cuando unos pocos valores extremos podrían arrastrar la media hacia un lugar poco representativo. Los ingresos, los precios de las casas y los tiempos de respuesta son ejemplos clásicos. Un multimillonario en una sala llena de maestros hace que la media de ingresos sea engañosa, pero la mediana sigue describiendo a una persona típica en esa sala.
¿Qué mide en realidad la desviación estándar?
La desviación estándar mide cuán dispersos están los datos alrededor de la media, en las mismas unidades que los propios datos. Una desviación estándar pequeña significa que los valores se agrupan cerca del promedio. Una grande significa que se dispersan ampliamente. Responde la pregunta que la media no puede responder: qué tan típico es lo típico.
¿Cuál es la diferencia entre correlación y causalidad?
Correlación significa que dos cosas tienden a moverse juntas. Causalidad significa que una realmente provoca que la otra ocurra. Las ventas de helado y los ahogamientos aumentan juntos en verano, pero ninguno causa al otro; el calor estival impulsa a ambos. La correlación es una pista que vale la pena investigar, nunca una prueba por sí sola.
¿Por qué es mejor un tamaño de muestra mayor?
Las muestras más grandes reducen el ruido aleatorio, por lo que el resultado tiene más probabilidades de reflejar la población real. El truco es que el tamaño no puede corregir una muestra sesgada. Una encuesta de un millón de personas que visitan el mismo sitio web sigue siendo parcial. La representatividad importa más que el tamaño bruto, y solo después de garantizarla es que el tamaño afina la estimación.