math-concepts

Comprendre les statistiques intuitivement (ce que la « moyenne » cache)

29 mai 202612 min de lecture
Comprendre les statistiques intuitivement (ce que la « moyenne » cache)

Les statistiques sont l'art mathématique de donner un sens aux données, d'extraire un signal fiable d'un amas de nombres qui varient. Elles remplissent deux missions : elles résument ce que vous possédez déjà (une série de notes d'examen, un mois de ventes) et elles vous permettent de raisonner sur ce que vous ne pouvez pas observer dans son intégralité (l'opinion d'un pays entier à partir d'un sondage de mille personnes). Cet article construit ces deux idées depuis zéro, puis montre d'où viennent réellement les termes familiers (moyenne, médiane, écart-type, courbe en cloche).

Les statistiques souffrent d'un problème de réputation. Beaucoup d'élèves les rencontrent comme un sac de formules à mémoriser : celle-ci pour la variance, celle-là pour l'erreur type, une troisième pour le coefficient de corrélation. On applique les formules, on calcule les réponses, et le sens n'arrive jamais.

Corrigeons cela.

Deux missions, pas une

Tout ce qu'aborde un cours d'introduction aux statistiques se range dans l'une de deux catégories.

Les statistiques descriptives résument les données que vous avez. Si vous mesurez la taille de chaque élève d'une école, les statistiques descriptives ramènent ces centaines de nombres à quelques-uns qui en capturent l'essence : une taille typique, l'ampleur de la variation des tailles, l'allure de la distribution.

Les statistiques inférentielles raisonnent sur des données que vous n'avez pas. Vous ne pouvez pas mesurer la taille de chaque adulte sur Terre, alors vous mesurez un échantillon et vous en déduisez quelque chose sur l'ensemble. C'est là que vivent les sondages, les essais cliniques et le contrôle qualité. C'est la moitié la plus puissante, et elle repose entièrement sur la moitié descriptive.

Presque toute confusion en statistiques se dissipe dès que vous vous demandez : suis-je en train de décrire ce que j'ai, ou d'inférer sur ce que je n'ai pas ? Commençons par décrire.

Le centre : où se situent les données

La première question que l'on se pose face à un jeu de données est : « quelle est une valeur typique ? » Il existe trois réponses honnêtes, et elles divergent à dessein.

La moyenne est ce que la plupart des gens appellent la moyenne tout court : on additionne tout, on divise par l'effectif. Elle utilise chaque valeur, ce qui constitue à la fois sa force et sa faiblesse.

La médiane est la valeur centrale une fois les données triées. La moitié des valeurs se trouvent au-dessus, l'autre moitié en dessous. Elle ignore à quel point les valeurs extrêmes sont extrêmes et ne se soucie que de la position.

Le mode est la valeur qui revient le plus souvent. C'est la seule mesure qui fonctionne pour des choses que l'on ne peut pas moyenner, comme la pointure de chaussure la plus vendue.

Pour des données symétriques, ces trois mesures tombent à peu près au même endroit, et la distinction paraît théorique. Elle cesse d'être théorique à l'instant où les données deviennent asymétriques.

Imaginez une salle réunissant neuf enseignants et un milliardaire. La médiane des revenus décrit un enseignant ordinaire, car la personne du milieu est un enseignant. La moyenne des revenus se chiffre en dizaines de millions, car le milliardaire la tire vers le haut. Les deux nombres sont exacts. Un seul est honnête au sujet d'une personne typique présente dans la salle.

C'est l'habitude la plus importante à prendre pour lire les statistiques : quand quelqu'un annonce une « moyenne », demandez-vous s'il s'agit d'une moyenne arithmétique ou d'une médiane, et demandez-vous si les données sont asymétriques. Les revenus, les prix de l'immobilier, les temps d'attente et les nombres de vues sont presque toujours asymétriques, et la moyenne les embellit presque toujours.

La dispersion : pourquoi le centre ne suffit pas

Deux jeux de données peuvent partager exactement la même moyenne et n'avoir rien en commun.

Notes de la classe A : 70, 72, 70, 68, 70. Moyenne : 70. Notes de la classe B : 40, 95, 100, 50, 65. Moyenne : 70.

Même moyenne, histoires totalement différentes. La classe A est régulière. La classe B est chaotique. La moyenne seule ne permet pas de les distinguer, il nous faut donc un nombre pour la dispersion.

La version grossière est l'étendue, la plus grande valeur moins la plus petite. Elle est simple mais fragile, car elle ne dépend que de deux nombres et une seule valeur aberrante la ruine.

La version sérieuse est l'écart-type, et l'idée qui le sous-tend est plus simple que ne le laisse croire sa formule. Demandez-vous : en moyenne, à quelle distance chaque valeur se trouve-t-elle de la moyenne ? Mesurez la distance de chaque valeur à la moyenne, puis prenez une sorte de moyenne de ces distances. Un écart-type faible signifie que tout se blottit près du centre (classe A). Un écart-type élevé signifie que les valeurs sont projetées au loin dans tous les sens (classe B).

Si la formule élève les distances au carré, puis prend une racine carrée à la fin (au lieu de simplement faire la moyenne des distances brutes), c'est essentiellement pour que les écarts positifs et négatifs ne s'annulent pas, et pour que les écarts plus grands pèsent davantage. Mais le sens ne change jamais : l'écart-type est la distance typique à la moyenne, exprimée dans les mêmes unités que les données. Si les notes d'un examen ont un écart-type de 8 points, alors « à 8 points près » donne une idée de l'amplitude avec laquelle les notes s'éloignent.

La moyenne vous dit où. L'écart-type vous dit à quel point vous pouvez vous fier à ce « où » pour décrire un cas particulier.

La forme : la courbe en cloche et pourquoi elle est partout

Une fois que vous disposez du centre et de la dispersion, la question naturelle suivante porte sur la forme globale des données. Représentez la fréquence d'apparition de chaque valeur et vous obtenez une distribution.

La forme la plus célèbre est la loi normale, la courbe en cloche : symétrique, avec la plupart des valeurs regroupées près de la moyenne et de moins en moins de valeurs à mesure que l'on s'éloigne vers les extrêmes. Les tailles, les erreurs de mesure et de nombreuses grandeurs naturelles la suivent de près.

La courbe en cloche apparaît si souvent pour une raison profonde. Lorsqu'une grandeur est la somme de nombreuses petites influences indépendantes (votre taille, c'est les gènes plus la nutrition plus le sommeil plus une centaine d'autres facteurs), le résultat tend vers une courbe en cloche, presque indépendamment du comportement de chaque influence prise isolément. C'est l'idée approximative derrière l'un des résultats les plus importants de toutes les statistiques, le théorème central limite, et c'est pourquoi la loi normale constitue la toile de fond par défaut d'une grande partie de l'inférence.

La courbe en cloche donne aussi à l'écart-type une portée concrète. Pour des données normales, environ 68 pour cent des valeurs se situent à moins d'un écart-type de la moyenne, environ 95 pour cent à moins de deux, et environ 99,7 pour cent à moins de trois. Donc si la taille des adultes a une moyenne de 170 cm et un écart-type de 7 cm, alors environ 95 pour cent des personnes se situent entre 156 et 184 cm. Le nombre de dispersion cesse d'être abstrait et se met à prédire où les choses se situent réellement.

Corrélation n'est pas causalité

Lorsque deux grandeurs évoluent ensemble, on dit qu'elles sont corrélées. Les personnes plus grandes ont tendance à peser plus lourd : la taille et le poids sont corrélés positivement. Quand l'une augmente, l'autre aussi.

Le piège consiste à prendre la corrélation pour une preuve de cause. Les ventes de glaces et les décès par noyade augmentent ensemble chaque été. La glace ne provoque pas la noyade. Un troisième facteur caché, la chaleur, entraîne les deux. C'est une variable de confusion, et c'est la raison pour laquelle la corrélation seule n'établit jamais la causalité.

La corrélation est un véritable indice. Elle vous indique où chercher. Mais pour affirmer que A cause B, il vous faut davantage : une expérience contrôlée, un mécanisme plausible, et l'élimination des facteurs de confusion. Les gros titres qui annoncent que « les gens qui font X vivent plus longtemps » reposent presque toujours sur une corrélation, et vont presque toujours trop loin. Lire cela avec scepticisme est l'une des choses les plus utiles qu'enseignent les statistiques.

L'inférence : comment quelques-uns parlent au nom du plus grand nombre

Voici maintenant la moitié puissante. Un sondage national portant sur 1 000 personnes prétend représenter 300 millions. Comment cela peut-il ne pas être absurde ?

L'idée clé est que le hasard est prévisible en masse. Si votre échantillon est véritablement aléatoire et représentatif, les mathématiques des probabilités vous indiquent l'ampleur probable de l'écart de votre estimation. Cette incertitude se traduit par une marge d'erreur : « 52 pour cent, plus ou moins 3 points » signifie que la valeur réelle se situe très probablement entre 49 et 55 pour cent.

Deux éléments déterminent si vous pouvez vous fier à une inférence :

  • La taille de l'échantillon maîtrise le bruit aléatoire. Des échantillons plus grands donnent des marges d'erreur plus étroites, mais avec des rendements décroissants : diviser l'erreur par deux exige environ quatre fois plus d'échantillon.
  • La qualité de l'échantillon maîtrise le biais, et le biais est le problème le plus redoutable. Un sondage portant sur un million de personnes qui consultent toutes le même site vous renseigne sur ce site, pas sur le pays. Aucune taille d'échantillon ne corrige un échantillon qui exclut systématiquement certaines personnes. La représentativité passe en premier ; la taille ne fait qu'affiner un échantillon déjà équitable.

Voilà pourquoi la question à se poser face à n'importe quelle statistique n'est pas seulement « quelle était la taille de l'étude » mais « qui en faisait réellement partie, et qui a été laissé de côté ».

Pièges courants à surveiller

Les statistiques sont honnêtes. La manière dont on les rapporte ne l'est souvent pas. Quelques schémas à repérer :

  • La moyenne qui gomme tout. « La satisfaction client moyenne est élevée » peut masquer une clientèle scindée entre clients très satisfaits et clients très mécontents, avec presque personne au milieu. Interrogez-vous toujours sur la dispersion, pas seulement sur le centre.
  • L'axe tronqué. Un diagramme en barres dont l'axe vertical commence à 90 au lieu de 0 transforme un écart minuscule en falaise spectaculaire. Les nombres sont réels ; l'image ment.
  • Le dénominateur absent. « Les cas ont doublé » ne veut rien dire si l'on ignore s'il s'agit de deux à quatre ou de deux millions à quatre millions. Une variation en pourcentage n'a de sens qu'au regard de la base sur laquelle elle est mesurée.
  • Les bornes choisies sur mesure. En sélectionnant les bonnes dates de début et de fin, on peut faire pointer presque n'importe quelle tendance vers le haut ou vers le bas.

Comment cela se rattache au reste des mathématiques

Les statistiques ne tiennent pas debout toutes seules. Elles s'appuient sur des idées que vous avez peut-être déjà rencontrées. Elles sont bâties à partir des probabilités, qui fournissent les règles régissant le comportement des échantillons aléatoires et l'origine des marges d'erreur. Elles s'appuient sur les pourcentages et les proportions pour presque chaque résultat qu'elles rapportent. Et les courbes lisses sur lesquelles elles reposent, les calculs d'aire sous la courbe en cloche qui transforment une distribution en probabilité, sont les mêmes idées d'intégration que celles du calcul différentiel et intégral, appliquées aux données.

Lorsque vous pratiquez les statistiques dans Math Zen, les exercices progressent des mesures descriptives (calculer et comparer des moyennes, des médianes et des écarts-types) vers la lecture de distributions et le raisonnement sur des échantillons. Les résoudre à la main, plutôt que de laisser une calculatrice cracher un nombre, c'est ce qui développe le réflexe de poser la bonne question : ce centre est-il honnête, cette dispersion est-elle assez faible pour qu'on s'y fie, cette corrélation me dit-elle réellement quelque chose ? Mélanger ces types d'exercices au fil du temps, grâce à la répétition espacée intégrée au flux de pratique, c'est ce qui ancre l'intuition au lieu de la laisser s'effacer après l'examen.

À retenir

Les statistiques, ce sont deux missions : décrire les données que vous avez et inférer sur les données que vous n'avez pas. Décrire requiert trois nombres : un centre (moyenne ou médiane, et le choix compte lorsque les données sont asymétriques), une dispersion (l'écart-type, la distance typique au centre) et une forme (souvent la courbe en cloche). Inférer requiert un échantillon d'abord représentatif et ensuite grand, ainsi qu'une marge d'erreur honnête.

La prochaine fois que vous croisez une statistique, ne vous contentez pas de lire le nombre. Demandez-vous : moyenne ou médiane ? Quelle dispersion ? Qui figurait dans l'échantillon ? Corrélation ou cause ? Ces quatre questions transforment les statistiques d'un mur de formules en un outil pour ne pas se laisser duper.

Questions fréquentes

Quelle est la différence entre la moyenne, la médiane et le mode ?
La moyenne est la moyenne arithmétique, la somme de toutes les valeurs divisée par leur nombre. La médiane est la valeur centrale une fois les données triées, avec la moitié au-dessus et la moitié en dessous. Le mode est la valeur qui apparaît le plus souvent. Ces trois mesures coïncident pour des données symétriques, mais elles s'écartent dès que les données sont asymétriques, c'est-à-dire précisément au moment où le choix compte.
Quand faut-il utiliser la médiane plutôt que la moyenne ?
Utilisez la médiane chaque fois que quelques valeurs extrêmes risquent de tirer la moyenne vers une zone non représentative. Les revenus, les prix de l'immobilier et les temps de réponse en sont des cas classiques. Un seul milliardaire dans une salle remplie d'enseignants rend la moyenne des revenus trompeuse, alors que la médiane continue de décrire une personne typique présente dans la salle.
Que mesure réellement l'écart-type ?
L'écart-type mesure la dispersion des données autour de la moyenne, dans les mêmes unités que les données elles-mêmes. Un écart-type faible signifie que les valeurs se regroupent étroitement près de la moyenne. Un écart-type élevé signifie qu'elles se dispersent largement. Il répond à la question à laquelle la moyenne ne peut pas répondre : à quel point « typique » est-il vraiment typique.
Quelle est la différence entre corrélation et causalité ?
La corrélation signifie que deux choses ont tendance à évoluer ensemble. La causalité signifie que l'une provoque réellement l'autre. Les ventes de glaces et les noyades augmentent ensemble, mais aucune ne cause l'autre : c'est la chaleur estivale qui entraîne les deux. La corrélation est un indice à explorer, jamais une preuve en soi.
Pourquoi un échantillon de plus grande taille est-il préférable ?
Les échantillons plus grands réduisent le bruit aléatoire, de sorte que le résultat a plus de chances de refléter la population réelle. Le piège : la taille ne corrige pas un échantillon biaisé. Un sondage portant sur un million de personnes qui consultent toutes le même site reste faussé. La représentativité compte davantage que la taille brute, et ce n'est qu'ensuite que la taille affine l'estimation.