Comprendre les probabilités de façon intuitive (pourquoi « une chance sur un million » vous ment)

La météo annonce 30 pour cent de risque de pluie. Un test médical pour une maladie rare revient positif. Le jackpot de la loterie atteint 200 millions de dollars et votre collègue achète une pile de tickets. Dans chacune de ces situations, votre instinct a un avis, et votre instinct se trompe le plus souvent. Les probabilités sont le domaine où l'intuition mathématique trahit le plus de gens, le plus souvent, même les esprits brillants, même ceux qui enseignent la matière. Les chiffres ne sont pas difficiles. Ce sont les réflexes qui les entourent qui induisent en erreur.
Cet article dresse le tableau de ce qu'est réellement une probabilité, des raisons pour lesquelles nos intuitions habituelles se brisent, et de la façon de les corriger. Les calculs sont simples. Le changement de point de vue est la partie la plus difficile, et il porte ses fruits dans presque tous les domaines qu'une personne touchera un jour : météo, médecine, sport, finance, jeux d'argent, apprentissage automatique, et même les décisions ordinaires sur le risque de prendre l'avion plutôt que la voiture.
L'idée centrale : compter
Retirez tout le reste, et la probabilité se résume à compter. Pour trouver la probabilité d'un événement, vous comptez les issues où l'événement se produit, puis vous divisez par le nombre total d'issues de départ. C'est toute la définition. Chaque formule du chapitre n'est qu'une manière soignée de compter.
Lancez un dé à six faces équilibré. La chance d'obtenir un 4 est d'une issue (un 4) divisée par six issues au total (de 1 à 6), soit 1/6. La chance d'obtenir un nombre pair est de trois issues (2, 4, 6) divisées par six au total, soit 3/6, c'est-à-dire 1/2. La chance d'obtenir un nombre supérieur à 7 est de zéro issue divisée par six, soit 0, parce qu'aucune issue de ce genre n'existe.
Si ce tableau ressemble à des fractions, c'est parce que c'en est. Comme nous l'avons montré dans l'article sur les fractions, une fraction est une division qui n'attend qu'à être effectuée. La probabilité, c'est exactement cette même idée appliquée aux issues : celles qui correspondent sur l'ensemble de toutes. Toute la matière n'est que des fractions, du début à la fin.
Le piège, c'est que « compter les issues » devient plus difficile à mesure que les situations se compliquent. Le reste du chapitre, les permutations, les combinaisons, la probabilité conditionnelle, le théorème de Bayes, n'est qu'une comptabilité minutieuse pour bien compter quand la situation n'est pas aussi simple qu'un dé.
Les événements indépendants : quand les probabilités se multiplient
Supposons que vous lanciez deux fois une pièce équilibrée. Quelle est la probabilité d'obtenir pile deux fois de suite ?
Beaucoup de gens répondent 1/2 plus 1/2, soit 1, ce qui ne peut évidemment pas être juste. Certains répondent 1/2, ce qui semble plus prudent mais reste faux. La bonne réponse est 1/2 fois 1/2, soit 1/4, et le raisonnement mérite qu'on s'y attarde un instant, car c'est l'étape qui met l'intuition de la plupart des débutants en échec.
Quand deux événements sont indépendants (l'issue de l'un n'a aucun effet sur l'issue de l'autre), la probabilité que les deux se produisent est le produit de leurs probabilités individuelles. Pourquoi multiplier ? Énumérez toutes les issues possibles de deux lancers de pièce : PP, PF, FP, FF. Il y en a quatre au total, et une seule d'entre elles est PP, donc la réponse est 1/4. La multiplication n'est qu'un raccourci pour cette énumération.
La même idée explique pourquoi les longues séries sont si rares. La chance d'obtenir pile dix fois de suite est (1/2) à la puissance dix, soit environ 1 sur 1 024. Pas impossible, mais pas courant. Et la chance de deviner au hasard un code à six chiffres est (1/10) à la puissance six, soit une chance sur un million. C'est le genre de « une chance sur un million » qui est bien réel. Nous allons bientôt en rencontrer plusieurs qui ne le sont pas.
Quand les événements ne sont pas indépendants
L'indépendance est l'hypothèse qui fait dérailler plus de problèmes de probabilité que n'importe quelle autre. Si vous tirez deux cartes d'un jeu sans remettre la première, la probabilité de la deuxième carte n'est pas la même que celle de la première, car le jeu a changé. Il y a 52 cartes et 4 as, donc la probabilité de tirer un as en premier est de 4/52. Après avoir tiré un as, le jeu compte 51 cartes et 3 as, donc la probabilité d'un second as est de 3/51. La probabilité de deux as d'affilée est donc de 4/52 fois 3/51, soit environ 0,45 pour cent.
C'est la probabilité conditionnelle : la probabilité d'un événement sachant qu'un autre s'est déjà produit. Elle s'écrit P(B sachant A), et c'est ce que la plupart des raisonnements du monde réel cherchent vraiment. « Quelle est la chance qu'il pleuve demain ? » est un nombre. « Quelle est la chance qu'il pleuve demain sachant que le radar montre une cellule orageuse au-dessus de la ville ? » est un nombre différent, bien plus élevé. La nouvelle information réorganise le décompte des issues pertinentes.
La plupart des « paradoxes » en probabilité sont des problèmes de probabilité conditionnelle où le conditionnement est discrètement caché. Démêlez le conditionnement, et le paradoxe disparaît en général.
Le paradoxe des anniversaires
Voici une question qui prend presque tout le monde au dépourvu. Dans une salle de 23 personnes, quelle est la probabilité qu'au moins deux d'entre elles partagent le même anniversaire ?
La réponse intuitive est faible, parce qu'il y a 365 jours et seulement 23 personnes. La vraie réponse dépasse à peine 50 pour cent. Avec 50 personnes dans la salle, elle grimpe à 97 pour cent. Avec 70 personnes, elle dépasse 99,9 pour cent. C'est le paradoxe des anniversaires, et ce n'est pas un bug de l'univers. C'est un bug dans la façon dont l'intuition compte.
Le piège, c'est que vous ne demandez pas « quelle est la probabilité que quelqu'un partage mon anniversaire ». Vous demandez « quelle est la probabilité que deux personnes quelconques le partagent ». Avec 23 personnes, il y a 23 parmi 2, soit 253 paires de personnes différentes, et chaque paire a une petite chance de correspondre. Cela fait beaucoup de chances, et les petites probabilités s'additionnent plus vite que l'instinct ne le prévoit.
La leçon est générale. Quand le nombre d'occasions pour qu'un événement se produise croît de façon quadratique (chaque paire, chaque interaction), les événements rares deviennent vite courants. Une chance sur 365 par paire se transforme en une chance supérieure à une sur deux globalement, dès lors qu'il y a 253 paires.
Les taux de base et l'astuce de « une chance sur un million »
Un test médical est « fiable à 99 pour cent » pour une maladie qui touche 1 personne sur 10 000. Vous êtes testé positif. Quelle est la probabilité que vous soyez réellement atteint de la maladie ?
Beaucoup de gens, y compris des médecins, estiment ce chiffre autour de 99 pour cent. La bonne réponse est plus proche de 1 pour cent.
Voici pourquoi. Imaginez 10 000 personnes au hasard. Environ 1 d'entre elles a la maladie, et le test la détectera probablement. Les 9 999 autres ne l'ont pas, mais un test fiable à 99 pour cent classe à tort 1 pour cent des personnes saines comme positives, soit environ 100 faux positifs. Donc, sur 101 résultats positifs, 100 sont de fausses alertes et 1 seul est réel. La probabilité que vous soyez réellement atteint de la maladie, sachant un test positif, est d'environ 1 sur 101, soit à peu près 1 pour cent.
C'est le biais de négligence du taux de base. Quand l'événement sous-jacent est rare (faible taux de base), même un test très fiable produit surtout des faux positifs. La plupart des gens ignorent complètement le taux de base et ne pensent qu'à la fiabilité du test, ce qui les conduit à un chiffre faux de deux ordres de grandeur.
La leçon se généralise bien au-delà de la médecine. « Une chance sur un million » est un nombre qui devrait toujours déclencher une question de suivi : une chance sur un million de quoi ? Une chance sur un million par jour, par an, par tentative, par personne ? Un événement à une chance sur un million par jour se produit environ 365 fois par an si le monde a assez de jours, et environ 8 milliards de fois par an si le monde a assez de personnes. Une fois que vous intégrez la population et la fenêtre temporelle, « une chance sur un million » cesse en général de paraître rare. Le titre qui ouvre cet article fonctionne de la même manière : la plupart des « miracles » rapportés dans les actualités sont des événements à une chance sur un million qui ont eu plusieurs milliards d'occasions de se produire.
Le sophisme du joueur
Une roue de roulette est sortie rouge huit fois de suite. Le noir est sûrement attendu, non ?
Non. La roue n'a pas de mémoire. La probabilité du noir au prochain tour est la même qu'au premier. C'est le sophisme du joueur, la croyance selon laquelle des événements indépendants passés modifient les probabilités des événements futurs. Ce n'est pas le cas.
La version miroir de la même erreur est le sophisme de la main chaude : la croyance qu'un joueur qui vient de réussir plusieurs tirs d'affilée a plus de chances de réussir le suivant. Pour les lancers de pièce et la roulette, c'est clairement faux, parce que l'appareil n'a pas de mémoire. Pour la performance humaine, le tableau est réellement plus nuancé (le talent existe, l'élan existe parfois), mais la leçon de fond tient : la plupart des séries sont une reconnaissance de motifs par un animal qui a évolué pour trouver des motifs, qu'ils soient présents ou non.
Où les probabilités apparaissent
Une fois que vous tenez le cadre du comptage, les probabilités apparaissent partout.
Les prévisions météo : un risque de pluie de 30 pour cent signifie que, sur un grand ensemble de conditions atmosphériques similaires, il a plu dans environ 30 pour cent des cas. Ce n'est pas une garantie, et ce n'est pas un tirage à pile ou face.
La médecine : chaque test, dépistage et score de risque met en jeu l'astuce du taux de base évoquée plus haut. Un test « positif » veut dire des choses très différentes pour des affections courantes et pour des affections rares, et « fiable à 99 pour cent » sans taux de base ne veut presque rien dire.
L'assurance et la finance : chaque prime, rendement espéré et modèle de risque est une moyenne pondérée sur les issues possibles. Le calcul, c'est simplement la probabilité multipliée par le gain, sommée sur tous les scénarios possibles.
Les examens standardisés : le SAT, l'ACT, le GRE, l'AP Statistics et le GCSE incluent tous des questions de probabilité, et beaucoup d'entre elles sont des problèmes de probabilité conditionnelle déguisés. Comme nous l'avons souligné dans notre guide de préparation au SAT, l'astuce n'est pas le calcul, c'est de reconnaître la structure.
L'apprentissage automatique : chaque classifieur produit des probabilités, et chaque métrique (précision, rappel, courbes ROC) est une application soignée de la probabilité conditionnelle et des taux de base. Le biais de négligence du taux de base frappe encore ici : un modèle fiable à 99 pour cent sur un événement rare peut tout de même être inutile en production.
Estimer les probabilités rapidement
La plupart des questions de probabilité de la vie réelle n'ont pas besoin d'une réponse exacte. Elles ont besoin d'une estimation rapide et défendable. Voici les gestes qui vous mènent presque au bout.
Traduisez d'abord en fraction, puis en pourcentage ou en décimal. « 1 sur 100 » c'est 1/100, c'est 1 pour cent, c'est 0,01. Comme nous l'avons vu dans les astuces de calcul mental, l'aisance avec ces conversions est l'une des compétences les plus rentables que vous puissiez développer, car presque tout problème de probabilité se termine par une traduction entre notations.
Cherchez toujours le taux de base, surtout quand on vous tend un chiffre de fiabilité pour un événement rare. Si le taux de base est faible, le chiffre de fiabilité est trompeur.
Vérifiez soigneusement l'indépendance. Deux événements semblent indépendants alors qu'en réalité l'un entraîne l'autre (les résultats de tests chez un même patient, les actions d'un même secteur, les élèves d'une même classe). Quand des événements partagent une cause cachée, multiplier les probabilités donne une réponse soit trop petite, soit trop grande.
Mettez « une chance sur un million » à l'épreuve. Demandez : sur un million de quoi, parmi combien de personnes, sur quelle durée ? La plupart des événements « rares » ne le sont plus une fois que vous comptez les occasions.
Comment la pratique forge le réflexe
La probabilité est le sujet où la reconnaissance de motifs compte le plus, parce que le même problème se présente sous vingt costumes différents. L'élève qui a vu et revu les structures (indépendant contre dépendant, avec remise contre sans remise, conditionnel contre conjoint) commence à repérer la structure en quelques secondes, et le calcul découle de cette reconnaissance.
La progression par paliers de Math Zen épouse parfaitement la façon dont le sujet veut réellement être appris. Les premiers paliers couvrent le comptage des issues pour des expériences simples (dés, cartes, pièces). Les paliers intermédiaires entraînent la règle de la multiplication et la règle de l'addition pour les unions, avec une pratique mixte afin que le cerveau apprenne à identifier la situation plutôt qu'à appliquer aveuglément une formule. Les paliers ultérieurs travaillent la probabilité conditionnelle, l'espérance et les casse-têtes classiques (paradoxe des anniversaires, Monty Hall, problèmes de taux de base). Parce que la pratique est courte et espacée, vous avez des occasions répétées de reconnaître la structure, et c'est ce qui finit par transformer les règles en réflexes.
L'essentiel
La probabilité tient en une seule idée : comptez les issues qui correspondent, divisez par toutes les issues qui existent, et restez honnête sur le fait que les événements que vous comptez sont réellement indépendants ou non. Les « paradoxes » ne sont que des situations où l'instinct compte autre chose que les mathématiques. Multipliez quand les événements sont indépendants. Additionnez quand vous voulez la chance de l'un ou de l'autre (en soustrayant le chevauchement, pour ne pas le compter deux fois). Conditionnez quand une nouvelle information arrive. Cherchez toujours le taux de base, surtout quand on vous tend une « chance sur un million ».
Dès que vous commencez à demander « une chance sur un million de quoi, par quoi, parmi combien ? », le monde quotidien cesse de paraître aléatoire de la même manière. La loterie devient une petite perte espérée avec de rares jackpots. Le test médical devient une question de taux de base. La bonne série devient une coïncidence que le cerveau habille de causalité. Les chiffres ne changent pas, mais votre façon de les lire, oui, et ce changement porte ses fruits pour toujours.


