Statistik intuitiv verstehen (was der "Durchschnitt" verbirgt)

Statistik ist die Mathematik, mit der wir aus Daten Sinn machen, also ein verlässliches Signal aus einem Haufen schwankender Zahlen herausziehen. Sie erfüllt zwei Aufgaben: Sie fasst zusammen, was du bereits hast (eine Klasse voller Testergebnisse, ein Monat an Verkäufen), und sie erlaubt dir, über das nachzudenken, was du nicht vollständig sehen kannst (die Meinung eines ganzen Landes aus einer Umfrage unter tausend Menschen). Dieser Artikel baut beide Ideen von Grund auf auf und zeigt dann, woher die vertrauten Begriffe (Mittelwert, Median, Standardabweichung, die Glockenkurve) eigentlich stammen.
Statistik hat ein Imageproblem. Viele Lernende begegnen ihr als einem Sack voller Formeln zum Auswendiglernen: diese für die Varianz, jene für den Standardfehler, eine dritte für den Korrelationskoeffizienten. Die Formeln werden angewendet, die Antworten werden berechnet, und die Bedeutung stellt sich nie ein.
Das wollen wir ändern.
Zwei Aufgaben, nicht eine
Alles in einem Einführungskurs zur Statistik fällt in einen von zwei Bereichen.
Deskriptive Statistik fasst Daten zusammen, die du hast. Wenn du die Körpergröße jeder Schülerin und jedes Schülers einer Schule gemessen hast, kocht die deskriptive Statistik diese Hunderten von Zahlen auf einige wenige herunter, die das Wesentliche einfangen: eine typische Größe, wie stark die Größen schwanken, wie die Form der Verteilung aussieht.
Schließende Statistik schließt auf Daten, die du nicht hast. Du kannst nicht die Größe jedes Erwachsenen auf der Erde messen, also misst du eine Stichprobe und folgerst daraus etwas über alle. Hier leben Umfragen, medizinische Studien und Qualitätskontrolle. Sie ist die mächtigere Hälfte, und sie ruht vollständig auf der deskriptiven Hälfte.
Fast jede Verwirrung in der Statistik löst sich auf, sobald du fragst: Beschreibe ich, was ich habe, oder schließe ich auf das, was ich nicht habe? Fang mit dem Beschreiben an.
Das Zentrum: wo die Daten sitzen
Die erste Frage zu jedem Datensatz lautet: "Was ist ein typischer Wert?" Darauf gibt es drei ehrliche Antworten, und sie widersprechen sich mit Absicht.
Der Mittelwert ist das, was die meisten als Durchschnitt bezeichnen: alles addieren, durch die Anzahl teilen. Er nutzt jeden einzelnen Wert, was zugleich seine Stärke und seine Schwäche ist.
Der Median ist der mittlere Wert, sobald du die Daten sortierst. Die Hälfte der Werte liegt darüber, die Hälfte darunter. Er kümmert sich nicht darum, wie extrem die Extreme sind, sondern nur um die Position.
Der Modus ist der Wert, der am häufigsten auftaucht. Er ist der Einzige, der für Dinge funktioniert, die man nicht mitteln kann, etwa die meistverkaufte Schuhgröße.
Bei symmetrischen Daten landen alle drei ungefähr an derselben Stelle, und die Unterscheidung wirkt akademisch. Sie hört in dem Moment auf, akademisch zu sein, in dem die Daten schief werden.
Stell dir einen Raum mit neun Lehrkräften und einem Milliardär vor. Der Median des Einkommens beschreibt eine normale Lehrkraft, weil die Person in der Mitte eine Lehrkraft ist. Das mittlere Einkommen liegt in den zweistelligen Millionen, weil der Milliardär es nach oben zieht. Beide Zahlen sind korrekt. Nur eine ist ehrlich über eine typische Person im Raum.
Das ist die wichtigste Gewohnheit beim Lesen von Statistiken: Wenn jemand einen "Durchschnitt" angibt, frage, ob es ein Mittelwert oder ein Median ist, und frage, ob die Daten schief sind. Einkommen, Immobilienpreise, Wartezeiten und Aufrufzahlen sind fast immer schief, und der Mittelwert schmeichelt ihnen fast immer.
Die Streuung: warum das Zentrum nicht genügt
Zwei Datensätze können exakt denselben Mittelwert haben und sich kein bisschen ähneln.
Ergebnisse von Klasse A: 70, 72, 70, 68, 70. Mittelwert: 70. Ergebnisse von Klasse B: 40, 95, 100, 50, 65. Mittelwert: 70.
Gleicher Durchschnitt, völlig verschiedene Geschichten. Klasse A ist beständig. Klasse B ist chaotisch. Der Mittelwert allein kann sie nicht auseinanderhalten, also brauchen wir eine Zahl für die Streuung.
Die grobe Version ist die Spannweite, also der größte Wert minus dem kleinsten. Sie ist einfach, aber fragil, denn sie hängt nur an zwei Zahlen, und ein einziger Ausreißer ruiniert sie.
Die ernsthafte Version ist die Standardabweichung, und die Idee dahinter ist einfacher, als die Formel vermuten lässt. Frage: Wie weit ist im Schnitt jeder Wert vom Mittelwert entfernt? Miss den Abstand jedes Werts zum Mittelwert und bilde dann eine Art Durchschnitt dieser Abstände. Eine kleine Standardabweichung bedeutet, dass sich alles nahe am Zentrum drängt (Klasse A). Eine große bedeutet, dass die Werte weit verstreut liegen (Klasse B).
Dass die Formel die Abstände quadriert und am Ende die Wurzel zieht (statt einfach die rohen Abstände zu mitteln), liegt vor allem daran, dass sich positive und negative Lücken sonst aufheben würden und dass größere Abweichungen stärker zählen sollen. Doch die Bedeutung ändert sich nie: Die Standardabweichung ist der typische Abstand vom Durchschnitt, angegeben in denselben Einheiten wie die Daten. Wenn Testergebnisse eine Standardabweichung von 8 Punkten haben, dann ist "plus minus 8 Punkte" dein Gefühl dafür, wie stark die Ergebnisse umherwandern.
Der Mittelwert sagt dir, wo. Die Standardabweichung sagt dir, wie sehr du dem "Wo" zutrauen kannst, einen einzelnen Fall zu beschreiben.
Die Form: die Glockenkurve und warum sie überall steckt
Sobald du Zentrum und Streuung hast, lautet die nächste natürliche Frage nach der gesamten Form der Daten. Trage auf, wie oft jeder Wert vorkommt, und du erhältst eine Verteilung.
Die berühmteste Form ist die Normalverteilung, die Glockenkurve: symmetrisch, mit den meisten Werten dicht um den Mittelwert und immer weniger, je weiter du dich zu den Extremen bewegst. Körpergrößen, Messfehler und viele natürliche Größen folgen ihr eng.
Die Glockenkurve taucht aus einem tiefen Grund so häufig auf. Wenn eine Größe die Summe vieler kleiner unabhängiger Einflüsse ist (deine Körpergröße ist Gene plus Ernährung plus Schlaf plus hundert weitere Anstöße), strebt das Ergebnis fast unabhängig davon, wie sich jeder einzelne Einfluss verhält, einer Glockenkurve zu. Das ist die grobe Idee hinter einem der wichtigsten Ergebnisse der gesamten Statistik, dem zentralen Grenzwertsatz, und deshalb ist die Normalverteilung die Standardkulisse für so viel Schließen.
Die Glockenkurve verleiht der Standardabweichung auch einen konkreten Nutzen. Bei normalverteilten Daten liegen etwa 68 Prozent der Werte innerhalb einer Standardabweichung vom Mittelwert, etwa 95 Prozent innerhalb von zwei und etwa 99,7 Prozent innerhalb von drei. Wenn also die Körpergröße Erwachsener einen Mittelwert von 170 cm und eine Standardabweichung von 7 cm hat, dann liegen rund 95 Prozent der Menschen zwischen 156 und 184 cm. Die Streuungszahl hört auf, abstrakt zu sein, und beginnt vorherzusagen, wo die Dinge tatsächlich landen.
Korrelation ist nicht Kausalität
Wenn sich zwei Größen zusammen bewegen, sagen wir, sie sind korreliert. Größere Menschen wiegen tendenziell mehr: Größe und Gewicht sind positiv korreliert. Geht das eine hoch, geht auch das andere hoch.
Die Falle besteht darin, Korrelation als Beweis für eine Ursache zu behandeln. Eisverkäufe und Ertrinkungsfälle steigen jeden Sommer gemeinsam an. Eis verursacht kein Ertrinken. Ein verborgener dritter Faktor, das heiße Wetter, treibt beides. Das ist eine Störvariable, und sie ist der Grund, warum Korrelation allein nie Kausalität belegt.
Korrelation ist ein echter Hinweis. Sie sagt dir, wo du suchen sollst. Doch um zu behaupten, dass A B verursacht, brauchst du mehr: ein kontrolliertes Experiment, einen plausiblen Mechanismus und das Ausschließen von Störvariablen. Die Schlagzeilen, die verkünden "Menschen, die X tun, leben länger", beruhen fast immer auf Korrelation und greifen fast immer zu weit. Das skeptisch zu lesen, ist eines der nützlichsten Dinge, die Statistik lehrt.
Schließen: wie wenige für viele sprechen
Jetzt die mächtige Hälfte. Eine landesweite Umfrage unter 1.000 Menschen behauptet, 300 Millionen zu repräsentieren. Wie ist das nicht absurd?
Die zentrale Einsicht lautet, dass Zufall in der Masse vorhersehbar ist. Wenn deine Stichprobe wirklich zufällig und repräsentativ ist, sagt dir die Mathematik der Wahrscheinlichkeit, wie weit deine Schätzung wahrscheinlich danebenliegt. Diese Unsicherheit wird als Fehlerspanne angegeben: "52 Prozent, plus minus 3 Punkte" bedeutet, dass der wahre Wert sehr wahrscheinlich zwischen 49 und 55 Prozent liegt.
Zwei Dinge bestimmen, ob du einem Schluss trauen kannst:
- Der Stichprobenumfang steuert das Zufallsrauschen. Größere Stichproben liefern engere Fehlerspannen, allerdings mit abnehmendem Ertrag: die Fehlerspanne zu halbieren erfordert etwa die vierfache Stichprobe.
- Die Stichprobenqualität steuert die Verzerrung, und die Verzerrung ist das gefährlichere Problem. Eine Umfrage unter einer Million Menschen, die alle dieselbe Website besuchen, sagt dir etwas über diese Website, nicht über das Land. Kein Stichprobenumfang heilt eine Stichprobe, die systematisch Menschen ausschließt. Repräsentativität kommt zuerst; Größe schärft nur eine bereits faire Stichprobe.
Deshalb lautet die Frage zu jeder Statistik nicht nur "Wie groß war die Studie", sondern "Wer war tatsächlich dabei, und wer blieb außen vor."
Häufige Fallen, auf die du achten solltest
Statistik ist ehrlich. Die Art, wie sie berichtet wird, ist es oft nicht. Ein paar Muster zum Erkennen:
- Der weggemittelte Durchschnitt. "Die durchschnittliche Kundenzufriedenheit ist hoch" kann eine gespaltene Menge aus sehr zufriedenen und sehr verärgerten Kunden verbergen, mit fast niemandem in der Mitte. Frag immer nach der Streuung, nicht nur nach dem Zentrum.
- Die abgeschnittene Achse. Ein Balkendiagramm, dessen senkrechte Achse bei 90 statt bei 0 beginnt, verwandelt einen winzigen Unterschied in eine dramatische Klippe. Die Zahlen sind echt; das Bild lügt.
- Der fehlende Nenner. "Die Fälle haben sich verdoppelt" ist bedeutungslos, ohne zu wissen, ob das von zwei auf vier oder von zwei Millionen auf vier Millionen geht. Eine prozentuale Veränderung ist nur so aussagekräftig wie die Basis, an der sie gemessen wird.
- Herausgepickte Endpunkte. Wähle den passenden Start- und Endtermin, und fast jeder Trend lässt sich nach oben oder unten zeigen.
Wie das mit dem Rest der Mathematik zusammenhängt
Statistik steht nicht für sich allein. Sie sitzt auf Ideen auf, denen du vielleicht schon begegnet bist. Sie ist aus der Wahrscheinlichkeit gebaut, die die Regeln dafür liefert, wie sich Zufallsstichproben verhalten und woher Fehlerspannen kommen. Sie stützt sich für nahezu jedes Ergebnis, das sie berichtet, auf Prozente und Anteile. Und die glatten Kurven, auf die sie sich verlässt, die Flächenberechnungen unter der Glockenkurve, die eine Verteilung in eine Wahrscheinlichkeit verwandeln, sind dieselben Integrationsideen aus der Analysis, angewendet auf Daten.
Wenn du in Math Zen Statistik übst, schreiten die Aufgaben von deskriptiven Maßen (Mittelwerte, Mediane und Standardabweichungen berechnen und vergleichen) zum Lesen von Verteilungen und zum Schließen über Stichproben fort. Sie von Hand zu rechnen, statt einen Taschenrechner eine Zahl ausspucken zu lassen, baut den Instinkt auf, die richtige Frage zu stellen: Ist dieses Zentrum ehrlich, ist diese Streuung klein genug, um ihr zu trauen, sagt mir diese Korrelation überhaupt etwas? Diese Aufgabentypen über die Zeit zu mischen, mit der in den Übungsablauf eingebauten verteilten Wiederholung, sorgt dafür, dass die Intuition haften bleibt, statt nach dem Test zu verblassen.
Das Fazit
Statistik sind zwei Aufgaben: die Daten beschreiben, die du hast, und auf die Daten schließen, die du nicht hast. Das Beschreiben braucht drei Zahlen: ein Zentrum (Mittelwert oder Median, und die Wahl zählt, wenn die Daten schief sind), eine Streuung (Standardabweichung, der typische Abstand vom Zentrum) und eine Form (oft die Glockenkurve). Das Schließen braucht eine Stichprobe, die zuerst repräsentativ und erst danach groß ist, und eine ehrliche Fehlerspanne.
Wenn du das nächste Mal eine Statistik siehst, lies nicht nur die Zahl. Frage: Mittelwert oder Median? Wie viel Streuung? Wer war in der Stichprobe? Korrelation oder Ursache? Diese vier Fragen verwandeln Statistik aus einer Wand aus Formeln in ein Werkzeug, sich nicht täuschen zu lassen.
Häufige Fragen
- Was ist der Unterschied zwischen Mittelwert, Median und Modus?
- Der Mittelwert ist das arithmetische Mittel, also die Summe aller Werte geteilt durch ihre Anzahl. Der Median ist der mittlere Wert in der sortierten Reihe, mit der Hälfte darüber und der Hälfte darunter. Der Modus ist der Wert, der am häufigsten vorkommt. Bei symmetrischen Daten stimmen sie überein, doch bei schiefen Verteilungen driften sie auseinander, und genau dann zählt die Wahl.
- Wann sollte ich den Median statt des Mittelwerts verwenden?
- Nimm den Median immer dann, wenn ein paar Extremwerte den Mittelwert in eine nicht repräsentative Richtung ziehen würden. Einkommen, Immobilienpreise und Antwortzeiten sind klassische Fälle. Ein einziger Milliardär in einem Raum voller Lehrkräfte macht den Durchschnittsverdienst irreführend, doch der Median beschreibt weiterhin eine typische Person im Raum.
- Was misst die Standardabweichung eigentlich?
- Die Standardabweichung misst, wie stark die Daten um den Mittelwert streuen, und das in denselben Einheiten wie die Daten selbst. Eine kleine Standardabweichung bedeutet, dass sich die Werte eng um den Durchschnitt scharen. Eine große bedeutet, dass sie weit auseinanderliegen. Sie beantwortet die Frage, die der Mittelwert nicht beantworten kann: wie typisch ist typisch.
- Was ist der Unterschied zwischen Korrelation und Kausalität?
- Korrelation bedeutet, dass sich zwei Dinge tendenziell zusammen bewegen. Kausalität bedeutet, dass das eine das andere tatsächlich bewirkt. Eisverkäufe und Ertrinkungsfälle steigen gemeinsam an, doch keines verursacht das andere: die Sommerhitze treibt beides. Korrelation ist ein Hinweis, dem man nachgehen sollte, nie ein Beweis für sich allein.
- Warum ist eine größere Stichprobe besser?
- Größere Stichproben verringern das Zufallsrauschen, sodass das Ergebnis die wahre Grundgesamtheit eher widerspiegelt. Der Haken: Größe kann eine verzerrte Stichprobe nicht heilen. Eine Umfrage unter einer Million Menschen, die alle dieselbe Website lesen, bleibt schief. Repräsentativität zählt mehr als reine Größe, und erst danach schärft die Größe die Schätzung.


