Der t-Test erklärt: Funktionsweise und Anwendung

Hej Leute,

heute geht es um Statistik und zwar um den t-Test! Jetzt ist es raus, kreisch, schrei, Hilfe, renn weg. Ruhig Blut, so schwierig ist der Test gar nicht. Ich erkläre euch ganz in Ruhe, wie er funktioniert und worauf es ankommt.

Der t-Test ist einer der bekanntesten und häufigsten verwendeten Hypothesentest. Er dient dazu, statistisch zu prüfen, ob der Mittelwert einer Stichprobe einem vorgegebenen Wert entspricht. Ich könnte zum Beispiel prüfen, ob das mittlere Alter der Personen, die ich befragt habe, dem deutschen Altersdurchschnitt von 44,3 (im Jahr 2010) entspricht.

Das kann man auch auf zwei Stichproben erweitern. D.h. man prüft, ob die Mittelwerte zweier Stichproben übereinstimmen. So könnte man testen, ob in einer Stichprobe das mittlere Alter der befragten Frauen dem mittleren Alter der befragten Männern entspricht.

Inhalt

Die Geschichte des t-Tests

Der t-Test wurde ursprünglich von William Sealy Gosset, besser bekannt als Student, im Jahr 1908 entwickelt. Gosset arbeitete bei der Guiness-Brauerei, befasste sich dort mit Gerstenqualität und entdeckte dabei die t-Verteilung. Er veröffentlichte seine Erkenntnisse unter dem Pseudonym Student, da sein Arbeitgeber nicht erlaubte, wissenschaftliche Arbeiten zu veröffentlichen. Daher der Name Studentsche t-Verteilung. Ronald Aylmer Fisher erkannte die Bedeutung von Gossets Arbeit und entwickelte die heute gebräuchliche t-Prüfgröße.

Gosset hat herausgefunden, dass der Mittelwert einer normalverteilten Stichprobe nicht mehr normalverteilt ist, wenn man die Varianz schätzen muss. Aber nochmal ganz langsam.

Wie funktioniert ein Hypothesentest

Ich versuche in diesem Abschnitt ganz grob zu erklären, wie ein Hypothesentest funktioniert. Bald sollte ein eigener, ausführlicheren Artikel dazu folgen, den verlinke ich dann natürlich hier.

Zuerst brauchen wir eine Nullhypothese, also z.B. die Annahme, dass der Mittelwert des Alters der Grundgesamtheit, aus der wir die Stichprobe gezogen haben, 44,3 Jahre beträgt. Im Endeffekt will man das Gegenteil zeigen. Man sagt, dass man die Nullhypothese ablehnt. Man lehnt ab, wenn es sehr unwahrscheinlich ist, die Daten – gegeben die Nullhypothese – zu beobachten. Wir gehen aber erstmal von der Nullhypothese aus. Nun wird eine Prüfgröße, auch Test-Statistik genannt, berechnet. Unter der Annahme, dass die Nullhypothese stimmt, sollte die Prüfgröße einer bekannten Verteilung gehorchen, z.B. normal- oder t-verteilt sein.

Was heißt das nun wieder? Die Prüfgröße ist doch nur eine Zahl. Das ist so gemeint, dass wenn wir das Experiment (also die Auswahl einer Stichprobe und Berechnung der Prüfgröße) vielfach wiederholen, die Prüfgrößen der ganzen Experimente sich einer bekannten Verteilung nach verteilen.

Nun können wir berechnen, ob es (unter der angenommenen Nullhypothese) sehr unwahrscheinlich ist, die Stichprobe zu beobachten. Hier kommt das Signifikanzniveau $\alpha$ ins Spiel. Wählen wir $\alpha = 0,05$ (ein typischer Wert), dann prüfen wir, ob wir diese Teststatistik in weniger als 5% der Fälle bekommen, wenn wir immer wieder eine Stichprobe ziehen würden. Ist das so, dann lehnen wir die Nullhypothese ab.

Mathematisch wird das über die Quantilsfunktion der bekannten Verteilung gemacht, weil die Quantilsfunktion die Umkehrfunktion zur Verteilungsfunktion ist. Es wird berechnet, ob die Prüfgröße Z am Rande der Verteilung liegt. Also bei einem einseitigem Test mit $\alpha= 5%$ , ob Z im 5%- bzw. 95%-Quantil liegt (je nach Richtung).

Der Z-Test – wenn es doch so einfach wäre

So, dieser Teil hier ist tatsächlich mathematisch, kommen doch ein paar Formeln vor. Danach wird es aber wieder besser.

Der Mittelwert einer Stichprobe wird über das arithmetische Mittel berechnet, also die Summe aller Werte, geteilt durch die Anzahl

$\bar{X} = \frac{1}{n}\sum_{i=1}^{n} x_i$

Stammt die Stichprobe aus einer Normalverteilung mit Mittelwert mu und Varianz sigma², dann ist das arithmetische Mittel wieder normalverteilt mit Mittelwert mu, aber mit Varianz sigma²/n.

Würden wir die Varianz kennen, dann könnten wir statt des t-Tests einen Gauß-Test, auch Z-Test genannt, machen, um zu prüfen, ob der Mittelwert einem vorgegebenen Wert mu_0 entspricht. Unter der Hypothese, dass der wahre Mittelwert mu_0 ist, können wir folgende Transformation machen, damit das Ergebnis standardnormalverteilt ist. Also Mittelwert = 0 und Varianz = 1

$Z = \sqrt{n} \frac{\bar{X} - \mu_0}{\sigma} \sim N(0,1)$

Nun können wir berechnen, ob es (unter der Nullhypothese) sehr unwahrscheinlich ist, die Prüfgröße Z zu beobachten.

Die Teststatistik ist t-verteilt

Da aber in der Praxis die Varianz nicht bekannt ist, müssen wir diese schätzen

$S² = \frac{1}{n-1}\sum (x_i - \bar{x})^2$

Nun macht uns das aber unsere schöne Normalverteilung von Z kaputt, denn statt durch Konstante sigma teilen wir nun durch S. $S^2$ ist $\chi^2$ -verteilt. Und so kann man die t-Verteilung definieren, als Standardnormalverteilung durch Wurzel aus $\chi^2$ -Verteilung. Die $\chi^2$ -Verteilung hat einen Freiheitsgrad, also

$T = \sqrt{n} \frac{\bar{X} - \mu_0}{S} \sim t_{n-1}$

mit n = Stichprobengröße

Jetzt kennen wir die Verteilung von T und können die übliche Transformation mit Quantilsfunktion machen.

Wir bekommen nur eine t-Verteilung, wenn die ursprüngliche Verteilung eine Normalverteilung ist. Ansonsten kommt der zentrale Grenzwertsatz ins Spiel, der besagt, dass X_quer einer Normalverteilung annähert. Typischerweise stellt man die Bedingung, dass die Stichprobengröße n>30 ist.

Voraussetzungen zur Anwendung vom t-test

Der vorherige Abschnitt gibt uns schon die Antwort

X ist normalverteilt oder
Der zentrale Grenzwertsatz wird erfüllt und die Stichprobengröße > 30

Einseitiger vs. zweiseitiger t-Test

Bei einem zweiseitigen Test lautet die Nullhypothese $\mu = \mu_0$ und die Alternative $\mu \neq mu_0$ . Haben wir vorher schon eine Idee zur Richtung, dann können wir auch einen einseitigen Test machen. Da haben wir dann die Nullhypothese $\mu >= \mu_0$ und als Alternative $\mu < \mu_0$ . Das ganze geht natürlich auch umgekehrt

Einstichproben- vs. Zweistichproben-t-Test

Beim Einstichproben-t-Test haben wir eine Stichprobe, deren Mittelwert wir mit einem vorgegebenen Wert vergleichen wollen.

Beim Zweistichproben-t-Test haben wir zwei Stichproben, deren Mittelwerte wir miteinander vergleichen wollen. Das macht die Sache leider etwas komplizierter. Wir unterscheiden drei Fälle:

zwei unabhängige Stichproben mit gleicher Varianz
zwei verbundene/abhängige Stichproben
zwei unabhängige Stichproben mit ungleicher Varianz

Unabhängige Stichproben mit gleicher Varianz

Wir betrachten die Differenz der beiden Mittelwerte und schauen, ob diese gleich $\omega_0$ ist. Für die Teststatistik schätzen wir noch die gemeinsame Varianz der beiden Stichproben.

$T = \frac{\bar{X} - \bar{Y} - \omega_0}{S \sqrt{\frac{1}n}+\frac{1\m}}$

mit

$S^2 = \frac{(n-1)S_X^2 + (m-1)S_Y^2}{n+m-2}$

Voraussetzungen: Stichproben normalverteilt oder beide so groß, dass Mittelwert durch Normalverteilung approximiert wird

Verbundene/Abhängige Stichproben

Unter diesem Fall versteht man zwei Beobachtungen der gleichen Gruppe. Also zum Beispiel vor und nach einer Behandlung oder auch unter verschiedenen Bedingungen.

Man will nun wissen, ob sich die zwei Mittelwerte voneinander unterscheiden. Anders ausgedrückt, ob die Differenz gleich null ist. Und genauso macht man es dann auch, d.h. einen Einstichproben-t-Test, der auf die Differenz angewandt wird.

Hier muss natürlich wieder geschaut werden, dass die Differenz die Voraussetzungen erfüllt. Im Wesentlichen heißt das, dass die Stichprobe groß genug ist.

Unabhängige Stichproben mit ungleicher Varianz

Problem ist die Voraussetzung, dass Varianz beider Stichproben gleich ist. Das ist in der Realität meist nicht gegeben, daher verwendet man den Welch-Test, der diese Bedingung nicht stellt. Streng genommen ist die Teststatistik nicht t-verteilt, aber sie nähert sich einer t-Verteilung an.

$T = \frac{\bar{X} - \bar{Y} - \omega_0}{\sqrt{\frac{S_X^2}{n} + \frac{S_Y^2}{m}}} \approx t_\nu$

Man kann auch die Freiheitsgrade $\nu$ mit folgender Formel bestimmen:

$\nu = \frac{(\frac{s_X^2}{n} + \frac{s_Y^2}{m})^2}{\frac{1}{n-1}(\frac{s_X^2}{n})^2 + \frac{1}{m-1}(\frac{s_Y^2}{m})^2}$

Anwendungen vom t-Test

Prüfverfahren

Wie oben geschrieben ist war die Untersuchung von Gerstenqualität tatsächlich der Ursprung der t-Verteilung. Das lässt sich natürlich auf alle möglichen Situationen verallgemeinern, ob Agrarwissenschaft, Biologie, Pharma oder Maschinenbau. Immer dann, wenn die Mittelwerte zweier Gruppen verglichen werden sollen, kommt der t-Test ins Spiel.

Befragungen

Alle Arten von Befragungen, bei denen ein Mittelwert sinnvoll ist. Aber Achtung: Verwendung von Mittelwerten bei Likert-Skalen sind umstritten. Der Modus ist hier die bessere Wahl.

A/B-Test

A/B-Tests sind im Online-Marketing in aller Munde. Dazu werden zwei Varianten gebildet, z.B. Buttonplatzierung oder –farbe oder zwei verschiedene Facebook-Werbeanzeigen. Diese werden nun den Nutzern gezeigt und das Verhalten gemessen. Dann können die beiden Varianten miteinander verglichen werden, um dann die bessere, d.h. meistens profitablere, Variante zu verwenden.

So könnte man zum Beispiel die Conversion-Rate zweier Anzeigen untersuchen, indem man mittels t-Test prüft, ob sie gleich sind oder eine doch signifikant höher ist.

Regression

In den Statistiken einer linearen Regression wird normalerweise für jeden Koeffizienten mittels t-Test geprüft, ob dieser sich signifikant von 0 unterscheidet.

So, habt ihr euch wirklich den ganzen Artikel durchgelesen? Jetzt seid ihr hoffentlich mit dem Grundlagenwissen ausgestattet, um t-Tests anwenden zu können. Schreibt einen Kommentar, in welchem Zusammenhang ihr schon einen t-Test gemacht habt.

Happy testing,

Euer Holger