Einfaktorielle ANCOVA

Einfaktorielle ANCOVA: post-hoc Tests interpretieren

Wie wir bereits erwähnt haben, werden post-hoc Tests berechnet, wenn wir ein signifikantes Ergebnis haben, aber im Vorfeld keine genauen Hypothesen darüber haben, welche Gruppen sich unterscheiden werden. Da uns die einfaktorielle ANOVA als Omnibusverfahren lediglich sagt, dass es einen Unterschied zwischen den Gruppen gab aber nicht wo, macht es Sinn, diese Frage mit weiteren Tests zu beantworten.

Wir werden in diesem Artikel, die p-Werte unseres post-hoc Test mit der Bonferroni-Korrektur adjustieren. Die Bonferonni-Korrektur ist allerdings die prinzipiell konservativste Korrektur, die es gibt. Sie kontrolliert zwar sehr gut Typ-I-Fehler, wirkt sich aber potentiell negativ auf Typ-II-Fehler aus (Narum, 2006; Perneger, 1998). Daher zeichnet sich ein gewisser Trend hingegen zu etwas liberalen Korrekturverfahren ab, im speziellen zur False-Discovery-Rate (Glickman, Rao, & Schultz, 2014; Jafari & Ansari-Pour, 2019; Perneger, 1998). Wir werden in diesem Artikel zwar die p-Werte mittels Bonferroni korrigieren, allerdings könnten andere Korrekturverfahren für den eigenen Datensatz bessere statistische und theoretische Eigenschaften ausweisen. Die gängigsten andere Korrekturverfahren lassen sich beispielsweise mit unserem Rechner zur Adjustierung des Alpha-Niveaus berechnen. Sollte ein anderes Korrekturverfahren verwendet werden, muss bei den geschätzten Randmitteln LSD(kein) statt Bonferroni ausgewählt werden, um die unkorrigierten p-Werte anzuzeigen, da sonst doppelt korrigiert wird!

SPSS Ausgabe

Die post-hoc Tests stehen in der SPSS-Ausgabe unter dem Punkt Paarweise Vergleiche. Für unseren Datensatz sieht die Ausgabe wie unten aus.

Paarweise Vergleiche
Abhängige Variable:   Klausurergebnis
(I) Gruppe (J) Gruppe Mittelwertdifferenz (I-J) Std.-Fehler Sig.b 95% Konfidenzintervall für Differenzb
Untergrenze Obergrenze
weniger als 6 Stunden Schlaf zwischen 6 und 7 Stunden Schlaf ,091 ,110 1,000 -,176 ,359
mehr als 7 Stunden Schlaf -1,589* ,116 ,000 -1,871 -1,308
zwischen 6 und 7 Stunden Schlaf weniger als 6 Stunden Schlaf -,091 ,110 1,000 -,359 ,176
mehr als 7 Stunden Schlaf -1,681* ,122 ,000 -1,978 -1,384
mehr als 7 Stunden Schlaf weniger als 6 Stunden Schlaf 1,589* ,116 ,000 1,308 1,871
zwischen 6 und 7 Stunden Schlaf 1,681* ,122 ,000 1,384 1,978
Basiert auf geschätzten Randmitteln
*. Die Mittelwertdifferenz ist in Stufe ,05 signifikant.
b. Anpassung für Mehrfachvergleiche: Bonferroni.

Es gibt insgesamt sechs verschiedene Gruppenvergleiche. Die Anzahl an Gruppenvergleichen richtet sich nach der Anzahl der Gruppen unseres Faktors. Wenn n die Anzahl der Gruppen ist, berechnet sich die Anzahl der Gruppenvergleiche g mit folgender Formel:

\[g = \frac{1}{2}\cdot n\cdot\left (n-1\right )\]

Bei drei Gruppen ergeben sich daraus auch wiederum drei mögliche Gruppenvergleiche. In der Tabelle von SPSS sehen wir allerdings sechs Vergleiche für die post-hoc Tests. Der Grund dafür ist einfach: SPSS macht einen Unterschied zwischen einem Vergleich von Gruppe A vs. Gruppe B und Gruppe B vs. Gruppe A. SPSS berücksichtigt also die Reihenfolge nicht. Schauen wir uns dazu einmal die Tabelle mit den Mehrfachvergleichen noch einmal genauer an:

Paarweise Vergleiche
Abhängige Variable:   Klausurergebnis
(I) Gruppe (J) Gruppe Mittelwertdifferenz (I-J) Std.-Fehler Sig.b 95% Konfidenzintervall für Differenzb
Untergrenze Obergrenze
weniger als 6 Stunden Schlaf zwischen 6 und 7 Stunden Schlaf ,091 ,110 1,000 -,176 ,359
mehr als 7 Stunden Schlaf -1,589* ,116 ,000 -1,871 -1,308
zwischen 6 und 7 Stunden Schlaf weniger als 6 Stunden Schlaf -,091 ,110 1,000 -,359 ,176
mehr als 7 Stunden Schlaf -1,681* ,122 ,000 -1,978 -1,384
mehr als 7 Stunden Schlaf weniger als 6 Stunden Schlaf 1,589* ,116 ,000 1,308 1,871
zwischen 6 und 7 Stunden Schlaf 1,681* ,122 ,000 1,384 1,978
Basiert auf geschätzten Randmitteln
*. Die Mittelwertdifferenz ist in Stufe ,05 signifikant.
b. Anpassung für Mehrfachvergleiche: Bonferroni.

In den ersten beiden Spalten (I) Gruppe und (J) Gruppe sehen wir, welche beiden Gruppen verglichen werden. Die Spalte daneben, Mittelwertdifferenz (I-J), ist die Differenz zwischen den der Kovariaten bereinigten Mittelwert aus Gruppe I und Gruppe J. Bei genauerer Betrachtung der farbig gleichen Zeilen sehen wir, dass die Mittelwertdifferenz dieselbe ist, nur das Vorzeichen ein anderes. Die Information in beiden Zeilen ist aber essentiell dieselbe. Auch die Spalten für Standardfehler und Signifikanz halten dieselben Werte.

Im letzten Teil der Tabelle sehen wir das 95%-Konfidenzintervall. Bei farbig gleichen Zeilen sind Ober- und Untergrenze vertauscht und die Vorzeichen anders. Ansonsten sind auch die Werte in diesen Spalten identisch.

Welche Gruppen sollten wir also interpretieren?

Bei essentiell zwei identischen Gruppen mit unterschiedlichen Vorzeichen stellt sich natürlich die Frage: Welche der beiden Zeilen sollte man interpretieren? Die Antwort ist, dass es nicht wirklich einen Unterschied macht ob man die eine oder andere Zeile nimmt, solange man die Richtung des Effekts korrekt interpretiert. Dennoch ist es von Vorteil sich die Gruppen auszusuchen, die für die Fragestellung der Studie den meisten Sinn machen.

In unserer Beispielstudie wollen wir den Einfluss von Schlaf auf Klausurleistung untersuchen, unter Berücksichtigung von Lernzeit. Ein höheres Maß an Schlaf geht unserer Hypothese zufolge auch mit höheren Studienleistungen einher. Es würde daher für uns Sinn machen, Paare zu interpretieren, wo wir eine Gruppe mit mehr Schlaf mit einer mit weniger Schlaf vergleichen. Wir würden uns damit für Zeilen entscheiden, bei denen Gruppe (I) das höhere Maß an Schlaf aufweist, also die unten markierten Zeilen:

Paarweise Vergleiche
Abhängige Variable:   Klausurergebnis
(I) Gruppe (J) Gruppe Mittelwertdifferenz (I-J) Std.-Fehler Sig.b 95% Konfidenzintervall für Differenzb
Untergrenze Obergrenze
weniger als 6 Stunden Schlaf zwischen 6 und 7 Stunden Schlaf ,091 ,110 1,000 -,176 ,359
mehr als 7 Stunden Schlaf -1,589* ,116 ,000 -1,871 -1,308
zwischen 6 und 7 Stunden Schlaf weniger als 6 Stunden Schlaf -,091 ,110 1,000 -,359 ,176
mehr als 7 Stunden Schlaf -1,681* ,122 ,000 -1,978 -1,384
mehr als 7 Stunden Schlaf weniger als 6 Stunden Schlaf 1,589* ,116 ,000 1,308 1,871
zwischen 6 und 7 Stunden Schlaf 1,681* ,122 ,000 1,384 1,978
Basiert auf geschätzten Randmitteln
*. Die Mittelwertdifferenz ist in Stufe ,05 signifikant.
b. Anpassung für Mehrfachvergleiche: Bonferroni.

Nehmen wir als Beispiel die blaue Zeile. In der Spalte Mittelwertdifferenz (I-J) sehen wir die Differenz der Gruppe mit mehr als 7 Stunden Schlaf und der Gruppe mit weniger als 6 Stunden Schlaf. Der Wert 1,589 bedeutet, dass die Gruppe mit mehr als 7 Stunden Schlaf im Schnitt 1,589 mehr Punkte in der Klausur geschrieben hatte, als die Gruppe mit weniger als 6 Stunden Schlaf. Wir testen auf einem Alphaniveau von 5 %. Daher sind Ergebnisse signifikant, bei denen p < .05 ist. Diese Werte werden von SPSS zusätzlich mit einem Sternchen (*) in der Spalte Mittelwertdifferenz (I-J) markiert.

Auch wenn SPSS in der Spalte Signifikanz einen Wert von .000 angibt, ist dies nur ein gerundeter Wert (Signifikanzen können weder die Werte 0 oder 1 annehmen, sondern liegen immer dazwischen.) Bei einem Wert von .000 würden wir dies als p < .001 schreiben. Das APA-Handbuch empfiehlt ansonsten die Angabe genauer p-Werte (gerundet auf drei Nachkommastellen).

Unterschiedliche Ergebnisse

Es kann vorkommen und kommt auch oft genug vor, dass die einfaktorielle ANCOVA signifikant wird, aber bei den post-hoc Tests keine signifikanten Gruppenunterschiede gefunden werden. Umgekehrt kann es auch sein, dass die ANCOVA nicht signifikant wird, die post-hoc Tests allerdings signifikante Unterschiede finden – auch wenn bei einer nicht-signifikanten ANCOVA meist keine weiteren Tests gemacht werden. Es gibt unterschiedliche Gründe dafür, wie beispielsweise die unterschiedliche statistische Power beider Tests oder die unterschiedliche Art, wie beide Verfahren Signifikanz testen.

Ergebnisse berichten

Die Ergebnisse aus der blauen Zeile könnten wir so in einer wissenschaftlichen Arbeit angeben:

Deutsch
Die Bonferroni-korrigierte Post-hoc-Analyse ergab einen signifikanten Unterschied zwischen den Prüfungsergebnissen der Gruppen mit mehr als 7 Stunden Schlaf und weniger als 6 Stunden Schlaf (p < .001, MDiff = 1.59, 95%-CI[1.31, 1.87]), nach Bereinigung um die Lernzeit.
English
Bonferroni-corrected post-hoc analysis revealed a significant difference between exam scores of the groups with more than 7 hours of sleep and less than 6 hours of sleep (p < .001, MDiff = 1.59, 95%-CI[1.31, 1.87]), after adjusting for study time.

Da allerdings mehr als nur der eine Paarvergleich signifikant geworden ist, sollten wir dies auch berichten, und zwar so:

Deutsch
Nach Bereinigung um die Lernzeit zeigten Bonferroni-korrigierte Post-hoc-Tests einen signifikanten Unterschied zwischen den Prüfungsergebnissen der Gruppen mit mehr als 7 Stunden Schlaf und weniger als 6 Stunden Schlaf (p < .001, MDiff = 1.59, 95%-CI[1.31, 1.87]) und der Gruppe mit mehr als 7 Stunden Schlaf und der Gruppe mit 6-7 Stunden Schlaf (p < .001, MDiff = 1.68, 95%-CI[1.38, 1.97]), aber nicht zwischen der Gruppe mit 6-7 Stunden Schlaf und der mit weniger als 6 Stunden Schlaf (p > .999, MDiff = -0.09, 95%-CI[-0.36, 0.18]).
English
After adjusting for study time, Bonferroni-corrected post-hoc tests revealed a significant difference between exam scores of the groups with more than 7 hours of sleep and less than 6 hours of sleep (p < .001, MDiff = 1.59, 95%-CI[1.31, 1.87]) and the group with more than 7 hours of sleep and 6-7 hours of sleep (p < .001, MDiff = 1.68, 95%-CI[1.38, 1.97]), but not for the group with 6-7 hours of sleep and less than 6 hours of sleep (p > .999, MDiff = -0.09, 95%-CI[-0.36, 0.18]).
Bei sehr vielen Vergleichen bietet sich eine tabellarische Darstellung der Ergebnisse an.

Literaturverzeichnis

  1. Glickman, M. E., Rao, S. R., & Schultz, M. R. (2014). False discovery rate control is a recommended alternative to Bonferroni-type adjustments in health studies. Journal of Clinical Epidemiology, 67(8), 850–857. doi:10.1016/j.jclinepi.2014.03.012
  2. Jafari, M., & Ansari-Pour, N. (2019). Why, When and How to Adjust Your P Values? Cell Journal, 20(4), 604–607. doi:10.22074/cellj.2019.5992
  3. Narum, S. R. (2006). Beyond Bonferroni: Less conservative analyses for conservation genetics. Conservation Genetics, 7(5), 783–787. doi:10.1007/s10592-005-9056-y
  4. Perneger, T. V. (1998). What’s wrong with Bonferroni adjustments. BMJ (Clinical Research Ed.), 316(7139), 1236–1238. doi:10.1136/bmj.316.7139.1236