Einfaktorielle ANCOVA: post-hoc Tests interpretieren
Wie wir bereits erwähnt haben, werden post-hoc Tests berechnet, wenn wir ein signifikantes Ergebnis haben, aber im Vorfeld keine genauen Hypothesen darüber haben, welche Gruppen sich unterscheiden werden. Da uns die einfaktorielle ANOVA als Omnibusverfahren lediglich sagt, dass es einen Unterschied zwischen den Gruppen gab aber nicht wo, macht es Sinn, diese Frage mit weiteren Tests zu beantworten.
SPSS Ausgabe
Die post-hoc Tests stehen in der SPSS-Ausgabe unter dem Punkt Paarweise Vergleiche. Für unseren Datensatz sieht die Ausgabe wie unten aus.
Paarweise Vergleiche | ||||||
---|---|---|---|---|---|---|
Abhängige Variable: Klausurergebnis | ||||||
(I) Gruppe | (J) Gruppe | Mittelwertdifferenz (I-J) | Std.-Fehler | Sig.b | 95% Konfidenzintervall für Differenzb | |
Untergrenze | Obergrenze | |||||
weniger als 6 Stunden Schlaf | zwischen 6 und 7 Stunden Schlaf | ,091 | ,110 | 1,000 | -,176 | ,359 |
mehr als 7 Stunden Schlaf | -1,589* | ,116 | ,000 | -1,871 | -1,308 | |
zwischen 6 und 7 Stunden Schlaf | weniger als 6 Stunden Schlaf | -,091 | ,110 | 1,000 | -,359 | ,176 |
mehr als 7 Stunden Schlaf | -1,681* | ,122 | ,000 | -1,978 | -1,384 | |
mehr als 7 Stunden Schlaf | weniger als 6 Stunden Schlaf | 1,589* | ,116 | ,000 | 1,308 | 1,871 |
zwischen 6 und 7 Stunden Schlaf | 1,681* | ,122 | ,000 | 1,384 | 1,978 | |
Basiert auf geschätzten Randmitteln | ||||||
*. Die Mittelwertdifferenz ist in Stufe ,05 signifikant. | ||||||
b. Anpassung für Mehrfachvergleiche: Bonferroni. |
Es gibt insgesamt sechs verschiedene Gruppenvergleiche. Die Anzahl an Gruppenvergleichen richtet sich nach der Anzahl der Gruppen unseres Faktors. Wenn n die Anzahl der Gruppen ist, berechnet sich die Anzahl der Gruppenvergleiche g mit folgender Formel:
\[g = \frac{1}{2}\cdot n\cdot\left (n-1\right )\]Bei drei Gruppen ergeben sich daraus auch wiederum drei mögliche Gruppenvergleiche. In der Tabelle von SPSS sehen wir allerdings sechs Vergleiche für die post-hoc Tests. Der Grund dafür ist einfach: SPSS macht einen Unterschied zwischen einem Vergleich von Gruppe A vs. Gruppe B und Gruppe B vs. Gruppe A. SPSS berücksichtigt also die Reihenfolge nicht. Schauen wir uns dazu einmal die Tabelle mit den Mehrfachvergleichen noch einmal genauer an:
Paarweise Vergleiche | ||||||
---|---|---|---|---|---|---|
Abhängige Variable: Klausurergebnis | ||||||
(I) Gruppe | (J) Gruppe | Mittelwertdifferenz (I-J) | Std.-Fehler | Sig.b | 95% Konfidenzintervall für Differenzb | |
Untergrenze | Obergrenze | |||||
weniger als 6 Stunden Schlaf | zwischen 6 und 7 Stunden Schlaf | ,091 | ,110 | 1,000 | -,176 | ,359 |
mehr als 7 Stunden Schlaf | -1,589* | ,116 | ,000 | -1,871 | -1,308 | |
zwischen 6 und 7 Stunden Schlaf | weniger als 6 Stunden Schlaf | -,091 | ,110 | 1,000 | -,359 | ,176 |
mehr als 7 Stunden Schlaf | -1,681* | ,122 | ,000 | -1,978 | -1,384 | |
mehr als 7 Stunden Schlaf | weniger als 6 Stunden Schlaf | 1,589* | ,116 | ,000 | 1,308 | 1,871 |
zwischen 6 und 7 Stunden Schlaf | 1,681* | ,122 | ,000 | 1,384 | 1,978 | |
Basiert auf geschätzten Randmitteln | ||||||
*. Die Mittelwertdifferenz ist in Stufe ,05 signifikant. | ||||||
b. Anpassung für Mehrfachvergleiche: Bonferroni. |
In den ersten beiden Spalten (I) Gruppe und (J) Gruppe sehen wir, welche beiden Gruppen verglichen werden. Die Spalte daneben, Mittelwertdifferenz (I-J), ist die Differenz zwischen den der Kovariaten bereinigten Mittelwert aus Gruppe I und Gruppe J. Bei genauerer Betrachtung der farbig gleichen Zeilen sehen wir, dass die Mittelwertdifferenz dieselbe ist, nur das Vorzeichen ein anderes. Die Information in beiden Zeilen ist aber essentiell dieselbe. Auch die Spalten für Standardfehler und Signifikanz halten dieselben Werte.
Im letzten Teil der Tabelle sehen wir das 95%-Konfidenzintervall. Bei farbig gleichen Zeilen sind Ober- und Untergrenze vertauscht und die Vorzeichen anders. Ansonsten sind auch die Werte in diesen Spalten identisch.
Welche Gruppen sollten wir also interpretieren?
Bei essentiell zwei identischen Gruppen mit unterschiedlichen Vorzeichen stellt sich natürlich die Frage: Welche der beiden Zeilen sollte man interpretieren? Die Antwort ist, dass es nicht wirklich einen Unterschied macht ob man die eine oder andere Zeile nimmt, solange man die Richtung des Effekts korrekt interpretiert. Dennoch ist es von Vorteil sich die Gruppen auszusuchen, die für die Fragestellung der Studie den meisten Sinn machen.
In unserer Beispielstudie wollen wir den Einfluss von Schlaf auf Klausurleistung untersuchen, unter Berücksichtigung von Lernzeit. Ein höheres Maß an Schlaf geht unserer Hypothese zufolge auch mit höheren Studienleistungen einher. Es würde daher für uns Sinn machen, Paare zu interpretieren, wo wir eine Gruppe mit mehr Schlaf mit einer mit weniger Schlaf vergleichen. Wir würden uns damit für Zeilen entscheiden, bei denen Gruppe (I) das höhere Maß an Schlaf aufweist, also die unten markierten Zeilen:
Paarweise Vergleiche | ||||||
---|---|---|---|---|---|---|
Abhängige Variable: Klausurergebnis | ||||||
(I) Gruppe | (J) Gruppe | Mittelwertdifferenz (I-J) | Std.-Fehler | Sig.b | 95% Konfidenzintervall für Differenzb | |
Untergrenze | Obergrenze | |||||
weniger als 6 Stunden Schlaf | zwischen 6 und 7 Stunden Schlaf | ,091 | ,110 | 1,000 | -,176 | ,359 |
mehr als 7 Stunden Schlaf | -1,589* | ,116 | ,000 | -1,871 | -1,308 | |
zwischen 6 und 7 Stunden Schlaf | weniger als 6 Stunden Schlaf | -,091 | ,110 | 1,000 | -,359 | ,176 |
mehr als 7 Stunden Schlaf | -1,681* | ,122 | ,000 | -1,978 | -1,384 | |
mehr als 7 Stunden Schlaf | weniger als 6 Stunden Schlaf | 1,589* | ,116 | ,000 | 1,308 | 1,871 |
zwischen 6 und 7 Stunden Schlaf | 1,681* | ,122 | ,000 | 1,384 | 1,978 | |
Basiert auf geschätzten Randmitteln | ||||||
*. Die Mittelwertdifferenz ist in Stufe ,05 signifikant. | ||||||
b. Anpassung für Mehrfachvergleiche: Bonferroni. |
Nehmen wir als Beispiel die blaue Zeile. In der Spalte Mittelwertdifferenz (I-J) sehen wir die Differenz der Gruppe mit mehr als 7 Stunden Schlaf und der Gruppe mit weniger als 6 Stunden Schlaf. Der Wert 1,589 bedeutet, dass die Gruppe mit mehr als 7 Stunden Schlaf im Schnitt 1,589 mehr Punkte in der Klausur geschrieben hatte, als die Gruppe mit weniger als 6 Stunden Schlaf. Wir testen auf einem Alphaniveau von 5 %. Daher sind Ergebnisse signifikant, bei denen p < .05 ist. Diese Werte werden von SPSS zusätzlich mit einem Sternchen (*) in der Spalte Mittelwertdifferenz (I-J) markiert.
Unterschiedliche Ergebnisse
Es kann vorkommen und kommt auch oft genug vor, dass die einfaktorielle ANCOVA signifikant wird, aber bei den post-hoc Tests keine signifikanten Gruppenunterschiede gefunden werden. Umgekehrt kann es auch sein, dass die ANCOVA nicht signifikant wird, die post-hoc Tests allerdings signifikante Unterschiede finden – auch wenn bei einer nicht-signifikanten ANCOVA meist keine weiteren Tests gemacht werden. Es gibt unterschiedliche Gründe dafür, wie beispielsweise die unterschiedliche statistische Power beider Tests oder die unterschiedliche Art, wie beide Verfahren Signifikanz testen.
Ergebnisse berichten
Die Ergebnisse aus der blauen Zeile könnten wir so in einer wissenschaftlichen Arbeit angeben:
Die Bonferroni-korrigierte Post-hoc-Analyse ergab einen signifikanten Unterschied zwischen den Prüfungsergebnissen der Gruppen mit mehr als 7 Stunden Schlaf und weniger als 6 Stunden Schlaf (p < .001, MDiff = 1.59, 95%-CI[1.31, 1.87]), nach Bereinigung um die Lernzeit.
English
Bonferroni-corrected post-hoc analysis revealed a significant difference between exam scores of the groups with more than 7 hours of sleep and less than 6 hours of sleep (p < .001, MDiff = 1.59, 95%-CI[1.31, 1.87]), after adjusting for study time.
Da allerdings mehr als nur der eine Paarvergleich signifikant geworden ist, sollten wir dies auch berichten, und zwar so:
Nach Bereinigung um die Lernzeit zeigten Bonferroni-korrigierte Post-hoc-Tests einen signifikanten Unterschied zwischen den Prüfungsergebnissen der Gruppen mit mehr als 7 Stunden Schlaf und weniger als 6 Stunden Schlaf (p < .001, MDiff = 1.59, 95%-CI[1.31, 1.87]) und der Gruppe mit mehr als 7 Stunden Schlaf und der Gruppe mit 6-7 Stunden Schlaf (p < .001, MDiff = 1.68, 95%-CI[1.38, 1.97]), aber nicht zwischen der Gruppe mit 6-7 Stunden Schlaf und der mit weniger als 6 Stunden Schlaf (p > .999, MDiff = -0.09, 95%-CI[-0.36, 0.18]).
English
After adjusting for study time, Bonferroni-corrected post-hoc tests revealed a significant difference between exam scores of the groups with more than 7 hours of sleep and less than 6 hours of sleep (p < .001, MDiff = 1.59, 95%-CI[1.31, 1.87]) and the group with more than 7 hours of sleep and 6-7 hours of sleep (p < .001, MDiff = 1.68, 95%-CI[1.38, 1.97]), but not for the group with 6-7 hours of sleep and less than 6 hours of sleep (p > .999, MDiff = -0.09, 95%-CI[-0.36, 0.18]).
Literaturverzeichnis
- Glickman, M. E., Rao, S. R., & Schultz, M. R. (2014). False discovery rate control is a recommended alternative to Bonferroni-type adjustments in health studies. Journal of Clinical Epidemiology, 67(8), 850–857. doi:10.
1016/ j. jclinepi. 2014. 03. 012 - Jafari, M., & Ansari-Pour, N. (2019). Why, When and How to Adjust Your P Values? Cell Journal, 20(4), 604–607. doi:10.
22074/ cellj. 2019. 5992 - Narum, S. R. (2006). Beyond Bonferroni: Less conservative analyses for conservation genetics. Conservation Genetics, 7(5), 783–787. doi:10.
1007/ s10592- 005- 9056- y - Perneger, T. V. (1998). What’s wrong with Bonferroni adjustments. BMJ (Clinical Research Ed.), 316(7139), 1236–1238. doi:10.
1136/ bmj. 316. 7139. 1236