Einfaktorielle ANCOVA

Einfaktorielle ANCOVA: Kontraste interpretieren und berichten

Im vorigen Schritt haben wir die Kontraste von SPSS berechnen lassen, jetzt geht es an die Interpretation und Verschriftlichung.

Kontraste unterscheiden sich in ein paar Dingen von anderen Formen von post-hoc Tests. Neben der Möglichkeit, komplexe Vergleiche zwischen mehr als zwei Gruppen durchzuführen, haben sie meist auch eine höhere statistische Power und bessere Maße der Effektstärke. Sie haben allerdings einen entscheidenen Unterschied: post-hoc Tests werden meist im Anschluss an eine signifikante ANCOVA durchgeführt, ohne dass man eine genaue Hypothese darüber hat, welche Gruppen sich unterscheiden. Bei (a-priori) Kontrasten ist das anders. Hier hat man im Vorfeld bereits genaue Hypothesen welche Gruppen sich unterscheiden werden.

Dadurch das man eine (a-priori) Hypothese hat und damit eine Vorstellung davon, welche Gruppen sich unterscheiden werden, wird bei Kontrasten häufig keine Korrektur zur Minderung der Alphafehler-Kumulierung (z.B. eine Bonferroni-Korrektur) durchgeführt. Dies ist allerdings auch nicht immer der Fall und die Empfehlungen unterscheiden sich hier auch zwischen verschiedenen Autoren stark.

So empfehlen Dean, Voss, and Draguljić (2017, p. 88) prinzipiell die Bonferroni-Korrektur durchzuführen und dies auch explizit bei geplanten (a-priori) Kontrasten. Perneger (1998) warnt hingegen sogar vor der Verwendung der Bonferroni-Korrektur. Die Empfehlungen anderer Autoren liegen oft dazwischen. Nakagawa (2004) sieht die Bonferroni-Korrektur als zu konservativ an und empfiehlt stattdessen die False-Discovery-Rate (FDR). Roberts and Russo (1999, p. 225) sehen die Notwendigkeit für den Einsatz eines Korrekturverfahrens erst bei fünf oder mehr a-priori Kontrasten. Kozak and Powers (2017, p. 278) gehen noch einen Schritt weiter und sprechen sich entschiedene gegen alle paarweisen Vergleiche aus, die nicht a priori aufgestellt wurden, während Hsu (1996, p. 177) gar nicht erst die Notwendigkeit einer vorigen Analyse (ANCOVA) zur Durchführung von post-hoc Tests oder Kontrasten sieht.

Wir sehen es ähnlich wie Thompson (2006, p. 373) der schreibt „Die Tatsache, dass Forscher beim Testen geplanter Kontraste traditionell nicht die Bonferroni-Korrektur verwenden, bedeutet nicht, dass es unvernünftig wäre, dies zu tun“.

Die Bonferonni-Korrektur ist allerdings die prinzipiell konservativste Korrektur, die es gibt. Sie kontrolliert zwar sehr gut Typ-I-Fehler, wirkt sich aber potentiell negativ auf Typ-II-Fehler aus (Narum, 2006; Perneger, 1998). Daher zeichnet sich ein gewisser Trend hingegen zu etwas liberalen Korrekturverfahren ab, im speziellen zur FDR (Glickman, Rao, & Schultz, 2014; Jafari & Ansari-Pour, 2019; Perneger, 1998). Wir werden in diesem Artikel ebenfalls die p-Werte mittels FDR korrigieren, auch wenn die Entscheidung ob und wie die Kontraste korrigiert werden sollen, eine Frage ist, auf die es eine pauschale Antwort nicht gibt.

Interpretation der SPSS Ausgabe

Eine Übersicht über die Kontraste, die wir berechnet haben, sehen wir noch einmal bei SPSS in der Ausgabe in der Tabelle Index der benutzerdefinierten Hypothesentests. Dort sehen wir in der Spalte ganz links auch, welche Nummer SPSS jedem Kontrast zugeordnet hat (die Zahl entspricht der Reihenfolge, in der wir sie eingegeben haben).

Index der benutzerdefinierten Hypothesentests
1 Kontrastkoeffizienten (L‘-Matrix) Unterbefehl LMATRIX 1: > 7 Stunden vs. < 6 Stunden
Transformationskoeffizienten (M-Matrix) Einheitsmatrix
Kontrastergebnisse (K-Matrix) Nullmatrix
2 Kontrastkoeffizienten (L‘-Matrix) Unterbefehl LMATRIX 2: > 7 Stunden vs. andere
Transformationskoeffizienten (M-Matrix) Einheitsmatrix
Kontrastergebnisse (K-Matrix) Nullmatrix

Für jeden Kontrast hat SPSS einen eigenen Abschnitt in der Ausgabe erstellt, der unter der Überschrift Benutzerdefinierte Hypothesentests # zwei Tabellen enthält.

Einfache Kontraste interpretieren

Der erste Kontrast, den wir berechnet haben, ist ein einfacher Kontrast (wir vergleichen eine Gruppe mit einer anderen). In unserem Beispiel vergleichen wir die Gruppe mit mehr als 7 Stunden Schlaf mit der Gruppe weniger als 6 Stunden Schlaf. Die erst Tabelle hat die Überschrift Kontrastergebnisse (K-Matrix) und gibt uns deskriptive Informationen zu dem Vergleich, den p-Wert und Konfidenzintervalle

Kontrastergebnisse (K-Matrix)a
Kontrast Abhängige Variable
Klausurergebnis
L1 Kontrastschätzer -1,589
Hypothetischer Wert 0
Differenz (Schätzer – hypothetisch) -1,589
Std.-Fehler ,116
Sig. ,000
95% Konfidenzintervall für Differenz Untergrenze -1,819
Obergrenze -1,360
a. Basiert auf der (L‘)-Matrix der benutzerdefinierten Kontrastkoeffizienten: > 7 Stunden vs. < 6 Stunden

Wir sehen beispielsweise, dass der Kontrastschätzer einen Wert von -1,589 hat. Im Abschnitt der deskriptiven Statistiken haben wir bereits die Tabelle mit den adjustierten Mittelwerten besprochen. Erinnern wir uns hier, dass die Gruppe mit weniger als 6 Stunden Schlaf einen adjustierten Mittelwert von 16,392 hatte und die Gruppe mit mehr als 7 Stunden Schlaf 17,982.

Wir hatten der Gruppe mit dem wenigen Schlaf einen Kontrastkoeffizienten von 1 zugewiesen und der Gruppe mit dem meisten Schlaf -1. Daraus ergibt sich:

(1)·16,392 + (-1)·17,982 ≈ -1,59

Durch die Koeffizienten haben wir also unseren Kontrastschätzer berechnet. Getestet wir dieser gegen Null (Hypothetischer Wert). Wir wollen also wissen, ob sich die Differenz signifikant von Null unterscheidet. Wir Antwort darauf bekommen wir auch gleich ein paar Zeilen weiter unten, in der Zeile Sig.

Im Gegensatz zum Kontrastschätzer, ist der Standardfehler übrigens nicht einfach die Differenz der Standardfehler aus der Tabelle der adjustierten Mittelwerte. Er wird anhand der einzelnen Werte berechnet und bildet zusammen mit dem Kontrastschätzer die Grundlage, aus der die Signifikanz berechnet wird. Die genauen Statistiken zur Signifikanz finden sich eine Tabelle weiter unten, mit der Überschrift Testergebnisse.

In dieser Tabelle finden wir zusätzlich noch weitere Statistiken, die wir für die Verschriftlichung benötigen.

Testergebnisse
Abhängige Variable:   Klausurergebnis
Quelle Quadratsumme df Mittel der Quadrate F Sig. Partielles Eta-Quadrat
Kontrast 50,122 1 50,122 187,525 ,000 ,589
Fehler 35,014 131 ,267

Der Signifikanzwert aus dieser Tabelle entspricht dem aus der vorigen. Zusätzlich erhalten wir aber noch eine F-Statistik und, mit dem partiellen Eta², ein Maß der Effektstärke. Wenn wir diesen Kontrast berichten wollten, könnten wir das so machen:

Deutsch
A-priori Kontraste zeigten statistisch signifikant höhere Klausurergebnisse in der Gruppe mit mehr als 7 Stunden Schlaf als in der mit weniger als 6 Stunden Schlaf, nach Bereinigung von Lernzeit, MDiff = -1.59, 95%-KI[-1.82, -1.36], F(1, 131) = 187.53, p <.001 , partielles η² = .589.
English
A priori contrasts showed statistically significant higher exam results in the group with more than 7 hours of sleep than in the group with less than 6 hours of sleep, after adjusting for study time,  MDiff = -1.59, 95%-CI[-1.82, -1.36], F(1, 131) = 187.53, p <.001 , partielles η² = .589.
Auch wenn SPSS in der Spalte Signifikanz einen Wert von .000 angibt, ist dies nur ein gerundeter Wert (Signifikanzen können weder die Werte 0 oder 1 annehmen, sondern liegen immer dazwischen.) Bei einem Wert von .000 würden wir dies als p < .001 schreiben. Das APA-Handbuch empfiehlt ansonsten die Angabe genauer p-Werte (gerundet auf drei Nachkommastellen).
Kontrastergebnisse (K-Matrix)a
Kontrast Abhängige Variable
Klausurergebnis
L1 Kontrastschätzer -1,589
Hypothetischer Wert 0
Differenz (Schätzer – hypothetisch) -1,589
Std.-Fehler ,116
Sig. ,000
95% Konfidenzintervall für Differenz Untergrenze -1,819
Obergrenze -1,360
a. Basiert auf der (L‘)-Matrix der benutzerdefinierten Kontrastkoeffizienten: > 7 Stunden vs. < 6 Stunden

Die wichtigste Zeile hier ist: MDiff = -1.59, 95%-KI[-1.82, -1.36], F(1, 131) = 187.53, p <.001 , partielles η² = .589. Sie setzt sich aus Informationen aus beiden Tabellen zusammen.

Der erste Teil (MDiff und 95%-KI) bezieht sich auf den Kontrastschätzer und die 95%-Konfidenzintervalle der Differenz aus der Tabelle Kontrastergebnisse. Sie setzt sich aus den farbig hervorgehobenen Werten der Tabelle zusammen und zwar so:

MDiff = -1.59, 95%-KI[-1.82, -1.36]

Alle Werte hier sind auf zwei Nachkommastellen gerundet.

Der zweite Teil (F-Statistik, p-Wert, partielles η²) setzt sich aus der zweiten Tabelle zusammen und zwar so:

Testergebnisse
Abhängige Variable:   Klausurergebnis
Quelle Quadratsumme df Mittel der Quadrate F Sig. Partielles Eta-Quadrat
Kontrast 50,122 1 50,122 187,525 ,000 ,589
Fehler 35,014 131 ,267

F(1131) = 187.53, p <.001 , partielles η² = .589

Kombinierte Kontraste interpretieren

Die Interpretation und Verschriftlichung der kombinierten (komplexen) Kontrasten verläuft relativ analog zu der der einfachen Kontrasten, weshalb wir nicht in der selben Länge darauf eingehen werden. Die wichtigen Werte aus beiden Tabellen und die Zeile, die sich aus ihnen zusammensetzt, wird auch für die kombinierten Kontraste analog verfasst.

Kontrastergebnisse (K-Matrix)a
Kontrast Abhängige Variable
Klausurergebnis
L1 Kontrastschätzer -1,635
Hypothetischer Wert 0
Differenz (Schätzer – hypothetisch) -1,635
Std.-Fehler ,106
Sig. ,000
95% Konfidenzintervall für Differenz Untergrenze -1,844
Obergrenze -1,426
a. Basiert auf der (L‘)-Matrix der benutzerdefinierten Kontrastkoeffizienten: > 7 Stunden vs. andere

Für die kombinierten Kontraste hatten wir die Gruppe mit mehr als 7 Stunden Schlaf mit beiden anderen Gruppen verglichen. Wir hatten der Gruppe mit mehr als 7 Stunden Schlaf den Koeffizienten -1 zugewiesen und den übrigen beiden Gruppen jeweils 0.5. Aus den adjustierten Mittelwerten ergibt sich wieder der Wert des Kontrastschätzers:

(0,5)·16,392 + (0,5)·16,301 + (-1)·17,982 ≈ -1,64

Dadurch, dass wir die Koeffizienten wählen um ein Summenprodukt der Mittelwerte zu bilden, kann der Kontrastschätzer auch als gewichteter Mittelwert gesehen werden. Wir könnten unser Ergebnis so berichten:

Deutsch
A-priori Kontraste zeigten statistisch signifikant höhere Klausurergebnisse in der Gruppe mit mehr als 7 Stunden Schlaf als in den gleichgewichteten beiden anderen Gruupen, mit 6-7 und mit weniger als 6 Stunden Schlaf, nach Bereinigung von Lernzeit, MDiff = -1.64, 95%-KI[-1.84, -1.43], F(1, 131) = 238.77, p <.001 , partielles η² = .646.
English
A-priori contrasts showed statistically significantly higher exam scores in the group with more than 7 hours of sleep than in the equally weighted other two groups, with 6-7 and with less than 6 hours of sleep, after adjusting for study time,  MDiff = -1.64, 95%-CI[-1.84, -1.43], F(1, 131) = 238.77, p <.001 , partielles η² = .646.
Auch wenn SPSS in der Spalte Signifikanz einen Wert von .000 angibt, ist dies nur ein gerundeter Wert (Signifikanzen können weder die Werte 0 oder 1 annehmen, sondern liegen immer dazwischen.) Bei einem Wert von .000 würden wir dies als p < .001 schreiben. Das APA-Handbuch empfiehlt ansonsten die Angabe genauer p-Werte (gerundet auf drei Nachkommastellen).

Die Werte der F-Statistik, Signifikanz und Effektstärke wurden, analog zum Beispiel der einfachen Kontraste (oben) der Tabelle der Testergebnisse entnommen.

Testergebnisse
Abhängige Variable:   Klausurergebnis
Quelle Quadratsumme df Mittel der Quadrate F Sig. Partielles Eta-Quadrat
Kontrast 63,817 1 63,817 238,766 ,000 ,646
Fehler 35,014 131 ,267

Literaturverzeichnis

  1. Dean, A., Voss, D., & Draguljić, D. (2017). Design and Analysis of Experiments. Cham: Springer International Publishing. doi:10.1007/978-3-319-52250-0
  2. Glickman, M. E., Rao, S. R., & Schultz, M. R. (2014). False discovery rate control is a recommended alternative to Bonferroni-type adjustments in health studies. Journal of Clinical Epidemiology, 67(8), 850–857. doi:10.1016/j.jclinepi.2014.03.012
  3. Hsu, J. C. (1996). Multiple comparisons: Theory and methods. London: Chapman & Hall.
  4. Jafari, M., & Ansari-Pour, N. (2019). Why, When and How to Adjust Your P Values? Cell Journal, 20(4), 604–607. doi:10.22074/cellj.2019.5992
  5. Kozak, M., & Powers, S. J. (2017). If not multiple comparisons, then what? Annals of Applied Biology, 171(3), 277–280. doi:10.1111/aab.12379
  6. Nakagawa, S. (2004). A farewell to Bonferroni: the problems of low statistical power and publication bias. Behavioral Ecology, 15(6), 1044–1045. doi:10.1093/beheco/arh107
  7. Narum, S. R. (2006). Beyond Bonferroni: Less conservative analyses for conservation genetics. Conservation Genetics, 7(5), 783–787. doi:10.1007/s10592-005-9056-y
  8. Perneger, T. V. (1998). What’s wrong with Bonferroni adjustments. BMJ (Clinical Research Ed.), 316(7139), 1236–1238. doi:10.1136/bmj.316.7139.1236
  9. Roberts, M., & Russo, R. (1999). A Student’s Guide to Analysis of Variance: Routledge. doi:10.4324/9781315787954
  10. Thompson, B. (2006). Foundations of behavioral statistics: An insight-based approach. New York, N.Y., London: Guilford.