Einfaktorielle ANOVA

Einfaktorielle ANOVA: Den Games-Howell post-hoc Test interpretieren

Wie wir bereits erwähnt haben, werden post-hoc Tests berechnet, wenn wir ein signifikantes Ergebnis haben, aber im Vorfeld keine genauen Hypothesen darüber haben, welche Gruppen sich unterscheiden werden. Da uns die einfaktorielle ANOVA als Omnibusverfahren lediglich sagt, dass es einen Unterschied zwischen den Gruppen gab aber nicht wo, macht es Sinn mit weiteren Tests diese Frage zu beantworten.

Der Games-Howell post hoc Test ist die Alternative zu dem Tukey post-hoc Test und sollte genommen werden, wenn keine Varianzgleichheit besteht. Wie der Tukey-Test, vergleicht auch der Games-Howell Test alle möglichen Gruppenkombinationen. Statistische Tests, die mit ungleichen Varianzen arbeiten müssen, sind generell ungenauer. Der Games-Howell-Test basiert auf dem Lösungsansatz von Welch, der uns auch schon in ähnlicher Weise in der Welch-ANOVA und in dem Welch-Test (als Alternative zum ungepaarten t-Test) begegnet ist.

SPSS Ausgabe

Die post-hoc Tests stehen in der SPSS-Ausgabe unter dem Punkt Mehrfachvergleiche. Für unseren Datensatz sieht die Ausgabe wie unten aus.

einfaktorielle ANOVA post-hoc Ausgabe

Uns interessiert die untere Hälfte, die die Ergebnisse des Games-Howell Tests enthält. Es gibt insgesamt sechs verschiedene Gruppenvergleiche. Die Anzahl an Gruppenvergleichen richtet sich nach der Anzahl der Gruppen unseres Faktors. Wenn n die Anzahl der Gruppen ist, berechnet sich die Anzahl der Gruppenvergleiche g mit folgender Formel:

\(g = \frac{1}{2}\cdot n\cdot\left (n-1\right )\)

Bei drei Gruppen ergeben sich daraus auch wiederum drei mögliche Gruppenvergleiche. In der Tabelle von SPSS sehen wir allerdings sechs Vergleiche für den Games-Howell-Test. Der Grund dafür ist einfach: SPSS macht einen Unterschied zwischen einem Vergleich von Gruppe A vs. Gruppe B und Gruppe B vs. Gruppe A. SPSS berücksichtigt also die Reihenfolge noch einmal. Schauen wir uns dazu einmal die Tabelle mit den Mehrfachvergleichen genauer an:

einfaktorielle ANOVA post-hoc Ausgabe Games-Howell (highlight)

In den ersten beiden Spalten (I) Gruppe und (J) Gruppe sehen wir, welche beiden Gruppen verglichen werden. Die Spalte daneben, Mittlere Differenz (I-J), ist die Differenz zwischen den Mittelwert aus Gruppe I und Gruppe J. Bei genauerer Betrachtung der der farbig gleichen Zeilen sehen wir, dass die Mittlere Differenz dieselbe ist, nur das Vorzeichen ein anderes. Die Information in beiden Zeilen ist aber essentiell dieselbe. Auch die Spalten für Standardfehler und Signifikanz halten dieselben Werte, auch wenn es aus diesem Beispiel nicht ersichtlich wird.

Im letzten Teil der Tabelle sehen wir das 95%-Konfidenzintervall. Bei farbig gleichen Zeilen sind Ober- und Untergrenze vertauscht und die Vorzeichen anders. Ansonsten sind auch die Werte in diesen Spalten identisch.

Welche Gruppen sollten wir also interpretieren?

Bei essentiell zwei identischen Gruppen mit unterschiedlichen Vorzeichen stellt sich natürlich die Frage: Welche der beiden Zeilen sollen man interpretieren? Die Antwort ist, dass es nicht wirklich einen Unterschied macht, ob man die eine oder andere Zeile nimmt, solange man die Richtung des Effekts korrekt interpretiert. Dennoch ist es von Vorteil, sich die Gruppen auszusuchen, die für die Fragestellung der Studie den meisten Sinn machen.

In unserer Beispielstudie wollen wir den Einfluss von körperlicher Aktivität auf Depression messen. Ein höheres Maß an körperlicher Aktivität geht unseren Daten zufolge einher mit geringeren Depressionswerten. Es würde daher für uns Sinn machen, wenn wir Werte mit einem negativen Vorzeichen interpretieren würden. Wir würden uns damit für Zeilen entscheiden, bei denen Gruppe (I) das höhere Maß an körperliche Aktivität hat, also die unten markierten Zeilen:

einfaktorielle ANOVA post-hoc Ausgabe Games-Howell Test (highlight, ausgewählt)

Nehmen wir als Beispiel die blaue Zeile. In der Spalte Mittlere Differenz (I-J) sehen wir die Differenz der moderaten körperlichen Aktivität und der geringen körperlichen Aktivität. Der Wert -7,867 bedeutet, dass die Gruppe mit moderater körperlicher Aktivität im Schnitt 7,867 weniger Punkte auf dem BDI Depressionsindex hatte, als die Gruppe mit geringer körperlicher Aktivität. Wir testen auf einem Alphaniveau von 5 %. Daher sind Ergebnisse signifikant, bei denen p < .05 ist. Diese Werte werden von SPSS zusätzlich mit einem Sternchen (*) in der Spalte Mittlere Differenz (I-J) markiert.

Auch wenn SPSS in der Spalte Signifikanz einen Wert von .000 angibt, ist dies nur ein gerundeter Wert (Signifikanzen können weder die Werte 0 oder 1 annehmen, sondern liegen immer dazwischen.) Bei einem Wert von .000 würden wir dies als p < .001 schreiben. Das APA-Handbuch empfiehlt ansonsten die Angabe genauer p-Werte (gerundet auf drei Nachkommastellen).

Unterschiedliche Ergebnisse

Es kann vorkommen und kommt auch oft genug vor, dass die einfaktorielle ANOVA signifikant wird, aber der Games-Howell-Test keine signifikanten Gruppenunterschiede findet. Umgekehrt kann es auch sein, dass die ANOVA nicht signifikant wird, der Games-Howell-Test allerdings signifikante Unterschiede findet – auch wenn bei einer nicht-signifikanten ANOVA meist keine weiteren Tests gemacht werden. Es gibt unterschiedliche Gründe dafür, wie beispielsweise die unterschiedliche Power beider Tests oder die unterschiedliche Art, wie beide Verfahren Signifikanz testen.

Ergebnisse berichten

Die Ergebnisse aus der blauen Zeile könnten wir so in einer wissenschaftlichen Arbeit angeben:

Deutsch
Der Games-Howell post-hoc Test zeigte einen signifikanten Unterschied (p < .001) in BDI-Werten zwischen den Gruppen moderater und geringer körperlicher Aktivität (-7.87, 95%-CI[-11.33, -4.41]).
English
Games-Howell post-hoc analysis revealed a significant difference (p < .001) between BDI scores of the groups with moderate and low physical activity (-7.87, 95%-CI[-11.33, -4.41])

Da allerdings alle Paarvergleiche signifikant geworden sind, sollten wir dies auch berichten, und zwar so:

Deutsch
Der Games-Howell post-hoc Test zeigte einen signifikanten Unterschied (p < .001) in BDI-Werten zwischen allen Gruppen. Der durchschnittliche Schweregrad der Depression nahm ab, von moderater zu geringer Aktivität (-7.87, 95%-CI[-11.33, -4.41]), von hoher zu moderater körperlicher Aktivität (-11.30, 95%-CI[-15.28, -7.32]) und von hoher zu geringer körperlicher Aktivität (-19.17, 95%-CI[-22.84, -15.49]).
English
Games-Howell post-hoc analysis revealed a significant difference (p < .001) between BDI scores of all groups. Mean level of depression decreased from moderate to low activity (-7.87, 95%-CI[-11.33, -4.41]), from high to moderate activity (-11.30, 95%-CI[-15.28, -7.32]), and from high to low activity (-19.17, 95%-CI[-22.84, -15.49]).