Einfaktorielle ANOVA: Interpretation bei mangelnder Varianzhomogenität
Unser Daten haben keine Varianzhomogenität. Der Levene-Test wurde also signifikant. Wir können daher nicht die normale Ausgabe der einfaktoriellen ANOVA interpretieren und nehmen stattdessen die robustere Welch-ANOVA.
Bei einer signifikanten Welch-ANOVA können wir entweder den Games-Howell post-hoc Test oder Kontraste berechnen, um zu bestimmen, welche Gruppen sich statistisch signifikant von einander unterscheiden.
Die Welch-ANOVA findet sich in der Ausgabe von SPSS in der Tabelle Robuste Testverfahren zur Prüfung auf Gleichheit der Mittelwerte. Die für uns wichtigste Spalte ist Signifikanz (ganz rechts).
Wir haben unser Signifikanzniveau bei 5 % festgelegt. Das heißt, dass wir einen signifikanten Unterschied annehmen, wenn der Wert in der Spalte Signifikanz kleiner als 5 % bzw. ,05 ist. Ein Wert von genau 5 % oder mehr würde entsprechend bedeuten, dass das Ergebnis nicht signifikant ist. In unserem Fall haben wir ein Ergebnis von .000, was ein gerundetes Ergebnis ist und bedeutet, dass der p-Wert kleiner als .0005 ist, also p < .0005 (entsprechend der APA Richtlinien würden wir allerdings p < .001 schreiben. (Wir können auch den genauen, ungerundeten p-Wert sehen, wenn wir in SPSS zuerst doppelt auf die Tabelle klicken und noch einmal doppelt auf den Wert.)
Ein signifikantes Ergebnis bedeutet bei der einfaktoriellen ANOVA, dass sich mindestens zwei Gruppen statistisch signifikant voneinander unterscheiden. Damit unterscheiden sich die Mittelwerte der Variablen bdi für mindestens zwei Stufen der Variable gruppe. Wir wissen allerdings nicht genau, welche beiden Gruppen dies sind. Hierfür müssen wir entweder post-hoc Tests oder Kontraste im Anschluss berechnen, was wir auf den nächsten Seiten auch besprechen werden.
Verschriftlichen der Ergebnisse
Die Ergebnisse der einfaktoriellen ANOVA können wir entsprechend verschriftlichen:
Der Schweregrad der Depression (gemessen durch den BDI) unterschied sich statistisch signifikant für die verschiedenen Bedingungen der körperlichen Aktivität, Welch-Test F(2, 57.03) = 78.53, p < .001.
English
The level of depression (as measured by the BDI) differed statistically significant for the different levels of physical activity, Welch’s F(2, 57.03) = 78.53, p < .001.
Der wichtigste Teil bei der Angabe der Ereignisse ist folgende Zeile: F(2, 57.03) = 78.53, p < .001. Sie setzt sich aus Werten der Tabelle der einfaktoriellen ANOVA zusammen und zwar so:
Robuste Testverfahren zur Prüfung auf Gleichheit der Mittelwerte |
||||
bdi | ||||
Statistika | df1 | df2 | Sig. | |
Welch-Test | 78,528 | 2 | 57,033 | ,000 |
a. Asymptotisch F-verteilt |
F(2, 57.03) = 78.53, p < .001
F(dfZähler, dfNenner) = F-Wert, p = Signifikanz
Aufschlüsselung der einzelnen Werte
- F: Das F gibt an, dass das Testverfahren eine F-Statistik benutzt, der eine F-Verteilung zugrunde liegt
- (2, 87): Die F-Verteilung hat zwei Parameter, die ihr Aussehen und damit auch die Grenze der Signifikanz beeinflussen. Dies sind diese beiden Parameter. Die Welch-ANOVA korrigiert diese Werte entsprechend der Gruppengröße und Varianz.
- 78.11: Der F-Wert ist der Wert, der in der F-Verteilung nachgeschlagen wird um den p-Wert zu berechnen
- ,000: Der p-Wert, nach dem sich die Signifikanz richtet
keine Signifikanz
Unser Beispiel ist zwar signifikant geworden, bei einem nicht-signifikanten Ergebnis würden wir dieselben Angaben bei der Verschriftlichung machen. Ein einfaches „ist leider nicht signifikant geworden“ reicht nicht aus. Wenn unser p-Wert beispielsweise .241 gewesen wäre, hätten wir es so verschriftlichen können:
Es gab keinen statistisch signifikanten Unterschied zwischen den verschiedenen Bedingungen der körperlichen Aktivität für die Werte des BDI, Welch-Test F(2, 57.03) = 78.53, p = .241.
English
There was no statistically significant difference in BDI scores for the different levels of physical activity, Welch’s F(2, 57.03) = 78.53, p = .241.
Alle bisherigen Ergebnisse zusammengefasst
Es wurde eine einfaktorielle ANOVA berechnet, um zu untersuchen, ob es einen Unterschied in dem Schweregrad der Depression (gemessen durch den BDI) abhängig von körperlicher Aktivität gab. Das Maß an körperlicher Aktivität wurde in drei Gruppen aufgeteilt (je n = 30): geringer Aktivität (M = 28.87, SD = 4.97), moderate Aktivität (M = 21.00, SD = 6.11) und hohe körperliche Aktivität (M = 9.70, SD = 6.71). Es gab keine Ausreißer (beurteilt mit dem Box-Plot). Die Daten waren für jede Gruppe normalverteilt (Shapiro-Wilk-Test, p > .05) und Varianzhomogenität war gemäß dem Levene-Test gegeben (p > .05). Der Schweregrad der Depression unterschied sich statistisch signifikant für die verschiedenen Bedingungen der körperlichen Aktivität, Welch-Test F(2, 57.03) = 78.53, p < .001, η² = .64.
English
We conducted a one-way ANOVA to assess the effects of physical activity on depression levels (as measured by the BDI). Physical activity was divided into one of three categories: low activity (M = 28.87, SD = 4.97), moderate activity (M = 21.00, SD = 6.11) and high activity (M = 9.70, SD = 6.71). There were no outliers, according to inspection with a box-plot. Data was normally distributed for each group (Shapiro-Wilk test, p > .05) and there was homogeneity of variance (Levene’s test, p > .05). The level of depression differed statistically significant for the different levels of physical activity, Welch’s F(2, 57.03) = 78.53, p < .001, η² = .64.