Einfaktorielle ANCOVA: Gleichheit der Fehlervarianzen
Die letzte Voraussetzung, die wir überprüfen, bevor wir mit der eigentlichen Interpretation der Ergebnisse beginnen, ist die Gleichheit der Fehlervarianzen.
Bei der Durchführung von ANCOVAs (und ANOVAs) wird die Varianz der Grundgesamtheit unter Verwendung von Stichprobendaten aus allen Gruppen geschätzt. Die Annahme der Homogenität der Varianz wird in ANCOVAs durch die Bildung von Mittelwerten der Schätzungen der einzelnen Stichproben zugrunde gelegt. Basierend auf den verschiedenen Gruppen wird eine gepoolte Varianzschätzung der Population ermittelt.
Die Gleichheit der Fehlervarianzen ist wichtig, damit die gepoolte Schätzung verwendet werden kann. Das Poolen der Varianzen wird durchgeführt, weil angenommen wird, dass die Varianzen gleich sind und in erster Linie dieselbe Größe (die Populationsvarianz) geschätzt wird. Wenn die Stichprobengrößen gleich sind, führt das Pooling der Varianzen zum gleichen Ergebnis. Wenn die Stichprobengrößen allerdings ungleich sind, geht man davon aus, dass das Pooling von Varianzen zu anderen Ergebnissen führen kann (dies besprechen wir allerdings noch ausführlich unter „Was tun wenn?“ am Ende des Artikels).
SPSS liefert uns in der Ausgabe der ANCOVA bereits eine Variante des Levene-Tests, allerdings verwendet dieser Test den Mittelwert, was in einigen Studien kritisiert wurde. Wir werden deshalb den Levene-Test über ein anderes Dialogfenster berechnen lassen, dass uns vier verschiedene Varianten des Levene-Test berechnet und die entsprechende Interpretation und Verschriftlichung besprechen.
Levene-Test in SPSS berechnen
Die robusteren Varianten des Levene-Tests können wir wieder über das Dialogfenster der explorativen Datenanalyse berechnen, dass wir schon vorher für die Berechnung der Normalverteilung verwendet haben.
- Das Dialogfeld zur Überprüfung der Normalverteilung finden wir in SPSS unter Analysieren > Deskriptive Statistiken > Explorative Datenanalyse…
- Es erscheint das Dialogfenster unten. Da wir in einem vorigen Schritt die explorative Datenanalyse bereits zur Bestimmung der Normalverteilung verwendet haben, sind unsere letzten Angabe hier noch gespeichert.
- Die Abhängige Variable bleibt auch für diese Analyse die standardisierten Residuen ZRE_1. In die Faktorenliste tragen wir unsere Gruppierungsvariable gruppe ein. Das vollständig ausgefüllte Dialogfenster würde damit so aussehen:
- Als Letztes müssen wir noch eine Einstellung in den Diagrammen vornehmen. Dazu drücken wir einmal auf .
- Hier können wir wieder den Haken aus Streubreite vs. mittleres Niveau mit Levene-Test den Punkt auswählen. Ausgefüllt sieht unser Dialogfenster dann so aus. entfernen und dafür unter
- Durch Klicken auf wird die Eingabe bestätigt und wir gelangen wieder zum vorherigen Dialog.
- Damit sind alle Einstellungen gemacht. Durch Drücken auf wird die Ausgabe entsprechend unserer Auswahl erstellt.
Levene-Test interpretieren
In der Ausgabe hat uns SPSS jetzt zwei Tabellen und zwei Diagramme erstellt. Uns interessiert die Tabelle Test auf Homogenität der Varianz und hieraus die Spalte Signifikanz (unter gelb hervorgehoben).
Test auf Homogenität der Varianz | |||||
---|---|---|---|---|---|
Levene-Statistik | df1 | df2 | Signifikanz | ||
Residuum für klausurergebnis | Basiert auf dem Mittelwert | ,519 | 2 | 132 | ,596 |
Basiert auf dem Median | ,461 | 2 | 132 | ,632 | |
Basierend auf dem Median und mit angepaßten df | ,461 | 2 | 125,919 | ,632 | |
Basiert auf dem getrimmten Mittel | ,515 | 2 | 132 | ,599 |
SPSS hat für uns den Levene-Test auf vier verschiedene Arten berechnet:
- Basierend auf dem Mittelwert. Dies ist der „Standard Levene-Test“. Er wird auch von SPSS als Teil der Ausgabe der ANOVA berechnet.
- Basierend auf dem Median. Dieses Berechnungsverfahren entspricht dem Brown-Forsythe-Test und ist die robustere Variante. Statt dem Mittelwert wird der Median als Kriterium verwendet.
- Basierend auf dem Median und mit angepassten Freiheitsgraden. Eine weitere Abwandlung des oben genannten Brown-Forsythe-Test, der durch eine zusätzliche Korrektur der Freiheitsgrade.
- Basierend auf dem getrimmten Mittel. Eine Abwandlung der ersten Variante, bei der die Werte getrimmt werden, bevor die Analyse durchgeführt wird. Dies betrifft vor allem extremere Werte in den Randregionen der Daten.
Bei vier verschiedenen Verfahren, stellt sich jetzt natürlich die Frage, welcher Test interpretiert werden soll? Generell gibt es hier auch wieder verschiedene Empfehlungen inder Literatur.
- Li et al. (2015) empfehlen die Tests basierend auf dem Median (2) und den mit getrimmten Mittel (4)
- Indrayan & Holt (2016) empfehlen ebenfalls den Levene-Test basierend auf dem Median (2)
- Sharma & Kibria (2013) zeigten in ihrer Simulationsstudie, dass Tests, deren Statistik auf dem Median basiert, generell bessere Ergebnisse liefern, als Mittelwert-basierte Statistiken und empfehlen ebenfalls den Einsatz des Levene-Test basierend auf dem Median (2)
Die Ergebnisse der Testung auf Gleichheit der Fehlervarianzen mit dem Levene-Test basierend auf dem Median könnten wir so berichten:
Die Voraussetzung der Homogenität der Varianzen war gegeben, wie durch den Levene-Test beurteilt wurde (p = .632).
English
The assumptions of homogeneity of variances was found to be satisfied, as assessed by Levene’s test (p = .632).
Was tun wenn...
Wenn wir einen signifikanten Levene-Test haben, gibt es verschiedene Möglichkeiten, wie wir weiter machen können. Zum einen häufen sich in letzter Zeit Studien, die den klassischen Levene-Test kritisieren. So haben beispielsweise Keyes & Levy (1997) gefunden, das der Levene-Test zu problematischen Aussagen führt, je stärker sich die Größe der Gruppen unterscheiden. Entsprechend existiert Literatur, beispielsweise Ito (1980) und Huitema (2011), wonach ANOVA- und ANCOVA-Modelle weitestgehend robust sind und entsprechend die Voraussetzung der Gleichheit der Fehlervarianzen bei gleichen Gruppengrößen effektiv ignoriert werden kann. Mittlerweile existieren etwa 60 alternative Testverfahren zu dem Levene-Test, von denen ein Teil von Wang et al. (2018) und Sharma & Kibria (2013) getestet und verglichen wurde.Generell lässt sich sagen, dass ANOVA- und ANCOVA-Modelle bei Verletzungen dieser Annahme robust sind – vor allem, wenn die Gruppen gleich groß sind (Davis, 2010; Huitema, 2011; Ito, 1980; Shields, 1978). Wie jeder statistische Test hat auch der Levene-Test eine ihm inhärente statistische Power. Dadurch kann es sein, dass der Levene-Test in einigen Situationen zu streng (konservativ) urteilt, aber in anderen Situationen zu liberal ist: Bei großen Stichproben führen kleine Unterschiede in den Varianzen zu einem signifikanten Levene-Test; umgekehrt können bei kleinen Stichproben relativ große Unterschiede zwischen den Varianzen unentdeckt bleiben (Field, 2007, p. 443).
Hat man diese Voraussetzung verletzt und möchte gegensteuern, kann man sich überlegen, heteroskedastizitäts-konsistente Statistiken zu berechnen. Zwar bietet SPSS prinzipiell die Option dafür (unter Optionen, Parameterschätzungen mit robusten Standardfehlern), allerdings bezieht sich diese Ausgabe dann nicht direkt auf die ANCOVA, was für uns jedoch entscheidend wäre. Hier müssten wir zu R greifen und dort die Auswertung mit der Funktion Anova
aus dem Paket car
erneut berechnen, beispielsweise so: Anova(Modell, type = 3, white.adjust = "hc3")
(Informationen zur Spezifikation von ANCOVA-Modellen in R finden sich hier). Dies erzeugt robuste Inferenzstatistiken, die unabhängig von den Gruppengrößen interpretierbar sind.
Literaturverzeichnis
- Conover, W. J., Johnson, M. E., & Johnson, M. M. (1981). A Comparative Study of Tests for Homogeneity of Variances, with Applications to the Outer Continental Shelf Bidding Data. Technometrics, 23(4), 351–361. doi:10.
1080/ 00401706. 1981. 10487680 - Davis, C. R. (2010). Homogeneity of Variance. In N. J. Salkind (Ed.), Encyclopedia of research design (Vol. 1, pp. 577–580). Los Angeles: SAGE.
- Field, A. P. (2007). Homogeneity of Variance. In N. Salkind (Ed.), Encyclopedia of Measurement and Statistics (pp. 442–444). Thousand Oaks California, USA: SAGE Publications, Inc. doi:10.
4135/ 9781412952644. n207 - Huitema, B. E. (2011). The Analysis of Covariance and Alternatives. Hoboken, NJ, USA: John Wiley & Sons, Inc. doi:10.
1002/ 9781118067475 - Indrayan, A., & Holt, M. P. (2016). Concise encyclopedia of biostatistics for medical professionals. Boca Raton: Chapman & Hall/CRC.
- Keyes, T. K., & Levy, M. S. (1997). Analysis of Levene’s Test Under Design Imbalance. Journal of Educational and Behavioral Statistics, 22(2), 227–236. doi:10.
3102/ 10769986022002227 - Ito, P. K (1980). Robustness of ANOVA and MANOVA test procedures. In Analysis of Variance (Vol. 1, pp. 199–236). doi:10.
1016/ S0169- 7161( 80) 01009- 7 - Li, X., Qiu, W., Morrow, J., DeMeo, D. L., Weiss, S. T., Fu, Y., & Wang, X. (2015). A Comparative Study of Tests for Homogeneity of Variances with Application to DNA Methylation Data. PloS One, 10(12), e0145295. doi:10.
1371/ journal. pone. 0145295 - O’Brien, R. G. (1978). Robust techniques for testing heterogeneity of variance effects in factorial designs. Psychometrika, 43(3), 327–342. doi:10.
1007/ BF02293643 - Sharma, D., & Kibria, B. M. G. (2013). On some test statistics for testing homogeneity of variances: a comparative study. Journal of Statistical Computation and Simulation, 83(10), 1944–1963. doi:10.
1080/ 00949655. 2012. 675336 - Shields, J. L (1978). An Empirical Investigation of the Effect of Heteroscedasticity and Heterogeneity of Variance on the Analysis of Covariance and the Johnson-Neyman Technique. Washington, DC: Army Research Inst. for the Behavioral and Social Sciences, Arlington, VA. Retrieved from https://apps.dtic.mil/dtic/tr/fulltext/u2/a058205.pdf
- Wang, Y., Pham, T., Nguyen, D., Kim, E. S., Chen, Y.-H., Kromrey, J., . . . Yin, Y. (2018). Evaluating the Efficacy of Conditional Analysis of Variance under Heterogeneity and Non-Normality. Journal of Modern Applied Statistical Methods, 17(2). doi:10.
22237/ jmasm/ 1555340224