Einfaktorielle ANCOVA: Ausreißer finden
Ausreißer sind eine weitere mögliche Quelle für Verzerrungen bei statistischen Analysen und die meisten Verfahren sind dabei nur wenig oder gar nicht Robust, wenn sich Ausreißer im Datensatz befinden. Ein einziger Ausreißer kann dabei der Grund für ein nicht-signifikanten oder auch signifikantes Ergebnis sein. Dies kann man auch selbst recht einfach überprüfen, indem man nur einen Wert in dem Beispieldatensatz vervierfacht. Dies Auswirkungen bilden sich sofort in den Signifikanzen und Effektstärken der ANCOVA ab.
Wir werden Ausreißer hier mit zwei verschiedenen Methoden überprüfen: Hebelwerte und Cook-Distanzen.
Hebelwerte
Der Hebelwert (englisch leverage) ist ein Maß dafür, wie weit der Wert einer unabhängigen Variablen von anderen Werten entfernt liegt. Ein hoher Hebelwert würde bedeuten, das sich in der Nähe dieses Falls keine weiteren Fälle befinden. Es könnte sich hierbei um einen Ausreißer handeln. Der Hebelwert kann Werte zwischen 0 und 1 annehmen, wobei ein Wert von 0 bedeuten würden, dass der Fall keinen Einfluss auf die Vorhersage hat und 1, dass die Vorhersage vollständig durch diesen einen Wert bestimmt wird.
Es existieren verschiedene Formeln und cut-offs zur Berechnung, ab wann ein Hebelwert groß genug ist, um als Ausreißer klassifiziert zu werden. Viele davon richten sich nach der Anzahl der Gruppen k und Kovariaten c und der Anzahl der Fälle n. Der Wert p errechnet sich aus k und c dabei so: p = k – 1 + c. Mit einer Kovariate und drei Gruppen, wäre unser p damit 3.
- Huber (1981) empfiehlt einen generellen cut-off Wert von .2, unabhängig von anderen Parametern
- Igo (2010) empfiehlt die Formel \(\frac{2\cdot p}{n}\) für einigermaßen große Datensätze von n−p > 50
- Velleman & Welsch (1981) empfehlen hingegen \(\frac{3\cdot p}{n}\) für p > 6 und n−p > 12
- Hoaglin & Welsch (1978) empfehlen \(2\cdot\frac{p+1}{n}\) als Faustregel für „große Hebelwerte“
Jetzt haben wir die Qual der Wahl. Wir haben mit unserem Beispieldatensatz p = 3 bei 145 Fällen. Nach Igo (2010) wäre ein Ausreißer damit bei einem Hebelwert von .0413 oder größer. Nach Hoaglin und Welsch (1978) hingegen bei .0552. Und bei Huber (1981) – unabhängig von allen anderen Parametern – bei .2.
Überprüft werden Hebelwerte, indem wir die Spalte in der Datenansicht von SPSS absteigend ordnen. Dazu gehen wir in die Datenansicht und drücken mit der rechten Maustaste auf die Spalte LEV_1 und ordnen sie absteigend, wie in dem Video unten
Danach sind die größten Werte von LEV_1 oben:
Der erste Wert (.05816) kann als Ausreißer sowohl nach Igo (2010) und Hoaglin & Welsch (1978) gesehen werden. Hier könnten wir überlegen, ob wir diese Beobachtung von der weiteren Analyse ausschließen wollen oder nicht. Nach Igo (2010) wären allerdings auch die ersten 13 Fälle Ausreißer.
Cook-Distanzen
Auch die Cook-Distanz ist ein Maß für den Einfluss, den ein einzelner Fall auf das gesamte Modell nimmt. Sie misst, wie stark sich die Regressionsgerade verändern würden, wenn wir den Fall ausschließen würden. Generell gelten Werte größer als 1 als Ausreißer und sollten näher untersucht werden.
Die Überprüfung erfolgt ähnlich wie vorher: Wir ordnen die Variablen COO_1 absteigend:
Nachdem wir sortiert haben, sähe unser Datensatz so aus:
Der höchste Wert hier ist .06 und damit weit entfernt von dem cut-off Kriterium von 1.
Was tun wenn...
Wenn wir Ausreißer in unserem Datensatz haben, können wir überlegen, ob wir sie von der weiteren Datenanalyse ausschließen möchten. Hier empfiehlt es sich auch, die Werte auszuschließen und die Analyse erneut durchzuführen. Oft verbessern sich dadurch Statistiken wie der p-Wert oder die Varianzaufklärung, die wir später noch besprechen werden.Da es mehrere Möglichkeiten gibt, Ausreißer zu klassifizieren, sollten alle Methoden auch kombiniert eingesetzt werden. Ein Wert ist am wahrscheinlichsten ein Ausreißer, wenn mehrere Verfahren ihn als solchen identifizieren.
Wir würden generell empfehlen, vorsichtig bei dem Ausschluss von Fällen zu sein. Jeder Ausschluss stellt einen Eingriff in die Daten dar, der gut überlegt sein sollte. Sollten sich mehrere Fälle als Ausreißer herauskristallisieren, sollte auch überprüft werden, ob dahinter eine Systematik liegt. Oft kann es sein, dass sich „Ausreißer“ auf einer anderen Variable häufen, z.B. wenn bei einem visuellen Experiment, Personen Ausreißer sind, die das Stimulusmaterial nicht sehen konnte. Sollten weitere Variablen erhoben worden sein, kann es sinnvoll sein, einer möglichen Ursache auf den Grund zu gehen.
Wie immer beim Ausschließen von Fällen von der weiteren Datenanalyse gilt: Alles dokumentieren und berichten! Falls wir Fälle ausschließen muss das in der Arbeit angegeben und begründet werden.
Literaturverzeichnis
- Huber. (1981). Robust Statistics. New York: John Wiley.
- Igo, R. P. (2010). Influential Data Points. In N. J. Salkind (Ed.), Encyclopedia of Research Design (Vol. 2, pp. 600–602). Los Angeles: Sage.
- Velleman, P. F., & Welsch, R. E. (1981). Efficient Computing of Regression Diagnostics. The American Statistician, 35(4), 234. doi:10.
2307/ 2683296 - Hoaglin, D. C., & Welsch, R. E. (1978). The Hat Matrix in Regression and ANOVA. The American Statistician, 32(1), 17–22. doi:10.
1080/ 00031305. 1978. 10479237