Einfaktorielle ANCOVA

Einfaktorielle ANCOVA: Ausreißer finden

Ausreißer sind eine weitere mögliche Quelle für Verzerrungen bei statistischen Analysen und die meisten Verfahren sind dabei nur wenig oder gar nicht Robust, wenn sich Ausreißer im Datensatz befinden. Ein einziger Ausreißer kann dabei der Grund für ein nicht-signifikanten oder auch signifikantes Ergebnis sein. Dies kann man auch selbst recht einfach überprüfen, indem man nur einen Wert in dem Beispieldatensatz vervierfacht. Dies Auswirkungen bilden sich sofort in den Signifikanzen und Effektstärken der ANCOVA ab.

Wir werden Ausreißer hier mit zwei verschiedenen Methoden überprüfen: Hebelwerte und Cook-Distanzen.

Ausreißer sollten nicht einfach pauschal von der weiteren Analyse ausgeschlossen werden. Bei jedem Ausschluss von Fällen sollten Vor- und Nachteile gegeneinander abgewogen werden. Zwar können Ausreißer Inferenzstatistiken verzerren, aber das Ausmaß hängt auch stark von dem Verfahren und der schwere des Ausreißers ab. Jeder Ausschluss eines Falls aus der Gesamtstichprobe geht aber immer mit einem Verlust an Power einher (durch die Verringerte Stichprobengröße) und noch vielmehr schließen wir Fälle aus, die uns potentiell ebenfalls wichtige Einblicke bringen können. Jeder Ausschluss stellt einen Eingriff in den Datensatz dar und sollte daher nicht pauschal, sondern mit Hinblick auf die Fragestellung erfolgen.

Hebelwerte

Der Hebelwert (englisch leverage) ist ein Maß dafür, wie weit der Wert einer unabhängigen Variablen von anderen Werten entfernt liegt. Ein hoher Hebelwert würde bedeuten, das sich in der Nähe dieses Falls keine weiteren Fälle befinden. Es könnte sich hierbei um einen Ausreißer handeln. Der Hebelwert kann Werte zwischen 0 und 1 annehmen, wobei ein Wert von 0 bedeuten würden, dass der Fall keinen Einfluss auf die Vorhersage hat und 1, dass die Vorhersage vollständig durch diesen einen Wert bestimmt wird.

Es existieren verschiedene Formeln und cut-offs zur Berechnung, ab wann ein Hebelwert groß genug ist, um als Ausreißer klassifiziert zu werden. Viele davon richten sich nach der Anzahl der Gruppen k und Kovariaten c und der Anzahl der Fälle n. Der Wert p errechnet sich aus k und c dabei so: p = k – 1 + c. Mit einer Kovariate und drei Gruppen, wäre unser p damit 3.

  • Huber (1981) empfiehlt einen generellen cut-off Wert von .2, unabhängig von anderen Parametern
  • Igo (2010) empfiehlt die Formel \(\frac{2\cdot p}{n}\) für einigermaßen große Datensätze von np > 50
  • Velleman & Welsch (1981) empfehlen hingegen \(\frac{3\cdot p}{n}\) für p > 6 und np > 12
  • Hoaglin & Welsch (1978) empfehlen \(2\cdot\frac{p+1}{n}\) als Faustregel für „große Hebelwerte“

Jetzt haben wir die Qual der Wahl. Wir haben mit unserem Beispieldatensatz p = 3 bei 145 Fällen. Nach Igo (2010) wäre ein Ausreißer damit bei einem Hebelwert von .0413 oder größer. Nach Hoaglin und Welsch (1978) hingegen bei .0552. Und bei Huber (1981) – unabhängig von allen anderen Parametern – bei .2.

Überprüft werden Hebelwerte, indem wir die Spalte in der Datenansicht von SPSS absteigend ordnen. Dazu gehen wir in die Datenansicht und drücken mit der rechten Maustaste auf die Spalte LEV_1 und ordnen sie absteigend, wie in dem Video unten

Danach sind die größten Werte von LEV_1 oben:

Einfaktorielle ANCOVA: Hebelwerte sortiert

Der erste Wert (.05816) kann als Ausreißer sowohl nach Igo (2010) und Hoaglin & Welsch (1978) gesehen werden. Hier könnten wir überlegen, ob wir diese Beobachtung von der weiteren Analyse ausschließen wollen oder nicht. Nach Igo (2010) wären allerdings auch die ersten 13 Fälle Ausreißer.

Cook-Distanzen

Auch die Cook-Distanz ist ein Maß für den Einfluss, den ein einzelner Fall auf das gesamte Modell nimmt. Sie misst, wie stark sich die Regressionsgerade verändern würden, wenn wir den Fall ausschließen würden. Generell gelten Werte größer als 1 als Ausreißer und sollten näher untersucht werden.

Die Überprüfung erfolgt ähnlich wie vorher: Wir ordnen die Variablen COO_1 absteigend:

Einfaktorielle ANCOVA: Nach Cook-Distanz sortieren

Nachdem wir sortiert haben, sähe unser Datensatz so aus:

Einfaktorielle ANCOVA: Nach Cook-Distanz sortiert

Der höchste Wert hier ist .06 und damit weit entfernt von dem cut-off Kriterium von 1.

 

Was tun wenn...

Wenn wir Ausreißer in unserem Datensatz haben, können wir überlegen, ob wir sie von der weiteren Datenanalyse ausschließen möchten. Hier empfiehlt es sich auch, die Werte auszuschließen und die Analyse erneut durchzuführen. Oft verbessern sich dadurch Statistiken wie der p-Wert oder die Varianzaufklärung, die wir später noch besprechen werden.

Da es mehrere Möglichkeiten gibt, Ausreißer zu klassifizieren, sollten alle Methoden auch kombiniert eingesetzt werden. Ein Wert ist am wahrscheinlichsten ein Ausreißer, wenn mehrere Verfahren ihn als solchen identifizieren.

Wir würden generell empfehlen, vorsichtig bei dem Ausschluss von Fällen zu sein. Jeder Ausschluss stellt einen Eingriff in die Daten dar, der gut überlegt sein sollte. Sollten sich mehrere Fälle als Ausreißer herauskristallisieren, sollte auch überprüft werden, ob dahinter eine Systematik liegt. Oft kann es sein, dass sich „Ausreißer“ auf einer anderen Variable häufen, z.B. wenn bei einem visuellen Experiment, Personen Ausreißer sind, die das Stimulusmaterial nicht sehen konnte. Sollten weitere Variablen erhoben worden sein, kann es sinnvoll sein, einer möglichen Ursache auf den Grund zu gehen.

Wie immer beim Ausschließen von Fällen von der weiteren Datenanalyse gilt: Alles dokumentieren und berichten! Falls wir Fälle ausschließen muss das in der Arbeit angegeben und begründet werden.

Literaturverzeichnis

  1. Huber. (1981). Robust Statistics. New York: John Wiley.
  2. Igo, R. P. (2010). Influential Data Points. In N. J. Salkind (Ed.), Encyclopedia of Research Design (Vol. 2, pp. 600–602). Los Angeles: Sage.
  3. Velleman, P. F., & Welsch, R. E. (1981). Efficient Computing of Regression Diagnostics. The American Statistician, 35(4), 234. doi:10.2307/2683296
  4. Hoaglin, D. C., & Welsch, R. E. (1978). The Hat Matrix in Regression and ANOVA. The American Statistician, 32(1), 17–22. doi:10.1080/00031305.1978.10479237