Einfaktorielle MANOVA: Multivariate Ausreißer: Mahalanobis-Distanz interpretieren
Im letzten Abschnitt haben wir die Mahalanobis-Distanz berechnet. Jetzt interpretieren wir sie.
Mahalanobis-Distanz interpretieren
Als Distanzmaß schauen wir, ob sich Werte überhalb einem definierten Wert liegen. Falls ja, handelt es sich dabei möglicherweise um einen Ausreißer.
- Da wir uns für die extremsten Werte der Mahalanobis-Distanz interessieren, ordnen wir im ersten Schritt unsere Variable MAH_1 absteigend. Dazu drücken wir in der Datenansicht mit der rechten Maustaste auf die Kopfzeile und wählen dann Absteigend sortieren aus.
Cut-Offs der Mahalanobis-Distanz
Die Cut-Off-Werte werden über die Chi²-Verteilung berechnet, wobei die Anzahl der abhängigen Variablen in unseren MANOVA der Anzahl der Freiheitsgerade der Chi²-Verteilung entspricht. Als p-Wert empfehlen wir .001, wobei auch konservativere Werte wie p = .01 oder p = .05 möglich wären.
Für bis zu 15 Variablen haben wir die Cut-Off-Werte bereits berechnet. Falls mehr Variablen im Modell sind, können über den Rechner unterhalb weitere Cut-Off-Werte berechnet werden.
Anzahl abhängiger Variablen | Cut-Off |
---|---|
2 | 13,816 |
3 | 16,266 |
4 | 18,467 |
5 | 20,515 |
6 | 22,458 |
7 | 24,322 |
8 | 26,124 |
9 | 27,877 |
10 | 29,588 |
11 | 31,264 |
12 | 32,909 |
13 | 34,528 |
14 | 36,123 |
15 | 37,697 |
Cut-Off für andere Werte berechnen
Wir haben in unserem Beispieldatensatz zwei abhängige Variablen, entsprechend läge unser Cut-Off-Wert bei 13,816. Werte darüber würden auf einen Ausreißer hindeuten.
In unserem Datensatz liegt die höchste Mahalanobis-Distanz bei 11,348 und entsprechend unter dem Cut-Off von 13,816. Dies könnten wir wie folgt berichten:
Es wurden keine multivariaten Ausreißer gefunden, gemessen durch die Mahalanobis-Distanz (p > .001).
English
No multivariate outliers were found, as assessed by the Mahalanobis distance (p > .001).
Ausreißer gefunden, was nun?
Als erstes sollten wir überprüfen, ob die Ausreißer durch Dateneingabefehlern bzw. Messfehlern zustande gekommen sind. Dies kann am einfachsten getan werden, indem eine explorative Datenanalyse (unter Analysieren > Deskriptive Statistiken > Explorative Datenanalyse) durchgeführt wird. Ein Blick auf die Minima und Maxima jeder Variable verrät uns, ob hier Fehler entstanden sein könnten.Sollte dies nicht der Fall sein, müssen wir davon ausgehen, dass die Ausreißer durch echte Extreme zustande gekommen sind. Hier wird die Situation schwieriger, weil es keine Standardempfehlung gibt. Generell haben wir zwei Möglichkeiten:
- Die Ausreißer entfernen. Wie können die Ausreißer aus unserem Datensatz entfernen. Dies könnte allerdings auch problematisch sein, da wir potentiell Messwerte entfernen, zwar gemessen an unserer Stichprobe extrem sind, aber immer noch tatsächliche Messwerte darstellen. Auch muss jedes Entfernen dokumentiert und berichtet werden. Durch das entfernen von Ausreißern – und generell Messwerten – kann schnell der Verdacht des Schönens von Daten auftreten, deshalb ist hier besondere Vorsicht geboten. Sollten Ausreißer entfernt werden, empfehlen wir die Analyse zweimal durchzuführen: einmal mit den Ausreißern und einmal ohne. Im Zweifelsfall kann man abweichende Ergebnisse diskutieren.
Sollten Ausreißer entfernt werden, muss die Ausreißeranalyse auch erneut durchgeführt werden, der ein sehr extremer Ausreißer möglicherweise einen anderen weniger extremen verdeckt. - Die Ausreißer im Datensatz lassen. Die MANOVA ist generell relativ robust gegenüber Ausreißern, vor allem bei größeren Stichproben. Dementsprechend kann es akzeptabel sein, mit der Analyse fortzufahren. Allerdings kann auch hier versucht werden die betreffenden abhängigen Variable zu transformieren. Im Gegensatz zu univariaten Verfahren gestaltet sich dies allerdings bei multivariaten Verfahren deutlich schwieriger, da es nicht immer ersichtlich ist, welche der abhängigen Variablen für die Ausreißer verantwortlich ist und welche Transformationen entsprechend anzuwenden sind.