Binomiale logistische Regression: Ausreißer finden
Wir haben insgesamt drei verschiedene Methoden berechnet, die allesamt Ausreißer finden sollen. Generell ist es schwierig zu definieren, ab wann ein Wert ein echter Ausreißer ist und auch hier existieren unterschiedliche Empfehlungen von verschiedenen Autoren. Oft kann es daher hilfreich sein, die verschiedenen Maße zu betrachten und anhand der Summe der Informationen zu entscheiden, ob eine Beobachtung wirklich ein „Ausreißer“ ist. In diesem Artikel werden wir einige Empfehlungen besprechen.
Weiterführende Informationen zu den einzelnen Statistiken geben wir in diesem Artikel.
Fallweise Liste
Die Tabelle Fallweise Liste enthält Informationen zu Beobachtungen deren Studentisierten Residuen (die Spalte SResid) größer als ±2 Standardabweichungen sind. Generell können Werte mit Studentisierten Residuen ab ±3 (Pardoe, 2012, p. 166; Yan & Su, 2009, p. 134) bzw. ab ±2–3 (vom Hofe, 2010) als Ausreißer angesehene werden und Werte, die in diesen Bereich fallen, sollten näher betrachtet werden. Wir legen für unseren Datensatz das Kriterium von ±3 Standardabweichungen zugrunde und haben damit keinen Fall der als potentieller (nach diesem Kriterium) Ausreißer infrage käme.
Fallweise Listeb | |||||||
---|---|---|---|---|---|---|---|
Fall | Ausgewählter Statusa | Beobachtet | Vorhergesagt | Vorhergesagte Gruppe | Temporäre Variable | ||
Diagnose | Resid | ZResid | SResid | ||||
7 | S | s** | ,973 | e | -,973 | -5,997 | -2,699 |
60 | S | s** | ,897 | e | -,897 | -2,949 | -2,150 |
121 | S | s** | ,977 | e | -,977 | -6,497 | -2,759 |
234 | S | s** | ,945 | e | -,945 | -4,135 | -2,437 |
298 | S | s** | ,972 | e | -,972 | -5,876 | -2,682 |
340 | S | s** | ,953 | e | -,953 | -4,479 | -2,482 |
407 | S | s** | ,901 | e | -,901 | -3,020 | -2,177 |
518 | S | s** | ,973 | e | -,973 | -5,958 | -2,692 |
a. S = Ausgewählte, U = Nicht ausgewählte Fälle und ** = Falsch klassifizierte Fälle. | |||||||
b. Fälle mit studentisierten Residuen größer als 2,000 werden aufgelistet. |
Hebelwerte (Leverage)
Als nächstes betrachten wir die Hebelwerte. Hebelwerte messen, wie ungewöhnlich ein Fall in Bezug auf die Werte seiner Prädiktoren ist – ohne die Werte des Kriteriums zu betrachten.
Es existieren verschiedene Formeln und Cut-Offs zur Berechnung, ab wann ein Hebelwert groß genug ist, um als Ausreißer klassifiziert zu werden. Viele davon richten sich nach der Anzahl der Prädiktoren p und der Anzahl der Fälle n.
- Huber (1981) empfiehlt einen Cut-Off Wert von .2
- Igo (2010) empfiehlt die Formel \(\frac{2\cdot p}{n}\) für einigermaßen große Datensätze von n−p > 50
- Velleman & Welsch (1981) empfehlen hingegen \(\frac{3\cdot p}{n}\) für p > 6 und n−p > 12
- Frees (2010) empfiehlt \(\frac{3\cdot(p+1)}{n}\)
Jetzt haben wir die Qual der Wahl. Wir haben in unserem Beispieldatensatz 5 Prädiktoren und 569 Fälle. Nach Igo (2010) wäre ein Ausreißer damit bei einem Hebelwert von .0176 oder größer. Nach Velleman & Welsch (1981) hingegen bei .0264 (wobei wir mit nur drei Prädiktoren nicht sein erstes Kriterium erfüllen). Nach Frees (2010) müssten wir alle Werte größer als 0.0316 genauer untersuchen. Und bei Huber (1981) – unabhängig von der Anzahl der Prädiktoren und Fälle – bei .2.
Überprüft werden Hebelwerte, indem in der Datenansicht nach der neu hinzugekommenen Variable LEV_1 absteigend geordnet wird. Dazu drücken wir in der Datenansicht mit der rechten Maustaste auf die Spalte LEV_1 und dann auf Absteigend sortieren, wie in der Abbildung unten.

Dadurch erhalten wir folgende Werte:

Hier zeigen sich großer Unterschiede zwischen den einzelnen Cut-Offs: nach Huber (1981) hätten wir einen einzigen Ausreißer im Datensatz, nach Igo (2010) hingegen ganze 112! Die anderen Verfahren liegen dazwischen. Hier sieht man auch, dass Cut-Off-Werte und Empfehlungen mit Vorsicht betrachtet werden müssen, da es sehr unwahrscheinlich ist, dass etwa ein Fünftel unserer Daten Ausreißer sind. Für unseren Datensatz halten wir die Empfehlung von Huber (1981) am sinnvollsten, der uns eine Beobachtungen (VP-Nummer 345) als Ausreißer kennzeichnet.
Cooks Distanz
Als Letztes betrachten wir noch die Cooks Distanz, die in der neu berechneten Variable COO_1 für jeden Fall berechnet und gespeichert wurde. Unser Vorgehen ist analog zu der der Hebelwerte: Wir klicken wieder auf die Spalte und ordnen absteigend nach der Variable, diesmal COO_1. Dadurch erhalten wir folgende Reihenfolge:

Hier wird in der Regel wird empfohlen, Beobachtungen mit einer Cooks-Distanz ab 1 als Ausreißer in Auge zu fassen (Heiberger & Holland, 2015, p. 367; Larose, 2006, p. 53; Weisberg, 1985). Für unseren Datensatz erfüllt keine der Beobachtungen dieses Kriterium, so dass wir gemäß der Cooks-Distanz keine Ausreißer im Datensatz hätten.
Was tun wenn...
Wir haben drei verschiedene Verfahren zu Rate gezogen und kein einheitliches Bild erhalten. In der Regel sollte mit dem Ausschluss von Datenpunkte sehr sparsam umgegangen werden und nur solche Beobachtungen ausgeschlossen werden, die man gut begründen kann. Dies kann z.B. der Fall sein können, wenn mehrere Verfahren einen Datenpunkt als Ausreißer klassifiziert hätten.Da die Verfahren für unseren Beispieldatensatz allerdings allesamt zu unterschiedlichen Ergebnissen gekommen sind und die Cut-Off-Werte nicht disproportional überschritten wurden, werden wir mit der Datenanalyse fortfahren, ohne Datenpunkte von der weiteren Analyse auszuschließen.
Ausreißer sollten nicht einfach so von der weiteren Analyse ausgeschlossen werden. Bei jedem Ausschluss von Fällen sollten Vor- und Nachteile gegeneinander abgewogen werden. Zwar können Ausreißer Inferenzstatistiken verzerren, aber das Ausmaß hängt auch stark von dem Verfahren und der schwere des Ausreißers ab. Jeder Ausschluss eines Falls aus der Gesamtstichprobe geht aber immer mit einem Verlust an Power einher (durch die Verringerte Stichprobengröße) und noch vielmehr schließen wir Fälle aus, die uns potentiell ebenfalls wichtige Einblicke bringen können. Jeder Ausschluss sollte daher nicht pauschal, sondern mit Hinblick auf die Fragestellung erfolgen.
Sollten Daten als Ausreißer klassifiziert und von der Datenanalyse ausgeschlossen werden, muss dies in der Arbeit berichtet und begründet werden.
Literaturverzeichnis
- Frees, E. W. (2010). Regression modeling with actuarial and financial applications. International series on actuarial science. Cambridge: Cambridge University Press.
- Heiberger, R. M., & Holland, B. (2015). Statistical analysis and data display: An intermediate course with examples in R. Springer texts in statistics. New York: Springer.
- Huber. (1981). Robust Statistics. New York: John Wiley.
- Igo, R. P. (2010). Influential Data Points. In N. J. Salkind (Ed.), Encyclopedia of Research Design (Vol. 2, pp. 600–602). Los Angeles: Sage.
- Larose, D. T. (2006). Data mining methods and models. Hoboken, N.J.: Wiley.
- Pardoe, I. (2012). Applied Regression Modeling: A Business Approach: Wiley.
- Velleman, P. F., & Welsch, R. E. (1981). Efficient Computing of Regression Diagnostics. The American Statistician, 35(4), 234. doi:10.
2307/ 2683296 - Vom Hofe, R. (2010). Residuals. In N. J. Salkind (Ed.), Encyclopedia of research design (pp. 1267–1271). Los Angeles: SAGE.
- Weisberg, S. (1985). Applied linear regression. Wiley series in probability and statistics. Hoboken, N.J., Chichester: Wiley.
- Yan, X., & Su, X. (2009). Linear regression analysis: Theory and computing. Singapore, Hackensack NJ: World Scientific.