Binomiale Logistische Regression

Binomiale logistische Regression: Ausreißer finden

Wir haben insgesamt drei verschiedene Methoden berechnet, die allesamt Ausreißer finden sollen. Generell ist es schwierig zu definieren, ab wann ein Wert ein echter Ausreißer ist und auch hier existieren unterschiedliche Empfehlungen von verschiedenen Autoren. Oft kann es daher hilfreich sein, die verschiedenen Maße zu betrachten und anhand der Summe der Informationen zu entscheiden, ob eine Beobachtung wirklich ein „Ausreißer“ ist. In diesem Artikel werden wir einige Empfehlungen besprechen.

Weiterführende Informationen zu den einzelnen Statistiken geben wir in diesem Artikel.

Fallweise Liste

Die Tabelle Fallweise Liste enthält Informationen zu Beobachtungen deren Studentisierten Residuen (die Spalte SResid) größer als ±2 Standardabweichungen sind. Generell können Werte mit Studentisierten Residuen ab ±3 (Pardoe, 2012, p. 166; Yan & Su, 2009, p. 134) bzw. ab ±2–3 (vom Hofe, 2010) als Ausreißer angesehene werden und Werte, die in diesen Bereich fallen, sollten näher betrachtet werden. Wir legen für unseren Datensatz das Kriterium von ±3 Standardabweichungen zugrunde und haben damit keinen Fall der als potentieller (nach diesem Kriterium) Ausreißer infrage käme.

Fallweise Listeb
Fall Ausgewählter Statusa Beobachtet Vorhergesagt Vorhergesagte Gruppe Temporäre Variable
Diagnose Resid ZResid SResid
7 S s** ,973 e -,973 -5,997 -2,699
60 S s** ,897 e -,897 -2,949 -2,150
121 S s** ,977 e -,977 -6,497 -2,759
234 S s** ,945 e -,945 -4,135 -2,437
298 S s** ,972 e -,972 -5,876 -2,682
340 S s** ,953 e -,953 -4,479 -2,482
407 S s** ,901 e -,901 -3,020 -2,177
518 S s** ,973 e -,973 -5,958 -2,692
a. S = Ausgewählte, U = Nicht ausgewählte Fälle und ** = Falsch klassifizierte Fälle.
b. Fälle mit studentisierten Residuen größer als 2,000 werden aufgelistet.

SPSS nimmt als Fallnummer keine eigene definierte Variable, sondern den Wert in der Datenansicht an der linken Seite. Dieser Wert kann sich allerdings – je nach Reihenfolge der Werte – verändern. Unser Datensatz enthält die Variable vpnummer die gleichzeitig der SPSS-internen Fallnummer entspricht.
Sollten keine Beobachtungen gefunden werden, deren Studentisierten Residuen größer als ±2 Standardabweichungen sind, wird diese Tabelle nicht mit ausgegeben.

Hebelwerte (Leverage)

Als nächstes betrachten wir die Hebelwerte. Hebelwerte messen, wie ungewöhnlich ein Fall in Bezug auf die Werte seiner Prädiktoren ist – ohne die Werte des Kriteriums zu betrachten.

Es existieren verschiedene Formeln und Cut-Offs zur Berechnung, ab wann ein Hebelwert groß genug ist, um als Ausreißer klassifiziert zu werden. Viele davon richten sich nach der Anzahl der Prädiktoren p und der Anzahl der Fälle n.

  • Huber (1981) empfiehlt einen Cut-Off Wert von .2
  • Igo (2010) empfiehlt die Formel \(\frac{2\cdot p}{n}\) für einigermaßen große Datensätze von np > 50
  • Velleman & Welsch (1981) empfehlen hingegen \(\frac{3\cdot p}{n}\) für p > 6 und np > 12
  • Frees (2010) empfiehlt \(\frac{3\cdot(p+1)}{n}\)

Jetzt haben wir die Qual der Wahl. Wir haben in unserem Beispieldatensatz 5 Prädiktoren und 569 Fälle. Nach Igo (2010) wäre ein Ausreißer damit bei einem Hebelwert von .0176 oder größer. Nach Velleman & Welsch (1981) hingegen bei .0264 (wobei wir mit nur drei Prädiktoren nicht sein erstes Kriterium erfüllen). Nach Frees (2010) müssten wir alle Werte größer als 0.0316 genauer untersuchen. Und bei Huber (1981) – unabhängig von der Anzahl der Prädiktoren und Fälle – bei .2.

Überprüft werden Hebelwerte, indem in der Datenansicht nach der neu hinzugekommenen Variable LEV_1 absteigend geordnet wird. Dazu drücken wir in der Datenansicht mit der rechten Maustaste auf die Spalte LEV_1 und dann auf Absteigend sortieren, wie in der Abbildung unten.

Binomiale logistische Regression: nach Hebelwert absteigend sortieren
Binomiale logistische Regression: nach Hebelwert absteigend sortieren

Dadurch erhalten wir folgende Werte:

Binomiale logistische Regression: nach Hebelwert absteigend sortiert
Binomiale logistische Regression: nach Hebelwert absteigend sortiert

Hier zeigen sich großer Unterschiede zwischen den einzelnen Cut-Offs: nach Huber (1981)  hätten wir einen einzigen Ausreißer im Datensatz, nach Igo (2010) hingegen ganze 112! Die anderen Verfahren liegen dazwischen. Hier sieht man auch, dass Cut-Off-Werte und Empfehlungen mit Vorsicht betrachtet werden müssen, da es sehr unwahrscheinlich ist, dass etwa ein Fünftel unserer Daten Ausreißer sind. Für unseren Datensatz halten wir die Empfehlung von Huber (1981) am sinnvollsten, der uns eine Beobachtungen (VP-Nummer 345) als Ausreißer kennzeichnet.

Cooks Distanz

Als Letztes betrachten wir noch die Cooks Distanz, die in der neu berechneten Variable COO_1 für jeden Fall berechnet und gespeichert wurde. Unser Vorgehen ist analog zu der der Hebelwerte: Wir klicken wieder auf die Spalte und ordnen absteigend nach der Variable, diesmal COO_1. Dadurch erhalten wir folgende Reihenfolge:

Binomiale logistische Regression: nach Cooks-Distanz absteigend sortiert
Binomiale logistische Regression: nach Cooks-Distanz absteigend sortiert

Hier wird in der Regel wird empfohlen, Beobachtungen mit einer Cooks-Distanz ab 1 als Ausreißer in Auge zu fassen (Heiberger & Holland, 2015, p. 367; Larose, 2006, p. 53; Weisberg, 1985). Für unseren Datensatz erfüllt keine der Beobachtungen dieses Kriterium, so dass wir gemäß der Cooks-Distanz keine Ausreißer im Datensatz hätten.

 

Was tun wenn...

Wir haben drei verschiedene Verfahren zu Rate gezogen und kein einheitliches Bild erhalten. In der Regel sollte mit dem Ausschluss von Datenpunkte sehr sparsam umgegangen werden und nur solche Beobachtungen ausgeschlossen werden, die man gut begründen kann. Dies kann z.B. der Fall sein können, wenn mehrere Verfahren einen Datenpunkt als Ausreißer klassifiziert hätten.

Da die Verfahren für unseren Beispieldatensatz allerdings allesamt zu unterschiedlichen Ergebnissen gekommen sind und die Cut-Off-Werte nicht disproportional überschritten wurden, werden wir mit der Datenanalyse fortfahren, ohne Datenpunkte von der weiteren Analyse auszuschließen.

Ausreißer sollten nicht einfach so von der weiteren Analyse ausgeschlossen werden. Bei jedem Ausschluss von Fällen sollten Vor- und Nachteile gegeneinander abgewogen werden. Zwar können Ausreißer Inferenzstatistiken verzerren, aber das Ausmaß hängt auch stark von dem Verfahren und der schwere des Ausreißers ab. Jeder Ausschluss eines Falls aus der Gesamtstichprobe geht aber immer mit einem Verlust an Power einher (durch die Verringerte Stichprobengröße) und noch vielmehr schließen wir Fälle aus, die uns potentiell ebenfalls wichtige Einblicke bringen können. Jeder Ausschluss sollte daher nicht pauschal, sondern mit Hinblick auf die Fragestellung erfolgen.

Sollten Daten als Ausreißer klassifiziert und von der Datenanalyse ausgeschlossen werden, muss dies in der Arbeit berichtet und begründet werden.

Literaturverzeichnis

  1. Frees, E. W. (2010). Regression modeling with actuarial and financial applications. International series on actuarial science. Cambridge: Cambridge University Press.
  2. Heiberger, R. M., & Holland, B. (2015). Statistical analysis and data display: An intermediate course with examples in R. Springer texts in statistics. New York: Springer.
  3. Huber. (1981). Robust Statistics. New York: John Wiley.
  4. Igo, R. P. (2010). Influential Data Points. In N. J. Salkind (Ed.), Encyclopedia of Research Design (Vol. 2, pp. 600–602). Los Angeles: Sage.
  5. Larose, D. T. (2006). Data mining methods and models. Hoboken, N.J.: Wiley.
  6. Pardoe, I. (2012). Applied Regression Modeling: A Business Approach: Wiley.
  7. Velleman, P. F., & Welsch, R. E. (1981). Efficient Computing of Regression Diagnostics. The American Statistician, 35(4), 234. doi:10.2307/2683296
  8. Vom Hofe, R. (2010). Residuals. In N. J. Salkind (Ed.), Encyclopedia of research design (pp. 1267–1271). Los Angeles: SAGE.
  9. Weisberg, S. (1985). Applied linear regression. Wiley series in probability and statistics. Hoboken, N.J., Chichester: Wiley.
  10. Yan, X., & Su, X. (2009). Linear regression analysis: Theory and computing. Singapore, Hackensack NJ: World Scientific.