Lexikon

Ausreißer: Hebelwerte, Diskrepanz und Einfluss

Es gibt verschiedene Arten Ausreißer zu definieren und damit auch zu klassifizieren. Wir können Punkte beispielsweise auf Hebelwert, Diskrepanz und Einfluss hin untersuchen und basierend auf diesen Überlegungen als Ausreißer klassifizieren. Dadurch, dass diese Verfahren unterschiedliche mathematische Grundlagen haben, reagieren sie auch unterschiedlich – je nachdem, wo sich eine Beobachtung relativ zu anderen Beobachtungen befindet. Oft kann es daher hilfreich sein, verschiedene Maße zu betrachten und anhand der Summe der Informationen zu entscheiden, ob eine Beobachtung wirklich ein „Ausreißer“ ist.

In dem Diagramm unten ist noch einmal veranschaulicht, wie sich verschiedene extreme Werte auf die jeweiligen Ausreißer-Statistiken auswirken würden.

 

Ausreißer: Punkt mit hohem Hebelwert
Ausreißer: Punkt mit hoher Diskrepanz
Ausreißer: Einflussreicher Punkt
Ausreißer sollten nicht einfach so von der weiteren Analyse ausgeschlossen werden. Bei jedem Ausschluss von Fällen sollten Vor- und Nachteile gegeneinander abgewogen werden. Zwar können Ausreißer Inferenzstatistiken verzerren, aber das Ausmaß hängt auch stark von dem Verfahren und der schwere des Ausreißers ab. Jeder Ausschluss eines Falls aus der Gesamtstichprobe geht aber immer mit einem Verlust an Power einher (durch die Verringerte Stichprobengröße) und noch vielmehr schließen wir Fälle aus, die uns potentiell ebenfalls wichtige Einblicke bringen können. Jeder Ausschluss sollte daher nicht pauschal, sondern mit Hinblick auf die Fragestellung erfolgen.

Sollten Daten als Ausreißer klassifiziert und von der Datenanalyse ausgeschlossen werden, muss dies in der Arbeit berichtet werden.

Hebelwerte (leverage)

In dem ersten Diagramm sehen wir einen Punkt mit einem hohen Hebelwert. Er ist relativ weit von den anderen Punkten entfernt, aber prinzipiell noch auf der Regressionsgerade. Ein Punkt, der in seiner prädiktiven Wirkung stark von den anderen Punkten abweicht (daher vom Mittel der anderen Punkte), wird in der Regel auch einen hohe Hebelwert haben. Ein Punkt mit einem hohen Hebelwert beeinflusst damit die Vorhersage des Kriteriums besonders stark.

Hebelwerte messen dadurch, wie ungewöhnlich ein Fall in Bezug auf die Werte seiner Prädiktoren ist. Im Gegensatz zu den meisten anderen Fallstatistiken beziehen die Hebelwerte Kriterium nicht in die Berechnung mit ein.

Es existieren verschiedene Formeln und Cut-Offs zur Berechnung, ab wann ein Hebelwert groß genug ist, um als Ausreißer klassifiziert zu werden. Viele davon richten sich nach der Anzahl der Prädiktoren p und der Anzahl der Fälle n.

  • Huber (1981) empfiehlt einen cut-off Wert von .2
  • Igo (2010) empfiehlt die Formel \(\frac{2\cdot p}{n}\) für einigermaßen große Datensätze von np > 50
  • Velleman & Welsch (1981) empfehlen hingegen \(\frac{3\cdot p}{n}\) für p > 6 und np > 12
  • Frees (2010) empfiehlt \(\frac{3\cdot(p+1)}{n}\)

Diskrepanz

Werte mit einer hohen Diskrepanz sind prinzipiell Werte mit hohen Residuen. Bei jeder Form von Regression wird in der Regel versucht eine Linie optimal an den Verlauf von gegebenen Punkten (den Prädiktoren) anzupassen. Ein Punkt mit einer hohen Diskrepanz weicht besonders stark von dieser Linie ab (auch wenn dies eine vereinfachte Darstellung).

Einflussreiche Punkte

Einflussreiche Punkte sind die Kombination aus Hebelwert und Diskrepanz und werden auch meist als Produkt beider Werte berechnet. Der Einfluss jedes Datenpunktes kann quantifiziert werden, indem man betrachtet, wie sehr sich das Modell ändert, wenn wir dieser Datenpunkt weglassen wird. Einflussreiche Punkte werden in SPSS meist durch die Cooks-Distanz, auch Cooks D genannt, bestimmt.

In der Regel wird empfohlen, Werte mit einer Cooks-Distanz ab 1 als Ausreißer in Auge zu fassen (Heiberger & Holland, 2015, p. 367; Larose, 2006, p. 53; Weisberg, 1985).

Literaturverzeichnis

  1. Frees, E. W. (2010). Regression modeling with actuarial and financial applications. International series on actuarial science. Cambridge: Cambridge University Press.
  2. Heiberger, R. M., & Holland, B. (2015). Statistical analysis and data display: An intermediate course with examples in R. Springer texts in statistics. New York: Springer.
  3. Huber. (1981). Robust Statistics. New York: John Wiley.
  4. Igo, R. P. (2010). Influential Data Points. In N. J. Salkind (Ed.), Encyclopedia of Research Design (Vol. 2, pp. 600–602). Los Angeles: Sage.
  5. Larose, D. T. (2006). Data mining methods and models. Hoboken, N.J.: Wiley.
  6. Velleman, P. F., & Welsch, R. E. (1981). Efficient Computing of Regression Diagnostics. The American Statistician, 35(4), 234. doi:10.2307/2683296
  7. Weisberg, S. (1985). Applied linear regression. Wiley series in probability and statistics. Hoboken, N.J., Chichester: Wiley.