Ausreißer: Hebelwerte, Diskrepanz und Einfluss
Es gibt verschiedene Arten Ausreißer zu definieren und damit auch zu klassifizieren. Wir können Punkte beispielsweise auf Hebelwert, Diskrepanz und Einfluss hin untersuchen und basierend auf diesen Überlegungen als Ausreißer klassifizieren. Dadurch, dass diese Verfahren unterschiedliche mathematische Grundlagen haben, reagieren sie auch unterschiedlich – je nachdem, wo sich eine Beobachtung relativ zu anderen Beobachtungen befindet. Oft kann es daher hilfreich sein, verschiedene Maße zu betrachten und anhand der Summe der Informationen zu entscheiden, ob eine Beobachtung wirklich ein „Ausreißer“ ist.
In dem Diagramm unten ist noch einmal veranschaulicht, wie sich verschiedene extreme Werte auf die jeweiligen Ausreißer-Statistiken auswirken würden.
Sollten Daten als Ausreißer klassifiziert und von der Datenanalyse ausgeschlossen werden, muss dies in der Arbeit berichtet werden.
Hebelwerte (leverage)
In dem ersten Diagramm sehen wir einen Punkt mit einem hohen Hebelwert. Er ist relativ weit von den anderen Punkten entfernt, aber prinzipiell noch auf der Regressionsgerade. Ein Punkt, der in seiner prädiktiven Wirkung stark von den anderen Punkten abweicht (daher vom Mittel der anderen Punkte), wird in der Regel auch einen hohe Hebelwert haben. Ein Punkt mit einem hohen Hebelwert beeinflusst damit die Vorhersage des Kriteriums besonders stark.
Hebelwerte messen dadurch, wie ungewöhnlich ein Fall in Bezug auf die Werte seiner Prädiktoren ist. Im Gegensatz zu den meisten anderen Fallstatistiken beziehen die Hebelwerte Kriterium nicht in die Berechnung mit ein.
Es existieren verschiedene Formeln und Cut-Offs zur Berechnung, ab wann ein Hebelwert groß genug ist, um als Ausreißer klassifiziert zu werden. Viele davon richten sich nach der Anzahl der Prädiktoren p und der Anzahl der Fälle n.
- Huber (1981) empfiehlt einen cut-off Wert von .2
- Igo (2010) empfiehlt die Formel \(\frac{2\cdot p}{n}\) für einigermaßen große Datensätze von n−p > 50
- Velleman & Welsch (1981) empfehlen hingegen \(\frac{3\cdot p}{n}\) für p > 6 und n−p > 12
- Frees (2010) empfiehlt \(\frac{3\cdot(p+1)}{n}\)
Diskrepanz
Werte mit einer hohen Diskrepanz sind prinzipiell Werte mit hohen Residuen. Bei jeder Form von Regression wird in der Regel versucht eine Linie optimal an den Verlauf von gegebenen Punkten (den Prädiktoren) anzupassen. Ein Punkt mit einer hohen Diskrepanz weicht besonders stark von dieser Linie ab (auch wenn dies eine vereinfachte Darstellung).
Einflussreiche Punkte
Einflussreiche Punkte sind die Kombination aus Hebelwert und Diskrepanz und werden auch meist als Produkt beider Werte berechnet. Der Einfluss jedes Datenpunktes kann quantifiziert werden, indem man betrachtet, wie sehr sich das Modell ändert, wenn wir dieser Datenpunkt weglassen wird. Einflussreiche Punkte werden in SPSS meist durch die Cooks-Distanz, auch Cooks D genannt, bestimmt.
In der Regel wird empfohlen, Werte mit einer Cooks-Distanz ab 1 als Ausreißer in Auge zu fassen (Heiberger & Holland, 2015, p. 367; Larose, 2006, p. 53; Weisberg, 1985).
Literaturverzeichnis
- Frees, E. W. (2010). Regression modeling with actuarial and financial applications. International series on actuarial science. Cambridge: Cambridge University Press.
- Heiberger, R. M., & Holland, B. (2015). Statistical analysis and data display: An intermediate course with examples in R. Springer texts in statistics. New York: Springer.
- Huber. (1981). Robust Statistics. New York: John Wiley.
- Igo, R. P. (2010). Influential Data Points. In N. J. Salkind (Ed.), Encyclopedia of Research Design (Vol. 2, pp. 600–602). Los Angeles: Sage.
- Larose, D. T. (2006). Data mining methods and models. Hoboken, N.J.: Wiley.
- Velleman, P. F., & Welsch, R. E. (1981). Efficient Computing of Regression Diagnostics. The American Statistician, 35(4), 234. doi:10.
2307/ 2683296 - Weisberg, S. (1985). Applied linear regression. Wiley series in probability and statistics. Hoboken, N.J., Chichester: Wiley.
Diesen Eintrag zitieren
@misc{statistikguru, title = {StatistikGuru}, subtitle = {Ausreißer: Hebelwerte, Diskrepanz und Einfluss}, year = {2021}, month = {jan}, url = {https://statistikguru.de/lexikon/ausreisser-hebelwerte-diskrepanz-und-einfluss.html}, author = {Hemmerich, Wanja A.}, urldate = {2023-06-10} }