Multiple Lineare Regression

Multiple lineare Regression Voraussetzung #2: keine Ausreißer

Ausreißer sind eine weitere mögliche Quelle für Verzerrungen der multiplen lineare Regression. Die multiple lineare Regression ist nicht robust gegenüber Ausreißern. Ein einziger Ausreißer kann der Grund für einen besonders hohen oder niedrigen Regressionskoeffizienten sein. Es gibt drei verschiedene Arten von Ausreißern oder ungewöhnlichen Datenpunkten, die wir überprüfen werden: Ausreißer, Hebelwerte und Cook-Distanzen.

Ausreißer

Als erstes überprüfen wir, ob Ausreißer in unseren Daten vorhanden sind. Sie sind definiert als Punkte, die weit entfernt von ihren vorhergesagten Werten liegen. Es gibt verschiedene Arten von Maßen, die hierfür verwendet werden können. Die beliebtesten sind: standardisierte Residuen, studentisierte Residuen und studentisierte ausgeschlossene Residuen. SPSS verwendet für die Tabelle Fallweise Diagnose standardisierte Residuen. Wir werden allerdings noch auf studentisierte ausgeschlossene Residuen eingehen, die einige Vorteile haben.

Fallweise Diagnose

In unserem Beispieldatensatz haben wir keine Ausreißer, die außerhalb von 3 Standardabweichungen liegen, deshalb wird die Tabelle Fallweise Diagnose nicht angezeigt. Hätten wir statt 3 nur 2 Standardabweichungen gewählt, hätten wir die Tabelle bekommen, und zwar diese:

Multiple Regression: Fallweise DiagnoseIn der letzten Spalte, nicht standardisierte Residuen, können wir den Grade des Ausreißers bestimmen. Je größer bzw. kleiner dieser Wert ist, desto stärker ist der Ausreißer. In unserem Beispiel wäre Fall 40 der stärkste Ausreißer. Die Zahl bezieht sich dabei auf die Zahl auf der linken Seite in der Datenansicht bei SPSS. Wir können diesen und andere Fälle entweder von der Datenanalyse ausschließen und löschen und die Regression erneut ausführen.

Studentisierte ausgeschlossene Residuen

Die Variable SDR_1 sind die studentisierten ausgeschlossenen Residuen. Auch hier sind wieder Werte ±3 potentielle Ausreißer. Die einfachste Art sie zu finden, ist nach SDR_1 in der Datenansicht zu ordnen. Dazu wechseln wir einfach in die Datenansicht und ordnen nach SDR_1, indem wir mit der rechten Maustaste auf die Spaltenüberschirft drücken und dann Aufsteigend sortieren auswählen.

Multiple Regression: nach SDR sortieren

Im oberen Teil sehen wir, dass der niedrigste Wert -2.03242 ist…

Multiple Regression: SDR sortiert (oben)

…wenn wir runterscrollen, sehen wir, dass der höchste Wert 2.90281 ist.

Multiple Regression: SDR sortiert (unten)

Beide Werte sind noch innerhalb des Bereichs von -3 bis +3. Ausgehend von den studentisierten ausgeschlossenen Residuen haben wir daher ebenfalls keine Ausreißer in diesem Datensatz.

Hebelwerte

Der Hebelwert (englisch leverage) ist ein Maß dafür, wie weit der Wert einer unabhängigen Variablen von anderen Werten entfernt liegt. Ein hoher Hebelwert würde bedeuten, das sich in der Nähe dieses Falls keine weiteren Fälle befinden. Es könnte sich hierbei um einen Ausreißer handeln. Der Hebelwert kann Werte zwischen 0 und 1 annehmen, wobei ein Wert von 0 bedeuten würden, dass der Fall keinen Einfluss auf die Vorhersage hat und 1, dass die Vorhersage vollständig durch diesen einen Wert bestimmt wird.

Es existieren verschiedene Formeln und cut-offs zur Berechnung, ab wann ein Hebelwert groß genug ist, um als Ausreißer klassifiziert zu werden. Viele davon richten sich nach der Anzahl der Prädiktoren p und der Anzahl der Fälle n.

  • Huber (1981) empfiehlt einen cut-off Wert von .2
  • Igo (2010) empfiehlt die Formel (2·p)/n für einigermaßen große Datensätze von np > 50
  • Velleman & Welsch (1981) empfehlen hingegen (3·p)/n für p > 6 und np > 12

Jetzt haben wir die Qual der Wahl. Wir haben in unserem Beispieldatensatz 6 Prädiktoren und 100 Fälle. Nach Igo (2010) wäre ein Ausreißer damit bei einem Hebelwert von .06 oder größer. Nach Velleman & Welsch (1981) hingegen bei .09 (wobei wir mit nur drei Prädiktoren nicht sein erstes Kriterium erfüllen). Und bei Huber (1981) – unabhängig von der Anzahl der Prädiktoren und Fälle – bei .2.

Überprüft werden Hebelwerte ähnlich wie auch schon vorher studentisierte ausgeschlossene Residuen. Wir ordnen diesmal die Variablen LEV_1 absteigend:

Multiple Regression: nach LEV sortieren

Danach sind die größten Werte von LEV_1 oben:

Multiple Regression: nach LEV sortiert

Der erste Wert (.30851) kann als Ausreißer nach den Kriterien aller drei Autoren gesehen werden. Hier könnten wir überlegen, ob wir diese Beobachtung von der weiteren Analyse ausschließen wollen oder nicht. Nach Igo (2010) wären die ersten acht Fälle Ausreißer.

Cook-Distanzen

Als letztes besprechen wir noch Cook-Distanzen. Auch die Cook-Distanz ist ein Maß für den Einfluss, den ein einzelner Fall auf das gesamte Modell nimmt. Sie misst, wie stark sich die Regressionsgerade verändern würden, wenn wir den Fall ausschließen würden. Generell gelten Werte größer als 1 als Ausreißer und sollten näher untersucht werden.

Die Überprüfung erfolgt ähnlich wie vorher: Wir ordnen die Variablen COO_1 absteigend:

Multiple Regression: nach COO sortieren

Nachdem wir sortiert haben, sähe unser Datensatz so aus:

Multiple Regression: nach COO sortiert

Der höchste Wert hier ist .10515 und damit weit entfernt von dem cut-off Kriterium von 1.

 

Was tun wenn...

Wenn wir Ausreißer in unserem Datensatz haben, können wir überlegen, ob wir sie von der weiteren Datenanalyse ausschließen möchten. Hier empfiehlt es sich auch, die Werte auszuschließen und die Analyse erneut durchzuführen. Oft verbessert sich der R² Wert (ein Wert für die Güte des Modells, den wir später noch besprechen werden).

Da es mehrere Möglichkeiten gibt, Ausreißer zu klassifizieren, sollten alle Methoden auch kombiniert eingesetzt werden. Ein Wert ist am wahrscheinlichsten ein Ausreißer, wenn mehrere Verfahren ihn als solchen identifizieren.

Wie immer beim Ausschließen von Fällen von der weiteren Datenanalyse gilt: Alles dokumentieren und berichten! Falls wir Fälle ausschließen muss das in der Arbeit angegeben und begründet werden.

Literaturverzeichnis

  1. Huber. (1981). Robust Statistics. New York: John Wiley.
  2. Igo, R. P. (2010). Influential Data Points. In N. J. Salkind (Ed.), Encyclopedia of Research Design (Vol. 2, pp. 600–602). Los Angeles: Sage.
  3. Velleman, P. F., & Welsch, R. E. (1981). Efficient Computing of Regression Diagnostics. The American Statistician, 35(4), 234. doi:10.2307/2683296