Multiple Lineare Regression

Multiple lineare Regression Voraussetzung #6: Normalverteilung der Residuen

Die Normalverteilung der Residuen ist in erster Linie wichtig, wenn Regressionskoeffizienten mit interferenzstatistischen Methoden überprüft werden sollen. Oftmals sind normalverteilte Residuen auch unproblematisch. Für den interessierten Leser empfiehlt sich der der Artikel von Lumley et al. (2002) und den Artikel über die Normalverteilung von Residuen.

Normalverteilung der Residuen mit SPSS überprüfen

Teil der Ausgabe werden schon zwei Tests auf Normalverteilung der Residuen sein. SPSS berechnet ein Histogramm der standardisierten Residuen mit einer eingezeichneten Normalverteilungskurve und einen P-P-Plot. Zusätzlich dazu können wir auch noch die studentisierten Residuen auf Normalverteilung überprüfen, wie in dem Artikel Variablen auf Normalverteilung überprüfen beschrieben ist.

Histogramm der Residuen

Das erste Diagramm in der Ausgabe ist das Histogramm der standardisierten Residuen, dem eine Normalverteilungskurve überlagert wurde. Dies eignet sich zur visuellen Überprüfung der Normalverteilung.

Multiple Regression: Histogramm der Residuen

Die Residuen in unserem Beispiel entsprechen recht genau der Normalverteilungskurve. In der rechten Ecke oben wird gleichzeitig auch noch der Mittelwert und die Standardabweichung eingeblendet. Der Mittelwert sollte (etwa) bei 0 liegen und die Standardabweichung (etwa) bei 1.

P-P-Plot

Das P-P-Plot trägt die erwartete gegen die beobachtete kumulierte Wahrscheinlichkeit auf. Perfekt normalverteilte Daten würden genau auf der ebenfalls eingezeichneten Diagonale liegen. Je weiter die Daten von der Diagonale entfernt liegen, desto weniger sind die Daten normalverteilt. Damit ist das P-P-Plot ebenfalls eine visuelle Methode zur Beurteilung der Normalverteilung.

Multiple Regression: P-P-Plot der Residuen

In unserem Beispiel liegen die Punkte recht genau auf der Diagonalen. Wir können daher auch hier wieder von normalverteilten Residuen ausgehen.

Shapiro-Wilk Test

Eine weitere Möglichkeit, die Normalverteilung der Residuen zu überprüfen, ist der Shapiro-Wilk Test (oder alternativ auch der Kolmogorov-Smirnov Test). Die genaue Vorgehensweise hierfür wird in diesem Artikel beschrieben. Hierfür würden wir die studentisierten Residuen intervallskalierte VariableSRE_1 untersuchen. Wir würden eine Tabelle, wie die unten erhalten:

Multiple Regression: Normalverteilungstests der Residuen

Auch gemäß dieses Tests sind die Residuen normalverteilt.

Was tun wenn...

Wenn die Residuen nicht normal verteilt sind, ist das generell nicht unbedingt ein Problem. Es gibt zwar die Möglichkeit eine Transformation der unabhängigen und/oder abhängigen Variablen durchzuführen, aber dies ist auch wiederum problematisch.

Alternativ kann auch eine robuste Regressionsmethode durchgeführt werden, wie beispielsweise CNLR. Dies ist allerdings nicht mit SPSS zur Zeit möglich. Für die meisten Fälle ist multiple lineare Regression ausreichend robust gegenüber Verletzungen der Normalverteilungsannahme.

Literaturverzeichnis

  1. Lumley, T., Diehr, P., Emerson, S., & Chen, L. (2002). The importance of the normality assumption in large public health data sets. Annual review of public health, 23, 151–169. doi:10.1146/annurev.publhealth.23.100901.140546