Multiple lineare Regression Voraussetzung #6: Normalverteilung der Residuen
Die Normalverteilung der Residuen ist in erster Linie wichtig, wenn Regressionskoeffizienten mit interferenzstatistischen Methoden überprüft werden sollen (z.B. der p-Wert für einen Regressionskoeffizienten). Oftmals sind nicht-normalverteilte Residuen allerdings auch unproblematisch und die Analysen können fortgesetzt werden, auch wenn wir keine Normalverteilung feststellen können. Für den interessierten Leser empfiehlt sich der Artikel von Lumley et al. (2002) und der Artikel über die Normalverteilung von Residuen.
Normalverteilung der Residuen mit SPSS überprüfen
Teil der Ausgabe werden schon zwei Tests auf Normalverteilung der Residuen sein. SPSS berechnet ein Histogramm der standardisierten Residuen mit einer eingezeichneten Normalverteilungskurve und einen P-P-Plot. Zusätzlich dazu können wir auch noch die studentisierten Residuen auf Normalverteilung überprüfen, wie in dem Artikel Variablen auf Normalverteilung überprüfen beschrieben ist.
Histogramm der Residuen
Das erste Diagramm in der Ausgabe ist das Histogramm der standardisierten Residuen, dem eine Normalverteilungskurve überlagert wurde. Dies eignet sich zur visuellen Überprüfung der Normalverteilung.
Die Residuen in unserem Beispiel entsprechen recht genau der Normalverteilungskurve. In der rechten Ecke oben wird gleichzeitig auch noch der Mittelwert und die Standardabweichung eingeblendet. Der Mittelwert sollte (etwa) bei 0 liegen und die Standardabweichung (etwa) bei 1.
P-P-Plot
Das P-P-Plot trägt die erwartete gegen die beobachtete kumulierte Wahrscheinlichkeit auf. Perfekt normalverteilte Daten würden genau auf der ebenfalls eingezeichneten Diagonale liegen. Je weiter die Daten von der Diagonale entfernt liegen, desto weniger sind die Daten normalverteilt. Damit ist das P-P-Plot ebenfalls eine visuelle Methode zur Beurteilung der Normalverteilung.
In unserem Beispiel liegen die Punkte recht genau auf der Diagonalen. Wir können daher auch hier wieder von normalverteilten Residuen ausgehen.
Shapiro-Wilk Test
Eine weitere Möglichkeit, die Normalverteilung der Residuen zu überprüfen, ist der Shapiro-Wilk Test (oder alternativ auch der Kolmogorov-Smirnov Test). Die genaue Vorgehensweise hierfür wird in diesem Artikel beschrieben. Hierfür würden wir die studentisierten Residuen SRE_1 untersuchen. Wir würden eine Tabelle, wie die unten erhalten:
Auch gemäß dieses Tests sind die Residuen normalverteilt.
Was tun wenn...
Wenn die Residuen nicht normal verteilt sind, ist das generell nicht unbedingt ein Problem. Es gibt zwar die Möglichkeit eine Transformation der unabhängigen und/oder abhängigen Variablen durchzuführen – aber dies ist auch wiederum problematisch und kann potentiell Ergebnisse verzerren (siehe z.B. Schmidt & Finan, 2018).Alternativ bietet SPSS die Möglichkeit die Regressionsanalyse mit Bootstrapping durchzuführen, welches robuste Inferenzstatistiken produziert und einfach über das Dialogfenster unter aufgerufen werden kann. Die Interpretation und Verschriftlichung einer Regression mit Bootstrapping erfolgt identisch zu der einer regulären Regression, mit dem Verweis darauf, dass Bootstrapping eingesetzt wurde und mit wie vielen Samples es durchgeführt wurde (bei SPSS standardmäßig 1000).
Darüber hinaus existieren auch robuste Regressionsmethoden, wie beispielsweise CNLR (constrained nonlinear regression), die allerdings zwar in SPSS durchführbar sind, sich allerdings auch in den meisten Fällen als komplexer in der Durchführung und Interpretation erweisen.
Für die meisten Fälle ist multiple lineare Regression allerdings auch ausreichend robust gegenüber Verletzungen der Normalverteilungsannahme.
Literaturverzeichnis
- Lumley, T., Diehr, P., Emerson, S., & Chen, L. (2002). The importance of the normality assumption in large public health data sets. Annual review of public health, 23, 151–169. doi:10.
1146/ annurev. publhealth. 23. 100901. 140546 - Schmidt, A. F., & Finan, C. (2018). Linear regression and the normality assumption. Journal of clinical epidemiology, 98, 146-151. doi:10.
1016/ j. jclinepi. 2017. 12. 006