Multiple lineare Regression Voraussetzung #4: Multikollinearität
Multikollinearität tritt dann auf, wenn zwei oder mehr der Prädiktoren miteinander stark korrelieren. Wenn das passiert, haben wir zwei Probleme:
- Wir wissen nicht, welche der beiden Variablen tatsächlich zur Varianzaufklärung beiträgt. Eventuell messen beide Variablen auch dasselbe und sind damit redundant.
- Mathematische Probleme bei der Berechnung der Regression. Wenn zwei Prädiktoren beispielsweise zu 1 miteinander korrelieren, wie würden die Regressionskoeffizienten dann beschaffen sein? Welcher Prädiktor würde in das Modell aufgenommen werden?
Multikollinearität können wir mit der Ausgabe von SPSS auf zwei verschiedene Arten überprüfen: Zum einen durch die Korrelation der Variablen untereinander, zum anderen durch den Toleranz/VIF (variance influence factor) Wert.
Es gibt einige Warnzeichen für Multikollinearität:
- Nachdem wir einen weiteren Prädiktor in das Modell hinzugefügt haben, ändern sich die Regressionskoeffizienten stark
- Der Regressionskoeffizient ist nicht signifikant, auch wenn der Prädiktor eigentlich stark mit dem Kriterium korrelieren sollte
- Die Prädiktoren korrelieren stark miteinander
Multikollinearität durch Korrelation überprüfen
Die Korrelationen finden sich in der Ausgabe von SPSS in der gleichnamigen Tabelle. Dort interessieren uns die Korrelation nach Pearson. Hier sollte kein Wert größer als .7 sein. In unserem Beispiel ist dies der Fall.
Multikollinearität durch Toleranz/VIF überprüfen
Die Werte für Toleranz/VIF finden wir in der Tabelle Koeffizienten. Hier müssen wir nur einen der beiden Werte interpretieren, da die Toleranz lediglich der Kehrwert des VIF ist.
Sollte einer der Werte der Toleranz unter 0.1 sein bzw. einer der VIF-Werte über 10, wäre dies ein starkes Indiz für Multikollinearität. In unserem Beispieldatensatz ist der niedrigste Wert für Toleranz 1.016. Wir können damit recht sicher sein, dass keine Multikollinearität zwischen den Prädiktoren besteht.
Was tun wenn...
Multikollinearität ist ein schwieriges Problem. Es gibt mehrere Möglichkeiten damit umzugehen:- Variablen entfernen. Die wahrscheinlich einfachste Lösung ist, bei zwei oder mehr Prädiktoren mit hohen VIF-Werten, einen der Prädiktoren zu entfernen. Da die Prädiktoren redundant sind, beeinflusst dies in der Regel nicht den R²-Wert. Hier kann man das Modell wählen, dass den höchsten R²-Wert hat.
- PLS-Regression (partial least squares) oder Hauptkomponentenanalyse anwenden, welche die Anzahl der Prädiktoren in kleinere Gruppen unkorrelierter Variablen aufteilen.
- Alternative Regressionsverfahren. Besonders wenn Variablen untereinander hoch korrelieren, zeigen Verfahren wie Ridge-Regression, LASSO-Regression und Elastic Net Regression ihre Stärken.