Binomiale Logistische Regression: Multikolinearität
Multikollinearität tritt auf, wenn abhängige Variablen sehr hoch miteinander korrelieren. Multikollinearität verursacht sowohl logische als auch statistische Probleme. Durch die hohe Korrelation werden die Variablen redundant, beide Variablen messen dadurch effektiv dasselbe. Allerdings ist es für die meisten statistischen Verfahren problematisch redundante Variablen in dieselbe Analyse aufzunehmen, es sei denn, wir führen eine Strukturanalyse durch (z.B. Hauptkomponentenanalyse oder Strukturgleichungsmodellierung). Redundante Variablen werden nicht benötigt, und weil sie die Größe der Fehlerterme erhöhen und dadurch die Analyse eher schwächen.
Empfehlungen
In der Literatur existieren viele verschiedene Empfehlungen, ab wann man von Multikolinearität ausgehen kann. Tatsächlich ist die Situation allerdings nicht klar umrissen und verschiedene Autoren geben verschiedene Richtlinien. Tatsächlich kommt es auch hier auf verschiedene Faktoren, wie beispielsweise die Stichprobengröße an, wobei größeren Stichproben generell robuster sind (Berry, Berry, Feldman, & Feldman, 1985). Zusammengefasst lässt sich sagen, dass die meisten Autoren bei Werten zwischen .80 und .90 von Multikolinearität ausgehen:
- r > .80 (Dattalo, 2013, p. 14; Abu-bader, 2006, p. 102; Pituch & Stevens, 2019, p. 77)
- r > .85 (Schroeder, 1990)
- Eindeutige Multikolinearität: r > .90 (Harlow, 2014, p. 56)
- r > .90 (Verma, 2015, p. 191; Tabachnick & Fidell, 2012, p. 89)
Multikolinearität bestimmen
Zur Bestimmung der Multikolinearität müssen wir uns die Korrealtionsmatrix in der Ausgabe anschauen. Hier betrachten wir die einzelnen Korrealtionen zwischen den Prädiktoren. SPSS berechnet bei der binomialen logistischen Regression auch noch eine Regressionskonstante, deren Wert auch Teil der Korrelationsmatrix ist. Wir können sie allerdings ignorieren, da wir sie zur Bestimmung der Multikolinearität nicht benötigen.
Korrelationsmatrix | |||||||
---|---|---|---|---|---|---|---|
Konstante | Geschlecht des Teilnehmers(1) | Alter des Teilnehmers | Stunden Schlaf in der Vornacht | Zinkfaktor | Immunofaktor | ||
Schritt 1 | Konstante | 1,000 | ,026 | -,062 | -,458 | -,914 | -,117 |
Geschlecht des Teilnehmers(1) | ,026 | 1,000 | -,047 | -,028 | -,131 | ,092 | |
Alter des Teilnehmers | -,062 | -,047 | 1,000 | -,117 | -,164 | ,040 | |
Stunden Schlaf in der Vornacht | -,458 | -,028 | -,117 | 1,000 | ,328 | -,690 | |
Zinkfaktor | -,914 | -,131 | -,164 | ,328 | 1,000 | ,066 | |
Immunofaktor | -,117 | ,092 | ,040 | -,690 | ,066 | 1,000 |
Wir sehen, dass in unserem Datensatz die höchste Korrelation mit -.690 unter allen Empfehlungen liegt. Wir können daher davon ausgehen, dass Multikolinearität für unsere Prädiktoren kein Problem darstellt.
Dies könnten wir wir folgt berichten:
Die Korrelationen zwischen den Prädiktoren waren gering (r < .70), was darauf hindeutet, dass Multikollinearität die Analyse nicht konfundiert hat.
English
Correlations between predictor variables were low (r < .70), indicating that multicollinearity was not a confounding factor in the analysis.
Multikollinearität! Was nun?
Wenn wir zwischen zwei oder mehr Variablen eine hohe Korrelation gefunden haben, müssen wir von Multikollinearität ausgehen. In solchen Fällen gibt es einige Möglichkeiten, mit der Multikollinearität umzugehen:- Wir können eine der beiden Prädiktoren von der Analyse ausschließen. Bei mehr als zwei Prädiktoren würden wir dies so lange wiederholen, bis keine Multikollinearität mehr zwischen den Prädiktoren vorhanden ist.
- Wir können Prädiktoren zusammenfassen. Wenn wir davon ausgehen, dass die Variablen essenziell dasselbe messen, können wir sie zusammenfassen indem wir sie beispielsweise addieren oder den Mittelwert bilden und dann als eine einzige Variable in das Modell aufnehmen. Dies empfiehlt sich allerdings vor allem dann, wenn eine Zusammenfassung auch Sinn macht.
- Eine Hauptkomponentenanalyse durchführen. Wenn wir mehrere Prädiktoren haben die miteinander korrelieren, können wir eine Hauptkomponentenanalyse durchführen, um die einflussreichsten Variablen zu finden. Dies bezeichnet man auch als Dimensionsreduktion. Wie bei den beiden Punkten oberhalb können wir die Variablen entweder entfernen oder zusammenfassen.
Nachdem wir uns um die Prädiktoren mit Multikolinearität gekümmert haben, müssen wir die Analyse erneut durchführen.
Literaturverzeichnis
- Abu-bader, S. H. (2006). Using Statistical Methods in Social Work Practice: A Complete SPSS Guide. Lyceum Books.
- Berry, W. D., Berry, W., Feldman, S., & Feldman, S. (1985). Multiple Regression in Practice (Quantitative Applications in the Social Sciences). SAGE Publications, Inc.
- Dattalo, P. (2013). Analysis of Multiple Dependent Variables (Pocket Guides to Social Work Research Methods). Oxford University Press, USA.
- Harlow, L. L. (2014). The Essence of Multivariate Thinking: Basic Themes and Methods (Multivariate Applications) (2nd ed.). Routledge.
- Pituch, K. A., & Stevens, J. P. (2019). Applied Multivariate Statistics for the Social Sciences (6th ed.). Routledge.
- Schroeder, M. A. (1990). Diagnosing and dealing with multicollinearity. Western Journal of Nursing Research, 12(2), 175-84; discussion 184-7. doi:10.
1177/ 019394599001200204 - Tabachnick, B. G., & Fidell, L. S. (2012). Using Multivariate Statistics (6th ed.). Prentice Hall.
- Verma, J. P. (2015). Repeated Measures Design for Empirical Researchers (1st ed.). Wiley.