Binomiale logistische Regression: Voraussetzungen
Insgesamt acht Voraussetzungen sind zu erfüllen, damit wir eine binomiale logistische Regression berechnen dürfen. Allerdings sind nicht alle Punkte, die wir nachfolgend nennen werden, echte Voraussetzung die strikt eingehalten werden müssen. Manche von ihnen lassen sich biegen, ohne das unser Testergebnis stark verfälscht wird, andere wiederum müssen eingehalten werden.
Die ersten vier Voraussetzung aus der Liste sind Grundvoraussetzungen; sie können nicht mit Statistikprogrammen überprüft werden, müssen aber dennoch erfüllt sein. Die letzten drei Punkte wiederum werden wir auf den kommenden Seiten im Detail und schrittweise mit SPSS überprüfen.
- Die abhängige Variable ist nominalskaliert mit genau zwei Ausprägungen (dichotom). Es gibt verschiedene Arten, dies zu kodieren, beispielsweise ja-nein, erkrankt-gesund, gut-schlecht, oben-unten, männlich-weiblich, jung-alt, etc. Wichtig ist, dass diese Variable nur zwei Ausprägungen hat, unabhängig davon, wie diese am Ende aussehen.
- Die unabhängige Variable ist entweder nominalskaliert oder mindestens intervallskaliert. Wir erwarten, dass unsere unabhängige(n) Variable(n) (daher unsere Prädiktoren) entweder kategorial sind, daher nominalskaliert, oder mindestens intervallskaliert. Die Einteilung kann auf natürliche Weise zustande gekommen sein (wie beispielsweise bei Geschlecht) oder künstlich (wie beispielsweise die Einteilung in verschiedene Altersgruppen). Wichtig ist allerdings, dass die Gruppen unabhängig voneinander sind.
- Unabhängigkeit der Beobachtungen. Unabhängigkeit von Beobachtungen bedeutet, dass es keine Beziehung zwischen den Beobachtungen in jeder Kategorie der abhängigen Variablen (Prädiktoren) oder den Beobachtungen in jeder Kategorie von nominalen unabhängigen Variablen (Kriterium) gibt. Logistische Regression erfordert, dass die Beobachtungen unabhängig voneinander sind. Mit anderen Worten, die Beobachtungen sollten nicht aus wiederholten Messungen oder gematchten Daten stammen. Tatsächlich wird in der Statistik ein wichtiger Unterschied gemacht, wenn man Werte von verschiedenen Personen oder von denselben Personen vergleicht.
In unserem Beispiel wollen wir herausfinden, ob Schlaf (neben anderen Faktoren) einen Einfluss auf die Infektanfälligkeit bei Schnupfen hat. Zusätzlich haben wir auch noch Geschlecht, Alter, sowie den Zink- Immunstatus der Probanden erhoben. Für unser Beispiel ist Unabhängigkeit gegeben, wenn eine Person nur in einer Kategorie der abhängigen Variable sein kann, also entweder erkrankt oder symptomfrei geblieben ist. Das gleiche gilt für unsere anderen Variablen auch: Eine Person, die acht Stunden Schlaf hatte, ist nur in dieser Kategorie und in keiner anderen.
Die Unabhängigkeit der Beobachtungen ist größtenteils eine theoretische Überlegung, die nicht direkt mit Verfahren in SPSS überprüft werden kann und bereits bei der Erstellung des Versuchsdesign eine Rolle spielt. - Wir benötigen mindestens eine gewisse Anzahl an Fällen pro Prädiktor. Wie bei vielen anderen Regressionen, verbessern sich auch die Ergebnisse bei binomialer logistischer Regression mit steigender Stichprobengröße. Dies hat sowohl mit der Generalisierbarkeit unserer Ergebnisse, als auch mit dem der logistischen Regression zugrunde liegenden Passungsverfahren (Maximum Likelihood Estimation) zu tun. Es gibt allerdings keine einheitliche Empfehlung für die Mindeststichprobengröße oder die Anzahl der Fälle pro Prädiktor. Auf der Seite Minimale Stichprobengröße haben wir in einer Literaturrecherche noch einmal eine Auswahl an zitierbaren Empfehlungen zusammengefasst.
- Es sollten sich keine Ausreißer in den Daten befinden. Die meisten parametrischen Statistiken sind nur wenig robust gegenüber Ausreißern, also Werte die sich weit entfernt von der Masse der anderen Werten befinden. Ein einzelner Ausreißer kann bereits einen sonst signifikanten Trend zunichte machen oder Trends entstehen lassen, wo sonst keine wären.
- Linearität. Es muss eine lineare Beziehung zwischen den kontinuierlichen unabhängigen Variablen und der Logit-Transformation der abhängigen Variablen bestehen.
In einer binomialen logistischen Regression setzt die Annahme der Linearität voraus, dass eine lineare Beziehung zwischen den kontinuierlichen unabhängigen Variablen alter, immunofaktor, schlaf, zink und der Logittransformation der abhängigen Variablen diagnose besteht.
Es gibt eine Reihe von Methoden, um auf eine lineare Beziehung zwischen den kontinuierlichen Prädiktoren und dem Logit des Kriteriums zu prüfen. Hier verwenden wir den Box-Tidwell-Ansatz (Box & Tidwell, 1962), der der Regressionsgleichung die Interaktionsterme zwischen den kontinuierlichen Prädiktoren und ihren natürlichen Logarithmus hinzufügt. - Keine Multikolinearität. Bei Multikolinearität korrelieren zwei oder mehr der Prädiktoren stark miteinander. Dies bedeutet, dass eine Variable mit hoher Genauigkeit aus der anderen vorhergesagt werden kann. Durch Multikolinearität wird die Berechnung der Regressionkoeffizienten erschwert und die Interpretation des Modells nicht mehr eindeutig.
Auf den folgenden Seiten, werden wir Schritt für Schritt die einzelnen Voraussetzungen mit SPSS überprüfen und zeigen was getan werden kann, wenn eine Voraussetzung verletzt worden sein sollte.
Literaturverzeichnis
- Box, G. E. P., & Tidwell, P. W. (1962). Transformation of the Independent Variables. Technometrics, 4(4), 531–550. doi:10.
1080/ 00401706. 1962. 10490038