Binomiale Logistische Regression: Variablen interpretieren
Im letzten Schritt interpretieren wir noch die Variablen der Regressionsgleichung. Sie geben uns Aufschluss darüber, welche Faktoren signifikant zu der Klassifikationsleistung unseres Modells beigetragen haben. Dazu betrachten wir die Tabelle Variablen in der Gleichung.
Variablen in der Gleichung | |||||||||
---|---|---|---|---|---|---|---|---|---|
RegressionskoeffizientB | Standardfehler | Wald | df | Sig. | Exp(B) | 95% Konfidenzintervall für EXP(B) | |||
Unterer Wert | Oberer Wert | ||||||||
Schritt 1a | Geschlecht des Teilnehmers(1) | ,382 | ,437 | ,763 | 1 | ,382 | 1,464 | ,622 | 3,447 |
Alter des Teilnehmers | ,027 | ,023 | 1,451 | 1 | ,228 | 1,028 | ,983 | 1,075 | |
Immunofaktor | -,031 | ,041 | ,556 | 1 | ,456 | ,970 | ,894 | 1,051 | |
Stunden Schlaf in der Vornacht | -,756 | ,190 | 15,767 | 1 | ,000 | ,469 | ,323 | ,682 | |
Zinkfaktor | -,204 | ,024 | 73,817 | 1 | ,000 | ,815 | ,778 | ,854 | |
Konstante | 29,139 | 3,358 | 75,307 | 1 | ,000 | 4517396808263,838 | |||
a. In Schritt 1 eingegebene Variablen: Geschlecht des Teilnehmers, Alter des Teilnehmers, Immunofaktor, Stunden Schlaf in der Vornacht, Zinkfaktor. |
Die Tabelle sagt und eine Reihe von Dingen: Zum einen sagt uns die Überschrift Wald, das eine Wald-Statistik zur Berechnung der Signifikanzen verwendet wurde. Wichtiger hier ist allerdings die die Spalte Sig., die uns sagt, ob die Variable einen signifikanten Beitrag geleitet hat.
Hier können wir sehen, dass dies nur auf zwei Variablen in unserem Regressionsmodell zutrifft: schlaf und zink haben beide einen p-Wert unter .05. Die anderen drei Variablen geschlecht (p = .382), alter (p = .228) und immunofaktor (p = .456), tragen hingegen nicht signifikant zur Klassifikationsleistung bei.
Koeffizienten und Odds
Die Koeffizienten der logistischen Regression finden wir in der Spalte RegressionskoeffizientB. Leider sind diese Werte direkt nicht wirklich intuitiv interpretierbar. Die Koeffizienten zeigen die Änderung der logarithmierten Odds, die bei einer Änderung eines Prädiktors um eine Einheit auftreten, wenn alle anderen Prädiktoren konstant gehalten werden. Prinzipiell ist die Interpretation identisch mit der von Koeffizienten der multiple linearen Regression, allerdings ist ein Rechnen in Logarithmen zwar modellbedingt erforderlich, allerdings nur wenig intuitiv in seiner Interpretation. Deshalb gibt uns SPSS in der Spalte Exp(B) die Odds auch Odds Ratio genannt (d.h. den Exponenten eRegressionskoeffizientB).
Das Odds Ratio macht eine Aussage darüber, inwieweit das Vorhandensein bzw. Nichtvorhandensein eines Merkmals mit dem Vorhandensein bzw. Nichtvorhandensein eines weiteren Merkmals zusammenhängt und wie Stark dieser Zusammenhang ist. Damit geben uns die Odds eine Wahrscheinlichkeit für das Eintreten bzw. Nicht-Eintreten eines Ereignisses. Daher gilt auch:
- Odds > 1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt.
- Odds von 1 geben an, dass Eintreten und Nicht-Eintreten des Ereignisses gleich wahrscheinlich sind.
- Odds < 1 geben an, dass es wahrscheinlicher ist, das das Ereignis nicht eintritt als dass es eintritt.
Dies bedeutet, dass beispielsweise in unserem Datensatz für jedes zusätzliche Lebensjahr die Wahrscheinlichkeit zu erkrankten um einen Faktor von 1,028 steigt. Will man allerdings wissen, wie viel höher die Wahrscheinlichkeit für einen Anstieg von zehn Jahren ist, können wir diesen Faktor nicht einfach verzehnfachen. Stattdessen müssen hierfür den Wert von RegressionskoeffizientB (B = 0.027) nehmen, diesen multiplizieren und dann exponentialisieren bzw. mit diesem Faktor zu potenzieren: \(e^{0.027\cdot 10} = e^{0.270} = 1.028^{10} \approx 1.310\). Damit ist das Odds Ratio 1.310 zu erkranken, für jeden Anstieg des Alters um zehn Jahre.
Kategoriale Variablen
Die Interpretation erfolgt analog für kategoriale Variablen. Hier kommt es auf die Referenzkategorie an, die wir am Anfang festgelegt haben. Die wird als 0 kodiert. Prinzipiell ist es egal, welche Kategorie die Referenzkategorie bildet, jedoch kann es für die inhaltliche Interpretation interessanter sein, seine Kategorie einer anderen vorzuziehen. In unserem Beispieldatensatz waren männliche Teilnehmer mit 0 kodiert und damit die Referenzkategorie (wie auch der Tabelle Codierungen kategorialer Variablen zu entnehmen ist).
Inhaltlich bedeutet dies, dass die Odds zu erkranken 1,464 mal größer für Frauen als für Männer sind.
Variablen invertieren
Oft wollen wir Aussagen über eine Reduktion, statt einem Anstieg machen. Statt beispielsweise zu sagen: „Jede Stunde Schlaf senkt die Odds zu erkranken um den Faktor 0.469“, wäre es intuitiver zu sagen „Jede Stunde weniger Schlaf erhöht die Odds zu erkranken um den Faktor…“.
Um die Odds hierfür zu berechnen, müssen wir lediglich die Odds invertieren, also eins durch sie teilen: \(\frac{1}{0.469} \approx 2.132\). In unserem Datensatz erhöht somit jede Stunde Schlaf die Odds zu erkranken um einen Faktor von 2.132.
Ergebnisse berichten
Gerade bei vielen Variablen ist es ist es deutlich übersichtlicher, die Variablen und alle Modellergebnisse und -koeffizienten als Tabelle darzustellen. In unserem Fall würde die Tabelle beispielsweise so aussehen:
B | SE | Wald | p | Odds Ratio | 95% CI for Odds Ratio | ||
Lower Bound | Upper Bound | ||||||
Sex | 0.382 | 0.437 | .763 | .382 | 1.464 | 0.622 | 3.447 |
Age | 0.027 | 0.023 | 1.451 | .228 | 1.028 | 0.983 | 1.075 |
Immunofactor | -0.031 | 0.041 | .556 | .456 | 0.970 | 0.894 | 1.051 |
Hours of sleep | -0.756 | 0.190 | 15.767 | .000 | 0.469 | 0.323 | 0.682 |
Zinc factor | -0.204 | 0.024 | 73.817 | .000 | 0.815 | 0.778 | 0.854 |
Constant | 29.139 | 3.358 | 75.307 | .000 | 4517396808263.838 |
Note. Degrees of freedom were 1 for all Wald statistics.