Binomiale Logistische Regression

Binomiale Logistische Regression: Variablen interpretieren

Im letzten Schritt interpretieren wir noch die Variablen der Regressionsgleichung. Sie geben uns Aufschluss darüber, welche Faktoren signifikant zu der Klassifikationsleistung unseres Modells beigetragen haben. Dazu betrachten wir die Tabelle Variablen in der Gleichung.

Variablen in der Gleichung
Regressions­koeffizientB Standardfehler Wald df Sig. Exp(B) 95% Konfidenzintervall für EXP(B)
Unterer Wert Oberer Wert
Schritt 1a Geschlecht des Teilnehmers(1) ,382 ,437 ,763 1 ,382 1,464 ,622 3,447
Alter des Teilnehmers ,027 ,023 1,451 1 ,228 1,028 ,983 1,075
Immunofaktor -,031 ,041 ,556 1 ,456 ,970 ,894 1,051
Stunden Schlaf in der Vornacht -,756 ,190 15,767 1 ,000 ,469 ,323 ,682
Zinkfaktor -,204 ,024 73,817 1 ,000 ,815 ,778 ,854
Konstante 29,139 3,358 75,307 1 ,000 4517396808263,838
a. In Schritt 1 eingegebene Variablen: Geschlecht des Teilnehmers, Alter des Teilnehmers, Immunofaktor, Stunden Schlaf in der Vornacht, Zinkfaktor.

Die Tabelle sagt und eine Reihe von Dingen: Zum einen sagt uns die Überschrift Wald, das eine Wald-Statistik zur Berechnung der Signifikanzen verwendet wurde. Wichtiger hier ist allerdings die die Spalte Sig., die uns sagt, ob die Variable einen signifikanten Beitrag geleitet hat.

Hier können wir sehen, dass dies nur auf zwei Variablen in unserem Regressionsmodell zutrifft: schlaf und zink haben beide einen p-Wert unter .05. Die anderen drei Variablen geschlecht (p = .382), alter (p = .228) und immunofaktor (p = .456), tragen hingegen nicht signifikant zur Klassifikationsleistung bei.

Auch wenn SPSS in der Spalte Signifikanz einen Wert von .000 angibt, ist dies nur ein gerundeter Wert (Signifikanzen können weder die Werte 0 oder 1 annehmen, sondern liegen immer dazwischen.) Bei einem Wert von .000 würden wir dies als p < .001 schreiben. Das APA-Handbuch empfiehlt ansonsten die Angabe genauer p-Werte (gerundet auf drei Nachkommastellen).

Koeffizienten und Odds

Die Koeffizienten der logistischen Regression finden wir in der Spalte Regressions­koeffizientB. Leider sind diese Werte direkt nicht wirklich intuitiv interpretierbar. Die Koeffizienten zeigen die Änderung der logarithmierten Odds, die bei einer Änderung eines Prädiktors um eine Einheit auftreten, wenn alle anderen Prädiktoren konstant gehalten werden. Prinzipiell ist die Interpretation identisch mit der von Koeffizienten der multiple linearen Regression, allerdings ist ein Rechnen in Logarithmen zwar modellbedingt erforderlich, allerdings nur wenig intuitiv in seiner Interpretation. Deshalb gibt uns SPSS in der Spalte Exp(B) die Odds auch Odds Ratio genannt (d.h. den Exponenten eRegressions­koeffizientB).

Das Odds Ratio macht eine Aussage darüber, inwieweit das Vorhandensein bzw. Nichtvorhandensein eines Merkmals mit dem Vorhandensein bzw. Nichtvorhandensein eines weiteren Merkmals zusammenhängt und wie Stark dieser Zusammenhang ist. Damit geben uns die Odds eine Wahrscheinlichkeit für das Eintreten bzw. Nicht-Eintreten eines Ereignisses. Daher gilt auch:

  • Odds > 1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt.
  • Odds von 1 geben an, dass Eintreten und Nicht-Eintreten des Ereignisses gleich wahrscheinlich sind.
  • Odds < 1 geben an, dass es wahrscheinlicher ist, das das Ereignis nicht eintritt als dass es eintritt.

Dies bedeutet, dass beispielsweise in unserem Datensatz für jedes zusätzliche Lebensjahr die Wahrscheinlichkeit zu erkrankten um einen Faktor von 1,028 steigt. Will man allerdings wissen, wie viel höher die Wahrscheinlichkeit für einen Anstieg von zehn Jahren ist, können wir diesen Faktor nicht einfach verzehnfachen. Stattdessen müssen hierfür den Wert von Regressions­koeffizientB (B = 0.027) nehmen, diesen multiplizieren und dann exponentialisieren bzw. mit diesem Faktor zu potenzieren: \(e^{0.027\cdot 10} = e^{0.270} = 1.028^{10} \approx 1.310\). Damit ist das Odds Ratio 1.310 zu erkranken, für jeden Anstieg des Alters um zehn Jahre.

Oft ist es intuitiver eine Aussage zu treffen, wie „alle X Jahre verdoppeln sich die Odds zu erkranken“. Dies kann mit der Formel \(\frac{\ln(\mathrm{Faktor})}{\ln(\mathrm{Odds})}\) berechnet werden. Wenn wir beispielsweise wissen wollten, nach wie vielen Jahren sich die Odds zu erkranken verdoppeln, könnten wir das so berechnen: \(\frac{\ln(2)}{\ln(1.028)} \approx 25.1\). In unserem Beispiel verdoppeln sich die Odds zu erkranken etwa alle 25 Lebensjahre. Jahre kann natürlich jede andere Variable des Regressionsmodells sein, sowie auch der Faktor.

Kategoriale Variablen

Die Interpretation erfolgt analog für kategoriale Variablen. Hier kommt es auf die Referenzkategorie an, die wir am Anfang festgelegt haben. Die wird als 0 kodiert. Prinzipiell ist es egal, welche Kategorie die Referenzkategorie bildet, jedoch kann es für die inhaltliche Interpretation interessanter sein, seine Kategorie einer anderen vorzuziehen. In unserem Beispieldatensatz waren männliche Teilnehmer mit 0 kodiert und damit die Referenzkategorie (wie auch der Tabelle Codierungen kategorialer Variablen zu entnehmen ist).

Inhaltlich bedeutet dies, dass die Odds zu erkranken 1,464 mal größer für Frauen als für Männer sind.

Variablen invertieren

Oft wollen wir Aussagen über eine Reduktion, statt einem Anstieg machen. Statt beispielsweise zu sagen: „Jede Stunde Schlaf senkt die Odds zu erkranken um den Faktor 0.469“, wäre es intuitiver zu sagen „Jede Stunde weniger Schlaf erhöht die Odds zu erkranken um den Faktor…“.

Um die Odds hierfür zu berechnen, müssen wir lediglich die Odds invertieren, also eins durch sie teilen: \(\frac{1}{0.469} \approx 2.132\). In unserem Datensatz erhöht somit jede Stunde Schlaf die Odds zu erkranken um einen Faktor von 2.132.

Wenn wir noch die Konfidenzintervalle angeben wollen, müssen wir sie ebenfalls invertieren.

Ergebnisse berichten

Gerade bei vielen Variablen ist es ist es deutlich übersichtlicher, die Variablen und alle Modellergebnisse und -koeffizienten als Tabelle darzustellen. In unserem Fall würde die Tabelle beispielsweise so aussehen:

B SE Wald p Odds Ratio 95% CI for Odds Ratio
Lower Bound Upper Bound
Sex 0.382 0.437 .763 .382 1.464 0.622 3.447
Age 0.027 0.023 1.451 .228 1.028 0.983 1.075
Immunofactor -0.031 0.041 .556 .456 0.970 0.894 1.051
Hours of sleep -0.756 0.190 15.767 .000 0.469 0.323 0.682
Zinc factor -0.204 0.024 73.817 .000 0.815 0.778 0.854
Constant 29.139 3.358 75.307 .000 4517396808263.838

Note. Degrees of freedom were 1 for all Wald statistics.