Binomiale Logistische Regression

Binomiale logistische Regression: Datenintegrität

In ersten Schritt der Datenauswertung überprüfen wir noch einmal, ob alle Fälle, die wir erwarten, auch in die Analyse mit einbezogen wurden. Dies trifft vor allem auf fehlende Fälle zu, die sich Potenziell durch eine falsche Eingabe eingeschlichen haben könnten.

Zusammenfassung der Fallverarbeitung

Eine Übersicht aller Fälle finden wir in der Tabelle Zusammenfassung der Fallverarbeitung, die bei uns wie erwartet aussieht.

Zusammenfassung der Fallverarbeitung
Ungewichtete Fällea N Prozent
Ausgewählte Fälle Einbezogen in Analyse 569 100,0
Fehlende Fälle 0 ,0
Gesamt 569 100,0
Nicht ausgewählte Fälle 0 ,0
Gesamt 569 100,0
a. Wenn die Gewichtung wirksam ist, finden Sie die Gesamtzahl der Fälle in der Klassifizierungstabelle.

Kodierung kategorialer Variablen

Die nächste wichtige Tabelle ist die Codierungen kategorialer Variablen. Hier sehen wir, wie genau unsere Kategorialen Variablen kodiert wurden, bevor sie in der Regressionsgleichung aufgenommen wurden. Dies ist vor allem in Anbetracht der Referenzkategorie wichtig. Die Referenzkategorie bekommt bei Regressionsmodellen den Wert 0 zugewiesen, in unserem Fall, Personen mit männlichem Geschlecht. Dies bedeutet, dass wir die Ergebnisse und Koeffizienten der Variable geschlecht relativ zu Männern interpretieren müssen. Bei dichotomen Variablen ändert sich allerdings lediglich das Vorzeichen des Regressionskoeffizienten.

Hätten wir also mit Männern als Referenzkategorie einen Regressionkoeffizienten (Beta-Gewicht) von 0.457 erhalten, wäre dieser mit Frauen als Referenzkategorie -0.457.

Zwar ändert sich nur das Vorzeichen der Regressionsgewichte, allerdings interessieren wir uns bei der binomial logistischen Regression oft mehr noch für das Odds Ratio. Das Ändern der Referenzkategorie bei dichotomen Variablen entspricht der Bildung des Kehrwerts des Odds Ratios. Hat man für Geschlecht ein Odds Ratio von 1,464, wäre dies \(\frac{1}{1{,}464} = 0{,}683\), wenn für die Referenzkategorie ändern würden. Die Interpretation des Odds Ratio besprechen wir noch ausführlich hier.
Codierungen kategorialer Variablen
Häufigkeit Parametercodierung
(1)
Geschlecht des Teilnehmers männlich 275 ,000
weiblich 294 1,000

In unserem Fall haben wir eine einzige kategoriale Variable im Modell, bei der Geschlecht: männlicht als Null kodiert wurde und damit die Referenzkategorie bildet.

Gleichzeitig können wir aus dieser Tabelle erkennen, ob es Kategorien bei unseren kategorialen Variablen gibt, wo nur sehr wenige Fälle vorhanden sind. Binomiale logistische Regression funktioniert am besten, wenn die Anzahl der Fälle bei kategorialen Variablen nicht zu niedrig sind, da dies einen Overfit des Modells zu Folge haben könnte. Wenn man vermutet, dass das Verhältnis zwischen den einzelnen Gruppen stark disproportional ist, sieht man dies oft in großen Standardfehlern. Hier empfiehlt es sich die robustere Firth-Regression durchzuführen. Leider geht dies nicht mit SPSS, dafür aber in R, beispielsweise mit dem R-Paket logistf.