Binomiale logistische Regression: Datenintegrität
In ersten Schritt der Datenauswertung überprüfen wir noch einmal, ob alle Fälle, die wir erwarten, auch in die Analyse mit einbezogen wurden. Dies trifft vor allem auf fehlende Fälle zu, die sich Potenziell durch eine falsche Eingabe eingeschlichen haben könnten.
Zusammenfassung der Fallverarbeitung
Eine Übersicht aller Fälle finden wir in der Tabelle Zusammenfassung der Fallverarbeitung, die bei uns wie erwartet aussieht.
Zusammenfassung der Fallverarbeitung | |||
---|---|---|---|
Ungewichtete Fällea | N | Prozent | |
Ausgewählte Fälle | Einbezogen in Analyse | 569 | 100,0 |
Fehlende Fälle | 0 | ,0 | |
Gesamt | 569 | 100,0 | |
Nicht ausgewählte Fälle | 0 | ,0 | |
Gesamt | 569 | 100,0 | |
a. Wenn die Gewichtung wirksam ist, finden Sie die Gesamtzahl der Fälle in der Klassifizierungstabelle. |
Kodierung kategorialer Variablen
Die nächste wichtige Tabelle ist die Codierungen kategorialer Variablen. Hier sehen wir, wie genau unsere Kategorialen Variablen kodiert wurden, bevor sie in der Regressionsgleichung aufgenommen wurden. Dies ist vor allem in Anbetracht der Referenzkategorie wichtig. Die Referenzkategorie bekommt bei Regressionsmodellen den Wert 0 zugewiesen, in unserem Fall, Personen mit männlichem Geschlecht. Dies bedeutet, dass wir die Ergebnisse und Koeffizienten der Variable geschlecht relativ zu Männern interpretieren müssen. Bei dichotomen Variablen ändert sich allerdings lediglich das Vorzeichen des Regressionskoeffizienten.
Hätten wir also mit Männern als Referenzkategorie einen Regressionkoeffizienten (Beta-Gewicht) von 0.457 erhalten, wäre dieser mit Frauen als Referenzkategorie -0.457.
Codierungen kategorialer Variablen | |||
---|---|---|---|
Häufigkeit | Parametercodierung | ||
(1) | |||
Geschlecht des Teilnehmers | männlich | 275 | ,000 |
weiblich | 294 | 1,000 |
In unserem Fall haben wir eine einzige kategoriale Variable im Modell, bei der Geschlecht: männlicht als Null kodiert wurde und damit die Referenzkategorie bildet.
Gleichzeitig können wir aus dieser Tabelle erkennen, ob es Kategorien bei unseren kategorialen Variablen gibt, wo nur sehr wenige Fälle vorhanden sind. Binomiale logistische Regression funktioniert am besten, wenn die Anzahl der Fälle bei kategorialen Variablen nicht zu niedrig sind, da dies einen Overfit des Modells zu Folge haben könnte. Wenn man vermutet, dass das Verhältnis zwischen den einzelnen Gruppen stark disproportional ist, sieht man dies oft in großen Standardfehlern. Hier empfiehlt es sich die robustere Firth-Regression durchzuführen. Leider geht dies nicht mit SPSS, dafür aber in R, beispielsweise mit dem R-Paket logistf
.