Binomiale Logistische Regression

Binomiale Logistische Regression: Klassifikationsleistung

Die Vorhersage der Kategorie, also die Klassifikation, die durch unser Modell stattfindet, ist eines der wichtigsten Punkte der logistischen Regression. Wir wollen wissen, inwieweit unsere Prädiktoren das Kriterium korrekt vorhersagen können. Eine Klassifikationsgüte von 50% wäre nicht besser als der Zufall, sodass wir dies als Richtmaß betrachten. Auch müssen wir hier unser Baseline-Modell betrachten, da eine Verbesserung der Klassifikation in Relation zu der Basisverteilung des Kriteriums gesehen werden muss.

Die Fähigkeit unseres Modells das Kriterium zu klassifizieren, finden wir in der Klassifizierungstabelle:

Klassifizierungstabellea
Beobachtet Vorhergesagt
Diagnose Prozentsatz der Richtigen
symptomfrei erkrankt
Schritt 1 Diagnose symptomfrei 198 13 93,8
erkrankt 15 343 95,8
Gesamtprozentsatz 95,1
a. Der Trennwert lautet ,500

Wichtig ist hier auch die Tabellenfußnote: „Der Trennwert lautet ,500“. Dies bedeutet, dass wenn die Regression eine Wahrscheinlichkeit über .500 feststellt, wird der Fall als „erkrankt“ klassifiziert; bei Werten darunter als „symptomfrei“.

Die Tabelle enthält auch den Gesamtprozentsatz der korrekten Klassifikation. Dieser Wert wird auch als Percentage of Accuracy in Classification (PAC) bezeichnet. Aus der Tabelle können wir aber auch noch andere Werte, wie die Sensitivität und Spezifität, berechnen. Die Klassifikationstabelle wird auch als Wahrheitsmatrix oder in englischen als confusion matrix bezeichnet.

Sensitivität und Spezifität

Die Sensitivität gibt an, gut unser Modell eine Person mit einem Merkmal auch korrekt als solche identifiziert hat. In unserem Fall wäre die Sensitivität also die Erkennungsleistung erkrankter Personen. Dieser Prozentsatz wird uns in der letzten Spalte auf der rechten Seite gegeben. Die Sensitivität ist für unserem Beispieldatensatz 95,5%.

Die Spezifität können wir ebenfalls direkt ablesen. Sie beschreibt die Fähigkeit unseres Modells eine Person ohne ein Merkmal (in unserem Fall einer Erkrankung) korrekt als solche zu identifizieren. In unserem Fall ist die Spezifität die Erkennungsleistung gesunder (symptomfreier) Personen und ist in unserem Beispieldatensatz 93,8%.

Beide Werte könnten wir so berichten:

Deutsch
Der Gesamtprozentsatz korrekter Klassifikation war 95.1%, mit einer Sensitivität von 95.5% und einer Spezifität von 93.8%.
English
Overall percentage of accuracy in classification was 95.1%, with a sensitivity of 95.5% and a  specificity of 93.8%.