Binomiale Logistische Regression: Hintergründe
Generalized Linear Models (GLM), wie der Name schon sagt, sind eine Generalisierung des linearen Modellierungs-Frameworks, um die Modellierung von abhängigen Variablen mit nicht-normalen Verteilungen und heterogenen Varianzen zu ermöglichen. Während lineare Modelle für die Vorhersage kontinuierlicher Eigenschaften konzipiert sind, kann GLM verwendet werden, um beispielsweise das Vorhandensein/Abwesenheit eines Symptoms vorherzusagen. Diese Verallgemeinerungen erweitern die Anwendbarkeit des linearen Modellierungssystems erheblich, während sie gleichzeitig ein ähnliches Anpassungsverfahren und die Interpretation der resultierenden Modelle ermöglichen.
Um Nichtlinearität und heterogene Varianzen zu berücksichtigen, wurden in der Vergangenheit Transformationen der abhängigen Variablen, wie z.B. der log(x), vorgenommen. Solche Transformationen erschweren jedoch die Interpretation der Modelle, da sich die Ergebnisse auf den transformierten Maßstab beziehen (z.B. log(x)). Es ist nicht garantiert, dass diese Transformationen sowohl Normalität als auch konstante Varianz gleichzeitig erreichen. GLM-Ansätze transformieren die Antwort, bewahren aber auch das Ausmaß der Antwort und stellen separate Funktionen zur Verfügung, um die mittlere Antwort und Varianz zu transformieren, die als Link- bzw. Varianz-Funktionen bekannt sind.
Eine weitere Änderung des klassischen linearen Modells besteht darin, dass bei GLM die Koeffizienten iterativ durch Maximum-Likelihood-Schätzung statt durch gewöhnliche kleinste Quadrate geschätzt werden. Dies führt dazu, dass die GLM die Abweichung minimiert, anstatt die Summe der Quadrate. Für die Gaußschen (d.h. Normal-)Verteilungen sind jedoch die Abweichung und die Summe der Quadrate gleichwertig.
Logistische Regression
Die logistische Regression ist eine spezielle Art von GLM, die zur Modellierung von Daten mit binomialer Verteilung (d.h. Anwesenheit/Abwesenheit, ja/nein, etc.) entwickelt wurde, die im statistischen Fachjargon als Klassifizierungsproblem betrachtet wird. Für Binomialdaten wird in der Regel die Logit-Link-Transformation verwendet. Die Wirkung der Logit-Transformation ist in der folgenden Abbildung zu sehen. Es entsteht eine sigmoidale Kurve (Schwanenhalskurve), die die Trennung zwischen den beiden Gruppen verbessert. Es bewirkt auch, dass die Werte immer zwischen 0 und 1 liegen.
Diese Art von Funktion findet unter anderem auch Anwendung in der künstlichen Intelligenz.