Binomiale Logistische Regression: Anwendungsbeispiele
Die meisten Fragestellungen moderner Datenwissenschaft beziehen sich auf Klassifikationsprobleme. Das heißt, dass wir mithilfe von Statistik herausfinden wollen, zu welcher Gruppe eine Beobachtung gehört. Bei zwei Gruppen ist binomiale logistische Regression oft die bevorzugte Methode.
Klassifikation
Viele Fragestellungen lassen sich als Klassifikationsprobleme definieren. Binomiale logistische Regression kann hier zum Einsatz kommen, wenn wir nur zwei Kategorien haben, die wir vorhersagen wollen. Dies könnte z.B. krank / gesund, bestanden / nicht bestanden, ja / nein, zugehörig / nicht zugehörig sein. In der Medizin wird binomiale logistische Regresison oft eingesetzt, um die Ursachen für eine Erkrankung zu untersuchen. Wirtschaftswissenschaftler verwenden binomiale logistische Regresison, um die Gründe für Kundenabwanderung (engl. customer churn) zu identifizieren.
Aber ist gibt noch mehr Beispiele: Yan et al. haben logistische Regression verwendet, um Angriffe auf Websites besser verherzusagen; Bucur, Danet, Lehr, Lehr, und Nita-Lazar (2017) um die Faktoren für die Luftqualität in Museen zu bestimmen; und von Kwon, Lee, Yoo und Park (2013) um den Einfluss von Schlaf auf die Anfälligkeit für allergische Rhinitis zu bestimmen – um nur einige zu nennen.
Im Prinzip kann die Einteilung in eine von zwei Gruppen auch künstlich erfolgen. Hierzu könnte man eine eigentlich metrische oder intervallskalierte Variable künstlich dichotomisieren, beispielsweise durch einen Median-Split oder an etablierten Referenzwerten oder Cut-Offs. Die hieraus resultierende Variable kann dann als Kriterium ins logistische Regressionsmodell aufgenommen werden.
Binomiale Logistische Regression statt t-Test
Bei einem t-Test haben wir zwei Gruppen und eine abhängige Variable. Wir wollen herausfinden, ob sich beide Gruppen bezüglich ihres Mittelwerts voneinander unterscheiden. Wir können den Spieß aber auch umdrehen: wir geben die Gruppen vor und schauen, ob wir mithilfe der abhängigen Variable die Gruppenzugehörigkeit bestimmen können. Dies wäre dann eine binomiale logistische Regression. Der Vorteil hierbei: wir können gleich mehrere abhängige Variablen in einem einzigen Modell untersuchen, wo wir normalerweise mehrere (pro abhängiger Variable einen) t-Tests rechnen müssten.
Literaturverzeichnis
- Bucur, E., Danet, A. F., Lehr, C. B., Lehr, E., & Nita-Lazar, M. (2017). Binary logistic regression—Instrument for assessing museum indoor air impact on exhibits. Journal of the Air & Waste Management Association, 67(4), 391–401. doi:10.
1080/ 10962247. 2016. 1231724 - Kwon, J. A., Lee, M., Yoo, K.-B., & Park, E.-C. (2013). Does the Duration and Time of Sleep Increase the Risk of Allergic Rhinitis? Results of the 6-Year Nationwide Korea Youth Risk Behavior Web-Based Survey. PLoS ONE, 8(8), e72507. doi:10.
1371/ journal. pone. 0072507 - Yan, Y., Tang, D., Zhan, S., Dai, R., Chen, J., & Zhu, N. (2019). Low-Rate DoS Attack Detection Based on Improved Logistic Regression. In 2019 IEEE 21st International Conference on High Performance Computing and Communications; IEEE 17th International Conference on Smart City; IEEE 5th International Conference on Data Science and Systems (HPCC/SmartCity/DSS). IEEE. doi:10.
1109/ hpcc/ smartcity/ dss. 2019. 00076