Binomiale Logistische Regression

Binomiale logistische Regression: Minimale Stichprobengröße

Multivariable Analysemethoden – wie Regression – stehen im Verdacht, problematische Ergebnisse zu liefern, wenn im Verhältnis zur Anzahl der im Modell analysierten Prädiktoren zu wenige Fälle vorliegen. Die größten Probleme, die hierbei entstehen können, betreffen die Genauigkeit und Präzision der Regressionskoeffizienten sowie potenziell fehlerhafte Assoziationen. Dabei können zwei Arten von Fehlern entstehen:

  1. Überanpassung (Typ-I-Fehler) tritt auf, wenn zu viele Variablen in das Regressionsmodell eingebracht werden, von denen einige Rauschen darstellen können und redundant sind.
  2. Unteranpassung (Typ-II-Fehler) tritt auf, wenn wichtige Prädiktoren nicht im endgültigen Modell enthalten sind, entweder weil sie nicht erhoben oder berücksichtigt wurden.

Wegen dieser Probleme wurden von zahlreichen Autoren eine minimale Stichprobengröße – oder besser gesagt: die minimale Anzahl von Fällen pro Prädiktor vorgeschlagen. Wir haben hier eine Auswahl an Literatur verschiedene Studien zusammengestellt, die Empfehlungen für die minimale Anzahl von Fällen pro Prädiktor geben:

  • Burmeister und Aitken (2012): 20 Fälle pro Prädiktor
  • Peduzzi, Concato, Kemper, Holford und Feinstein (1996): 10 Fälle pro Prädiktor
  • Sathian et al. (1970): 10 Fälle pro Prädiktor
  • Moons et al. (2014): 10 Fälle pro Prädiktor
  • Pavlou, Ambler, Seaman, De Iorio und Omar (2015): 10 Fälle pro Prädiktor
  • Vittinghoff und McCulloch (2007): 5–9 Fälle pro Prädiktor

Die meisten Autoren empfehlen hier 10 Fälle pro Prädiktor. Zwar lässt sich die binomiale logistische Regression in SPSS mit deutlich weniger Fällen berechnen, doch sollten die Fehler die dabei entstehen können, berücksichtigt werden.

Literaturverzeichnis

  1. Burmeister, E., & Aitken, L. M. (2012). Sample size: How many is enough? Australian Critical Care25(4), 271–274. doi:10.1016/j.aucc.2012.07.002
  2. Moons, K. G. M., de Groot, J. A. H., Bouwmeester, W., Vergouwe, Y., Mallett, S., Altman, D. G., … Collins, G. S. (2014). Critical Appraisal and Data Extraction for Systematic Reviews of Prediction Modelling Studies: The CHARMS Checklist. PLoS Medicine, 11(10), e1001744. doi:10.1371/journal.pmed.1001744
  3. Pavlou, M., Ambler, G., Seaman, S., De Iorio, M., & Omar, R. Z. (2015). Review and evaluation of penalised regression methods for risk prediction in low-dimensional data with few events. Statistics in Medicine, 35(7), 1159–1177. doi:10.1002/sim.6782
  4. Peduzzi, P., Concato, J., Kemper, E., Holford, T. R., & Feinstein, A. R. (1996). A simulation study of the number of events per variable in logistic regression analysis. Journal of Clinical Epidemiology49(12), 1373–1379. doi:10.1016/s0895-4356(96)00236-3
  5. Sathian, B., Sreedharan, J., Baboo, S. N., Sharan, K., Abhilash, E. S., & Rajesh, E. (1970). Relevance of Sample Size Determination in Medical Research. Nepal Journal of Epidemiology1(1), 4–10. doi:10.3126/nje.v1i1.4100
  6. Vittinghoff, E., & McCulloch, C. E. (2007). Relaxing the Rule of Ten Events per Variable in Logistic and Cox Regression. American Journal of Epidemiology, 165(6), 710–718. doi:10.1093/aje/kwk052