Lexikon

Bonferroni–Holm Korrektur

Je mehr statistische Tests man durchführt, desto größer ist die Wahrscheinlichkeit einen p-Wert unter .05 zu erhalten und dadurch ein Ergebnis zu erhalten, was fälschlicherweise statistisch signifikant ist (Fehler erster Art). Dies ist eine logische Konsequenz der Vorgehensweise bei statistischen Testverfahren: Wir legen im ersten Schritt ein Signifikanzniveau fest (in den meisten Fällen .05) und führen dann unsere statistischen Tests durch.

Das Signifikanzniveau ist aber immer ein Kompromiss zwischen der Fähigkeit eine Entdeckung zu machen und unserer Bereitschaft ein fehlerhaftes Testergebnis zu akzeptieren. Wissenschaften, bei denen Menschen (und Tiere) untersucht werden, haben meist ein Signifikanzniveau von .05, während man beispielsweise in der Physik erst von einer Entdeckung bei einem p-Wert von weniger als .00000057 spricht (5-Sigma). Das heißt, dass wir bei einem p-Wert von .05 (oder anders geschrieben 1/20) bereit sind, ein fehlerhaftes Ergebnis in einem aus 20 Tests hinzunehmen.

Mit jedem zusätzlichen Test, den wir durchführen, erhöht sich allerdings dieser p-Wert. Dies wird als Alphafehlerkumulierung bezeichnet. Es gibt etliche Methoden, um dem entgegenzuwirken, unter anderem die Bonferroni-Korrektur oder die Bonferroni–Holm Korrektur (auch Holm-Methode und Holm–Bonferroni Korrektur genannt).

Die Bonferroni Korrektur

Um die Bonferroni–Holm Korrektur besser zu verstehen, werden wir erst einmal noch kurz die Bonferroni Korrektur besprechen (eine ausführlichere Erklärung findet sich auch in dem Hauptartikel Bonferroni-Korrektur).

Eine einfache Möglichkeit zur Vermeidung von Zufallsbefunden (Typ I Fehler) besteht darin, das Signifikanzniveau von .05 auf \(\frac{.05}{k}\) zu senken, wobei k die Anzahl der durchgeführten statistischen Tests ist. Dies wird als Bonferroni-Korrektur bezeichnet und ist die einfachste und am weitesten verbreitete Korrekturmethode bei Mehrfachtestung. Wenn wir zum Beispiel 5 Tests durchführen, wird das neue Signifikanzniveau auf \(\frac{.05}{5} =.01\) gesetzt, so dass nur etwa 1 von 100 Tests (.01%) fälschlicherweise signifikant wird. Die Bonferroni-Korrektur garantiert, dass die Wahrscheinlichkeit, Fehler vom Typ I zu begehen, über alle durchgeführten Tests hinweg konstant bei 5% oder weniger bleibt. Dies kann auch mathematisch nachgewiesen werden, auch wenn wir das in diesem Artikel nicht tun werden.

Um die Bonferroni-Korrektur anzuwenden, kann wahlweise das Signifikanzniveau durch die Anzahl der Tests geteilt werden (wie im Beispiel oben), oder der p-Wert mit der Anzahl der Tests multipliziert werden (wobei als obere Grenze 1 angenommen wird, da kein p-Wert größer als 1 werden kann), wie dies unser Rechner zur Adjustierung der p-Werte macht.

Vor- und Nachteile der Bonferroni-Korrektur

Der größte Vorteil der Bonferroni-Korrektur ist die Einfachheit ihrer Berechnung. Der größte Nachteil aber ist, dass die Bonferroni-Korrektur mitunter die Konservativste aller Korrekturen zur Alphafehlerkumulierung ist. Für die meisten Fälle aus der realen Welt führen Forscher statistische Tests durch, die sich stark überschneiden und nicht unabhängig voneinander sind.

Wenn wir beispielsweise Teilnehmer nach ihrem Alter in drei Gruppen einteilen, könnten wir 3 paarweise Vergleiche durchführen: (1) jüngere vs. mittlere, (2) mittlere vs. ältere und (3) jüngere vs. ältere. Wenn hier die ersten beiden paarweisen Vergleiche signifikant werden, ist die Wahrscheinlichkeit sehr hoch, dass auch der dritte signifikant werden wird. Die Vergleiche sind damit nicht mehr unabhängig. Die Bonferroni-Korrektur behandelt alle drei Vergleiche allerdings gleich. Dies benachteiligt uns im Wesentlichen für den gleichen Vergleich zweimal und erhöht damit unnötig die Chancen, reale Effekte zu verpassen (auch bekannt als Typ-II-Fehler oder falsche Negative).

Die Bonferroni–Holm Korrektur

Die Bonferroni–Holm Methode funktioniert durch die Anordnung der p-Werte von klein nach groß mit dem anschließenden Vergleich dieser p-Werte mit sequentiell weniger konservativen Alphaniveaus. Bei der Bonferroni-Holm Korrektur werden die p-Werte zuerst ihre Größe nach sortiert und anschließend mit Grenzen verglichen, die ebenfalls ansteigen. Die kleinste Grenze wird mit der normalen Bonferroni-Korrektur berechnet. Die nächste Grenze entspricht der Bonferroni-Korrektur, wenn wir einen Test weniger durchgeführt hätten, usw. Der größte p-Wert ist damit unverändert. Mit dieser Methode weist die Holm-Methode nie weniger Hypothesen zurück als die Bonferroni-Methode, aber die Gesamtwahrscheinlichkeit, Fehler vom Typ I zu begehen, bleibt immer noch bei oder unter .05.

Unterhalb ein Vergleich der p-Werte, unkorrigiert, korrigiert nach Bonferroni und korrigiert nach Bonferroni–Holm, für eine fiktive Studie mit fünf verschiedenen Altersgruppen. Unkorrigiert wären vier der fünf Tests auf einem Signifikanzniveau von 5% signifikant geworden. Nach Anwendung der Bonferroni-Korrektur sind es nur noch zwei. Mit der Bonferroni–Holm Korrektur haben wir am Ende drei signifikante Ergebnisse.

Unadjustierter p-Wert p-Wert nach Bonferroni–Korrektur p-Wert nach Bonferroni–Holm Korrektur
Bis 20 Jahre 0,001** 0,005** 0,005**
21-30 Jahre 0,003** 0,015* 0,012*
31-40 Jahre 0,015* 0,075 0,045*
41-50 Jahre 0,025* 0,125 0,05
über 51 Jahre 0,2 1 0,2

Anmerkung. * p < .05, ** p < .01, *** p < .001

Weiterführende Artikel

Diesen Eintrag zitieren

Hemmerich, W. (2020). StatistikGuru: Bonferroni–Holm Korrektur. Retrieved from https://statistikguru.de/lexikon/bonferroni-holm-korrektur.html
@misc{statistikguru,
    title    = {StatistikGuru},
    subtitle = {Bonferroni–Holm Korrektur},
    year     = {2020},
    month    = {feb},
    url      = {https://statistikguru.de/lexikon/bonferroni-holm-korrektur.html},
    author   = {Hemmerich, Wanja A.},
    urldate  = {2023-06-09}
}