Lexikon

Bootstrapping

Bootstrapping ist ein statistisches Verfahren, bei dem aus einer Stichprobe erneut viele Stichproben gezogen werden, von denen Statistiken, wie beispielsweise Mittelwert oder Standardabweichung, berechnet werden. Dies erlaubt es uns, die Präzision von Schätzungen für Parameter zu bestimmen. Es ist besonders bei kleinen Stichproben nützlich.

Bootstrapping gehört zu einer größeren Klassen von Verfahren, die empirische Verteilungen durch die erneute Stichprobenziehung aus dem ursprünglichen Datensatz aufstellen, die Resampling Methoden. Wichtig ist, das meist mit Zurücklegen gezogen wird, d.h. in einer Stichprobe kann ein Wert mehr als einmal vorkommen, wie in der Abbildung unten.

Auch wenn dieses Verfahren ausreichend allgemein ist, um für Zeitreihenanalyse, nicht-lineare Regression, Kreuzvalidierung und Klusteranalyse verwendet zu werden, wird sie meistens für die Berechnung von Konfidenzintervallen und Standardfehlern verwendet.

Der Name wurde von der fiktiven Figur Baron von Münchhausen aus dem 18. Jahrhundert inspiriert und ist eine Variation einer Geschichte, in der sich Münchhausen mit eigenen Stiefeln aus dem Sumpf zieht (bootstrap = englisch für Stiefelschlaufe, sinngemäß: „sich an den eigenen Stiefeln [aus dem Sumpf] herausziehen“, als das englisches Gegenstück für „an den eigenen Haaren aus dem Sumpf ziehen“).Bootstrapping

Beispiel

Angenommen, wir möchten das durchschnittliche Haushaltseinkommen in einer Stadt herausfinden. Wir können uns keine Befragung aller Einwohner leisten, also nehmen wir zufällig 100 Haushalte unter die Lupe, erfassen deren 100 Einkommen und nehmen ihren Durchschnitt. Wir kommen auf 51.760 Euro. Das klingt zwar präzise, aber wir möchten eine Schätzung darüber, wie genau das wirklich ist. Ein einfacher, aber unpraktischer Ansatz wäre es, mehrere zusätzliche Stichproben von 100 Haushalten zu nehmen, jedes Mal den Durchschnitt zu berechnen und zu sehen, wie sehr sich Durchschnittswerte voneinander abweichen.

Mit Bootstrapping können wir diesen Ansatz allein mit den Daten des Original-Samples verfolgen. Ein Bootstrap-Sample ist eine Zufallsstichprobe der Größe 100, die aus den ursprünglichen 100 Einkommen gezogen wird. Stellen wir uns vor, jedes der ursprünglichen Einkommen auf einen Zettel zu schreiben, die Zettel in einen Hut zu stecken und zufällig einen Zettel herauszuziehen. Wir notieren die das Einkommen, legen den Zettel wieder in den Hut und wiederholen diesen Vorgang weitere 99 Mal. Das Ergebnis wäre eine Bootstrap-Stichprobe, und wir können so viele Bootstrap-Stichproben erstellen, wie wir wollen – jedes Mal unter Berücksichtigung ihres Durchschnitts. Nehmen wir an, wir erstellen 250 Bootstrap-Stichproben und kommen so am Ende auf 250 Bootstrap-Durchschnitte. Die Variabilität der 250 Durchschnitte ist die Bootstrap-Schätzung der Genauigkeit für die ursprüngliche Schätzung 51.760 Euro.

Die gleiche Idee kann angewendet werden, um die Genauigkeit jeder Statistik zu finden, beispielsweise des Medianeinkommens anstelle des Durchschnitts oder auch komplexere Statistiken. Diese Flexibilität macht Bootstrapping ideal für die oft komplizierten statistischen Methoden der modernen Statistik.

Literaturverzeichnis

  1. Efron, B. (1979). Bootstrap Methods: Another Look at the Jackknife. The Annals of Statistics7(1), 1–26. doi:10.1214/aos/1176344552

Diesen Eintrag zitieren

Hemmerich, W. (2016). StatistikGuru: Bootstrapping. Retrieved from https://statistikguru.de/lexikon/bootstrapping.html
@misc{statistikguru,
    title    = {StatistikGuru},
    subtitle = {Bootstrapping},
    year     = {2016},
    month    = {aug},
    url      = {https://statistikguru.de/lexikon/bootstrapping.html},
    author   = {Hemmerich, Wanja A.},
    urldate  = {2023-06-10}
}