Lexikon

Bootstrapping

Bootstrapping ist ein statistisches Verfahren, bei dem aus einer Stichprobe erneut viele Stichproben gezogen werden, von denen Statistiken, wie beispielsweise Mittelwert oder Standardabweichung, berechnet werden. Dies erlaubt es uns, die Präzision von Schätzungen für Parameter zu bestimmen. Es ist besonders bei kleinen Stichproben nützlich.

Bootstrapping gehört zu einer größeren Klassen von Verfahren, die empirische Verteilungen durch die erneute Stichprobenziehung aus dem ursprünglichen Datensatz aufstellen, die Resampling Methoden. Wichtig ist, das meist mit Zurücklegen gezogen wird, d.h. in einer Stichprobe kann ein Wert mehr als einmal vorkommen, wie in der Abbildung unten.

Auch wenn dieses Verfahren ausreichend allgemein ist, um für Zeitreihenanalyse, nicht-lineare Regression, Kreuzvalidierung und Klusteranalyse verwendet zu werden, wird sie meistens für die Berechnung von Konfidenzintervallen und Standardfehlern verwendet.

Der Name wurde von der fiktiven Figur Baron von Münchhausen aus dem 18. Jahrhundert inspiriert und ist eine Variation einer Geschichte, in der sich Münchhausen mit eigenen Stiefeln aus dem Sumpf zieht (bootstrap = englisch für Stiefelschlaufe, sinngemäß: „sich an den eigenen Stiefeln [aus dem Sumpf] herausziehen“, als das englisches Gegenstück für „an den eigenen Haaren aus dem Sumpf ziehen“).Bootstrapping

Beispiel

Angenommen, wir möchten das durchschnittliche Haushaltseinkommen in einer Stadt herausfinden. Wir können uns keine Befragung aller Einwohner leisten, also nehmen wir zufällig 100 Haushalte unter die Lupe, erfassen die 100 Einkommen und nehmen ihren Durchschnitt. Wir kommen auf 51.760 Euro. Das klingt präzise, aber wir möchten eine Schätzung, wie genau das wirklich ist. Ein einfacher, aber unpraktischer Ansatz wäre es, mehrere zusätzliche Stichproben von 100 Haushalten zu nehmen, jedes Mal den Durchschnitt zu berechnen und zu sehen, wie sehr sich die Durchschnittswerte voneinander unterscheiden.

Mit Bootstrapping können Sie diesen unpraktischen Ansatz nur mit den Daten des Original-Samples approximieren. Ein Bootstrap-Sample ist eine Zufallsstichprobe der Größe 100, die aus den ursprünglichen 100 Einkommen gezogen wird. Stellen wir uns vor, jedes der ursprünglichen Einkommen auf einen Zettel zu schreiben, die Zettel in einen Hut zu stecken und zufällig einen Zettel herauszuziehen. Notieren Sie sich die Nummer, legen Sie den Zettel wieder in den Hut und wiederholen Sie diesen Vorgang noch 99 Mal. Das Ergebnis wäre eine Bootstrap-Stichprobe, und wir können so viele Bootstrap-Stichproben erstellen, wie wir wollen, jedes Mal unter Berücksichtigung ihres Durchschnitts. Nehmen wir an, wir machen 250 davon und geben 250 Bootstrap-Durchschnitte. Die Variabilität der 250 Durchschnitte ist die Bootstrap-Schätzung der Genauigkeit für die ursprüngliche Schätzung 51.760 Euro.

Die gleiche Idee kann angewendet werden, um die Genauigkeit jeder Statistik zu finden, beispielsweise des Medianeinkommens anstelle des Durchschnitts oder auch etwas Komplizierteres. Diese Flexibilität macht Bootstrapping ideal für die oft komplizierten statistischen Methoden der modernen Statistik.

 

Literaturverzeichnis

  1. Efron, B. (1979). Bootstrap Methods: Another Look at the Jackknife. The Annals of Statistics7(1), 1–26. doi:10.1214/aos/1176344552