Lexikon

Oversampling

Oversampling (englisch: überrepräsentierte Stichprobe) ist eine Form der geschichteten Stichprobe. Bei einer geschichteten Stichprobe wird ein Forscher seine Stichprobe so auswählen, dass sie dasselbe Verhältnis in einigen Variablen hat wie die Grundgesamtheit. Beim Oversampling werden ein oder mehrere Gruppen absichtlich überrepräsentiert.

Oversampling ist verwandt mit Undersampling, geht allerdings in die umgekehrte Richtung. Beide Verfahren verwenden einen Bias, um eine größere Stichprobe aus einer oder mehrere Gruppen gegenüber den anderen zu ziehen.

Eine Alternative zu Oversampling wäre es, die gesamte Stichprobengröße zu erhöhen. Dies ist vor allem zu empfehlen, wenn mehrere Gruppen durch Oversampling überrepräsentiert werden sollen. Allerdings ist dies wiederum mit erhöhten Kosten verbunden und damit nicht in allen Fällen anwendbar.

Beispiel

Gehen wir davon aus, dass ein Forscher eine große Umfrage unter Studenten machen will. Insgesamt soll die Stichprobe 1.000 Studenten umfassen. Er recherchiert die Anteile von Männern und Frauen in den einzelnen Studienfächern und stellt fest, dass weibliche Mathematikstudentinnen lediglich einen Gesamtanteil von 1,4 % aller Studenten ausmachen. Dies würde bedeuten, dass er mit einer geschichteten Stichprobe nur 14 angehende Mathematikerinnen befragen würde. Dies wäre allerdings seinen Berechnungen zufolge zu wenig, um mögliche Unterschiede zwischen den einzelnen Gruppen festzustellen. Er entscheidet sich deshalb 50 Mathematikstudentinnen (statt 14) zu befragen.

In diesem Beispiel werden die 50 Mathematikstudentinnen weiterhin zufällig ausgewählt, allerdings ist ihr Anteil durch Oversampling künstlich erhöht worden.Mathematikstudentinnen machen in diesem Beispiel nun 5 %, statt 1,4 % der Stichprobe aus. Eine Befragung, die Oversampling verwendet, wird die Ergebnisse bei der statistischen Betrachtung so gewichten, dass sie statistisch wieder dem Anteil der Grundgesamtheit entsprechen.