Lexikon

gepoolte Varianz

Die gepoolte Varianz wird verwendet, um die Varianz von zwei oder mehr Grundgesamtheiten zu schätzen, wenn die Varianzen unbekannt sind, aber man davon ausgeht, dass sie (etwa) gleich sind. Geht man hingegen davon aus, dass die Varianzen der Stichproben ungleich sind, muss die Populationsvarianz ungepoolt berechnet werden.

Mathematische Berechnung

Hat man k Stichproben mit jeweils n1, n1, …, nk Beobachtungen, kann die gepoolte Varianz \(s_{p}^{2}\) geschätzt werden durch:

\(s_{p}^{2} = \displaystyle\frac{\displaystyle\sum_{i=1}^{k}\displaystyle\sum_{j=1}^{n_i}\left ( x_{ij} – \bar{x}_{i}\right )^2}{\left ( \displaystyle\sum_{i=1}^{k} n_i \right )-k}\)

wobei xij die j. Beobachtung der Stichprobe i ist und \(\bar{x}_{i}\) der Mittelwert der Stichprobe i ist.

Kennt man bereits die Varianzen der Stichproben, kann die gepoolte Varianz auch wie folgt berechnet werden:

\(s_{p}^{s} = \displaystyle\frac{\displaystyle\sum_{i=1}^{k}\left ( n_i-1 \right )\cdot s_{i}^{2}}{\left ( \displaystyle\sum_{i=1}^{k} n_i \right )-k}, \qquad s_{i}^{2} = \displaystyle\frac{\displaystyle\sum_{j=1}^{n_i}\left ( x_{ij} – \bar{x}_i \right )^2}{n_i-1}\)

Motivation

In den meisten Forschungssituationen kennen Forscher die genaue Varianz der Population nicht. Wenn nur eine Stichprobe aus einer Population vorliegt, verwenden Forscher im Allgemeinen die Varianz der Stichprobe als Schätzung der Populationsvarianz. Diese Stichprobenvarianz ist eine unverzerrte Schätzung der Populationsvarianz. Mit anderen Worten, der Mittelwert der Varianzen aller möglichen Stichproben gleicher Größe aus der Population ist gleich der Populationsvarianz.

In vielen statistischen Verfahren, bei denen mehrere Gruppen untersucht werden, gibt es auch mehrere Stichprobenabweichungen, die unabhängige Schätzungen der gleichen Populationsvarianz sind. Wenn beispielsweise Stichproben aus derselben Population zwei oder mehreren experimentellen Gruppen zufällig zugeordnet werden, ist die Varianz jeder Gruppe eine unabhängige Schätzung der gleichen Populationsvarianz. In einer solchen Bedingung ist die gepoolte Varianz eine bessere Schätzung der Populationsvarianz als eine Schätzung, die nur auf der Varianz einer einzigen Stichprobe basiert. Somit werden die Varianzen aller Stichproben aggregiert, um eine bessere Schätzung der Populationsvarianz zu erhalten.