Lexikon

Ausreißer

Ein Ausreißer (englisch outlier) ist eine Beobachtung die von den übrigen Beobachtungen entfernt liegt. Ausreißer können durch natürliche Variabilität zustande kommen, aber auch auf einen experimentellen Fehler hindeuten.

Ausreißer können durch Zufall in jeder Verteilung und damit in jedem Datensatz vorkommen. Dennoch deuten sie oft auf Fehler bei der Durchführung bzw. Messung bei Experimenten hin. Alternativ kommen Ausreißer in Heavy-Tailed-Verteilungen öfters vor. Vor allem bei Messfehlern wollen wir die entsprechende Beobachtung von der Analyse ausschließen, während man bei Heavy-Tailed-Verteilungen überprüfen sollte, ob die eingesetzten Verfahren (die oft eine Normalverteilung annehmen) aufgrund der hohen Schiefe immer noch korrekte Aussagen liefern. Oft kommen Ausreißer vor, wenn zwei verschiedene Verteilungen (und damit zwei heterogene Populationen) vermischt und analysiert werden.

In größeren Datenerhebungen werden einige Datenpunkte weiter von dem Mittelwert entfernt sein, als für akzeptabel betrachtet wird. Dies kann beispielsweise aufgrund eines systematischen Fehlers sein, aber auch aufgrund einer fehlerbehafteten Theorie, die gewisse Annahmen über die Verteilungeigenschaften gemacht hat, oder weil einige Daten schlicht weiter entfernt liegen als andere. Ausreißer deuten damit auf fehlerhafte Daten, falsche Verfahren und Bereiche, in denen die a priori Theorie nicht stimmt hin. Allerdings steigt die Wahrscheinlichkeit, „natürliche“ Ausreißer zu bekommen, mit der Größe der Stichprobe.

Das Minimum bzw. Maximum eines Datensatzes können Ausreißer sein, auch wenn das Minimum bzw. Maximum nicht zwangsläufig ein Ausreißer sein muss. Auch hier kommt es wieder darauf an, wie weit Minimum bzw. Maximum von den übrigen Daten entfernt liegen. (In Statistikprogrammen werden fehlende Daten oft als 999 oder ähnliches kodiert. Hier muss sichergestellt sein, dass dies auch korrekt als fehlender Wert im Programm vermerkt wurde.)

Ausreißer sind vor allem schlecht, weil sie die Aussagekraft gewisser statistischer Verfahren senkt. Darüber hinaus versuchen die meisten Studien Aussagen über die breite Masse einer Population zu machen. Werte, die weit entfernt von übrigen Werten liegen, deuten auf eine andere Population hin, eine die nicht zwangsläufig von Interesse ist.