ungepaarter t-Test

Ungepaarter t-Test: Mit Ausreißern umgehen

Wenn wir bei der Berechnung des ungepaarten t-Tests feststellen, dass einige Datenpunkte extrem weit vom Mittel entfernt sind (Ausreißer), gibt es es einige Möglichkeiten, dieses Problem zu beheben:

  1. Ausreißer in dem Datensatz lassen
  2. Einen nicht-parametrischen Test berechnen
  3. Die Versuchsperson von der weiteren Analyse ausschließen
  4. Den Wert durch einen anderen, weniger extremen Wert ersetzen
  5. Systematisch die höchsten und niedrigsten Werte aus dem Datensatz entfernen (Winsorizing und Trimming)
Das Entfernen von Ausreißern kann als problematisch angesehen werden und der Vorwurf kann entstehen, dass Ausreißer nur entfernt wurden, um die Daten zu schönen. Deshalb sollten Daten nicht leichtfertig von der Analyse ausgeschlossen werden. Und wie immer gilt: Werden Daten von der Analyse ausgeschlossen, muss dies in der Arbeit begründet werden.

Sollten Daten von der Analyse ausgeschlossen werden, müssen alle Analysen erneut berechnet werden.

Gründe für Ausreißer

Messfehler

Eine Möglichkeit für Ausreißer können schlechte Messinstrumente sein. Beispielsweise eine Waage, die nicht korrekt geeicht ist und deshalb falsche Ergebnisse liefert. Ein weiteres Beispiel sind Instrumente, die nicht den Bereich umfassen, der benötigt wird. Wenn beispielsweise eine 120 kg schwere Person von einer Waage gewogen wird, die nur bis 100 kg messen kann, erhalten wir ein Gewicht von 100 kg, statt den korrekten 120 kg.

Der Nachteil bei Messfehlern, die durch fehlerhafte Instrumente zustande gekommen sind, ist, dass sie im Nachhinein nicht mehr korrigiert werden können.

Dateneingabefehler

Fehler bei der Eingabe von Daten kommen relativ häufig vor, besonders bei größeren Datensätzen. Oft sind solche Eingabefehler schnell erkannt, vor allem, wenn beispielsweise ein Komma vergessen wurde und aus 9,99 dann 999 wird.

Echte Ausreißer

Es existieren aber auch echte Ausreißer. Eine Person kann auf einer Skala einen besonders hohen oder niedrigen Wert annehmen, auch wenn die meisten anderen Personen dies nicht tun. Solche Fälle können legitim von der Analyse ausgeschlossen werden. In der Regel möchten wir den Durchschnitt der Gesellschaft mit unseren Analysen abbilden. Das heißt, wir wollen Aussagen treffen, die für den Großteil aller Menschen zutreffend sind, und das sind in der Regel diejenigen, die nahe am Mittelwert liegen. Auf Basis dieses Arguments können auch legitime Ausreißer von der Datenanalyse ausgeschlossen werden.

Allerdings wäre es genauso legitim, solche Ausreißer in der Analyse zu belassen, es sind immerhin echte und korrekte Messwerte. Die Entscheidung, ob ein solcher echter Ausreißer letztendlich in der Analyse verbleibt oder nicht, ist am Ende die Entscheidung des Wissenschaftlers, der die Analyse durchführt. Manche werden die Analyse sowohl mit als auch ohne Ausreißer durchführen und überprüfen, ob es Unterschiede zwischen den Ergebnissen gibt.

Mit Ausreißern umgehen

Continue as usual

Eine Möglichkeit ist, die Ausreißer einfach im Datensatz zu lassen. Hierbei kommt es natürlich auch darauf an wie viele Ausreißer gefunden wurden und wie extrem ihre Werte sind. (Dies setzt voraus, dass es sich um echte Ausreißer handelt.)

Nicht-parametrische Alternativen

Nicht-parametrische Tests transformieren die Daten meist vor der Analyse. Durch die Transformation wird es unerheblich, ob ein Wert ein Ausreißer ist oder nicht. Eine nicht-parametrische Alternative zu dem ungepaarten t-Test ist der Wilcoxon-Mann-Whitney-Test, auch Mann-Whitney-U-Test, U-Test und Wilcoxon-Rangsummentest genannt. Ein weiterer Vorteil von nicht-parametrischen Verfahren ist, dass andere Voraussetzungen, wie beispielsweise normalverteilte Daten, ebenfalls nicht erfüllt sein müssen.

Aber Vorsicht: Nicht-parametrische Verfahren haben meist eine geringere statistische Power.

Ausschluss von der Analyse

Bei ausreichend hoher Stichprobengröße können Versuchsteilnehmer ohne von der weiteren statistischen Analyse ausgeschlossen werden. Dies ist vor allem in der Psychologie und anderen Wissenschaften, wo einzelne Datensätze Versuchspersonen darstellen, die wahrscheinlich beliebteste Methode mit Ausreißern umzugehen. Oft stellt man hier beim Durchsehen der Daten fest, dass sich extreme Versuchspersonen in einem anderen (beispielsweise demografischen) Merkmal von den übrigen Versuchspersonen unterscheiden. Dies könnten beispielsweise Alter, Persönlichkeitseigenschaften oder andere soziodemografische Variablen sein.

Wenn Datensätze von der Analyse ausgeschlossen wurden, muss dies in der Arbeit berichtet werden. Alle anderen Veränderungen der Daten (z.B. Transformationen) müssen selbstverständlich auch angegeben werden.

Durch andere Werte ersetzen

Oft wird empfehlen, Ausreißer durch den Mittelwert oder einen anderen Lageparameter zu ersetzen. Durch ein Ersetzen eines Wertes mit dem Mittelwert, wird der Mittelwert des gesamten Datensatzes nicht verändert. Dies ist von Vorteil, denn viele statistischen Verfahren verwenden den Mittelwert um den Prüfwert und damit den p-Wert zu berechnen. Zwar mag ein Ersetzen eines Wertes den Gesamtmittelwert nicht verändern, allerdings werden im Prinzip alle anderen Werte – beispielsweise Standardabweichung, Standardfehler, Median – verändert. Deshalb würden wir nicht empfehlen einen Ausreißer durch den Mittelwert zu ersetzen.

Winsorizing und Trimming

Sowohl Winsorizing als auch Trimming sind zwei Methoden, um systematisch mit Ausreißern umzugehen.

Der erste Schritt bei beiden Verfahren ist das Identifizieren der Ausreißer. Hier gibt es keine festen Regeln, meist werden aber Perzentile verwendet. Einige verwenden das 90. Perzentil, andere das 95. Perzentil. Man kann aber auch den Mittelwert ± 3 Standardabweichungen verwenden. Bei der Wahl des Cut-Offs hat man also die Qual der Wahl. Hat man sich für einen Cut-Off Wert entschieden, kann man mit Winsorizing bzw. Trimming fortfahren.

Beim Winsorizing werden Ausreißer durch weniger starke Ausreißer ersetzt. Hätten wir beispielsweise unseren Cut-Off Wert 90. Perzentil festgelegt, dann würden wir alle Werte über dem 90. Perzentil mit dem Wert des 90. Perzentils ersetzen.

Trimming funktioniert ähnlich wie Winsorizing, nur dass die Ausreißer nicht ersetzt werden, sondern entfernt. In unserem Beispiel würden wir dann alle Werte über dem 90. Perzentil entfernen bzw. von der weiteren statistischen Analyse ausschließen.