Gepaarter t-Test: Mit Ausreißern umgehen
Wenn wir bei der Berechnung des gepaarten t-Tests feststellen, dass einige Datenpunkte extrem weit vom Mittel entfernt sind (Ausreißer), gibt es verschiedene Möglichkeiten, damit umzugehen.
- Ausreißer im Datensatz lassen
- Ein nicht-parametrischen Test stattdessen berechnen
- Die Versuchsperson von der weiteren Analyse ausschließen
- Der Wert durch einen anderen, weniger extremen Wert ersetzen
- Systematisch die höchsten und niedrigsten Werte aus dem Datensatz entfernen (Winsorizing und Trimming)
Gründe für Ausreißer
Messfehler
Ein Grund für Ausreißer können schlechte Messinstrumente sein. Beispielsweise eine Waage, die nicht korrekt geeicht ist und deshalb falsche Ergebnisse liefert. Ein weiteres Beispiel sind Instrumente, die nicht den Bereich umfassen, der benötigt wird. Wenn beispielsweise eine 120 kg schwere Person von einer Waage gewogen wird, die nur bis 100 kg messen kann, erhalten wir ein Gewicht von 100 kg, statt den korrekten 120 kg.
Der Nachteil bei Messfehlern, die durch fehlerhafte Instrumente zustande gekommen sind, ist, dass sie im Nachhinein nicht mehr korrigiert werden können.
Dateneingabefehler
Fehler bei der Eingabe von Daten kommen relativ häufig vor, besonders bei größeren Datensätzen. Oft sind solche Eingabefehler schnell erkannt, vor allem, wenn beispielsweise ein Komma vergessen wurde und aus 9,99 versehentlich 999 wird.
Echte Ausreißer
Es existieren aber auch echte Ausreißer. Eine Person kann auf einer Skala einen besonders hohen oder niedrigen Wert annehmen, auch wenn die meisten anderen Personen dies nicht tun. Solche Fälle können in einigen Fällen legitim von der Analyse ausgeschlossen werden. Allerdings ist hier auch Vorsicht geboten und dies muss anhand die Fragestellung gut und wissenschaftlich nachvollziehbar begründet werden. In der Regel möchten wir den Durchschnitt der Gesellschaft mit unseren Analysen abbilden. Das heißt, wir wollen Aussagen treffen, die für den Großteil aller Menschen zutreffend sind und das sind in der Regel diejenigen, die nahe am Mittelwert liegen.
Allerdings wäre es genauso legitim, solche Ausreißer in der Analyse zu belassen, es sind immerhin echte und korrekte Messwerte. Die Entscheidung, ob ein solcher echter Ausreißer letztendlich in der Analyse verbleibt oder nicht, ist am Ende die Entscheidung des Wissenschaftlers, der die Analyse durchführt. Oft werden Statistiker die Analyse mit und ohne Ausreißer durchführen und überprüfen, ob es Unterschiede zwischen den Ergebnissen gibt.
Mit Ausreißern umgehen
Continue as usual
Eine Möglichkeit ist es, die Ausreißer einfach im Datensatz zu lassen. Hierbei kommt es natürlich auch darauf an, wie viele Ausreißer gefunden wurden und wie extrem ihre Werte sind. (Dies setzt auch voraus, dass es sich nicht um Mess- oder Eingabefehler handelt.)
Nicht-parametrische Alternativen
Nicht-parametrische Tests transformieren die Daten meist vor der Analyse. Durch die Transformation wird es irrelevant, ob ein Wert ein Ausreißer ist oder nicht. Eine nicht-parametrische Alternative zum gepaarten t-Test sind der Wilcoxon-Vorzeichen-Rang-Test und der Vorzeichentest. Ein weiterer Vorteil von nicht-parametrischen Verfahren ist, dass andere Voraussetzungen, wie beispielsweise normalverteile Daten, ebenfalls nicht erfüllt sein müssen.
Aber Vorsicht: nicht-parametrische Verfahren haben meist eine geringere statistische Power und – im Fall sowohl des Wilcoxon-Vorzeichen-Rang-Test, als auch des Vorzeichentests – sind die Null- und Alternativhypothese auch anders als bei dem gepaarten t-Test.
Ausschluss von der Analyse
Bei ausreichend hoher Stichprobengröße können Versuchspersonen von der weiteren statistischen Analyse ausgeschlossen werden. Dies ist vor allem in der Psychologie und anderen Wissenschaften, wo einzelne Datensätze Versuchspersonen darstellen, die wahrscheinlich beliebteste Methode mit Ausreißern umzugehen. Oft stellt man hier beim Durchsehen der Daten fest, dass Versuchspersonen mit extremen Antworten in einem andern (beispielsweise demografischen) Merkmal sich auch von den übrigen Versuchspersonen unterscheiden. Dies könnten beispielsweise Alter, Persönlichkeitseigenschaften oder andere sozio-demografische Variablen sein.
Durch andere Werte ersetzen
Oft wird empfohlen, Ausreißer durch den Mittelwert oder einen anderen Lageparameter zu ersetzen. Durch das Ersetzen eines Wertes durch den Mittelwert wird der Mittelwert des gesamten Datensatzes nicht verändert. Dies ist von Vorteil, da viele statistische Verfahren den Mittelwert verwenden, um den Prüfwert und damit den p-Wert zu berechnen. Zwar mag ein Ersetzen eines Wertes den Gesamtmittelwert nicht verändern, allerdings werden im Prinzip alle anderen Werte – Standardabweichung, Standardfehler, Median, beispielsweise – verändert. Deshalb würden wir nicht empfehlen, einen Ausreißer durch den Mittelwert zu ersetzen.
Winsorizing und Trimming
Sowohl Winsorizing als auch Trimming sind zwei Methoden, um systematisch mit Ausreißern umzugehen.
Der erste Schritt beider Verfahren ist das Identifizieren der Ausreißer. Hier gibt es keine festen Regeln, zumeist werden aber Perzentile verwendet. Einige verwenden das 90. Perzentil, andere das 95. Perzentil. Man kann aber auch den Mittelwert ± 3 Standardabweichungen verwenden. Bei der Wahl des Cut-Offs hat man also die Qual der Wahl. Hat man sich für einen Cut-Off Wert entschieden, kann man mit Winsorizing bzw. Trimming fortfahren.
Beim Winsorizing werden Ausreißer durch weniger starke Ausreißer ersetzt. Hätten wir beispielsweise unseren Cut-Off Wert 90. Perzentil festgelegt, dann würden wir alle Werte über dem 90. Perzentil mit dem Wert des 90. Perzentils ersetzen.
Trimming funktioniert ähnlich wie Winsorizing, nur dass die Ausreißer nicht ersetzt, sondern entfernt werden. In unserem Beispiel würden wir dann alle Werte über dem 90. Perzentil entfernen bzw. von der weiteren statistischen Analyse ausschließen.