Mixed ANOVA

Mixed ANOVA: Mit Ausreißern umgehen

Wenn wir bei der Berechnung der mixed ANOVA feststellen, dass einige Datenpunkte extrem weit vom Mittel entfernt sind (Ausreißer), gibt es es einige Möglichkeiten, dieses Problem zu beheben:

  1. Ausreißer in dem Datensatz lassen
  2. Die Versuchsperson von der weiteren Analyse ausschließen
  3. Systematisch die höchsten und niedrigsten Werte aus dem Datensatz entfernen (Winsorizing und Trimming)

Gründe für Ausreißer

Messfehler

Ein Möglichkeit für Ausreißer können schlechte Messinstrumente sein. Beispielsweise eine Waage, die nicht korrekt geeicht ist und deshalb falsche Ergebnisse liefert. Ein weiteres Beispiel sind Instrumente, die nicht den Bereich umfassen, der benötigt wird. Wenn beispielsweise eine 120 kg schwere Person von einer Waage gewogen wird, die nur bis 100 kg messen kann, erhalten wir ein Gewicht von 100 kg, statt den korrekten 120 kg.

Der Nachteil bei Messfehlern, die durch fehlerhafte Instrumente zustande gekommen sind, ist, dass sie im Nachhinein nicht mehr korrigiert werden können.

Dateneingabefehler

Fehler bei der Eingabe von Daten kommen relativ häufig vor, besonders bei größeren Datensätzen. Oft sind solche Eingabefehler schnell erkannt, vor allem wenn beispielsweise ein Komma vergessen wurde und aus 9,99 dann 999 wird.

Echte Ausreißer

Es existieren aber auch echte Ausreißer. Eine Person kann auf einer Skala einen besonders hohen oder niedrigen Wert annehmen, selbst wenn die meisten anderen Personen dies nicht tun. Solche Fälle können legitim von der Analyse ausgeschlossen werden. In der Regel möchten wir den Durchschnitt der Gesellschaft mit unseren Analysen abbilden. Das heißt, wir wollen Aussagen treffen, die für den Großteil aller Menschen zutreffend sind und das sind in der Regel diejenigen, die nahe am Mittelwert liegen. Auf Basis dieses Arguments können auch legitime Ausreißer von der Datenanalyse ausgeschlossen werden.

Allerdings wäre es genauso legitim, solche Ausreißer in der Analyse zu belassen, es sind immerhin echte und korrekte Messwerte. Die Entscheidung, ob eine solcher echter Ausreißer letztendlich in der Analyse verbleibt oder nicht ist am Ende die Entscheidung des Wissenschaftlers, der die Analyse durchführt. Manche werden die Analyse mit und ohne Ausreißer durchführen und überprüfen, ob es Unterschiede zwischen den Ergebnissen gibt.

Mit Ausreißern umgehen

Continue as usual

Eine Möglichkeit ist, die Ausreißer einfach im Datensatz zu lassen. Hierbei kommt es natürlich auch darauf an wie viele Ausreißer gefunden wurden und wie extrem ihre Werte sind. (Dies setzt auch voraus, dass es sich um echte Ausreißer handelt.)

Ausschluss von der Analyse

Bei einer ausreichend hohen Stichprobengröße können Versuchsteilnehmer von der weiteren statistischen Analyse ausgeschlossen werden. Dies ist vor allem in der Psychologie und anderen Wissenschaften, wo einzelne Datensätze Versuchspersonen darstellen, die wahrscheinlich beliebteste Methode mit Ausreißern umzugehen. Oft stellt man hier beim Durchsehen der Daten fest, dass extreme Versuchspersonen in einem andern (beispielsweise demografischen) Merkmal sich auch von den übrigen Versuchspersonen unterscheiden. Dies könnten beispielsweise Alter, Persönlichkeitseigenschaften oder andere sozio-demografische Variablen sein.

Wenn Datensätze von der Analyse ausgeschlossen wurden, muss dies in der Arbeit berichtet werden. Alle anderen Veränderungen der Daten (z.B. Transformationen) müssen selbstverständlich auch angegeben werden.

Winsorizing und Trimming

Sowohl Winsorizing als auch Trimming sind zwei Methoden, um systematisch mit Ausreißern umzugehen.

Der erste Schritt beiden Verfahren ist das Identifizieren der Ausreißer. Hier gibt es keine festen Regeln, meist werden aber Perzentile verwendet. Einige verwenden das 90. Perzentil, andere das 95. Perzentil. Man kann aber auch den Mittelwert ± 3 Standardabweichungen verwenden. Bei der Wahl des Cut-Offs hat man also die Qual der Wahl. Hat man sich für einen Cut-Off Wert entschieden, kann man mit Winsorizing bzw. Trimming fortfahren.

Beim Winsorizing werden Ausreißer durch weniger starke Ausreißer ersetzt. Hätten wir beispielsweise unseren Cut-Off Wert 90. Perzentil festgelegt, dann würden wir alle Werte über dem 90. Perzentil mit dem Wert des 90. Perzentils ersetzen.

Trimming funktioniert ähnlich wie Winsorizing, nur das die Ausreißer nicht ersetzt werden, sondern entfernt. In unserem Beispiel würden wir dann alle Werte über dem 90. Perzentil entfernen bzw. von der weiteren statistischen Analyse ausschließen.