Pearson Produkt-Moment Korrelation: Mit Ausreißern umgehen
Wenn wir bei der Berechnung der Pearson Produkt-Moment Korrelation feststellen, dass einige Datenpunkte extrem weit vom Mittel entfernt sind (Ausreißer), gibt es es einige Möglichkeiten:
- Ausreißer in dem Datensatz lassen
- Ein nicht-parametrischen Verfahren stattdessen berechnen
- Die Versuchsperson von der weiteren Analyse ausschließen
- Systematisch die höchsten und niedrigsten Werte aus dem Datensatz entfernen (Winsorizing und Trimming)
Gründe für Ausreißer
Messfehler
Eine Möglichkeit für Ausreißer können schlechte Messinstrumente sein. Beispielsweise eine Waage, die nicht korrekt geeicht ist und deshalb falsche Ergebnisse liefert. Ein weiteres Beispiel sind Instrumente, die nicht den Bereich umfassen, der benötigt wird. Wenn beispielsweise eine 120 kg schwere Person von einer Waage gewogen wird, die nur bis 100 kg messen kann, erhalten wir ein Gewicht von 100 kg, statt den korrekten 120 kg.
Der Nachteil bei Messfehlern, die durch fehlerhafte Instrumente zustande gekommen sind, ist, dass sie im Nachhinein nicht mehr korrigiert werden können.
Dateneingabefehler
Fehler bei der Eingabe von Daten kommen relativ häufig vor, besonders bei größeren Datensätzen. Oft sind solche Eingabefehler schnell erkannt, vor allem, wenn beispielsweise ein Komma vergessen wurde und aus 9,99 dann 999 wird.
Echte Ausreißer
Es existieren aber auch echte Ausreißer. Eine Person kann auf einer Skala einen besonders hohen oder niedrigen Wert annehmen, auch wenn die meisten anderen Personen dies nicht tun. Solche Fälle können aber auch legitim von der Analyse ausgeschlossen werden. In der Regel möchten wir den Durchschnitt der Gesellschaft mit unseren Analysen abbilden. Das heißt, wir wollen Aussagen treffen, die für den Großteil aller Menschen zutreffend sind und das sind in der Regel diejenigen, die nahe am Mittelwert liegen. Auf Basis dieses Arguments können auch legitime Ausreißer von der Datenanalyse ausgeschlossen werden.
Allerdings wäre es genauso legitim, solche Ausreißer in der Analyse zu belassen, es sind immerhin echte und korrekte Messwerte. Die Entscheidung, ob eine solcher echter Ausreißer letztendlich in der Analyse verbleibt oder nicht ist am Ende die Entscheidung des Wissenschaftlers, der die Analyse durchführt. Manche werden die Analyse mit und ohne Ausreißer durchführen und überprüfen, ob es Unterschiede zwischen den Ergebnissen gibt.
Mit Ausreißern umgehen
Continue as usual
Eine Möglichkeit ist, die Ausreißer einfach im Datensatz zu lassen. Hierbei kommt es natürlich auch darauf an, wie viele Ausreißer gefunden wurden und wie extrem ihre Werte sind. (Dies setzt auch voraus, dass es sich um echte Ausreißer handelt.)
Nicht-parametrische Alternativen
Nicht-parametrische Tests transformieren die Daten meist vor der Analyse. Durch die Transformation wird es egal, ob ein Wert ein Ausreißer ist oder nicht. Eine nicht-parametrische Alternative zu der Pearson Produkt-Moment Korrelation sind Spearmans Rho und Kendalls Tau.
Ausschluss von der Analyse
Bei ausreichend hoher Stichprobengröße können Versuchsteilnehmer von der weiteren statistischen Analyse ausgeschlossen werden. Dies ist vor allem in der Psychologie und anderen Wissenschaften, wo einzelne Datensätze Versuchspersonen darstellen, die wahrscheinlich beliebteste Methode, mit Ausreißern umzugehen. Oft stellt man hier beim Durchsehen der Daten fest, dass extreme Versuchspersonen in einem andern (beispielsweise demografischen) Merkmal sich auch von den übrigen Versuchspersonen unterscheiden. Dies könnten beispielsweise Alter, Persönlichkeitseigenschaften oder andere sozio-demografische Variablen sein.
Winsorizing und Trimming
Sowohl Winsorizing als auch Trimming sind zwei Methoden, um systematisch mit Ausreißern umzugehen.
Der erste Schritt beiden Verfahren ist das Identifizieren der Ausreißer. Hier gibt es keine festen Regeln, meist werden aber Perzentile verwendet. Einige verwenden das 90. Perzentil, andere das 95. Perzentil. Man kann aber auch den Mittelwert ± 3 Standardabweichungen verwenden. Bei der Wahl des Cut-Offs hat man also die Qual der Wahl. Hat man sich für einen Cut-Off Wert entschieden, kann man mit Winsorizing bzw. Trimming fortfahren.
Beim Winsorizing werden Ausreißer durch weniger starke Ausreißer ersetzt. Hätten wir beispielsweise unseren Cut-Off Wert 90. Perzentil festgelegt, dann würden wir alle Werte über dem 90. Perzentil mit dem Wert des 90. Perzentils ersetzen.
Trimming funktioniert ähnlich wie Winsorizing, nur das die Ausreißer nicht ersetzt werden, sondern entfernt. In unserem Beispiel würden wir dann alle Werte über dem 90. Perzentil entfernen bzw. von der weiteren statistischen Analyse ausschließen.