Pearson Produkt-Moment-Korrelation: Ausreißer
Ausreißer sind eine weitere mögliche Quelle für Verzerrungen der Produkt-Moment-Korrelation. Die Pearson Produkt-Moment-Korrelation ist nicht robust gegenüber Ausreißern. Ein einziger Ausreißer kann der Grund für einen besonders hohen oder niedrigen Korrelationskoeffizienten sein.
Ausreißer für die Pearson Produkt-Moment-Korrelation mit SPSS überprüfen
Um unsere Daten auf mögliche Ausreißer hin zu überprüfen, erstellen wir zwei Box-Plots, einen für jede Variable, die wir korrelieren wollen.
- Das Dialogfenster für die Box-Plots findet sich in Grafik > Alte Dialogfelder > Boxplot…
Es gibt zwar auch die Möglichkeit die Boxplots über die neuen Dialogfelder zu erstellen, allerdings geht es mit den alten Feldern schneller
- Es öffnet sich noch dieses Dialogfenster. Hier wählen wir Einfach und
- Mit einem Klick auf geht es weiter.
- Jetzt sind wir im eigentlichen Dialogfenster. Hier können wir SPSS sagen, welche Variablen wir gerne auf Ausreißer untersuchen lassen wollen. Diese Variablen sind unsere Abhängige Variablen. Wir tragen sie in das entsprechende Feld ein, indem wir sie selektieren und auf drücken. Alternativ können wir sie auch per Drag-and-Drop in das Feld ziehen.
Falls wir mehr Variablen korrelieren wollten, würden wir alle beiAbhängige Variablen eintragen.
Falls wir noch eine Variable haben, die unseren Fällen einen besseren Namen gibt als die fortlaufende Nummerierung von SPSS, können wir diese bei Fallbeschriftung eintragen. Da jeder Fall einer geografischen Region entspricht, ist region unsere Fallbeschriftung.
Die Fallbeschriftung ist allerdings optional und dient lediglich der einfacheren Zuordnung bei der späteren Auswertung. - Für unseren Beispieldatensatz würde das ausgefüllte Dialogfenster so aussehen:
- Mit einem Klick auf erstellen wir die beiden Box-Plots.
Jeder Datenpunkt, der mehr als das 1,5-Fache des Interquartilsabstands ist, wird durch einen Kreis, zusammen mit der Fallnummer auf dem Boxplot markiert. Diese Kreise gelten als leichte Ausreißer. Werte, die mehr als 3-Fache des Interquartilsabstands sind, werden mit einem Sternchen (∗) gesondert markiert, wie im Beispiel unterhalb. Solche Ausreißer gelten als extreme Ausreißer. Unser Datensatz enthält keine Ausreißer. Falls unser Datensatz Ausreißer enthalten würde, könnte die Ausgabe so aussehen:
Dieser Datensatz enthält insgesamt drei leichte Ausreißer (Fallnummern 30, 74 und 90).
Was tun mit Ausreißern?
Wenn unsere Daten Ausreißer enthalten, haben wir einige Möglichkeiten, wie wir weiter machen.- Ausreißer in dem Datensatz lassen
- Einen nicht-parametrischen Test stattdessen berechnen, z.B. Spearmans Korrelation oder Kendall’s Tau
- Die Versuchsperson von der weiteren Analyse ausschließen
- Der Wert durch einen anderen, weniger extremen Wert ersetzen
- Systematisch die höchsten und niedrigsten Werte aus dem Datensatz entfernen (Winsorizing und Trimming)