Produkt-Moment-Korrelation

Pearson Produkt-Moment-Korrelation: Ausreißer

Ausreißer sind eine weitere mögliche Quelle für Verzerrungen der Produkt-Moment-Korrelation. Die Pearson Produkt-Moment-Korrelation ist nicht robust gegenüber Ausreißern. Ein einziger Ausreißer kann der Grund für einen besonders hohen oder niedrigen Korrelationskoeffizienten sein.

Ausreißer für die Pearson Produkt-Moment-Korrelation mit SPSS überprüfen

Um unsere Daten auf mögliche Ausreißer hin zu überprüfen, erstellen wir zwei Box-Plots, einen für jede Variable, die wir korrelieren wollen.

  1. Das Dialogfenster für die Box-Plots findet sich in Grafik > Alte Dialogfelder > Boxplot…

    Es gibt zwar auch die Möglichkeit die Boxplots über die neuen Dialogfelder zu erstellen, allerdings geht es mit den alten Feldern schneller ;-)

    Korrelation: Box-Plot


  2. Es öffnet sich noch dieses Dialogfenster. Hier wählen wir Einfach und ausgewähltes KontrollkästchenAuswertung über verschiedene Variablen

    Korrelation: Box-Plot Auswahl


  3. Mit einem Klick auf Definieren geht es weiter.

  4. Jetzt sind wir im eigentlichen Dialogfenster. Hier können wir SPSS sagen, welche Variablen wir gerne auf Ausreißer untersuchen lassen wollen. Diese Variablen sind unsere Abhängige Variablen. Wir tragen sie in das entsprechende Feld ein, indem wir sie selektieren und auf drücken. Alternativ können wir sie auch per Drag-and-Drop in das Feld ziehen.

    Falls wir mehr Variablen korrelieren wollten, würden wir alle beiAbhängige Variablen eintragen.

    Falls wir noch eine Variable haben, die unseren Fällen einen besseren Namen gibt als die fortlaufende Nummerierung von SPSS, können wir diese bei Fallbeschriftung eintragen. Da jeder Fall einer geografischen Region entspricht, ist nominalskalierte Variableregion unsere Fallbeschriftung.

    Die Fallbeschriftung ist allerdings optional und dient lediglich der einfacheren Zuordnung bei der späteren Auswertung.

    Korrelation: Box-Plot Dialog


  5. Für unseren Beispieldatensatz würde das ausgefüllte Dialogfenster so aussehen:

    Korrelation: Box-Plot Dialog (ausgefüllt)


  6. Mit einem Klick auf OK erstellen wir die beiden Box-Plots.

  7.  

  8. Korrelation: Box-Plots

    Jeder Datenpunkt, der mehr als 1,5 Standardabweichungen vom Mittelwert entfernt ist, wird durch einen Kreis, zusammen mit der Fallnummer auf dem Boxplot markiert. Diese Kreise gelten als leichte Ausreißer. Werte, die mehr als 3 Standardabweichungen vom Mittelwert entfernt sind, werden mit einem Sternchen (∗) gesondert markiert, wie im Beispiel unterhalb. Solche Ausreißer gelten als extreme Ausreißer. Unser Datensatz enthält keine Ausreißer. Falls unser Datensatz Ausreißer enthalten würde, könnte die Ausgabe so aussehen:

    einfaktorielle ANOVA: Ausreißer

    Dieser Datensatz enthält insgesamt drei leichte Ausreißer (Fallnummern 30, 74 und 90).


Was tun mit Ausreißern?

Wenn unsere Daten Ausreißer enthalten, haben wir einige Möglichkeiten, wie wir weiter machen.

  1. Ausreißer in dem Datensatz lassen
  2. Einen nicht-parametrischen Test stattdessen berechnen, z.B. Spearmans Korrelation oder Kendall’s Tau
  3. Die Versuchsperson von der weiteren Analyse ausschließen
  4. Der Wert durch einen anderen, weniger extremen Wert ersetzen
  5. Systematisch die höchsten und niedrigsten Werte aus dem Datensatz entfernen (Winsorizing und Trimming)