Produkt-Moment-Korrelation

Pearson Produkt-Moment Korrelation: Normalverteilung überprüfen

Die Voraussetzung der Normalverteilung ist die unwichtigste Voraussetzung und dies gilt besonders für die Pearson Produkt-Moment Korrelation. Diese Voraussetzung ist nur relevant, wenn später die Signifikanz überprüft werden soll und kann auch vernachlässigt werden, wenn die Stichprobe N > 30 ist.

  1. Die Tests auf Normalverteilung können wir unter Analysieren > Deskriptive Statistiken > Explorative Datenanalyse… aufrufen

    Korrelation: Normalverteilung mit Explorativer Datenanalyse überprüfen


  2. Es öffnet sich dieses Dialogfenster.

    Korrelation: Explorative Datenanalyse


  3. Jetzt können wir SPSS sagen, welche Variablen wir gerne auf Normalverteilung untersuchen lassen wollen. Diese Variablen sind unsere Abhängige Variablen. Wir tragen sie in das entsprechende Feld ein indem wir sie selektieren und auf drücken. Alternativ können wir sie auch per Drag-and-Drop in das Feld ziehen.

    Falls wir mehr Variablen korrelieren wollten, würden wir alle beiAbhängige Variablen eintragen.

    Falls wir noch eine Variable haben, die unseren Fällen einen besseren Namen gibt als die fortlaufende Nummerierung von SPSS, können wir diese bei Fallbeschriftung eintragen. Da jeder Fall einer geografischen Region entspricht, ist nominalskalierte Variableregion unsere Fallbeschriftung.

    Die Fallbeschriftung ist allerdings optional und dient lediglich der einfacheren Zuordnung bei der späteren Auswertung.

    Korrelation: Explorative Datenanalyse (ausgefüllt)


  4. Wir müssen noch ein einige weitere Einstellungen vornehmen. Dazu klicken wir auf Diagramme

  5. Korrelation: Explorative Datenanalyse (Diagramme)

  6. Das KontrollkästchenStamm-Blatt benötigen wir nicht. Ein ausgewähltes KontrollkästchenHistogramm mit Tests zeigt uns noch einmal grafisch die Verteilung unserer Daten. Wir benötigen es allerdings nicht zwangsläufig für die Beurteilung der Normalverteilung. Die wichtigste Auswahl ist ausgewähltes KontrollkästchenNormalverteilungsdiagramm mit Tests. Erst wenn wir das Normalverteilungsdiagramm mit Tests anfordern, bekommen wir die für uns wichtigen Tests.

    Korrelation: Explorative Datenanalyse (Diagramme, ausgefüllt)


  7. Weiter geht es mit Weiter (;-)) und dann mit OK

  8. In der Ausgabe finden sich die Tests auf Normalverteilung. SPSS berechnet zwei verschiedene Tests: Einmal den Kolmogorov-Smirnov Test und einmal den Shapiro-Wilk Test. Wir empfehlen den Shapiro-Wilk Test. Die Spalte Signifikanz ist für uns interessant (letzte Spalte in der Tabelle). Ist der Wert hier kleiner als .05, gehen wir davon aus, dass die Daten nicht normalverteilt sind. Wenn die Annahme der Normalverteilung nicht verletzt wurde, wird die Spalte Signifikanz einen Wert von p > .05 haben.

    Korrelation: Ausgabe der Normalverteilungstests


  9. Die Variable intervallskalierte Variablefruchtbar ist normalverteilt, da .399 > .05. intervallskalierte Variableverhuet hingegen ist normalverteilt, da .003 < .05. Da wir allerdings 50 Fälle haben, ist das nicht weiter problematisch. Wir können bei N > 30 von der Normalverteilung der Stichprobenverteilung ausgehen und getrost weiter machen und die Signifikanzen interpretieren. Falls wir N < 30 haben, könnten wir schreiben:

    Deutsch
    Die Fruchtbarkeitsrate war gemäß dem Shapiro-Wilk-Test normalverteilt, der Prozentsatz verhütender Frauen hingegen nicht (p < .05).
    English
    According to the Shapiro-Wilk test, fertility rate was normally distributed, the percentage of women using contraception was not (p < .05).

    Auch wenn SPSS in der Spalte Signifikanz einen Wert von .000 angibt, ist dies nur ein gerundeter Wert (Signifikanzen können weder die Werte 0 oder 1 annehmen, sondern liegen immer dazwischen.) Bei einem Wert von .000 würden wir dies als p < .001 schreiben. Das APA-Handbuch empfiehlt ansonsten die Angabe genauer p-Werte (gerundet auf drei Nachkommastellen).

Normalverteilung verletzt, was tun?!

Für die Berechnung der Pearson Produkt-Moment-Korrelation müssen die Variablen nicht normalverteilt sein, nur für die Überprüfung der Signifikanz. Wenn also nur die Korrelation berechnet werden soll, ist es egal, ob die Variablen normalverteilt sind oder nicht. Und auch bei mangelnder Normalverteilung gilt der t-Test (der für die Überprüfung der Signifikanz verwendet wird) als relativ robust. Wenn unsere Stichprobe größer als 30 ist, müssen wir ebenfalls nichts tun. Ansonsten haben wir drei Möglichkeiten:

  1. Eine Transformation anwenden
  2. Ein non-parametrisches Verfahren wie Spearmans Rho oder Kendalls Tau verwenden
  3. Mit den Daten fortfahren, ohne Maßnahmen anzuwenden