Produkt-Moment-Korrelation

Pearson Produkt-Moment-Korrelation: Voraussetzungen

Die Pearson Produkt-Moment-Korrelation zählt zu den parametrischen Verfahren. Das heißt, dass gewisse Voraussetzungen erfüllt sein müssen, damit die Ergebnisse korrekt sind und wir sie interpretieren können.

  • Skalenniveau. Der Korrelationskoeffizient liefert zuverlässige Ergebnisse, wenn die Variablen mindestens intervallskaliert sind oder für dichotome Daten (da dichotome Daten definitionsgemäß metrisch skaliert sind).
  • Linearität. Der Zusammenhang zwischen beiden Variablen muss linear sein. Ist der Zusammenhang nicht linear, wird die Pearson Produkt-Moment-Korrelation die Stärke des Zusammenhangs unterschätzen.
  • Es befinden sich keine Ausreißer in den Gruppen. Die meisten parametrischen Statistiken sind nur wenig robust gegenüber Ausreißern, also Werte die sich weit entfernt von der Masse der anderen Werten befinden. Ein einziger Ausreißer kann bereits ein sonst signifikantes Ergebnis nicht signifikant werden lassen. Daher ist es besonders wichtig, die Daten auf Ausreißer zu überprüfen.
  • Endliche Varianz und Kovarianz. Ist die Varianz einer oder beider Variablen endlich, wird die Produkt-Moment Korrelation keine zuverlässigen Ergebnisse liefern. Das gleiche gilt für die Kovarianz.

SPSS überprüft auch automatisch, ob sich die Korrelationen signifikant von Null unterscheiden. Für die Interpretation der Signifikanz müssen beide Variablen zusätzlich bivariat normalverteilt sein.

Endliche Varianz und Kovarianz

Die Formel zur Berechnung von r basiert auf der Varianz und Kovarianz beider Zufallsvariablen. Endliche (Ko-)Varianz bedeutet, dass, wenn wir eine Stichprobe von beispielsweise N=100 haben, sich die Varianz bei einem ähnlichen Wert stabilisieren würde, wie bei einem höher Wert von N. Wäre die Varianz nicht endlich, würde sie sich für größere N immer weiter erhöhen.

Sind beide Variablen bivariat normalverteilt (wie die Variablen in der Abbildung rechts), ist endliche Varianz automatisch gegeben. In diesem Fall ist der Korrelationskoeffizient der Stichprobe auch gleichzeitig der Maximum-Likelihood Schätzer des Korrelationskoeffizienten der Grundgesamtheit. Er ist damit asymptotisch erwartungstreu und effizient. Das bedeutet vereinfacht ausgedrückt, dass es dadurch unmöglich ist, eine genauere Schätzung der Korrelation zu machen als durch den Korrelationskoeffizienten. Für nicht-normalverteilte Stichproben bleibt der Korrelationskoeffizient annähernd erwartungstreu, aber eventuell nicht mehr effizient. Daher bleibt der Korrelationskoeffizient der Stichprobe ein beständiger Schätzer des Korrelationskoeffizienten der Grundgesamtheit, solange die Varianz und Kovarianz endlich sind (was durch das Gesetz der großen Zahlen gewährleistet wird).

Deshalb liest man in einigen Büchern oft, dass eine der Voraussetzungen des Korrelationskoeffizienten die bivariate Normalverteilung der Variablen sei. Dies ist nicht der Fall. Normalverteilte Variablen sind allerdings wichtig, wenn die Signifikanz mittels des t-Tests überprüft werden soll. Hier gelten dann ähnliche Voraussetzungen wie für den t-Test als Hypothesentest.

Bei nicht gegebener endlicher Varianz sollte auf ein nicht-parametrisches Verfahren zurückgegriffen werden, wie beispielsweise Spearman’s Rho oder Kendall’s Tau.

Endliche Varianz und Kovarianz ist zwar eine wichtige Voraussetzung, dies kann aber nicht mit SPSS überprüft werden. Wir werden dafür im Verlauf dieser Anleitung endliche Varianz und Kovarianz annehmen.

Linearität

Korrelation ist ein Maß für lineare Abhängigkeit. Kann eine Variable nicht als lineare Funktion der anderen geschrieben werden, so kann keine perfekte Korrelation von -1 oder +1 erreicht werden. Zwar existieren Möglichkeiten, die Verteilungseigenschaften der Variablen durch Transformationen zu verändern, nur sollte man vorsichtig sein und diese Transformationen mit Bedacht anwenden. Eine zu rigorose Verwendung könnte zwar die Korrelation verbessern, allerdings zu Lasten der tatsächlichen Anwendbarkeit und Interpretierbarkeit der Befunde. Bei mangelnder Linearität sollten nicht-parametrisches Verfahren erwägt werden, wie beispielsweise Spearman’s Rho oder Kendall’s Tau.

Die Annahme der Linearität ist am einfachsten visuell, mit einem Streudiagramm, zu überprüfen, wie wir noch im Verlauf dieser Anleitung sehen werden.

Normalverteilung

Zwar müssen die beiden korrelierten Variablen selbst nicht bivariat normalverteilt sein, um Pearson’s r berechnen zu können, will man allerdings später die Signifikanz überprüfen, müssen weitere Voraussetzungen erfüllt sein. Diese Voraussetzung entsprechen denen des t-Tests, da eine entsprechende t-Statistik verwendet wird, um die Signifikanz zu überprüfen.

Leider hat SPSS keine Verfahren zur Überprüfung der bivariaten Normalverteilung. Wir werden uns daher mit einer einfacheren (wenn auch nicht immer akkuraten) Methode behelfen müssen.