Produkt-Moment-Korrelation

Pearson Produkt-Moment-Korrelation: Verzerrungen des Korrelationskoeffizienten

Der Korrelationskoeffizient kann erheblich durch die Eigenschaften der Stichprobe beeinflusst werden. Dadurch kann der Korrelationskoeffizient sowohl künstlich erhöht als auch gesenkt werden. Die wesentlichen Punkte, die verzerrend auf den Korrelationskoeffizienten einwirken, sind Ausreißer, eine Einschränkung der Variabilität und das Zusammenfassen heterogener Gruppen.

Ausreißer

Auswirkung von Ausreißern auf die KorrelationAusreißer sind extreme Werte. Es gibt verschiedene komplizierte Methoden und Verfahren um Ausreißer zu erkennen und zu entfernen, allerdings wird oft einfach angenommen, dass Ausreißer solche Werte sind, die – je nach Quelle – mindestens das 1,5- bis 3-Fache des Interquartilsabstands sind. Unabhängig von solchen einfachen Regeln sollte immer das entsprechende Streudiagramm betrachtet werden.

Der Korrelationskoeffizient ist nicht robust gegenüber Ausreißern. Dies bedeutet, dass Ausreißer den Korrelationskoeffizienten sowohl künstlich erhöhen als auch künstlich senken können. In der Abbildung rechts sehen wir eine Punktewolke mit einer relativ geringen Korrelation (dargestellt durch die gestrichelte rote Linie). Durch einen einzigen Ausreißer erhöht sich die Korrelation dramatisch (dargestellt durch die durchgezogene rote Linie).

Einschränkung der Variabilität

Auswrikungen eingeschränkter Variabilität auf die KorrelationEine Einschränkung der Variabilität tritt ein, wenn eine Variable ähnliche Werte aufweist. Dies passiert beispielsweise, wenn die Stichprobe nicht alle bzw. nur einen sehr eingeschränkten Ausschnitt der möglichen Ausprägungen einer Variablen umfasst. Damit repräsentiert die Stichprobe nicht ausreichend die Grundgesamtheit.

Nehmen wir als Beispiel an, dass ein Forscher den Zusammenhang zwischen Abiturnote und Bachelornote untersuchen will. Da der Forscher selbst Psychologe ist, will er sich das Leben einfacher machen und greift auf Archivdaten aus seinem Institut zurück. Seine Stichprobe umfasst damit allerdings nur Psychologiestudenten. Zusätzlich kommt hinzu, dass der Studiengang Psychologie einen NC von durchgehend 1,4 für den Untersuchungszeitraum hatte. Der Forscher will allerdings eine gültige Aussage für die gesamte Bevölkerung treffen.

Dies wird so nicht funktionieren. Die Stichprobe des Forschers ist in zweierlei Hinweis in ihrer Variabilität eingeschränkt: erstens besteht die Stichprobe nur aus Psychologiestudenten; zweitens umfasst die Stichprobe nur Studenten mit einer Abiturnote von 1,4 oder besser. Da die Abiturnote Werte von 1,0 bis 4,0 umfassen kann, allerdings hier nur Werte von 1,0 bis 1,4 annimmt, die Bachelornote allerdings wieder von 1,0 bis 4,0 reichen kann, ist die Variabilität zusätzlich eingeschränkt.

In der Regel führt eine Einschränkung der Variabilität zu einer Senkung der Korrelation.

Zusammenfassung von heterogenen Gruppen

Auswirkungen von heterogenen Gruppen auf die KorrelationOft kann es sein, dass zwei oder mehr Gruppen, die eigentlich getrennt untersucht werden müssen, eine Korrelation eingehen.. Ein klassisches Beispiel hierfür sind Geschlechtsunterschiede. Es kann sein, dass ein Geschlecht beispielsweise besser auf ein Medikament anspricht als das andere. Auch gewisse andere physiologische oder psychologische Eigenschaften unterscheiden sich stark zwischen Geschlechtern. Somit hätte man nach dem Auftragen beider Variablen eine Situation, in der zwei (oder mehr) distinkte Gruppen (sogenannte Kluster) in dem Diagramm zu sehen sind (wie hier im Bild rechts: Eine Gruppe entspricht den Werten der Männer, die andere denen der Frauen). Berechnet man den Korrelationskoeffizienten für beide Geschlechter zusammen, stellt man fest, dass er wesentlich höher ist (rote Linie) als hätte man ihn getrennt berechnet (gestrichelte Linien).

Dieses Problem wird oft auch mittels partieller Korrelation umgangen, bei der mögliche Drittvariablen statistisch konstant gehalten werden. Damit wird in unserem Beispiel der Effekt des Geschlechts herausgerechnet und der Gesamtkorrelationskoeffizient wieder ähnlich der gestichelten Linien.

Die Zusammenfassung heterogener Gruppen kann sowohl zu einer Senkung als auch zu einer Erhöhung des Korrelationskoeffizienten führen.