Prüfung auf Normalverteilung

Normalverteilung in SPSS Prüfen: Interpretation der Ausgabe

Da die Funktion Explorative Datenanalyse nicht alleine für die Prüfung auf Normalverteilung verwendet wird, erhalten wir in der Ausgabe etliche Grafiken und Tabellen mit zusätzlichen Statistiken.

Shapiro-Wilk- & Kolmogorov-Smirnov-Test

In der Tabelle der Tests auf Normalverteilung finden sich die beiden Tests, die von SPSS speziell für die Prüfung der Normalverteilungseigenschaft berechnet werden. Neben dem Kolmogorov-Smirnov-Test berechnet SPSS ebenfalls den Shapiro-Wilk-Test, der in der Regel eine höhere statistische Power hat und vorzuziehen ist.

Unterhalb sehen wir die Ausgabe der Tests auf Normalverteilung für unseren Beispieldatensatz.

spss_normalverteilungstest_ausgabe_tests

Da wir Geschlecht als Faktor angegeben hatten, erhalten wir eine getrennte Ausgabe für die beiden Faktorstufen unseres Faktors, Männer und Frauen. SPSS berechnet für uns sowohl den Kolmogorov-Smirnov-Test als auch den Shapiro-Wilk-Test. Die Spalte Signifikanz ist für uns interessant. Ist der Wert hier kleiner als .05, gehen wir davon aus, dass die Daten nicht normalverteilt sind. Wenn die Annahme der Normalverteilung nicht verletzt wurde, wird die Spalte Signifikanz hingegen einen Wert von p > .05 haben.

spss_normalverteilungstest_interpretation_tests

Der Shapiro-Wilk-Test und der Kolmogorov-Smirnov-Test sind ähnlich wie andere Hypothesentests, mit dem Unterschied, dass ihre Nullhypothese ist, dass die Daten normalverteilt sind. Ein Wert von p > .05 bedeutet, dass wir die Nullhypothese ablehnen – in diesem Fall, dass die Daten nicht normalverteilt sind. In unserem Beispiel sind die Werte von dem Kolmogorov-Smirnov-Test jeweils .200; die Werte des Shapiro-Wilk-Test .322 und .303. Damit ist die abhängige Variable intervallskalierte VariableKoerpergroesse für die beiden Gruppen der unabhängigen Variable nominalskalierte VariableGeschlecht (männlich und weiblich) normalverteilt.

Wir könnten dieses Ergebnis wie folgt berichten:

Deutsch
Körpergröße war gemäß dem Shapiro-Wilk-Test normalverteilt, p > .05.
English
Body height was approximately normally distributed, as assessed by the Shapiro-Wilk-Test, p > .05.

Wäre hingegen eine der beiden Gruppe nicht normalverteilt, könnten wir schreiben:

Deutsch
Körpergröße war gemäß dem Shapiro-Wilk-Test für Männer normalverteilt, für Frauen hingegen nicht, p < .05.
English
Body height was approximately normally distributed for men, but not for women, as assessed by the Shapiro-Wilk-Test, p < .05.

Histogramme

Mit Histogrammen können für die Verteilung der Daten grafisch dargestellt werden. Generell ist es für jeden Datensatz empfehlenswert sich die Daten grafisch zu veranschaulichen. Mit dem Histogramm können wir uns einen Eindruck von dem „Aussehen“ der Daten machen. Bei normalverteilten Daten hat das Histogramm ein klassisch glockenförmiges Aussehen, wie im Beispiel unterhalb:

spss_normalverteilungstest_histogramm_maennlichspss_normalverteilungstest_histogramm_weiblich

Zur Veranschaulichung, haben wir noch einmal die ideale Normalverteilungskurve über die Daten gelegt. In beiden Fällen sind die Daten zwar nicht perfekt normalverteilt, allerdings recht nahe. Die Abweichungen zur Idealkurve sind gering (was sowohl durch den Shapiro-Wilk- als auch durch den Kolmogorov-Smirnov-Test bestärkt wird).

Histogramme sind nicht die beste Möglichkeit, Daten auf ihre Verteilungseigenschaften hin zu überprüfen. Das Problem mit Histogrammen ist, dass das Aussehen der Daten größtenteils durch die Breite der Klassen bestimmt wird. Dies ist vor allem bei kleineren Stichproben der Fall. Daher ist es nicht empfehlenswert – vor allem bei kleineren Stichproben – sich alleinig auf Histogramme für die Bestimmung der Normalverteilungseigenschaft zu verlassen.

Deutsch
Geschlecht war nach visueller Inspektion der Histogramme für beide Gruppen etwa normalverteilt.
English
Sex was approximately normally distributed, as assessed by visual inspection of the histogram.

Q-Q-Plot

Q-Q-Plots sind eine weitere Möglichkeit die Daten grafisch auf Normalverteilung hin zu überprüfen – und wahrscheinlich die Beste. spss_normalverteilungstest_qq-plot_maennlich spss_normalverteilungstest_qq-plot_weiblich

Es gibt viele Möglichkeiten, weshalb der Q-Q-Plot nicht linear ist. Chambers (1983) und Fowlkes (1987) haben einige diese Möglichkeiten diskutiert, welche in der Tabelle unten zusammengefasst sind.

Aussehen des Q-Q-Plots Mögliche Interpretation
Alle Punkte befinden sich auf der Geraden Die Daten sind (quasi) normalverteilt
Bis auf wenige Ausnahmen befinden sich alle Punkte auf der Geraden Daten mit Ausreißern
Treppenartiges Muster (Ebenen und Lücken) Daten wurden gerundet oder sind diskret

Literaturverzeichnis

  1. Chambers, J. M. (1983). Graphical methods for data analysis. Belmont, CA: Wadsworth International Group.
  2. Fowlkes, E. B. (1987). A folio of distributions: A collection of theorical quantite-quantite plots. New York: M. Dekker.