Wilcoxon-Vorzeichen-Rang-Test

Wilcoxon-Vorzeichen-Rang-Test: Effektstärke berechnen

Effektstärken sind das wichtigste Ergebnis empirischer Studien (Lakens, 2013) und deren Angabe in wissenschaftlichen Publikationen wird von der APA empfohlen (American Psychological Association, 2013). Für den Wilcoxon-Vorzeichen-Rang-Test berechnen wir nicht Cohen’s d (Cohen, 1988), wie wir es bei einem gepaarten t-Test tun würden, sondern den Korrelationskoeffzienten, r, bzw. den Determinationskoeffizienten, R². Leider berechnet SPSS dieser Effektstärkenmaße nicht automatisch (dafür ist die Berechnung aber sehr einfach ;-)).

Für alle Berechnungen benötigen wir die Z-Statistik und und die gesamte Stichprobengröße, N – beides Werte, die wir in der Tabelle Zusammenfassung des Wilcoxon-Tests bei verbundenen Stichproben finden.

Wichtig ist, dass wir nicht beide Maße angeben, sondern uns auf eines festlegen. Für die meisten Fälle würden wir den Pearson Korrelationskoeffzienten, r, empfehlen. Der andere Koeffizient ist dann besonders interessant, wenn Effekte zwischen verschiedenen Studien verglichen werden sollen und diese Koeffizienten von den anderen Autoren verwendet wurden.

Berechnung der Effektstärke

Die Effektstärken berechnen sich aus folgenden beiden Formeln (Fritz, Morris, & Richler, 2012):

Pearson Korrelationskoeffizient

\[\large{r = \left | \dfrac{z}{\sqrt{N}}\right |}\]

Determinationskoeffizient

\[\large{R^2 = \eta^2 = \dfrac{z^2}{N}}\]
Maße der Effektstärke sollten unabhängig von der Stichprobengröße sein. Trotz der Berechnung mit der Stichprobengröße N ist dies auch für alle Formeln hier der Fall. Dies liegt daran, dass die Z-Statistik abhängig von der Stichprobengröße ist; dadurch dass wir durch N teilen, entfernen wir diese Abhängigkeit.

Für die Berechnung benötigen wir aus der Tabelle Zusammenfassung des Wilcoxon-Tests bei verbundenen Stichproben die Werte der Gesamtzahl (N) und die Standardisierte Teststatistik (z).

Zusammenfassung des Wilcoxon-Tests bei verbundenen Stichproben
Gesamtzahl 100
Teststatistik 53,000
Standardfehler 281,309
Standardisierte Teststatistik -8,434
Asymptotische Sig. (zweiseitiger Test) ,000

Pearson Korrelationskoeffizient

Der Pearson Korrelationskoeffizient berechnet sich für unseren Beispieldatensatz so:

\[\large{r = \dfrac{z}{\sqrt{N}} = \left | \dfrac{-8.434}{\sqrt{100}}\right| \approx 0.8434}\]

 

Interpretation von r nach Cohen (1988)
geringe / schwache Korrelation | r | = 0,1
mittlere / moderate Korrelation | r | = 0,3
große / starke Korrelation | r | = 0,5

Determinationskoeffizient

Der Determinationskoeffizient berechnet sich für unseren Beispieldatensatz so:

\[\large{R^2 = \eta^2 = \dfrac{z^2}{N} = \dfrac{(-8.434)^2}{100} \approx 0.71132}\]

 

Interpretation von und η² nach Cohen (1988)
geringer / schwacher Effekt R², η² = 0,02
mittlerer / moderater Effekt R², η² = 0,13
großer / starker Effekt R², η² = 0,26

Berichten der Effektstärke

Deutsch
Ein Wilcoxon-Vorzeichen-Rang-Test wurde berechnet, um die Auswirkungen von süßen Katzenvideos auf Depressionswerte, gemessen mit dem BDI, zu überprüfen. Die Verteilung der Differenzen war gemäß visueller Inspektion des Histogramms symmetrisch. Es zeigte sich ein statistisch signifikanten Verringerung der BDI-Werte (Mdn = -5.00) vor Betrachtung der Katzenvideos (Mdn = 48.00), im Vergleich zu nach Betrachtung der Katzenvideos (Mdn = 43.00), z = -8.43, p < .001, r = .84.
English
A Wilcoxon signed-rank test was calculated to examine the effects of cute cat videos on depression scores measured by the BDI. The distribution of differences was symmetrical following visual inspection of the histogram. There was a statistically significant decrease in BDI scores (Mdn = -5.00) before viewing the cat videos (Mdn = 48.00), compared to after viewing the cat videos (Mdn = 43.00), z = -8.43, p < .001, r = .84.

Literaturverzeichnis

  1. American Psychological Association. (2013). APA Manual 6th ed (Publication manual of the American Psychological Association) (6th ed.). Washington, DC: American Psychological Association.
  2. Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences. Hoboken: Taylor and Francis.
  3. Fritz, C. O., Morris, P. E., & Richler, J. J. (2012). Effect size estimates: Current use, calculations, and interpretation. Journal of Experimental Psychology: General, 141(1), 2–18. doi:10.1037/a0024338
  4. Lakens, D. (2013). Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs. Frontiers in psychology, 4, 863. doi:10.3389/fpsyg.2013.00863