Mann-Whitney-U-Test

Mann-Whitney-U-Test: Auswertung und Interpretation

Wie wir bereits mehrmals erwähnt haben, hängt die Interpretation des Mann-Whitney-U-Tests davon ab, ob beide Verteilungen eine ähnliche Verteilungsform haben. Sollte dies der Fall sein, dürfen wir eine Aussage über einen Unterschied in den Medianen machen (diese Voraussetzung haben wir in dem vorigen Schritt überprüft). In diesem Artikel besprechen wir die Interpretation und Verschriftlichung für beide Fälle.

SPSS Ausgabe interpretieren

Die für uns relevante Tabelle in der Ausgabe von SPSS ist Statistik für Test. Hier finden wir die Teststatistiken des Mann-Whitney-U-Tests, aber vor allen auch den zugehörigen p-Wert. Für uns relevant ist die Mann-Whitney-U-Statistik (rot), die Z-Statistik (grün), der exakte p-Wert (blau) und der asymptotische p-Wert (gelb). Vor allem bei sehr großen Stichproben (oder Hardware, die in die Jahre gekommen ist) kann es vorkommen, dass keine exakten Signifikanzen berechnet werden. Diesen Fall besprechen wir weiter unten.

Statistik für Testa
Arbeitszeit pro Jahr (in Wochen)
Mann-Whitney-U 1535995.000
Wilcoxon-W 2685881.000
Z -12.763
Asymptotische Signifikanz (2-seitig) 0.000
Exakte Signifikanz (2-seitig) 0.000
Exakte Signifikanz (1-seitig) 0.000
Punkt-Wahrscheinlichkeit 0.000
a. Gruppenvariable: Mitglied einer Gewerkschaft

Exakter vs. asymptotischer p-Wert

SPSS gibt uns zwei verschiedene p-Werte aus: einen exakten und einen asymptotischen. In vielen Fällen unterscheiden sich beide Werte kaum. Es kann aber auch vorkommen, das einer signifikant ist, während dies beim anderen nicht der Fall ist.

Die exakte Statistik kann allerdings nicht immer berechnet werden. In solchen Fällen bekommen wir die Fehlermeldung: „Nicht genügend Arbeitsspeicher zum Erstellen einer exakten Statistik“ und „Einige oder alle exakten Statistiken können nicht berechnet werden, da nicht genügend Speicherplatz vorhanden ist“. Die asymptotische Signifikanz wird hingegen immer berechnet. Wenn der exakte p-Wert nicht berechnet werden kann, können wir immer auf den asymptotischen p-Wert zurückgreifen. Aber es gibt auch Fälle, bei denen wir den asymptotischen p-Wert bevorzugen sollten, auch wenn der exakte berechnet wird.

Dies ist beispielsweise der Fall, wenn unsere Daten viele gleiche Werte haben (ties), wie es beispielsweise bei ordinalen Daten oder Ratingskalen oft der Fall ist. In solchen Fällen kann es sein, das der exakte p-Wert höher ist, als tatsächlich der Fall ist. Dies liegt an dem Algorithmus von Dinneen und Blakesley (1973), den SPSS für die Berechnung der exakten Werte verwendet. In solchen Fällen würden wir auch den asymptotischen p-Wert interpretieren.

In unserem Beispiel hatten wir Daten Arbeitszeit in Wochen pro Jahr von über 4.000 Teilnehmern. Viele Arbeiter haben eine identische Arbeitszeit. Damit haben wir auch viele ties in unseren Daten. Wir würden entsprechend die asymptotische Signifikanz interpretieren.

Der asymptotische p-Wert nähert sich mit zunehmender Stichprobengröße dem exakten p-Wert an. SPSS benutzt zur Berechnung des exakten p-Werts die Formel von Dinneen und Blakesley (1973), wie auch noch einmal hier nachgelesen werden kann.

Berichten der Ergebnisse

Wir haben unser Signifikanzniveau bei 5 % festgelegt. Das heißt, dass wir einen signifikanten Unterschied annehmen, wenn der Wert in der Zeile Exakte Signifikanz (2-seitig) kleiner als 5 % bzw. .05 ist. Ein Wert von genau 5 % oder mehr würde entsprechend bedeuten, dass das Ergebnis nicht signifikant ist. In unserem Fall haben wir ein Ergebnis von .000, was ein gerundetes Ergebnis ist und bedeutet, dass der p-Wert kleiner als .0005 ist, also p < .0005 (entsprechend der APA Richtlinien würden wir allerdings p < .001 schreiben). (Wir können auch den genauen, ungerundeten p-Wert sehen, wenn wir in SPSS zuerst doppelt auf die Tabelle klicken und noch einmal doppelt auf den Wert.)

Ein signifikantes Ergebnis bedeutet beim Mann-Whitney-U-Test, dass sich die beiden Gruppen statistisch signifikant von einander unterscheiden. Damit unterscheiden sich die mittleren Ränge der Variablen intervallskalierte Variablewochen für die beiden Gruppen von nominalskalierte Variablegewerkschaft von einander.

Die Ergebnisse des Mann-Whitney-U-Test können wir entsprechend so berichten:

Deutsch
Ein Mann-Whitney-U-Test wurde berechnet um zu überprüfen, ob sich die Wochenarbeitszeit nach Mitgliedschaft in einer Gewerkschaft unterschied. Die Verteilungen der beiden Gruppen unterschieden sich von einander, Kolmogorov-Smirnov p < .05. Es gab einen signifikanten Unterschied zwischen der Arbeitszeit in Wochen zwischen Gewerkschaftsmitgliedern und Nicht-Gewerkschaftsmitgliedern, U = 1535995.00, Z = -12.763, p < .001.
English
A Mann-Whitney-U-Test was calculated to determine if there were differences in working time between union members and non-union members. The distributions differed between both groups, Kolmogorov-Smirnov p < .05. There was a statistically significant difference in working time between both groups, U = 1535995.00, Z = -12.763, p < .001.

Der wichtigste Teil bei der Angabe der Ereignisse ist folgende Zeile: U = 1535995.00, Z = -12.763, p < .001. Sie setzt sich aus Werten der Tabelle des Mann-Whitney-U-Tests zusammen und zwar so:

Statistik für Testa
Arbeitszeit pro Jahr (in Wochen)
Mann-Whitney-U 1535995.000
Wilcoxon-W 2685881.000
Z -12.763
Asymptotische Signifikanz (2-seitig) 0.000
Exakte Signifikanz (2-seitig) 0.000
Exakte Signifikanz (1-seitig) 0.000
Punkt-Wahrscheinlichkeit 0.000
a. Gruppenvariable: Mitglied einer Gewerkschaft

U = 1535995.00, Z = -12.763, p < .001

 U = U-Statistik, Z = Z-Statistik, p = Signifikanz

In diesem Beispiel haben wir die asymptotische Signifikanz berichtet. Die Gründe dafür und Empfehlungen wann man exakte und asymptotische Signifikanz angeben sollte, haben wir weiter oben im Artikel beschrieben.

Hätten wir statt dem asymptotischen, den genauen p-Wert interpretiert, hätten wir die Ergebnisse mit einem Zusatz berichtet:

Deutsch
Ein Mann-Whitney-U-Test wurde berechnet um zu überprüfen, ob sich die Wochenarbeitszeit nach Mitgliedschaft in einer Gewerkschaft unterschied. Die Verteilungen der beiden Gruppen unterschieden sich von einander, Kolmogorov-Smirnov p < .05. Es gab einen signifikanten Unterschied zwischen der Arbeitszeit in Wochen zwischen Gewerkschaftsmitgliedern und Nicht-Gewerkschaftsmitgliedern, U = 1535995.00, Z = -12.763, p < .001, unter Verwendung der exakten Stichprobenverteilung von U (Dinneen & Blakesley, 1973).
English
A Mann-Whitney-U-Test was calculated to determine if there were differences in working time between union members and non-union members. The distributions differed between both groups, Kolmogorov-Smirnov p < .05. There was a statistically significant difference in working time between union and non-union members, U = 1535995.00, Z = -12.763, p < .001, using the exact sampling distribution of U (Dinneen & Blakesley, 1973).

Keine Signifikanz

Unser Beispiel ist zwar signifikant geworden, bei einem nicht-signifikanten Ergebnis würden wir dieselben Angaben bei der Verschriftlichung machen. Ein einfaches „ist leider nicht signifikant geworden“ reicht nicht aus. Wenn unser p-Wert beispielsweise .241 gewesen wäre, hätten wir das Ergebnis so berichten können:

Deutsch
Es gab einen signifikanten Unterschied zwischen der Arbeitszeit in Wochen zwischen Gewerkschaftsmitgliedern und Nicht-Gewerkschaftsmitgliedern, U = 1535995.00, Z = -12.763, p = .241
English
There was a statistically significant difference in working time between union and non-union members, U = 1535995.00, Z = -12.763, p = .241.

Für die meisten Fälle sollte neben der statistischen Signifikanz noch ein Maß der Effektstärke und deskriptive Statistiken angegeben werden. Beides besprechen wir auf den nächsten beiden Seiten.

Literaturverzeichnis

  1. Dinneen, L. C., & Blakesley, B. C. (1973). Algorithm AS 62: A Generator for the Sampling Distribution of the Mann- Whitney U Statistic. Applied Statistics, 22(2), 269. doi:10.2307/2346934