Blog

Wie analysiert man am besten 5-Punkt-Likert-Skalen? t-Test oder Mann-Whitney-U-Test?

Likert-Skalen mit fünf Stufen gehören zu den beliebtesten Skalen – vor allem in Sozialwissenschaften. Bei Likert-Skalen geben Versuchspersonen in der Regel an, wie stark eine Aussage für sie zutrifft. Die Antworten werden dann numerisch codiert, z.B. von 1 (trifft zu) zu 5 (trifft nicht zu). Zur Auswertung können die Items einer Skala summiert werden. Likert-Skalen nehmen daher auch an, dass der Abstand zwischen den Items gleich ist. Ein Beispiel für eine Likert-Skala zur Vorliebe von Statistik, wäre folgendes Item:

Da Likert-Skalen diskret, ordinal und nur eine begrenzten Definitionsbereich haben, existiert eine langanhaltende Debatte darüber, wie man die statistische Auswertung betreiben sollte. Generell existieren zwei Lager: diejenigen, die parametrische Verfahren bevorzugen und diejenigen, die non-parametrische Verfahren bevorzugen.

Parametrische Verfahren machen gewisse Annahmen bezüglich der Verteilungseigenschaften. Non-parametische Verfahren hingegen nicht. Prinzipiell könnte man non-parametrische Verfahren damit auf jeden beliebigen Datensatz anwenden, allerdings mit einem entscheidenen Nachteil: non-parametrische Verfahren haben eine geringere statistische Power. Sie können daher einen statistisch signifikanten Unterschied weniger gut finden, auch wenn er tatsächlich existiert. Parametrische Verfahren haben hingegen eine höhere Power, verlangen aber auch eine Normalverteilung und eine kontinuierliche Variable (wobei sie mit steigender Stichprobengröße robuster gegenüber die Verletzung der Normalverteilungsannahme werden).

Parametrisch vs. Non-parametrisch

Was ist nun aber besser? Diese Frage muss sich jeder stellen, der Likert-skalierte Daten auswerten muss.

Über die letzten Jahre wurden viele Studien veröffentlicht, die sich diese Frage zum Thema gemacht haben. Viele Studien dieser Art haben allerdings nur eine begrenzte Anzahl von Verteilungen untersucht, was ihre Generalisierbarkeit einschränkt. Mit stetig steigender Rechenkapazität konnte eine größere Anzahl von Verteilungen untersucht werden.

In diesem Artikel stellen wir vor allem die Studie von De Winter & Dodou (2010) vor, die genau dies gemacht haben.

Die Autoren identifizierten 14 verschiedene Verteilungen, die von echten Likert-Daten stammen. 10.000 zufällige Stichproben wurden aus Kombinationen dieser Verteilungen gezogen und sowohl mit dem t-Test für unabhängige Stichproben als auch dem Mann-Whitney-U-Test verglichen. Darüber hinaus wurden auch noch verschiedene Stichprobengrößen verglichen.

Die Studie kam zu zwei wichtigen Erkenntnissen:

  1. Die Wahrscheinlichkeit einen Fehler erster Art zu begehen, ist für beide Verfahren nahe dem Soll-Wert. Hat man also ein statistisch signifikantes Ergebnis mit einem der beiden Tests, muss man sich keine Sorgen über falsch positive Ergebnisse machen.
  2. Zweitens, und wichtiger: der Unterschied in der statistischen Power zwischen beiden Verfahren ist meist vernachlässigbar. Anders ausgedrückt: existiert tatsächlich ein signifikanter Unterschied, werden beide Tests diesen Unterschied mit etwa gleicher Wahrscheinlichkeit finden.

Dies trifft für die untersuchten Stichprobengrößen von 10, 30 und 200 pro Gruppe zu.

Auch wenn dies für die meisten Fälle zutrifft, haben die Autoren einige (wenige) Verteilungen gefunden, bei denen ein Test besser war als der andere. Stellt sich also heraus, dass es Unterschiede zwischen den Ergebnissen beider Tests gibt, kann man im Originalartikel nachlesen, welchen Test die Autoren für den speziellen Fall empfehlen.

Literaturverzeichnis

  1. De Winter, J. C., & Dodou, D. (2010). Five-point Likert items: t test versus Mann-Whitney-Wilcoxon. Practical Assessment, Research & Evaluation, 15(11), 1-12. doi:10.7275/bj1p-ts64

Titelbild Copyright Alberto G.