Rechner

Cohen’s Kappa für zwei Rater berechnen

Die Kappa-Statistik wird häufig verwendet, um die Interrater-Reliabilität zu überprüfen. Die Bedeutung der Interrater-Reliabilität liegt darin, dass sie das Ausmaß darstellt, in dem die in der Studie gesammelten Daten korrekte Darstellungen der gemessenen Variablen sind. Die Messung des Ausmaßes, in dem die Rater den gleichen Wert derselben Variablen zuweisen, wird als Interrater-Reliabilität bezeichnet.

Während es eine Vielzahl von Methoden zur Messung der Interrater-Reliabilität gab, wurde sie traditionell als prozentuale Übereinstimmung gemessen, berechnet als die Anzahl der Übereinstimmungsscores dividiert durch die Gesamtzahl der Scores. 1960 kritisierte Jacob Cohen dieses System wegen seiner Unfähigkeit, zufällige Übereinstimmungen zu berücksichtigen. Er führte daraufhin Cohen’s Kappa ein, das speziell entwickelt wurde, um die Möglichkeit zu berücksichtigen, dass Rater aufgrund der Unsicherheit zumindest einige Variablen tatsächlich erraten. Wie die meisten Korrelationsstatistiken kann Kappa von −1 bis +1 variieren.

Es gibt eine Reihe von Statistiken, die verwendet wurden, um die Interrater- und Intrarater-Reliabilität zu messen. Eine Teilliste beinhaltet die prozentuale Übereinstimmung, Cohens Kappa (für zwei Rater), Fleiss‘ Kappa (Anpassung von Cohens Kappa für 3 oder mehr Rater), den Kontingenzkoeffizienten, Pearson’s r und Spearman’s Rho, den Intra-Klassen-Korrelationskoeffizienten (ICC), den Konkordanz-Korrelationskoeffizienten und Krippendorffs Alpha (nützlich bei mehreren Ratern und mehreren möglichen Bewertungen).

Die Verwendung von Korrelationskoeffizienten (wie Pearson’s r) als Maß für die Interrater-Reliabilität kann zu einer schlechten Schätzung der Reliabilität führen, was widerrum zu extremen Über- oder Unterschätzungen des wahren Grades der Raterübereinstimmung führen kann (Stemler, 2004).

Online-Rechner

 

Methode der Gewichtung

Interpretation

Kappa (κ) Interpretation
Landis und Koch (1977) Altman (1991)
ab .80 fast perfekt sehr gut
ab .60 substanziell gut
ab .40 moderat moderat
ab .20 mäßig gering
0 – .20 gering mangelhaft
< 0.00 mangelhaft   –

Angepasst nach Landis und Koch (1977) und Altman (1991)

Literaturverzeichnis

  1. Altman, D. G. (1991). Practical Statistics for Medical Research (Chapman & Hall / CRC Texts in Statistical Science). Taylor & Francis Ltd.
  2. Landis, J. R., & Koch, G. G. (1977). The Measurement of Observer Agreement for Categorical Data. Biometrics, 33(1), 159. doi:10.2307/2529310
  3. Stemler, S. E. (2004). A comparison of consensus, consistency, and measurement approaches to estimating interrater reliability. Practical assessment, research & evaluation, 9(4), 1-19.

Für Vikki