Lexikon

P-Hacking

P-Hacking ist ein Bias in der Statistik, der auftritt, wenn Forscher Daten so lange erheben oder auswerten bis ehemals nicht signifikante Ergebnisse signifikant werden.

Es besteht eine zunehmende Sorge, dass viele wissenschaftliche Ergebnisse falsch-positiv sein könnten (Barch & Yarkoni, 2013; Jager & Leek, 2014; Nyberg, Graham, & Stokes, 1977). Es wird argumentiert, dass die derzeitigen wissenschaftlichen Vorgehensweisen Wissenschaftlern starke Anreize liefern, hauptsächlich statistisch signifikante Ergebnisse zu publizieren. Vor allem Journals mit hohen Impact Factors publizieren überdurchschnittlich häufig statistisch signifikante Studien (Begg & Berlin, 1988; Dwan et al., 2008; Rosenthal, 1979; Song, Eastwood, Gilbody, Duley, & Sutton, 2001). Wissenschaftler werden darüber hinaus oft bewertet wie viel und in welchen Journals sie publiziert haben.

All dies schaft Anreize, statistisch signifikante Ergebnisse zu publizieren.

P-Hacking stellt damit eine große Gefahr für wissenschaftliche Erkenntnisgewinnung dar. Da es in der Wissenschaft kaum Anreize gibt wissenschaftliche Studien zu replizieren, können sich solche eigentlich falsche Ergebnisse über Jahre hinweg halten und zukünftige Forschung negativ beeinflussen.

Beispiele für P-Hacking

P-Hacking wird daher auch oft Selektionsbias (engl. selection bias) bzw. Inflationsbias (engl. inflation bias) genannt, da der wahre gefundene Effekt nicht publiziert wurde. Eine Möglichkeit, P-Hacking zu betreiben, wäre, dasselbe Experiment öfter durchzuführen. Da in den meisten Wissenschaften auf einem Signifikanzniveau von 5 % geprüft wird, würde man davon ausgehen, das knapp 5 % der wissenschaftlichen Arbeiten falsch-positiv ist. Hat man ein Experiment, dessen Ergebnisse nicht signifikant wurden, und wiederholt es 20 mal, würde mal erwarten, das es in einem Durchlauf dennoch signifikant (falsch-positiv) wird. Anstatt alle 20 Durchläufe anzugeben, berichtet man allerdings nur den einen signifikanten Durchgang. Diese Vorgehensweise ist vor allem möglich, wenn ausreichend finanzielle Mittel vorhanden sind und ein nicht-signifikantes Ergebnis wirtschaftliche Konsequenzen nach sich ziehen könnte.

Eine weitere Möglichkeit P-Hacking zu betreiben wäre es, eine Vielzahl statistischer Methoden bei der Auswertung zu verwenden, aber nur diejenigen zu berichten, die statistisch signifikant wurden. Auch sollten nach wissenschaftlichen Konventionen die Art der statistischen Auswertungsverfahren und der untersuchten Variablen vor der Auswertung festgelegt worden sein.

Weitere Beispiele für P-Hacking wären:

  1. Verschiedene Variablen zu erheben, verschiedene Analysen mit diesen Variablen durchzuführen, aber am Ende nur signifikante Variablen und Analysen zu berichten
  2. Mehrere abhängige Variablen zu erheben, aber nur signifikante Ergebnisse anzugeben
  3. Variablen als Kovariaten nach der Analyse festzulegen
  4. Zu schauen, welche Versuchspersonen den größten Einfluss darauf hatten, dass der Effekt nicht signifikant wurde und diese von der statistischen Analyse auszuschließen
  5. Die Datenerhebung abzubrechen, wenn statistische Signifikanz erreicht wurde
  6. Im Nachhinein Gruppen aufzuteilen oder zusammenzulegen – oder gewisse Gruppen gleich ganz auszuschließen

Literaturverzeichnis

  1. Barch, D. M., & Yarkoni, T. (2013). Introduction to the special issue on reliability and replication in cognitive and affective neuroscience research. Cognitive, affective & behavioral neuroscience, 13(4), 687–689. doi:10.3758/s13415-013-0201-7
  2. Begg, C. B., & Berlin, J. A. (1988). Publication Bias: A Problem in Interpreting Medical Data. Journal of the Royal Statistical Society. Series A (Statistics in Society), 151(3), 419. doi:10.2307/2982993
  3. Dwan, K., Altman, D. G., Arnaiz, J. A., Bloom, J., Chan, A. W., Cronin, E.,. . . Williamson, P. R. (2008). Systematic review of the empirical evidence of study publication bias and outcome reporting bias. PloS one, 3(8), e3081. doi:10.1371/journal.pone.0003081
  4. Jager, L. R., & Leek, J. T. (2014). An estimate of the science-wise false discovery rate and application to the top medical literature. Biostatistics (Oxford, England), 15(1), 1–12. doi:10.1093/biostatistics/kxt007
  5. Nyberg, G., Graham, R. M., & Stokes, G. S. (1977). The effect of mental arithmetic in normotensive and hypertensive subjects, and its modification by beta-adrenergic receptor blockade. British journal of clinical pharmacology, 4(4), 469–474.
  6. Rosenthal, R. (1979). The file drawer problem and tolerance for null results. Psychological Bulletin, 86(3), 638–641. doi:10.1037//0033-2909.86.3.638
  7. Song, F., Eastwood, A., Gilbody, S., Duley, L., & Sutton, A. (2001). Publication and Related Biases. In A. Stevens, K. Abrams, J. Brazier, R. Fitzpatrick, & R. Lilford (Eds.), The Advanced Handbook of Methods in Evidence Based Healthcare (pp. 371–390). 1 Oliver’s Yard, 55 City Road, London EC1Y 1SP United Kingdom: SAGE Publications Ltd.