Kaplan-Meier Überlebenszeitanalyse: Ergebnisse interpretieren und berichten
Jetzt kommt die Interpretation der eigentlichen Analyse. Hierdurch können wir die Frage beantworten: Unterscheidet sich die Zeit bis zum Therapieerfolg zwischen den Gruppen? Oder allgemeiner ausgedrückt: Unterscheiden sich die Überlebenszeiten nach Gruppe?
Gruppen statistisch vergleichen
SPSS stellt uns drei verschiedene statistische Tests zur Verfügung, die alle diese Frage beantwortet wollen. Der (1) Log-Rang-Test (Mantel, 1966), der Breslow-Test (Breslow, 1970) und (3) der Tarone-Ware-Test (Tarone & Ware, 1977). Die Teststatistiken und Signifikanzen für alle drei Tests finden wir in der Tabelle Gesamtvergleiche.
Gesamtvergleiche | |||
---|---|---|---|
Chi-Quadrat | df | Sig. | |
Log Rank (Mantel-Cox) | 28,605 | 2 | ,000 |
Breslow (Generalized Wilcoxon) | 28,063 | 2 | ,000 |
Tarone-Ware | 30,687 | 2 | ,000 |
Test auf Gleichheit der Überlebensverteilungen für die verschiedenen Stufen von Gruppe. |
Bei drei verschiedenen Tests stellt sich natürlich die Frage: Welchen der drei Tests sollten wir nehmen?
Der Hauptunterschied zwischen den drei Test besteht darin, wie die einzelnen Fälle gewichtet werden, d.h. wo jeder Test seinen Schwerpunkt setzt.
Log-Rang-Test
Der Log-Rang-Test ist der Test, auf dem die anderen beiden Verfahren basieren. Er gewichtet die Differenz zwischen den Gruppen über den gesamten Verlauf der Untersuchung hin gleich. Dadurch wird allerdings generell ein größerer Schwerpunkt (d.h. Gewichtung) auf spätere Beobachtungen gesetzt (Hosmer et al., 2008, pp. 47–48). Daher wäre der Log-Rang-Test in Studien von Vorteil, in denen man erwarten würde, dass sich die größten Unterschiede zwischen den einzelnen Gruppen erst im späteren Verlauf der Studie zeigen.
Der Breslow-Test hingegen setzt eher den Schwerpunkt (d.h. Gewichtung) auf frühere Beobachtungen und sollte verwendet werden, wenn hier auch das größere Forschungsinteresse besteht.
Der Log-Rang-Test hat die größte statistische Power, wenn sich die Überlebenskurven nicht schneiden (Indrayan & Malhotra, 2017, p. 622; Jolly et al., 2016, p. 847). Sollte dies der Fall sein, wäre eine der anderen beiden Tests vorzuziehen.
Breslow-Test
Der Breslow-Test gewichtet frühe Ereignisse stärker als spätere und wird dadurch eine frühe Trennung der Kurven stärker berücksichtigen, auch wenn sich die Kurven im späteren Verlauf schließlich wieder annähern. Diese Art der Gewichtung kann beispielsweise dazu verwendet werden, um zu beurteilen, ob die Wirkung einer Intervention oder Therapie in den frühen Phasen stärker ist und im Laufe der Zeit tendenziell an Wirksamkeit verliert.
Tarone-Ware-Test
Der Tarone-Ware-Test hat eine ähnliche Gewichtung wie der Breslow-Test, allerdings weniger stark ausgeprägt und ist damit ein Mittelweg zwischen den anderen beiden Testverfahren (Indrayan & Malhotra, 2017).
Zusammenfassung und Empfehlung
In den allermeisten Fällen kommen alle Tests zu dem gleichen Ergebnis, wie auch in unserem Beispiel. Hier attestieren uns alle drei Tests höchst signifikante Unterschiede zwischen den einzelnen Therapiegruppen. In diesen Fällen ist es prinzipiell egal, welchen Test man interpretiert. Das gleiche gilt für den Fall, wenn alle drei Tests keine signifikanten Gruppenunterschiede gefunden hätten. Problematischer wird es, wenn sich die Aussagen der Tests unterscheiden. Wenn alle drei Testverfahren zu dem gleichen Schluss kommen, sollte der Log-Rang-Test bevorzugt berichtet werden. Er ist generell der Test, der in Zusammenhang mit der Kaplan-Meier Überlebenszeitanalyse am häufigsten verwendet wird und benötigt dadurch in der Regel keine Rechtfertigung, warum er und nicht ein anderes Verfahren zum Einsatz kam.
Sollten sich allerdings die Ergebnisse unterscheiden, gibt es unterschiedliche Empfehlungen, die zu Rate ziehen kann. Hosmer et al., (2008, p. 57) empfehlen beispielsweise bei abweichenden Testergebnissen, alle berechneten Verfahren zu berichten, damit sich der Leser selbst ein Bild verschaffen kann. Dies könnten allerdings von einigen auch als Schönung ausgelegt werden – immerhin hat man zum einen ein signifikantes Ergebnis, was neben einem nicht-signifikanten Ergebnis berichtet wird. Zusätzlich könnte dies die Diskussion der Ergebnisse erschweren. Nichtsdestotrotz würde dieses Vorgehen natürlich dem interessiertem Leser alle Informationen geben die er oder sie benötigt, um sich ein vollumfängliches Bild zu machen.
Sollten sich die Kurven der Überlebensfunktionen schneiden (wie es auch in unserem Beispiel der Fall ist), verliert der Log-Rang-Test an statistischer Power. Entsprechend sollte dann eines der anderen beiden Verfahren interpretiert werden. Hier kommt es darauf an, wie stark wir eine Gewichtung auf früh beobachtete Ereignisse setzen wollen. Für eine starke Gewichtung sollte der Breslow-Test bevorzugt werden; ansonsten sollte der Tarone-Ware-Test berichtet werden, der einen recht guten Mittelweg zwischen den anderen beiden Verfahren bietet.
Schneiden sich die Kurven (wie es beispielsweise in unserem Datensatz der Fall ist), verliert der Log-Rank-Test allerdings an statistischer Power (wenn alle drei Tests zu identischen Ergebnissen kommen, ist dies aber auch egal). In diesem Fall sollte einer der anderen beiden Tests bevorzugt werden. Der der Tarone-Ware-Test ist ein guter Mittelweg und wir würden ihn in einem solchen Fall empfehlen. Der Tarone-Ware-Test ist recht ausgewogen, was seine Gewichtung angeht. Für alle, die eine stärkere Gewichtung bevorzugen, wäre der Breslow-Test allerdings hier die bessere Wahl.
Ergebnisse berichten
Da alle drei Tests in unserem Beispiel zu dem gleichen Ergebnisse kommen, berichten wir den Log-Rang-Test. Dies könnten wir wie folgt machen:
Ein Log-Rank-Test wurde durchgeführt, um festzustellen, ob signifikante Unterschiede zwischen den drei Studiengruppen bestehen. Die Ergebnisse zeigen, dass sich die Überlebensverteilungen der drei Interventionen signifikant voneinander unterscheiden, χ²(2) = 28.61, p < .001.
English
A log-rank test was performed to assess whether significant differences exist between the three study groups. Results show that survival distributions of the three interventions differ significantly, χ²(2) = 28.61, p < .001.
Der wichtigste Teil bei der Angabe der Ereignisse ist folgende Zeile: χ²(2) = 28.61, p < .001. Sie setzt sich aus Werten der Tabelle der Gruppenvergleiche zusammen und zwar so:
Gesamtvergleiche | |||
---|---|---|---|
Chi-Quadrat | df | Sig. | |
Log Rank (Mantel-Cox) | 28,605 | 2 | ,000 |
Breslow (Generalized Wilcoxon) | 28,063 | 2 | ,000 |
Tarone-Ware | 30,687 | 2 | ,000 |
Test auf Gleichheit der Überlebensverteilungen für die verschiedenen Stufen von Gruppe. |
χ²(99) = 28.61, p < .001
χ²(df) = Chi²-Statistik, p-Wert = Signifikanz
Aufschlüsselung der einzelnen Werte
- χ²: Das χ² gibt an, dass das Testverfahren eine Chi-Quadrat-Verteilung verwendet.
- (2): Das Aussehen (und damit auch die Grenze der Signifikanz) der Chi-Quadrat-Verteilung wird durch diesen Parameter beeinflusst. Er entspricht den Freiheitsgraden (engl. degrees of freedom, abgekürzt als df).
- 28.61: Der Wert der Teststatistik, der in der Chi-Quadrat-Verteilung nachgeschlagen wird um den p-Wert zu berechnen.
- < .001: Der p-Wert, der die Signifikanz wiedergibt.
Keine Signifikanz
Unser Beispiel ist zwar signifikant geworden, bei einem nicht-signifikanten Ergebnis würden wir dieselben Angaben bei der Verschriftlichung machen. Ein einfaches „ist leider nicht signifikant geworden“ reicht nicht aus. Wenn unser p-Wert beispielsweise .241 gewesen wäre, hätten wir es so verschriftlichen können:
Ein Log-Rank-Test wurde durchgeführt, um festzustellen, ob signifikante Unterschiede zwischen den drei Studiengruppen bestehen. Die Ergebnisse zeigen, dass sich die Überlebensverteilungen der drei Interventionen nicht signifikant voneinander unterscheiden, χ²(2) = 28.61, p = .241.
English
A log-rank test was performed to assess whether significant differences exist between the three study groups. Results show that survival distributions of the three interventions do not differ significantly, χ²(2) = 28.61, p < .241.
Wie es weiter geht...
Wir haben ein signifikantes Ergebnis gefunden. Da wir mehr als zwei Gruppen untersucht haben, sind wir in der Regel auch noch daran interessiert zu wissen, zwischen welchen Gruppen signifikante Unterschiede bestehen und zwischen welchen nicht.Um dies zu erfahren müssen wir noch zusätzlich post-hoc Tests durchführen. Wie diese durchgeführt werden und wie ihre Ergebnisse interpretiert und verschriftlicht werden, besprechen wir auf der nächsten Seite.
Unabhängig von dem Ausgang dieses Tests könnten wir noch zusätzlich zwei Überlebenskurven zu einem bestimmten Zeitpunkt miteinander vergleichen, sollten wir hierfür Hypothesen formuliert haben.
Ansonsten: Wurden keine signifikanten Unterschiede gefunden, ist die Analyse hier beendet.
Literaturverzeichnis
- Breslow, N. (1970). A generalized Kruskal-Wallis test for comparing K samples subject to unequal patterns of censorship. Biometrika, 57(3), 579–594. doi:10.
1093/ biomet/ 57. 3. 579 - Cleves, M. A. (2008). An introduction to survival analysis using Stata (2nd ed.). Stata Press.
- Hosmer, D. W., Lemeshow, S., & May, S. (2008). Applied survival analysis: Regression modeling of time-to-event data (2nd ed.). Wiley series in probability and statistics. Wiley.
- Indrayan, A., & Malhotra, R. K. a. (2017). Medical biostatistics (4th). CRC biostatistics series. Chapman & Hall.
- Jolly, E., Fry, A., & Chaudhry, A. (2016). Training in medicine (First edition). Oxford specialty training. Oxford University Press.
- Mantel, N. (1966). Evaluation of survival data and two new rank order statistics arising in its consideration. Cancer Chemotherapy Reports, 50(3), 163–170.
- Tarone, R. E., & Ware, J. (1977). On distribution-free tests for equality of survival distributions. Biometrika, 64(1), 156–160. doi:10.
1093/ biomet/ 64. 1. 156