Kaplan-Meier

Kaplan-Meier Überlebenszeitanalyse: Ergebnisse interpretieren und berichten

Jetzt kommt die Interpretation der eigentlichen Analyse. Hierdurch können wir die Frage beantworten: Unterscheidet sich die Zeit bis zum Therapieerfolg zwischen den Gruppen? Oder allgemeiner ausgedrückt: Unterscheiden sich die Überlebenszeiten nach Gruppe?

Gruppen statistisch vergleichen

SPSS stellt uns drei verschiedene statistische Tests zur Verfügung, die alle diese Frage beantwortet wollen. Der (1) Log-Rang-Test (Mantel, 1966), der Breslow-Test (Breslow, 1970) und (3) der Tarone-Ware-Test (Tarone & Ware, 1977). Die Teststatistiken und Signifikanzen für alle drei Tests finden wir in der Tabelle Gesamtvergleiche.

Gesamtvergleiche
Chi-Quadrat df Sig.
Log Rank (Mantel-Cox) 28,605 2 ,000
Breslow (Generalized Wilcoxon) 28,063 2 ,000
Tarone-Ware 30,687 2 ,000
Test auf Gleichheit der Überlebensverteilungen für die verschiedenen Stufen von Gruppe.

Bei drei verschiedenen Tests stellt sich natürlich die Frage: Welchen Test sollten wir nehmen?

Der Hauptunterschied zwischen den drei Test besteht darin, wie die einzelnen Fälle gewichtet werden.

Log-Rang-Test

Der Log-Rang-Test ist der Test, auf dem die anderen beiden Verfahren basieren. Er gewichtet die Differenz zwischen den Gruppen über den gesamten Verlauf der Untersuchung hin gleich. Dadurch wird allerdings generell ein größerer Schwerpunkt auf spätere Beobachtungen gesetzt (Hosmer et al., 2008, pp. 47–48). Daher wäre der Log-Rang-Test in Studien von Vorteil, in denen man erwarten würde, dass sich die größten Unterschiede zwischen den einzelnen Gruppen erst im späteren Verlauf der Studie zeigen.

Der Log-Rang-Test hat die größte statistische Power, wenn sich die Überlebenskurven nicht schneiden (Indrayan & Malhotra, 2017, p. 622; Jolly et al., 2016, p. 847). Sollte dies der Fall sein, wäre eine der anderen beiden Tests vorzuziehen.

Breslow-Test

Der Breslow-Test gewichtet frühe Ereignisse stärker als spätere und wird dadurch eine frühe Trennung der Kurven stärker berücksichtigen, auch wenn sich die Kurven im späteren Verlauf schließlich wieder annähern. Diese Art der Gewichtung kann beispielsweise dazu verwendet werden, um zu beurteilen, ob die Wirkung einer Intervention oder Therapie in den frühen Phasen stärker ist und im Laufe der Zeit tendenziell an Wirksamkeit verliert.

Tarone-Ware-Test

Der Tarone-Ware-Test hat eine ähnliche Gewichtung wie der Breslow-Test, allerdings weniger stark ausgeprägt und ist damit ein Mittelweg zwischen den anderen beiden Testverfahren (Indrayan & Malhotra, 2017).

Zusammenfassung und Empfehlung

In den allermeisten Fällen kommen alle Tests zu dem gleichen Ergebnis, wie auch in unserem Beispiel. Hier attestieren uns alle drei Tests höchst signifikante Unterschiede zwischen den einzelnen Therapiegruppen. In diesen Fällen ist es prinzipiell egal, welchen Test man interpretiert. Das gleiche gilt für den Fall, wenn alle drei Tests keine signifikanten Gruppenunterschiede gefunden hätten. Problematischer wird es, wenn sich die Aussagen der Tests unterscheiden. Wenn alle drei Testverfahren zu dem gleichen Schluss kommen, sollte der Log-Rang-Test bevorzugt berichtet werden. Er ist generell der Test, der in Zusammenhang mit der Kaplan-Meier Überlebenszeitanalyse am häufigsten verwendet wird und benötigt dadurch in der Regel keine Rechtfertigung, warum er und nicht ein anderes Verfahren zum Einsatz kam.

Sollten sich allerdings die Ergebnisse unterscheiden, gibt es unterschiedliche Empfehlungen, die zu Rate ziehen kann. Hosmer et al., (2008, p. 57) empfehlen beispielsweise bei abweichenden Testergebnissen, alle berechneten Verfahren zu berichten, damit sich der Leser selbst ein Bild verschaffen kann. Dies könnten allerdings von einigen auch als Schönung ausgelegt werden – immerhin hat man zum einen ein signifikantes Ergebnis, was neben einem nicht-signifikanten Ergebnis berichtet wird. Zusätzlich könnte dies die Diskussion der Ergebnisse erschweren. Nichtsdestotrotz würde dieses Vorgehen

Kaplan-Meier: Überlebensfunktion

Sollten sich die Kurven der Überlebensfunktionen schneiden (wie es auch in unserem Beispiel der Fall ist), verliert der Log-Rang-Test an statistischer Power. Entsprechend sollte dann eines der anderen beiden Verfahren interpretiert werden. Hier kommt es darauf an, wie stark wir eine Gewichtung auf früh beobachtete Ereignisse setzen wollen. Für eine starke Gewichtung sollte der Breslow-Test bevorzgt werden; ansonsten sollte der Tarone-Ware-Test berichtet werden, der einen recht guten Mittelweg zwischen den anderen beiden Verfahren bietet.

Ergebnisse berichten

Da alle drei Tests in unserem Beispiel zu dem gleichen Ergebnisse kommen, berichten wir den Log-Rang-Test. Dies könnten wir wie folgt machen:

Deutsch
Ein Log-Rank-Test wurde durchgeführt, um festzustellen, ob signifikante Unterschiede zwischen den drei Studiengruppen bestehen. Die Ergebnisse zeigen, dass sich die Überlebensverteilungen der drei Interventionen signifikant voneinander unterscheiden, χ²(2) = 28.61, p < .001.
English
A log-rank test was performed to assess whether significant differences exist between the three study groups. Results show that survival distributions of the three interventions differ significantly, χ²(2) = 28.61, p < .001.
Auch wenn SPSS in der Spalte Signifikanz einen Wert von .000 angibt, ist dies nur ein gerundeter Wert (Signifikanzen können weder die Werte 0 oder 1 annehmen, sondern liegen immer dazwischen.) Bei einem Wert von .000 würden wir dies als p < .001 schreiben. Das APA-Handbuch empfiehlt ansonsten die Angabe genauer p-Werte (gerundet auf drei Nachkommastellen).

Der wichtigste Teil bei der Angabe der Ereignisse ist folgende Zeile: χ²(2) = 28.61, p < .001. Sie setzt sich aus Werten der Tabelle der Gruppenvergleiche zusammen und zwar so:

Gesamtvergleiche
Chi-Quadrat df Sig.
Log Rank (Mantel-Cox) 28,605 2 ,000
Breslow (Generalized Wilcoxon) 28,063 2 ,000
Tarone-Ware 30,687 2 ,000
Test auf Gleichheit der Überlebensverteilungen für die verschiedenen Stufen von Gruppe.

χ²(99) = 28.61, p < .001

χ²(df) = Chi²-Statistik, p = Signifikanz

Aufschlüsselung der einzelnen Werte

  • χ²: Das χ² gibt an, dass das Testverfahren eine Chi-Quadrat-Verteilung verwendet.
  • (2): Das Aussehen (und damit auch die Grenze der Signifikanz) der Chi-Quadrat-Verteilung wird durch diesen Parameter beeinflusst. Er entspricht den Freiheitsgraden (engl. degrees of freedom, abgekürzt als df).
  • 28.61: Der Wert der Teststatistik, der in der Chi-Quadrat-Verteilung nachgeschlagen wird um den p-Wert zu berechnen.
  • < .001: Der p-Wert, der die Signifikanz wiedergibt.

Keine Signifikanz

Unser Beispiel ist zwar signifikant geworden, bei einem nicht-signifikanten Ergebnis würden wir dieselben Angaben bei der Verschriftlichung machen. Ein einfaches „ist leider nicht signifikant geworden“ reicht nicht aus. Wenn unser p-Wert beispielsweise .241 gewesen wäre, hätten wir es so verschriftlichen können:

Deutsch
Ein Log-Rank-Test wurde durchgeführt, um festzustellen, ob signifikante Unterschiede zwischen den drei Studiengruppen bestehen. Die Ergebnisse zeigen, dass sich die Überlebensverteilungen der drei Interventionen nicht signifikant voneinander unterscheiden, χ²(2) = 28.61, p = .241.
English
A log-rank test was performed to assess whether significant differences exist between the three study groups. Results show that survival distributions of the three interventions do not differ significantly, χ²(2) = 28.61, p < .241.

Wie es weiter geht...

Wir haben ein signifikantes Ergebnis gefunden. Da wir mehr als zwei Gruppen untersucht haben, sind wir in der Regel auch noch daran interessiert zu wissen, zwischen welchen Gruppen signifikante Unterschiede bestehen und zwischen welchen nicht.

Um dies zu erfahren müssen wir noch zusätzlich post-hoc Tests durchführen. Wie diese durchgeführt werden und wie ihre Ergebnisse interpretiert und verschriftlicht werden, besprechen wir auf der nächsten Seite.

Unabhängig von dem Ausgang dieses Tests könnten wir noch zusätzlich zwei Überlebenskurven zu einem bestimmten Zeitpunkt miteinander vergleichen, sollten wir hierfür Hypothesen formuliert haben.

Ansonsten: Wurden keine signifikanten Unterschiede gefunden, ist die Analyse hier beendet.

Literaturverzeichnis

  1. Breslow, N. (1970). A generalized Kruskal-Wallis test for comparing K samples subject to unequal patterns of censorship. Biometrika, 57(3), 579–594. doi:10.1093/biomet/57.3.579
  2. Cleves, M. A. (2008). An introduction to survival analysis using Stata (2nd ed.). Stata Press.
  3. Hosmer, D. W., Lemeshow, S., & May, S. (2008). Applied survival analysis: Regression modeling of time-to-event data (2nd ed.). Wiley series in probability and statistics. Wiley.
  4. Indrayan, A., & Malhotra, R. K. a. (2017). Medical biostatistics (4th). CRC biostatistics series. Chapman & Hall.
  5. Jolly, E., Fry, A., & Chaudhry, A. (2016). Training in medicine (First edition). Oxford specialty training. Oxford University Press.
  6. Mantel, N. (1966). Evaluation of survival data and two new rank order statistics arising in its consideration. Cancer Chemotherapy Reports, 50(3), 163–170.
  7. Tarone, R. E., & Ware, J. (1977). On distribution-free tests for equality of survival distributions. Biometrika, 64(1), 156–160. doi:10.1093/biomet/64.1.156