Lexikon

Generalized Estimating Equations (GEE)

Korrelierte Datensätze ergeben sich aus Studien mit wiederholten Messungen, bei denen mehrere Beobachtungen von einer bestimmten Stichprobeneinheit gesammelt werden (der Status eines bestimmten Patienten im Laufe der Zeit), oder aus gruppierten oder geclusterten Daten, bei denen die Beobachtungen auf der Grundlage eines gemeinsamen Merkmals gruppiert werden (Tiere in einem bestimmten Wurf).

Wenn Messungen im Laufe der Zeit gesammelt werden, wird der Begriff Längsschnitt- oder Paneldaten bevorzugt. Generalisierte Schätzgleichungen (Generalized Estimating Equations, GEEs) bieten eine Möglichkeit, korrelierte Daten (non-parametrisch) zu analysieren. Dieses Verfahren erweitert die Methodik der verallgemeinerten linearen Modelle, die von unabhängigen Daten ausgeht.

Generalized Estimating Equations sind eine flexiblere Art, Daten mit Messwiederholung statistisch zu untersuchen, die mehr Möglichkeiten bezüglich der untersuchbaren Datenstruktur und regulierbaren Modellparameter bieten, aber gleichzeitig mehr Wissen voraussetzen, als beispielsweise traditionelle ANOVA-Modelle.

(Nicht-)Parametrisch

Generalisierte Schätzgleichungen sind eine semi-parametrische Alternative zu Generalisierten Linearen Mixed Effekt Modellen (GLMM). Sie sind semi-parametrisch, weil die Parameterschätzungen zwar parametrisch, die Varianzen aber nicht-parametrisch geschätzt werden.

Gewöhnlich besteht ein Teil des Prozesses zur Definition der Varianzstruktur darin, die Korrelationsstruktur der Datenpunkte innerhalb einzelner Teilnehmer zu definieren; so könnten z.B. Daten, die im Laufe der Zeit sequentiell gesammelt wurden, anders modelliert werden als Daten, die räumlich geclustert wurden, z.B. über eine Reihe verschiedener isolierter Gebiete. Korrelationsstrukturen können unter anderem eine unabhängige Korrelationsstruktur umfassen, die davon ausgeht, dass

  1. keine Korrelation zwischen Datenpunkten besteht;
  2. eine zusammengesetzte symmetrische oder austauschbare Korrelationsstruktur, die davon ausgeht, dass Daten von einem einzelnen Teilnehmer innerhalb dieses Teilnehmers korreliert sind, aber alle Datenpunkte innerhalb der Teilnehmer gleichermaßen korreliert sind;
  3. und eine autoregressive Korrelationsstruktur, die davon ausgeht, dass Datenpunkte innerhalb von Teilnehmern, die zeitlich näher beieinander liegen, stärker korreliert sind als Datenpunkte, die weiter entfernt sind.

Warum sind GEEs nützlich?

Wenn die Stichprobengröße ausreichend groß ist, haben GEEs mit empirischen Standardfehlern die interessante Eigenschaft, sowohl Parameterschätzungen als auch Standardfehler zu produzieren, die auch dann zuverlässig sind, wenn die wahre Korrelationsstruktur nicht bekannt ist (Fitzmaurice et al., 2004). Gleichzeitig bieten sie mehr Möglichkeiten, komplexe Studiendesigns (wie Beispielsweise Stepped-Wedge-Designs) zu analysieren. Diese Flexibilität geht allerdings auch mit mehr Stellschrauben ein, die man als Wissenschaftler variieren kann.

Wie funktionieren GEEs?

GEEs beschäftigen sich mit der Korrelation, die durch das wiederholte Messen (within-subjects Design) eines Teilnehmers entstehen, indem sie den Standardfehler anpassen, um den Mangel an Unabhängigkeit zwischen den Proben auszugleichen.

Vereinfacht ausgedrückt funktionieren Generalisierte Schätzgleichungen indem sie erstens die Daten gemäß sogenannten Link-Funktionen transformieren, dann die transformierten Daten durch geeignete Verteilungen modellieren (die abhängig von den Daten und des Skalenniveaus sind) und zu letzt die Anwendung von Techniken wie Maximum Likelihood oder Restricted Maximum-Likelihood zur Simulation eines traditionellen linearen Modells, im Sinn einer ANOVA.

Dies beinhaltet die Verwendung von empirischen Standardfehlern anstelle von modellbasierten Standardfehlern. Da Tests aussagekräftiger sind, wenn die Kovarianzstruktur modelliert werden kann, sollte man dennoch die Modellanpassung zwischen Modellen mit unterschiedlichen Kovarianzstrukturen vergleichen und das Modell verwenden, das am besten zu den Daten passt.

Literaturverzeichnis

  1. Fitzmaurice, G., Laird, N. & Ware, J. (2011). Applied longitudinal analysis. Hoboken, N.J: Wiley.
  2. Koper, N., & Manseau, M. (2012). A guide to developing resource selection functions from telemetry data using generalized estimating equations and generalized linear mixed models. Rangifer, 32(2), 195-204. doi:10.7557/2.32.2.2269