Einfaktorielle ANOVA

Einfaktorielle ANOVA: Voraussetzungen

Insgesamt sechs Voraussetzungen sind zu erfüllen, damit wir eine einfaktorielle ANOVA berechnen dürfen. Allerdings sind nicht alle Punkte, die wir nachfolgend nennen werden, echte Voraussetzung die strikt eingehalten werden müssen. Manche von ihnen lassen sich biegen, ohne das unser Testergebnis stark verfälscht wird, andere wiederum müssen eingehalten werden.

Die ersten drei Voraussetzung aus der Liste sind Grundvoraussetzungen; sie können nicht mit Statistikprogrammen überprüft werden, müssen aber dennoch erfüllt sein. Die letzten drei Punkte wiederum werden wir auf den kommenden Seiten im Detail und schrittweise mit SPSS überprüfen.

  1. Unabhängigkeit der Messungen. Dies ist eine der wichtigsten Voraussetzungen der einfaktoriellen ANOVA. Messungen sind dann unabhängig, wenn der Messwert einer Gruppe nicht abhängt oder beeinflusst wird durch den Messwert aus einer anderen Gruppe. Gewinnt man seine Messdaten von Menschen, ist diese Bedingung meistens bereits erfüllt, wenn kein Teilnehmer aus einer Gruppe auch in einer anderen Gruppe vorkommt. Daher befinden sich in jeder Gruppe unterschiedliche Personen. Auch wenn man Personen nach Geschlecht, Alter oder Bildungsabschluss aufteilt, wären die Personen in jeder Gruppe andere.
    Hat man allerdings ein Versuchsdesign bei dem dieselbe Person mehrmals gemessen wurde, sollte man eher zu einer einfaktoriellen ANOVA mit Messwiederholung greifen.
  2. Die abhängige Variable ist mindestens intervallskaliert. Das Skalenniveau ist wichtig, da die Formel der ANOVA vorsieht, dass wir verschiedene mathematische Operationen durchführen, die wir erst ab einer intervallskalierten Variablen durchführen dürfen. Beispiele für intervallskalierte Variablen sind: Zeit (z.B. Alter, Reaktionszeiten, Zeitmessungen), Größe, Gewicht, Temperatur, Geld, IQ, Anzahl von … (z.B. Studenten, Kaffee pro Tag), Konzentrationen (z.B. Hormone, Mineralien, Eiweiße).
  3. Die unabhängige Variable ist unabhängig und nominalskaliert. Wir erwarten, dass unsere unabhängige Variable kategorial ist, daher nominalskaliert. Die Einteilung kann auf natürliche Weise zustande gekommen sein (wie beispielsweise bei Geschlecht) oder künstlich (wie beispielsweise die Einteilung in verschiedene Altersgruppen). Wichtig ist allerdings, dass die Gruppen unabhängig voneinander sind.
  4. Die abhängige Variable ist für jede Gruppe (etwa) normalverteilt. Als parametrisches Verfahren liefert die einfaktorielle ANOVA die am besten zu interpretierenden Ergebnisse, wenn die abhängige Variable in jeder Gruppe etwa normalverteilt ist. Allerdings gibt es bei dieser Regel viele Ausnahmen, die zu beachten sind. Viele Textbücher empfehlen zwar sofort den Einsatz anderer statistischer Verfahren, sollte diese Voraussetzung nicht erfüllt sein, jüngere Simulationsstudien zeigen hier allerdings, dass die einfaktorielle ANOVA robust ist gegen die Verletzung dieser Annahme.
  5. Es befinden sich keine Ausreißer in den Gruppen. Die meisten parametrischen Statistiken sind nur wenig robust gegenüber Ausreißern, also Werte die sich weit entfernt von der Masse der anderen Werten befinden. Ein einziger Ausreißer kann bereits ein sonst signifikantes Ergebnis nicht signifikant werden lassen. Daher ist es besonders wichtig, die Daten auf Ausreißer zu überprüfen.
  6. Die Varianzen in jeder Gruppe sollten (etwa) gleich sein (Homoskedastizität). Die Varianz spielt eine große Rolle bei der ANOVA (immerhin steht das V in ANOVA für Varianz). Liegen die Varianzen der einzelnen Gruppe zu weit voneinander entfernt, erhöht sich die Wahrscheinlichkeit, einen Fehler erster Art zu begehen. Allerdings gibt es auch hier Korrekturmöglichkeiten, sollte diese Voraussetzung nicht erfüllt sein.

Hypothesen

Wie jeder statistischer Test, hat auch die einfaktorielle ANOVA eine H0 und H1 Hypothese, nach denen sich die Angabe der Signifikanz richtet.

Die Nullhypothese besagt, dass es keinen Unterschied zwischen den Mittelwerten der einzelnen Gruppen gibt. Daher: es existiert kein Effekt.

\(H_0 = \mu_1 = \mu_2 = \mu_3 = \cdots = \mu_k\)

Die Alternativhypothese hingegen besagt, dass sich mindestens zwei Gruppen voneinander unterscheiden. Manchmal wird auch noch die Varianzhomogenität (\(\sigma_1 = \sigma_2 = \sigma_3 = \cdots = \sigma_k\)) als separate Hypothese angefügt.

Die Signifikanz, die berechnet wird (der p-Wert) bedeutet daher, wie wahrscheinlich die beobachteten Mittelwertsunterschiede sind, wenn wir von zufälligen Effekten ausgehen. Ein geringer p-Wert bedeutet daher, dass es höchst unwahrscheinlich ist, dass die beobachteten Unterschiede allein durch Zufall zustande gekommen sind.