Einfaktorielle ANOVA: Ausreißer
Ausreißer sind eine weitere mögliche Quelle für Verzerrungen bei der statistischen Analysen. Der Einfachheit halber, können wir uns die einfaktorielle ANOVA wie einen ungepaarten t-Test vorstellen – die Konsequenzen von Ausreißern sind dieselben für beide Verfahren. Der t-Test verwendet nicht nur den Mittelwert, sondern aus die Standardabweichung für die Berechnung des t-Werts und damit auch für die Berechnung der Signifikanz (p-Wert).
Damit ein t-Test (und auch eine einfaktorielle ANOVA) schnell signifikant wird, muss der Unterschied zwischen den Gruppen möglichst groß sein, die Varianz bzw. Standardabweichung innerhalb der Gruppen aber klein. Beispielhaft können wir uns eine Studie mit einem neuen blutdrucksenkenden Medikament vorstellen: Am Anfang wählen wir Patienten anhand ihres Bluthochdrucks aus. Wir haben damit eine relativ homogene Gruppe mit Personen, deren Blutdruck innerhalb eines gewissen Bereichs liegt (geringe Varianz). Unser Ziel ist es, den Blutdruck möglichst weit zu senken – und das für alle Personen etwa im selben Maß. Damit hätten wir wieder eine Gruppe von Personen mit einem relativ homogenen Blutdruck – aber geringer als noch zuvor. Würden unsere Messungen so ausfallen, würden wir mit hoher Sicherheit ein signifikantes Ergebnis erhalten.
Anders wäre es, wenn unser Medikament den Blutdruck nur bei manchen Personen senken würde, bei einigen vielleicht gar nicht und es bei anderen sogar die umgekehrte Wirkung hätte und den Blutdruck erhöhen würde. In diesem Fall wäre die Varianz bei der zweiten Messung hoch und damit auch der Fehler der Messung. In diesem Fall würden wir kein signifikantes Ergebnis erwarten.
Ausreißer für die einfaktorielle ANOVA mit SPSS überprüfen
Um Ausreißer bestimmen zu können, benötigen wir die Ausgabe aus der explorativen Datenanalyse, die wir durch Testen auf Normalverteilung im letzten Abschnitt erstellt haben. Mit der Ausgabe wurde ein Boxplot der Faktorstufen erstellt. Für unseren Beispieldatensatz erhalten wir folgendes Diagramm:
Jeder Datenpunkt, der mehr als das 1,5-Fache des Interquartilsabstands ist, wird durch einen Kreis, zusammen mit der Fallnummer, auf dem Boxplot markiert. Diese Kreise gelten als leichte Ausreißer. Werte, die mehr als 3-Fache des Interquartilsabstands sind, werden mit einem Sternchen (∗) gesondert markiert, wie im Beispiel unterhalb. Solche Ausreißer gelten als extreme Ausreißer. Unser Datensatz enthält insgesamt drei leichte Ausreißer (Fallnummern 30, 74 und 90).
Was tun mit Ausreißern?
Wenn unsere Daten Ausreißer enthalten, haben wir einige Möglichkeiten, wie wir weiter machen.- Ausreißer in dem Datensatz lassen
- Einen nicht-parametrischen Test stattdessen berechnen
- Die Versuchsperson von der weiteren Analyse ausschließen
- Den Wert durch einen anderen, weniger extremen Wert ersetzen
- Systematisch die höchsten und niedrigsten Werte aus dem Datensatz entfernen (Winsorizing und Trimming)