Blog

Residuen normalverteilt?! Warum?

Jeder, der schon einmal eine Regression oder eine ANOVA durchgeführt hat, weiß, dass man sich die Residuen seines Modells anschauen muss, um sicher zu sein, dass das Modell überhaupt interpretierbar ist. Aber warum? Es gibt hierfür natürlich (wie immer) eine lange und komplizierte mathematische Erklärung, aber wir werden uns hier nicht mit Formeln und Beweise behelfen.

Viele Autoren schreiben auch (fälschlicherweise), dass nicht die Residuen, sondern die Prädiktoren normalverteilt sein müssen. Dies ist nicht der Fall! Sind die Prädiktoren allerdings normalverteilt, so sind es auch immer die Residuen. Der umgekehrte Fall ist nur wahr, wenn Homoskedastizität gegeben ist. Da es einfacher ist die Prädiktoren als die Residuen auf Normalverteilung zu untersuchen, wird dies meist auch so gelehrt.

Das Modell

In Vorlesungen werden ANOVA und Regression meist unterschiedlich behandelt, aber im Prinzip sind beide ein und dasselbe. Deshalb haben beide auch ähnliche Voraussetzungen und deshalb gilt dieser Artikel auch für beide. In beiden Modellen haben wir:

Antwort = (Prädiktoren + Konstante) + Fehler

Dies können wir auch anders ausdrücken:

Antwort = Deterministisch + Stochastisch

oder einfacher ausgedrückt:

Antwort = Vorhersagbar + Unvorhersagbar

Der deterministische Teil

Der deterministische Teil ist der Teil, den wir gemessen haben, der Teil, der durch die Prädiktoren in unserem Modell erklärt wird. Er ist nicht zufällig, da wir davon ausgehen, dass es eine gewisse Gesetzmäßigkeit gibt, die der Antwort zugrunde liegt. Diese Gesetzmäßigkeit wollen wir finden.

Der stochastische Teil

Der stochastische Teil entspricht unserem Fehler – also dem Teil, der für uns unvorhersagbar ist. Egal wie gut unser Modell, unsere Messung, unsere Prädiktoren sein mögen, wir werden Fehler machen. Immer. Wir können niemals wirklich die Antwort vollständig durch den deterministischen Teil erklären. In Experimenten mit Menschen könnte ein Fehler beispielsweise eine Antworttendenz sein. Wir wollen wissen, wie oft ein Mensch Alkohol trinkt, aber die Person gibt an weniger zu trinken. Auch Fragebögen, die Persönlichkeitseigenschaften erfassen unterliegen Antworttendenzen, wie sozialer Erwünschtheit. Personen stellen sich oft besser dar, als sie objektiv sind. Dies alles verfälscht unsere Messung.

Der stochastische Teil ist damit die Differenz zwischen dem erwarteten Wert und dem tatsächlichen Wert. Dieser Wert darf nicht vorhersagbar sein, sonst wäre er deterministisch!

Die Idee hinter der Regression (und der ANOVA) ist, dass unser Modell so gut ist, die Antwort durch die Prädiktoren vorherzusagen, dass alles andere zum stochastischen Teil gehört. Wenn wir ein Muster in den Fehlern sehen (d. h. wenn wir durch die Residuen unsere Antwort vorhersagen können), fehlt unserem Modell weitere Information zur Vorhersage.

Residuendiagramm

Ein Residuendiagramm ist eine einfache Möglichkeit die Residuen zu visualisieren. Existiert in den Residuen ein Muster (sind sie also nicht normal verteilt), so kann man es meistens schnell in dem Residuendiagramm sehen. Dies kann man sich auch mit einer einfachen Analogie vorstellen: wenn man Roulette spielt, sollte man nicht in der Lage sein, die Zahlen vorherzusagen (auch wenn man das gerne möchte). Man kann sich aber die gespielten Zahlen anschauen, um zu sehen, ob ein Muster dahin vorhanden ist.

Diese Analogie kann man auch auf Regressionsmodelle übertragen: man sollte nicht in der Lage sein, auch nur ein einziges Residum vorherzusagen. Wenn in den Residuen ein Muster vorhanden ist, das es uns erlaubt, sie vorherzusagen, deutet dies darauf hin, dass das Regressionsmodell einen systematischen Fehler hat.

Beispielplots

Wie sieht aber ein systematischer Fehler aus? Generell kann man einen systematischen Fehler an einem Muster in dem Residuendiagramm erkennen. Es gibt nicht das eine Muster, sondern vielmehr ist jedes Muster verdächtig. Unten sind zwei Beispiele für nicht-zufällig verteilte Residuen. Beide sind auch gleichzeitig nicht normalverteilt.

 

Residuen sollten also weder systematisch hohe oder niedrige Werte annehmen und sich gleichmäßig um den Wert Null und über die gesamte Spannweite der unabhänigen Variable verteilen. Wenn wir ein Regressionsmodell verwenden, sollten die Residuen auch normalverteilt sein. Ein Beispiel für Residuen, die diese Kriterien erfüllen, ist folgendes:

Gründe für nicht-normalverteilte Residuen

Warum sind Residuen nicht normalverteilt bzw. nicht zufällig? Das Muster in den Residuen deutet darauf hin, dass der deterministische Teil (Prädiktoren) nicht alle vollständig ist und ein Teil der erklärenden Information in die Residuen übergeht und dort das erkennbare Muster verursacht.

  • Ein fehlende erklärende Variable (beispielsweise ein Prädiktor oder eine Kovariate)
  • Eine fehlende Interaktion zwischen Prädiktoren, die bereits im Modell vorhanden sind

Falls die Residuendiagramm ähnlich der Kurve einer einfachen Funktion (x², x³, …) aussieht, ist es auch möglich, dass ein entsprechender Term im Regressionsmodell fehlt.

Zusätzlich zu den beiden Punkten oben, gibt es noch zwei weitere Punkte die man beachten sollte:

  • Korrelation der Residuen. Korrelieren die Residuen, bedeutet dies, dass unserem Modell noch mehr Informationen fehlt. Diese Information bezieht sich meistens auf ein oder mehrere erklärende Variablen, die bestenfalls dem Modell noch hinzugefügt werden sollten. Die Korrelation der Residuen sollte sich immer um Null herum befinden.
  • Autokorrelation. Autokorrelation ist gegeben, wenn benachbarte Residuen mit einander korrelieren. Ist Autokorrelation vorhanden, könnten wir ein vorheriges Residuum verwenden um das nächste vorherzusagen. Daher ist Autokorrelation auch primär bei Zeitreihen von Bedeutung. Bei vorhandener Autokorrelation ist das Regressionsmodell nicht mehr das beste Modell zur Modellierung der Daten. Autokorrelation erster Ordnung wird generell wird dem Durbin-Watson-Test überprüft; der Breusch-Godfrey-Test ist dagegen flexibler, hat eine höhere statische Power und kann auch für Autokorrelation höherer Ordnung verwendet werden.