Multiple Lineare Regression: Voraussetzungen
Wie bei den meisten statistischen Verfahren, müssen auch bei der multiple linearen Regression gewisse Voraussetzungen erfüllt sein, damit wir die Ergebnisse interpretieren können. Eine Verletzung einer dieser Voraussetzungen führt meistens dazu, dass die Genauigkeit unserer Vorhersage gemindert wird. Für multiple lineare Regression betrachten wir die folgenden sechs Voraussetzungen:
- Lineare Beziehung zwischen den Variablen.
Wie der Name schon sagt: multiple lineare Regressionen, untersucht die Stärke linearer Zusammenhänge. Stehen zwei Variablen beispielsweise in einem perfekten quadratischen Verhältnis zueinander, wird die multiple lineare Regression zwar einen Zusammenhang feststellen, allerdings nicht von der Stärke, die effektiv betrachtet besteht. Multiple lineare Regression unterschätzt nicht-lineare (d.h. kurvilineare) Zusammenhänge. - Keine Ausreißer.
Ausreißer sind ein Problem für die meisten parametrischen statistischen Verfahren. Ein einzelner Ausreißer kann bereits einen sonst signifikanten Trend zunichte machen. Eines der wichtigsten und bedauerlicherweise am wenigsten eingesetzten Mitteln ist die einfache grafische Betrachtung der Daten. Hier werden Ausreißer sofort sichtbar. SPSS bietet zusätzlich noch die Option bei Plots Werte zu markieren, die entsprechend weit von dem Mittel der übrigen Daten entfernt liegen (also Ausreißer). - Unabhängigkeit der Residuen.
Sind die Residuen nicht unabhängig, sprechen wir von Autokorrelation. Autokorrelation ist ein weitläufiges Problem, aus vielen Gründen. Die meisten statistischen Testverfahren gehen von einer zufälligen Stichprobe aus, bei der nicht nur jedes Element mit gleicher Wahrscheinlichkeit in die Auswahl gelangen kann, sondern auch jede Kombinationen von Elementen. Autokorrelation vermindert die Aussagekraft unserer Ergebnisse. Allerdings, wie wir sehen werden, kann Autokorrelation vorliegen, ohne dass wir sie berücksichtigen müssen. - Keine Multikolinearität.
Bei Multikolinearität korrelieren zwei oder mehr der Prädiktoren stark miteinander. Dies bedeutet, dass eine Variable mit hoher Genauigkeit aus der anderen vorhergesagt werden kann. Durch Multikolinearität wird die Berechnung der Regressionkoeffizienten erschwert und die Interpretation des Modells nicht mehr eindeutig. - Homoskedastizität (Gleichheit der Varianzen) der Residuen.
Ähnlich wie andere statistische Modelle, erwartet auch die multiple lineare Regression, dass die Varianz der Residuen gleich ist. Ist diese Voraussetzung verletzt, macht das Modell für einen Abschnitt der Daten genauere Vorhersagen als für einen anderen. - Normalverteilung der Residuen.
Die Residuen sollten nicht nur unabhängig und homoskedastisch verteilt sein, sondern auch (etwa) normalverteilt. Normalverteilte Residuen erlauben eine validere Interpretation der Ergebnisse und eine verlässliche Berechnung von Konfidenzintervallen.
Auf den folgenden Seiten, werden wir Schritt für Schritt die einzelnen Voraussetzungen mit SPSS überprüfen und zeigen was getan werden kann, wenn eine Voraussetzung verletzt worden sein sollte.
Zurück
Multiple Lineare Regression in SPSS
Weiter
Multiple Lineare Regression: Beispieldatensatz