Multiple Lineare Regression

Multiple lineare Regression: Modellanpassung bestimmen

Nachdem wir die Voraussetzung überprüft haben, bestimmen wir in diesem Artikel ,wir gut unser Modell tatsächlich ist. Dazu gehört, wie gut unser Modell unsere beobachteten Werte vorhersagen kann.

Multipler Korrelationskoeffizient (R)

Der multiple Korrelationskoeffizient kann interpretiert werden wie der einfache Korrelationskoeffizient von Pearson. Er wird mit einem großen R geschrieben, um ihn von Pearsons Korrelationskoeffizienten abzugrenzen,  für den ein kleines r verwendet wird. Der multiple Korrelationskoeffizient ist lediglich die Korrelation zwischen den vorhergesagten Werten des Modells intervallskalierte VariablePRE_1 und den tatsächlichen Werten des Kriteriums intervallskalierte Variablegehalt.

Der Korrelationskoeffizient kann Werte zwischen -1 und +1 annehmen, wobei ein Wert von +1 einen perfekten positiven Zusammenhang zwischen beiden Variablen beschreibt, während eine Korrelation von −1 einen perfekten negativen (inversen) Zusammenhang (Antikorrelation) beschreibt. Eine Korrelation von Null bedeutet, dass kein Zusammenhang besteht.

Multiple Regression: multipler Korrelationskoeffizient

Der Korrelationskoeffizient ist einfach und unkompliziert zu interpretieren. Am häufigsten werden die Richtlinien von Cohen (1988) für die Interpretation verwendet, wie sie unten stehen.

Interpretation von R nach Cohen (1988)
geringe / schwache Korrelation |R| = .10
mittlere / moderate Korrelation |R| = .30
große / starke Korrelation |R| = .50

Wir haben nach Cohen (1988) eine starke Korrelation von .567 zwischen den vorhergesagten und den tatsächlichen Werten, was für ein gutes Modell spricht. Der multiple Korrelationskoeffizient ist allerdings kein gebräuchliches Maß, um die Güte des Modells zu bestimmen. Dafür wird meist die erklärte Varianz (R²) verwendet.

Erklärte Varianz / Multipler Determinationskoeffizient

Wesentlich gebräuchlicher als der multiple Korrelationskoeffizient ist der multiple Determinationskoeffizient R². Er ist (richtig geraten ;-)) einfach nur das Quadrat des multiplen Korrelationskoeffizienten. Gleichzeitig gibt er Aufschluss über die aufgeklärte Varianz des Modells.

Bei Regression versuchen wir eine Gerade zu finden, die möglichst gut durch eine Punktewolke geht, sodass die Abweichungen zu den Punkten (die Residuen) möglichst klein sind. Je geringer diese Abweichungen sind, desto größer die Varianzaufklärung. (So zumindest die Theorie. Eine kritische Betrachtung findet sich bei Achen, 1990.)

Multiple Regression: multipler Determinationskoeffizient

Cohen (1988) hat auch für den multiplen Determinationskoeffizienten (und für so ziemlich jedes andere gebräuchliche statistische Maß) Faustregeln aufgestellt.

Interpretation von  nach Cohen (1988)
geringe / schwache Varianzaufklärung || = .02
mittlere / moderate Varianzaufklärung || = .13
hohe / starke Varianzaufklärung || = .26

Unser Modell hat mit einem R² von .321 nach Cohen (1988) eine hohe Varianzaufklärung.

Korrigiertes R²

Das einfache R² hat den Nachteil, dass es immer einen positiven Bias hat und damit die aufgeklärte Varianz überschätzt. Das korrigierte R² versucht diesen Bias wiederum zu beseitigen. Daher wird das korrigierte R² auch immer kleiner als das normale R² sein.

Multiple Regression: korrigierter multipler Determinationskoeffizient

Das korrigierte R² kann ebenfalls nach den Richtlinien von Cohen (1988) für das unkorrigierte R² interpretiert werden. Nach Cohen (1988) wäre die Varianzaufklärung auch nach der Korrektur hoch. Dies könnten wir so berichten:

Deutsch
Das Modell hat mit einem R² = .32 (korrigiertes R² = .30) eine hohe Anpassungsgüte (Cohen, 1988).
English
The R² for the overall model was .32 (adjusted R² = .30), indicative for a high goodness-of-fit according to Cohen (1988).

Signifikanz des Modells

Als letztes können wir überprüfen, ob die Prädiktoren signifikant unser Kriterium vorhersagen. Diese Information findet sich in der Tabelle ANOVA.

Multiple Regression: ANOVA

Ob unser Ergebnis signifikant ist, zeigt sich in der letzten Spalte Sig. Wir haben unser Signifikanzniveau bei 5 % festgelegt. Das heißt, dass wir einen signifikanten Unterschied annehmen, wenn der Wert in der Spalte Sig. kleiner als 5 % bzw. ,05 ist. Ein Wert von genau 5 % oder mehr würde entsprechend bedeuten, dass das Ergebnis nicht signifikant ist. Wir überprüfen, ob sich der multiple Korrelationskoeffizient signifikant von 0 unterscheidet oder nicht.

In unserem Fall haben wir ein Ergebnis von .000, was ein gerundetes Ergebnis ist und bedeutet, dass der p-Wert kleiner als .0005 ist, also p < .0005 (entsprechend der APA Richtlinien würden wir allerdings p < .001 schreiben). (Wir können auch den genauen, ungerundeten p-Wert sehen, wenn wir in SPSS zuerst doppelt auf die Tabelle klicken und noch einmal doppelt auf den Wert.)

Wir könnten dieses Ergebnis so berichten:

Deutsch
Die Prädiktoren Ausbildungzeit, Geschlecht und Erfahrung sagen statistisch signifikant das Kriterium Gehalt (pro Stunde) voraus, F(3, 96) = 15.15, p < .001.
English
Education, sex and experience were able to statistically significant predict hourly wage, F(3, 96) = 15.15, p < .001.
Auch wenn SPSS in der Spalte Signifikanz einen Wert von .000 angibt, ist dies nur ein gerundeter Wert (Signifikanzen können weder die Werte 0 oder 1 annehmen, sondern liegen immer dazwischen.) Bei einem Wert von .000 würden wir dies als p < .001 schreiben. Das APA-Handbuch empfiehlt ansonsten die Angabe genauer p-Werte (gerundet auf drei Nachkommastellen).

Der wichtigste Teil dieser Angabe ist die Zeile: F(3, 96) = 15.15, p < .001. Sie setzt sich aus Werten der Tabelle der ANOVA zusammen und zwar so:

ANOVAa

Modell Quadratsumme df Mittel der Quadrate F Sig.
1 Regression 295,205 3 98,402 15,153 ,000b
Nicht standardisierte Residuen 623,418 96 6,494
Gesamt 918,623 99
a. Abhängige Variable: Gehalt pro Stunde
b. Einflußvariablen : (Konstante), Ausbildung (in Jahren), Geschlecht, Erfahrung (in Jahren)

 F(396) = 15.15, p < .001

 F(dfZähler, dfNenner) = F-Wert, p = Signifikanz

Aufschlüsselung der einzelnen Werte

  • F: Das F gibt an, dass das Testverfahren eine F-Statistik benutzt, der eine F-Verteilung zugrunde liegt
  • (3, 96): Die F-Verteilung hat zwei Parameter, die ihr Aussehen und damit auch die Grenze der Signifikanz beeinflussen. Dies sind diese beiden Parameter.
  • 15.15: Der F-Wert ist der Wert, der in der F-Verteilung nachgeschlagen wird um den p-Wert zu berechnen
  • ,000: p-Wert, nach dem sich die Signifikanz richtet

Literaturverzeichnis

  1. Achen, C. H. (1990). What Does “Explained Variance” Explain?: Reply. Political Analysis, 2(1), 173–184. doi:10.1093/pan/2.1.173
  2. Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, N.J.: L. Erlbaum Associates.