Multiple lineare Regression: Modellanpassung bestimmen
Nachdem wir die Voraussetzung überprüft haben, bestimmen wir in diesem Artikel ,wir gut unser Modell tatsächlich ist. Dazu gehört, wie gut unser Modell unsere beobachteten Werte vorhersagen kann.
Multipler Korrelationskoeffizient (R)
Der multiple Korrelationskoeffizient kann interpretiert werden wie der einfache Korrelationskoeffizient von Pearson. Er wird mit einem großen R geschrieben, um ihn von Pearsons Korrelationskoeffizienten abzugrenzen, für den ein kleines r verwendet wird. Der multiple Korrelationskoeffizient ist lediglich die Korrelation zwischen den vorhergesagten Werten des Modells PRE_1 und den tatsächlichen Werten des Kriteriums gehalt.
Der Korrelationskoeffizient kann Werte zwischen -1 und +1 annehmen, wobei ein Wert von +1 einen perfekten positiven Zusammenhang zwischen beiden Variablen beschreibt, während eine Korrelation von −1 einen perfekten negativen (inversen) Zusammenhang (Antikorrelation) beschreibt. Eine Korrelation von Null bedeutet, dass kein Zusammenhang besteht.
Der Korrelationskoeffizient ist einfach und unkompliziert zu interpretieren. Am häufigsten werden die Richtlinien von Cohen (1988) für die Interpretation verwendet, wie sie unten stehen.
Interpretation von R nach Cohen (1988, S. 79 ff.) |
|
---|---|
geringe / schwache Korrelation | |R| = .10 |
mittlere / moderate Korrelation | |R| = .30 |
große / starke Korrelation | |R| = .50 |
Wir haben nach Cohen (1988) eine starke Korrelation von .567 zwischen den vorhergesagten und den tatsächlichen Werten, was für ein gutes Modell spricht. Der multiple Korrelationskoeffizient ist allerdings kein gebräuchliches Maß, um die Güte des Modells zu bestimmen. Dafür wird meist die erklärte Varianz (R²) verwendet.
Erklärte Varianz / Multipler Determinationskoeffizient
Wesentlich gebräuchlicher als der multiple Korrelationskoeffizient ist der multiple Determinationskoeffizient R². Er ist (richtig geraten ) einfach nur das Quadrat des multiplen Korrelationskoeffizienten. Gleichzeitig gibt er Aufschluss über die aufgeklärte Varianz des Modells.
Bei Regression versuchen wir eine Gerade zu finden, die möglichst gut durch eine Punktewolke geht, sodass die Abweichungen zu den Punkten (die Residuen) möglichst klein sind. Je geringer diese Abweichungen sind, desto größer die Varianzaufklärung. (So zumindest die Theorie. Eine kritische Betrachtung findet sich bei Achen, 1990.)
Cohen (1988) hat auch für den multiplen Determinationskoeffizienten (und für so ziemlich jedes andere gebräuchliche statistische Maß) Faustregeln aufgestellt.
Interpretation von R² nach Cohen (1988, S. 412 ff.) |
|
---|---|
geringe / schwache Varianzaufklärung | |R²| = .02 |
mittlere / moderate Varianzaufklärung | |R²| = .13 |
hohe / starke Varianzaufklärung | |R²| = .26 |
Unser Modell hat mit einem R² von .321 nach Cohen (1988) eine hohe Varianzaufklärung.
Korrigiertes R²
Das einfache R² hat den Nachteil, dass es immer einen positiven Bias hat und damit die aufgeklärte Varianz überschätzt. Das korrigierte R² versucht diesen Bias wiederum zu beseitigen. Daher wird das korrigierte R² auch immer kleiner als das normale R² sein.
Das korrigierte R² kann ebenfalls nach den Richtlinien von Cohen (1988) für das unkorrigierte R² interpretiert werden. Nach Cohen (1988) wäre die Varianzaufklärung auch nach der Korrektur hoch. Dies könnten wir so berichten:
Das Modell hat mit einem R² = .32 (korrigiertes R² = .30) eine hohe Anpassungsgüte (Cohen, 1988).
English
The R² for the overall model was .32 (adjusted R² = .30), indicative for a high goodness-of-fit according to Cohen (1988).
Signifikanz des Modells
Als letztes können wir überprüfen, ob die Prädiktoren signifikant unser Kriterium vorhersagen. Diese Information findet sich in der Tabelle ANOVA.
Ob unser Ergebnis signifikant ist, zeigt sich in der letzten Spalte Sig. Wir haben unser Signifikanzniveau bei 5 % festgelegt. Das heißt, dass wir einen signifikanten Unterschied annehmen, wenn der Wert in der Spalte Sig. kleiner als 5 % bzw. ,05 ist. Ein Wert von genau 5 % oder mehr würde entsprechend bedeuten, dass das Ergebnis nicht signifikant ist. Wir überprüfen, ob sich der multiple Korrelationskoeffizient signifikant von 0 unterscheidet oder nicht.
In unserem Fall haben wir ein Ergebnis von .000, was ein gerundetes Ergebnis ist und bedeutet, dass der p-Wert kleiner als .0005 ist, also p < .0005 (entsprechend der APA Richtlinien würden wir allerdings p < .001 schreiben). (Wir können auch den genauen, ungerundeten p-Wert sehen, wenn wir in SPSS zuerst doppelt auf die Tabelle klicken und noch einmal doppelt auf den Wert.)
Wir könnten dieses Ergebnis so berichten:
Die Prädiktoren Ausbildungzeit, Geschlecht und Erfahrung sagen statistisch signifikant das Kriterium Gehalt (pro Stunde) voraus, F(3, 96) = 15.15, p < .001.
English
Education, sex and experience were able to statistically significant predict hourly wage, F(3, 96) = 15.15, p < .001.
Der wichtigste Teil dieser Angabe ist die Zeile: F(3, 96) = 15.15, p < .001. Sie setzt sich aus Werten der Tabelle der ANOVA zusammen und zwar so:
ANOVAa |
||||||
Modell | Quadratsumme | df | Mittel der Quadrate | F | Sig. | |
1 | Regression | 295,205 | 3 | 98,402 | 15,153 | ,000b |
Nicht standardisierte Residuen | 623,418 | 96 | 6,494 | |||
Gesamt | 918,623 | 99 | ||||
a. Abhängige Variable: Gehalt pro Stunde | ||||||
b. Einflußvariablen : (Konstante), Ausbildung (in Jahren), Geschlecht, Erfahrung (in Jahren) |
F(3, 96) = 15.15, p < .001
F(dfZähler, dfNenner) = F-Wert, p = Signifikanz
Aufschlüsselung der einzelnen Werte
- F: Das F gibt an, dass das Testverfahren eine F-Statistik benutzt, der eine F-Verteilung zugrunde liegt
- (3, 96): Die F-Verteilung hat zwei Parameter, die ihr Aussehen und damit auch die Grenze der Signifikanz beeinflussen. Dies sind diese beiden Parameter.
- 15.15: Der F-Wert ist der Wert, der in der F-Verteilung nachgeschlagen wird um den p-Wert zu berechnen
- ,000: p-Wert, nach dem sich die Signifikanz richtet
Literaturverzeichnis
- Achen, C. H. (1990). What Does “Explained Variance” Explain?: Reply. Political Analysis, 2(1), 173–184. doi:10.
1093/ pan/ 2. 1. 173 - Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, N.J.: L. Erlbaum Associates.