Multiple lineare Regression: Regressionskoeffizienten interpretieren
Im letzten Schritt interpretieren wir noch die Regressionskoeffizienten. Sie finden sich in der Ausgabe von SPSS in der Tabelle Koeffizienten.
Regressionsgleichung
Aus den Regressionskoeffizienten können wir die Regressionsgleichung aufstellen. Die Regression erlaubt es uns, ein Modell aufzustellen, mit dem wir Werte auch vorhersagen können, für Parameter, die nicht Teil unserer Daten waren. Mit Regression können wir untersuchen, ob einem Phänomen eine Gesetzmäßigkeit zugrunde liegt und diese quantifizieren. Diese Quantifizierung erfolgt über die Regressionsgleichung. Für unser Modell sieht die Regressionsgleichung so aus:
gehalt = 0.185·erfahrung + 1.669·geschlecht + 0.839·ausbildung − 6.319
Die Koeffizienten können wir der Tabelle mit den Koeffizienten entnehmen:
Koeffizientena |
||||||
Modell | Nicht standardisierte Koeffizienten | Standardisierte Koeffizienten | T | Sig. | ||
RegressionskoeffizientB | Standardfehler | Beta | ||||
1 | (Konstante) | -6,319 | 2,152 | -2,936 | ,004 | |
Erfahrung (in Jahren) | ,185 | ,134 | ,119 | 1,388 | ,168 | |
Geschlecht | 1,669 | ,516 | ,274 | 3,232 | ,002 | |
Ausbildung (in Jahren) | ,839 | ,140 | ,512 | 5,993 | ,000 | |
a. Abhängige Variable: Gehalt pro Stunde |
gehalt = 0.185·erfahrung + 1.669·geschlecht + 0.839·ausbildung − 6.319
Konstante in der Regressionsgleichung
Die Konstante in der Regressionsgleichung ist für die Analyse von wenig Interesse. Falls wir die standardisierten Koeffizienten interpretieren, fällt die Konstante komplett weg, da sie durch die Standardisierung auf Null gesetzt wurde.
Interpretation von kontinuierlichen Prädiktoren
In unserem Regressionsmodell haben wir zwei kontinuierliche Prädiktoren: erfahrung und ausbildung. Das Kriterium in unserem Modell ist gehalt. Nehmen wir als Beispiel die Variable ausbildung. Sie hat einen Regressionskoeffizienten von 0,839. Ausbildung wurde in Jahren gemessen und Gehalt in Euro. Der Regressionskoeffizient von 0,839 bedeutet, dass für jedes Jahr mehr Ausbildung, das Gehalt pro Stunde um 0,839 Euro ansteigt.
Analog dazu können wir auch Erfahrung interpretieren: Für jedes Jahr mehr Erfahrung steigt das Gehalt pro Stunde um 0,185 Euro an.
Regresionskoeffizienten können auch negativ sein. Die Interpretation erfolgt ähnlich wie bei einem positiven Vorzeichen, nur in umgekehrte Richtung. Wäre der Regressionskoeffizient für Ausbildung beispielsweise -0,839 gewesen, wäre das Gehalt pro Stunde für jedes Jahr mehr Ausbildung um 0,839 Euro gefallen.
Interpretation von dichotomen Prädiktoren
geschlecht ist ein dichotomer Prädiktor in unserem Regressionsmodell. Bei dichotomen Prädiktoren oder Dummy-Variablen ist die Interpretation abhängig von der Wahl der Referenzkategorie. Die Referenzkategorie hat den Wert 0 zugewiesen bekommen und ist in unserem Fall das weibliche Geschlecht. Männer haben also in unserem Beispieldatensatz den Wert 1 und Frauen den Wert 0. Der Regressionskoeffizient von 1,669 bedeutet, dass Männer 1,669 Euro pro Stunde mehr verdienen, unabhängig von allen anderen Faktoren.
Hätten wir als Referenzkategorie Männer gewählt und damit Männern den Wert 0 und Frauen den Wert 1 zugewiesen, dann hätten wir einen Regressionskoeffizient für Geschlecht von -1,669 erhalten. Es hätte sich also lediglich das Vorzeichen verändert.
Standardisierte Koeffizienten
Die Werte in der Spalte Standardisierte Koeffizienten (Betagewichte) sind die dieselben wie in RegressionskoeffizientB, nur dass sie standardisiert wurden. Dies erlaubt es uns, die Werte direkt miteinander zu vergleichen. Auch wenn Geschlecht den größten absoluten Einfluss auf den Gehalt hat, ist das Betagewicht von Geschlecht kleiner als für Ausbildung in Jahren.
Standardisierung entfernt die Einheiten der Maße aller Variablen. Durch die Standardisierung können Variablen einfacher miteinander verglichen werden. Wenn wir uns zusätzlich zu den standardisierten Koeffizienten noch die letzte Spalte Sig. anschauen, stellen wir fest, dass die Größe des Betagewichts mit dem Signifikanzniveau zusammenhängt.
Da Betagewichte standardisiert wurden, geben sie Veränderungen in Standardabweichungen an. Das Betagewicht für den Prädiktor ausbildung bedeutet beispielsweise, dass, wenn sich die Variable ausbildung um eine Standardabweichung verändert, sich das Kriterium Gehalt um 0,512 Standardabweichungen verändert. Betagewichte können Werte zwischen -∞ und +∞ annehmen, allerdings liegen ihre Werte meist näher an einem Wertebereich zwischen -1 und +1. Bei größeren Abweichungen hiervon korrelieren die Variablen meist stark untereinander (Multikollinearität).
Standardisierte Koeffizienten haben allerdings auch Kritiker. Gemäß ihnen können standardisierte Koeffizienten irreführend sein. Da durch die Standardisierung die Einheit entfernt wird, gibt ein Betagewicht nur die Stärke der Beziehung relativ zu den Verteilungen der Variablen an. Damit könnte ein Bias durch einen Stichprobenfehler entstehen (ein Fehler der entsteht, wenn wir nicht die gesamte Grundgesamtheit befragen, sondern nur einen Teil, dann aber den Mittelwert und die Standardabweichung dieser kleinen Stichprobe nehmen um die Variablen zu standardisieren). Darüber hinaus sollten die Verteilungen der standardisierten Variablen etwa gleich sein, damit sie sinnvoll interpretiert werden können.
Signifikanz der Koeffizienten
In der letzten Spalte der Tabelle Koeffizienten findet sich die Spalte Sig. Sie gibt an, ob sich die Koeffizienten signifikant von Null unterscheiden. Ist der Wert hier unter .05 können wir davon ausgehen, dass ein linearer Zusammenhang tatsächlich existiert. In unserem Beispiel haben wir zwei signifikante Prädiktoren: geschlecht und ausbildung (unten fett markiert). erfahrung ist nicht signifikant geworden, was ein Indiz dafür ist, dass die Variable nur einen geringen Einfluss auf Gehalt hat und sich damit auch nur schlecht zur Vorhersage eignet.
Koeffizientena |
||||||
Modell | Nicht standardisierte Koeffizienten | Standardisierte Koeffizienten | T | Sig. | ||
RegressionskoeffizientB | Standardfehler | Beta | ||||
1 | (Konstante) | -6,319 | 2,152 | -2,936 | ,004 | |
Erfahrung (in Jahren) | ,185 | ,134 | ,119 | 1,388 | ,168 | |
Geschlecht | 1,669 | ,516 | ,274 | 3,232 | ,002 | |
Ausbildung (in Jahren) | ,839 | ,140 | ,512 | 5,993 | ,000 | |
a. Abhängige Variable: Gehalt pro Stunde |
Modell signifikant aber Koeffizienten nicht?
Es kann vorkommen, dass unser gesamtes Modell signifikant geworden ist (Tabelle ANOVA), aber keiner der Regressionskoeffizienten signifikant wird. Dies ist in der Regel eines von zwei Dingen:
- Zum einen kann es sein, dass wir Multikollinearität haben (oder das dies grenzwertig der Fall ist).
- Zum anderen kann es sein, dass wir sehr viele Prädiktoren haben. Die Signifikanz des Modells wird über eine ANOVA mit einer F-Verteilung überprüft. Wie alle Signifikanztests ist auch sie anfällig für Verzerrungen, die durch hohe Freiheitsgrade zustande kommen, etwa durch viele Prädiktoren und/oder Fälle.