Multiple Lineare Regression

Multiple lineare Regression: Regressionskoeffizienten interpretieren

Im letzten Schritt interpretieren wir noch die Regressionskoeffizienten. Sie finden sich in der Ausgabe von SPSS in der Tabelle Koeffizienten.

Multiple Regression: Regressionskoeffizienten

Regressionsgleichung

Aus den Regressionskoeffizienten können wir die Regressionsgleichung aufstellen. Die Regression erlaubt es uns, ein Modell aufzustellen, mit dem wir Werte auch vorhersagen können, für Parameter, die nicht Teil unserer Daten waren. Mit Regression können wir untersuchen, ob einem Phänomen eine Gesetzmäßigkeit zugrunde liegt und diese quantifizieren. Diese Quantifizierung erfolgt über die Regressionsgleichung. Für unser Modell sieht die Regressionsgleichung so aus:

intervallskalierte Variablegehalt = 0.185·intervallskalierte Variableerfahrung + 1.669·nominalskalierte Variablegeschlecht + 0.839·intervallskalierte Variableausbildung − 6.319

Die Koeffizienten können wir der Tabelle mit den Koeffizienten entnehmen:

Koeffizientena

Modell Nicht standardisierte Koeffizienten Standardisierte Koeffizienten T Sig.
RegressionskoeffizientB Standardfehler Beta
1 (Konstante) -6,319 2,152 -2,936 ,004
Erfahrung (in Jahren) ,185 ,134 ,119 1,388 ,168
Geschlecht 1,669 ,516 ,274 3,232 ,002
Ausbildung (in Jahren) ,839 ,140 ,512 5,993 ,000
a. Abhängige Variable: Gehalt pro Stunde

intervallskalierte Variablegehalt = 0.185·intervallskalierte Variableerfahrung + 1.669·intervallskalierte Variablegeschlecht + 0.839·intervallskalierte Variableausbildung − 6.319

Konstante in der Regressionsgleichung

Die Konstante in der Regressionsgleichung ist für die Analyse von wenig Interesse. Falls wir die standardisierten Koeffizienten interpretieren, fällt die Konstante komplett weg, da sie durch die Standardisierung auf Null gesetzt wurde.

Interpretation von kontinuierlichen Prädiktoren

In unserem Regressionsmodell haben wir zwei kontinuierliche Prädiktoren: intervallskalierte Variableerfahrung und intervallskalierte Variableausbildung. Das Kriterium in unserem Modell ist intervallskalierte Variablegehalt. Nehmen wir als Beispiel die Variable intervallskalierte Variableausbildung. Sie hat einen Regressionskoeffizienten von 0,839. Ausbildung wurde in Jahren gemessen und Gehalt in Euro. Der Regressionskoeffizient von 0,839 bedeutet, dass für jedes Jahr mehr Ausbildung, das Gehalt pro Stunde um 0,839 Euro ansteigt.

Analog dazu können wir auch Erfahrung interpretieren: Für jedes Jahr mehr Erfahrung steigt das Gehalt pro Stunde um 0,185 Euro an.

Regresionskoeffizienten können auch negativ sein. Die Interpretation erfolgt ähnlich wie bei einem positiven Vorzeichen, nur in umgekehrte Richtung. Wäre der Regressionskoeffizient für Ausbildung beispielsweise -0,839 gewesen, wäre das Gehalt pro Stunde für jedes Jahr mehr Ausbildung um 0,839 Euro gefallen.

Interpretation von dichotomen Prädiktoren

nominalskalierte Variablegeschlecht ist ein dichotomer Prädiktor in unserem Regressionsmodell. Bei dichotomen Prädiktoren oder Dummy-Variablen ist die Interpretation abhängig von der Wahl der Referenzkategorie. Die Referenzkategorie hat den Wert 0 zugewiesen bekommen und ist in unserem Fall das weibliche Geschlecht. Männer haben also in unserem Beispieldatensatz den Wert 1 und Frauen den Wert 0. Der Regressionskoeffizient von 1,669 bedeutet, dass Männer 1,669 Euro pro Stunde mehr verdienen, unabhängig von allen anderen Faktoren.

Hätten wir als Referenzkategorie Männer gewählt und damit Männern den Wert 0 und Frauen den Wert 1 zugewiesen, dann hätten wir einen Regressionskoeffizient für Geschlecht von -1,669 erhalten. Es hätte sich also lediglich das Vorzeichen verändert.

Standardisierte Koeffizienten

Die Werte in der Spalte Standardisierte Koeffizienten (Betagewichte) sind die dieselben wie in RegressionskoeffizientB, nur dass sie standardisiert wurden. Dies erlaubt es uns, die Werte direkt miteinander zu vergleichen. Auch wenn Geschlecht den größten absoluten Einfluss auf den Gehalt hat, ist das Betagewicht von Geschlecht kleiner als für Ausbildung in Jahren.

Standardisierung entfernt die Einheiten der Maße aller Variablen. Durch die Standardisierung können Variablen einfacher miteinander verglichen werden. Wenn wir uns zusätzlich zu den standardisierten Koeffizienten noch die letzte Spalte Sig. anschauen, stellen wir fest, dass die Größe des Betagewichts mit dem Signifikanzniveau zusammenhängt.

Da Betagewichte standardisiert wurden, geben sie Veränderungen in Standardabweichungen an. Das Betagewicht für den Prädiktor intervallskalierte Variableausbildung bedeutet beispielsweise, dass, wenn sich die Variable intervallskalierte Variableausbildung um eine Standardabweichung verändert, sich das Kriterium Gehalt um 0,512 Standardabweichungen verändert. Betagewichte können Werte zwischen -∞ und +∞ annehmen, allerdings liegen ihre Werte meist näher an einem Wertebereich zwischen -1 und +1. Bei größeren Abweichungen hiervon korrelieren die Variablen meist stark untereinander (Multikollinearität).

Standardisierte Koeffizienten haben allerdings auch Kritiker. Gemäß ihnen können standardisierte Koeffizienten irreführend sein. Da durch die Standardisierung die Einheit entfernt wird, gibt ein Betagewicht nur die Stärke der Beziehung relativ zu den Verteilungen der Variablen an. Damit könnte ein Bias durch einen Stichprobenfehler entstehen (ein Fehler der entsteht, wenn wir nicht die gesamte Grundgesamtheit befragen, sondern nur einen Teil, dann aber den Mittelwert und die Standardabweichung dieser kleinen Stichprobe nehmen um die Variablen zu standardisieren). Darüber hinaus sollten die Verteilungen der standardisierten Variablen etwa gleich sein, damit sie sinnvoll interpretiert werden können.

Signifikanz der Koeffizienten

In der letzten Spalte der Tabelle Koeffizienten findet sich die Spalte Sig. Sie gibt an, ob sich die Koeffizienten signifikant von Null unterscheiden. Ist der Wert hier unter .05 können wir davon ausgehen, dass ein linearer Zusammenhang tatsächlich existiert. In unserem Beispiel haben wir zwei signifikante Prädiktoren: nominalskalierte Variablegeschlecht und intervallskalierte Variableausbildung (unten fett markiert). intervallskalierte Variableerfahrung ist nicht signifikant geworden, was ein Indiz dafür ist, dass die Variable nur einen geringen Einfluss auf Gehalt hat und sich damit auch nur schlecht zur Vorhersage eignet.

Koeffizientena

Modell Nicht standardisierte Koeffizienten Standardisierte Koeffizienten T Sig.
RegressionskoeffizientB Standardfehler Beta
1 (Konstante) -6,319 2,152 -2,936 ,004
Erfahrung (in Jahren) ,185 ,134 ,119 1,388 ,168
Geschlecht 1,669 ,516 ,274 3,232 ,002
Ausbildung (in Jahren) ,839 ,140 ,512 5,993 ,000
a. Abhängige Variable: Gehalt pro Stunde
Auch wenn SPSS in der Spalte Signifikanz einen Wert von .000 angibt, ist dies nur ein gerundeter Wert (Signifikanzen können weder die Werte 0 oder 1 annehmen, sondern liegen immer dazwischen.) Bei einem Wert von .000 würden wir dies als p < .001 schreiben. Das APA-Handbuch empfiehlt ansonsten die Angabe genauer p-Werte (gerundet auf drei Nachkommastellen).

Modell signifikant aber Koeffizienten nicht?

Es kann vorkommen, dass unser gesamtes Modell signifikant geworden ist (Tabelle ANOVA), aber keiner der Regressionskoeffizienten signifikant wird. Dies ist in der Regel eines von zwei Dingen:

  1. Zum einen kann es sein, dass wir Multikollinearität haben (oder das dies grenzwertig der Fall ist).
  2. Zum anderen kann es sein, dass wir sehr viele Prädiktoren haben. Die Signifikanz des Modells wird über eine ANOVA mit einer F-Verteilung überprüft. Wie alle Signifikanztests ist auch sie anfällig für Verzerrungen, die durch hohe Freiheitsgrade zustande kommen, etwa durch viele Prädiktoren und/oder Fälle.