Hauptkomponentenanalyse

Hauptkomponentenanalyse: Faktoren extrahieren

SPSS extrahiert am Anfang so viele Komponenten, wie Variablen. Wir hatten in unserem Datensatz 20 Variablen, also berechnet SPSS auch 20 Komponenten. Anhand der Daten müssen wir jetzt entscheiden, in wie viele Komponenten wir die Daten unterteilen wollen. Dazu betrachten wir zunächst die Tabelle Erklärte Gesamtvarianz.

Hauptkomponentenanalyse: Erklärte Gesamtvarianz

In den Spalten unter Anfängliche Eigenwerte sehen wir die Eigenwerte für jede der Variablen. Wir haben bei der Berechnung angegeben, dass nur Eigenwerte größer als eins in Betracht ziehen würden. Diese Faustregel wird auch als Kaiser-Guttman-Kriterium bezeichnet (Guttman, 1954; Kaiser, 1960). Da nur vier Variablen dieses Kriterium erfüllen, zeigt uns SPSS in allen nachfolgenden Analysen nur noch vier Komponenten. Würden wir das Kaiser-Guttman-Kriterium verwenden, um die Anzahl an Komponenten unseres Datensatzes zu bestimmen, würden wir vier Komponenten haben.

Hauptkomponentenanalyse: Erklärte Gesamtvarianz (highlight)

Erklärte Gesamtvarianz

Die erste Komponente wird die größte Varianz erklären und jede weitere Komponente immer weniger. Je weiter wir in der Liste runter gehen, desto weniger zusätzliche Varianz kann durch weiter Komponenten erklärt werden. Es gibt Empfehlungen, wonach keine Komponenten berücksichtigt werden sollte, die nicht mindestens 10% der Varianz erklären können (Urdan, 2010). Nach dieser Empfehlung würden wir zwei Komponenten extrahieren können, da die dritte Komponente nur noch 5,780% der Varianz erklärt.

Erklärte Gesamtvarianz
Komponente Anfängliche Eigenwerte
Gesamt % der Varianz Kumulierte %
1 8,511 42,553 42,553
2 3,579 17,897 60,450
3 1,156 5,780 66,230
4 1,055 5,274 71,504
5 ,955 4,775 76,279
6 ,773 3,864 80,143
7 ,593 2,963 83,106
8 ,501 2,507 85,613
9 ,493 2,467 88,080
10 ,423 2,114 90,193
11 ,364 1,819 92,013
12 ,314 1,569 93,581
13 ,254 1,272 94,853
14 ,226 1,131 95,984
15 ,224 1,121 97,105
16 ,190 ,952 98,057
17 ,132 ,662 98,720
18 ,105 ,527 99,247
19 ,084 ,418 99,664
20 ,067 ,336 100,000

Rotierte Komponentenmatrix betrachten

Unterhalb sehen wir die Rotierte Komponentenmatrix unseres Beispieldatensatzes.

Rotierte Komponentenmatrixa

Komponente
1 2 3 4
erschrocken ,908
veraergert ,898
feindselig ,894
beschaemt ,860
gereizt ,838
schuldig ,753
aengstlich ,744
bekuemmert ,701
durcheinander ,610
freudig_erregt ,828
stolz ,810
begeistert ,779 ,341
interessiert ,711 ,419
entschlossen ,655
aufmerksam ,729 ,472
wach ,727
angeregt ,339 ,668
aktiv ,401 ,318 ,631
nervoes ,596 ,623
stark ,554 ,559
Extraktionsmethode: Hauptkomponentenanalyse.

Rotationsmethode: Varimax mit Kaiser-Normalisierung.

a. Die Rotation ist in 5 Iterationen konvergiert.

Hier sehen wir beispielsweise, dass das Adjektiv nervös auf der ersten und vierten Komponente fast gleich stark lädt. Das gleiche gilt für das Adjektiv stark für die Komponenten zwei und vier. Hier könnten wir überlegen, diese beiden Items ganz auszuschließen und die Analyse erneut durchzuführen. Des weiteren könnten wir auch Items ausschließen, die auf keine der Komponente hochladen, daher Ladungen von etwa Null haben.

In Wirklichkeit laden alle Items auf allen Komponenten. Durch unsere vorige Auswahl sehen wir nur Ladungen, die größer als .3 sind.

Scree-Plot

Eine weitere und sehr beliebte Art und Weise, die ideale Anzahl der Faktoren zu bestimmen, ist der Scree-Plot. Der Scree-Plot ist eine grafische Veranschaulichung der Eigenwerte, aufgetragen gegen die Anzahl der Faktoren. Der Scree-Plot unseres Datensatzes sieht so aus:

Hauptkomponentenanalyse: Screeplot

Beim Scree-Plot interessiert uns der charakteristische Knick, wie er unten rot markiert wurde.

Hauptkomponentenanalyse: Screeplot mit Knick

In unserem Beispieldatensatz ist der Knick beim dritten Faktor. Unser Datensatz hätte daher zwei Komponenten.

Auch wenn der Scree-Plot sehr beliebt ist, ist er nicht immer so eindeutig wie in diesem Beispiel. Oft finden sich mehrere Knicks im Plot oder auch gar keine eindeutigen. In solchen Fällen sollte man auf andere Methoden und Faustregeln zurückgreifen.

Anzahl der Komponenten wählen

Wie viele Komponenten die Daten haben, ist nicht immer eindeutig. In unserem Beispiel, hatten wir nach den Methoden und Faustregeln zweimal zwei Komponenten und einmal eine Komponente extrahiert. Letztlich hängt es auch davon ab, welche Anzahl überhaupt Sinn macht. In unserem Fall haben wir einen Datensatz, von dem wir ausgehen, dass er zwei Komponenten besitzt. Zwei Methoden bestätigen dies, eine nicht. Hier müssen wir entscheiden, was mehr Sinn macht und was sich in einer wissenschaftlichen Arbeit logischer diskutieren lässt.

Auf der nächsten Seite werden wir den finalen Schritt bei der Auswertung besprechen und auf das Berichten der Ergebnisse eingehen.

Wie es weiter geht...

Vielleicht sind ja doch vier Komponenten besser? Generell gilt, dass wir auch die Komponenten in der späteren schriftlichen Auswertung und Interpretation erklären (und benennen) müssen. Wir haben in der rotierten Komponentenmatrix zwei Items, die wir eventuell in einer erneuten Hauptkomponentenanalyse nicht wieder berücksichtigen sollten. Auch Items die keine hohe Ladung auf irgendeiner Komponente haben, sollten ausgeschlossen werden.

Es kann sein, dass es für die eigenen Daten eine bessere Rotation als die Varimax-Rotation gibt. Auch hier können noch Alternativen probiert werden.

Literaturverzeichnis

  1. Guttman, L. (1954). Some necessary conditions for common-factor analysis. Psychometrika, 19(2), 149–161.
  2. Kaiser, H. F. (1960). The application of electronic computers to factor analysis. Educational and Psychological Measurement, 20(1), 141–151. doi:10.1177/001316446002000116
  3. Urdan, T. C. (2010). Statistics in plain English (3rd ed.). New York: Routledge.