Hauptkomponentenanalyse: Faktoren extrahieren
SPSS extrahiert am Anfang so viele Komponenten, wie Variablen. Wir hatten in unserem Datensatz 20 Variablen, also berechnet SPSS auch 20 Komponenten. Anhand der Daten müssen wir jetzt entscheiden, in wie viele Komponenten wir die Daten unterteilen wollen. Dazu betrachten wir zunächst die Tabelle Erklärte Gesamtvarianz.
In den Spalten unter Anfängliche Eigenwerte sehen wir die Eigenwerte für jede der Variablen. Wir haben bei der Berechnung angegeben, dass nur Eigenwerte größer als eins in Betracht ziehen würden. Diese Faustregel wird auch als Kaiser-Guttman-Kriterium bezeichnet (Guttman, 1954; Kaiser, 1960). Da nur vier Variablen dieses Kriterium erfüllen, zeigt uns SPSS in allen nachfolgenden Analysen nur noch vier Komponenten. Würden wir das Kaiser-Guttman-Kriterium verwenden, um die Anzahl an Komponenten unseres Datensatzes zu bestimmen, würden wir vier Komponenten haben.
Erklärte Gesamtvarianz
Die erste Komponente wird die größte Varianz erklären und jede weitere Komponente immer weniger. Je weiter wir in der Liste runter gehen, desto weniger zusätzliche Varianz kann durch weiter Komponenten erklärt werden. Es gibt Empfehlungen, wonach keine Komponenten berücksichtigt werden sollte, die nicht mindestens 10% der Varianz erklären können (Urdan, 2010). Nach dieser Empfehlung würden wir zwei Komponenten extrahieren können, da die dritte Komponente nur noch 5,780% der Varianz erklärt.
Erklärte Gesamtvarianz | |||
---|---|---|---|
Komponente | Anfängliche Eigenwerte | ||
Gesamt | % der Varianz | Kumulierte % | |
1 | 8,511 | 42,553 | 42,553 |
2 | 3,579 | 17,897 | 60,450 |
3 | 1,156 | 5,780 | 66,230 |
4 | 1,055 | 5,274 | 71,504 |
5 | ,955 | 4,775 | 76,279 |
6 | ,773 | 3,864 | 80,143 |
7 | ,593 | 2,963 | 83,106 |
8 | ,501 | 2,507 | 85,613 |
9 | ,493 | 2,467 | 88,080 |
10 | ,423 | 2,114 | 90,193 |
11 | ,364 | 1,819 | 92,013 |
12 | ,314 | 1,569 | 93,581 |
13 | ,254 | 1,272 | 94,853 |
14 | ,226 | 1,131 | 95,984 |
15 | ,224 | 1,121 | 97,105 |
16 | ,190 | ,952 | 98,057 |
17 | ,132 | ,662 | 98,720 |
18 | ,105 | ,527 | 99,247 |
19 | ,084 | ,418 | 99,664 |
20 | ,067 | ,336 | 100,000 |
Rotierte Komponentenmatrix betrachten
Unterhalb sehen wir die Rotierte Komponentenmatrix unseres Beispieldatensatzes.
Rotierte Komponentenmatrixa |
||||
---|---|---|---|---|
Komponente | ||||
1 | 2 | 3 | 4 | |
erschrocken | ,908 | |||
veraergert | ,898 | |||
feindselig | ,894 | |||
beschaemt | ,860 | |||
gereizt | ,838 | |||
schuldig | ,753 | |||
aengstlich | ,744 | |||
bekuemmert | ,701 | |||
durcheinander | ,610 | |||
freudig_erregt | ,828 | |||
stolz | ,810 | |||
begeistert | ,779 | ,341 | ||
interessiert | ,711 | ,419 | ||
entschlossen | ,655 | |||
aufmerksam | ,729 | ,472 | ||
wach | ,727 | |||
angeregt | ,339 | ,668 | ||
aktiv | ,401 | ,318 | ,631 | |
nervoes | ,596 | ,623 | ||
stark | ,554 | ,559 | ||
Extraktionsmethode: Hauptkomponentenanalyse.
Rotationsmethode: Varimax mit Kaiser-Normalisierung. |
||||
a. Die Rotation ist in 5 Iterationen konvergiert. |
Hier sehen wir beispielsweise, dass das Adjektiv nervös auf der ersten und vierten Komponente fast gleich stark lädt. Das gleiche gilt für das Adjektiv stark für die Komponenten zwei und vier. Hier könnten wir überlegen, diese beiden Items ganz auszuschließen und die Analyse erneut durchzuführen. Des weiteren könnten wir auch Items ausschließen, die auf keine der Komponente hochladen, daher Ladungen von etwa Null haben.
Scree-Plot
Eine weitere und sehr beliebte Art und Weise, die ideale Anzahl der Faktoren zu bestimmen, ist der Scree-Plot. Der Scree-Plot ist eine grafische Veranschaulichung der Eigenwerte, aufgetragen gegen die Anzahl der Faktoren. Der Scree-Plot unseres Datensatzes sieht so aus:
Beim Scree-Plot interessiert uns der charakteristische Knick, wie er unten rot markiert wurde.
In unserem Beispieldatensatz ist der Knick beim dritten Faktor. Unser Datensatz hätte daher zwei Komponenten.
Auch wenn der Scree-Plot sehr beliebt ist, ist er nicht immer so eindeutig wie in diesem Beispiel. Oft finden sich mehrere Knicks im Plot oder auch gar keine eindeutigen. In solchen Fällen sollte man auf andere Methoden und Faustregeln zurückgreifen.
Anzahl der Komponenten wählen
Wie viele Komponenten die Daten haben, ist nicht immer eindeutig. In unserem Beispiel, hatten wir nach den Methoden und Faustregeln zweimal zwei Komponenten und einmal eine Komponente extrahiert. Letztlich hängt es auch davon ab, welche Anzahl überhaupt Sinn macht. In unserem Fall haben wir einen Datensatz, von dem wir ausgehen, dass er zwei Komponenten besitzt. Zwei Methoden bestätigen dies, eine nicht. Hier müssen wir entscheiden, was mehr Sinn macht und was sich in einer wissenschaftlichen Arbeit logischer diskutieren lässt.
Auf der nächsten Seite werden wir den finalen Schritt bei der Auswertung besprechen und auf das Berichten der Ergebnisse eingehen.
Wie es weiter geht...
Vielleicht sind ja doch vier Komponenten besser? Generell gilt, dass wir auch die Komponenten in der späteren schriftlichen Auswertung und Interpretation erklären (und benennen) müssen. Wir haben in der rotierten Komponentenmatrix zwei Items, die wir eventuell in einer erneuten Hauptkomponentenanalyse nicht wieder berücksichtigen sollten. Auch Items die keine hohe Ladung auf irgendeiner Komponente haben, sollten ausgeschlossen werden.Es kann sein, dass es für die eigenen Daten eine bessere Rotation als die Varimax-Rotation gibt. Auch hier können noch Alternativen probiert werden.
Literaturverzeichnis
- Guttman, L. (1954). Some necessary conditions for common-factor analysis. Psychometrika, 19(2), 149–161.
- Kaiser, H. F. (1960). The application of electronic computers to factor analysis. Educational and Psychological Measurement, 20(1), 141–151. doi:10.
1177/ 001316446002000116 - Urdan, T. C. (2010). Statistics in plain English (3rd ed.). New York: Routledge.