Hauptkomponentenanalyse oder Faktorenanalyse
Eine der am meisten verwechselten Konzepte in der Statistik sind Hauptkomponentenanalyse und Faktorenanalyse. Beides sind Methoden zur Dimensionalitätreduktion, beide werden in den meisten Staistikprogrammen in selben Menü aufgerufen und beide produzieren ähnlich-aussehenden Output. Wo aber liegen die Unterschiede und wann sollte man eine Methode über die andere bevorzugen?
Hauptkomponentenanalyse
Hauptkomponentenanalyse wird meistens dort eingesetzt, wo Variablen stark miteinander korrelieren. Wenn dies der Fall ist, haben einige Analysemethoden Probleme (wie beispielsweise Regressionsanalyse). Wir müssen also die Daten auf eine Weise reduzieren, bei der die geringste Menge an Informationen verloren geht, wir aber gleichzeitig unsere Modellgüte nicht senken. Hier kommt die Hauptkomponentenanalyse ins Spiel.
Hauptkomponentenanalyse erstellt eine Reihe von Hauptkomponenten, eine Art virtuelle Variable. Es gibt dabei so viele dieser Hauptkomponenten, wie Variablen, die wir reduzieren wollen. Die Hauptkomponenten haben die Eigenschaft, dass sie mit anderen Hauptkomponenten vollkommen unkorrelliert sind.
Die Hauptkomponentenanalyse versucht im nächsten Schritt herauszufinden, wie stark jede Variable auf jeder Hauptkomponente lädt. Diese Ladung ist ist eine Art Gewichtung mit der Hauptkomponente: je größer ihr Wert ist, desto mehr hat die Variable mit dieser virtuellen Variable (Hauptkomponente) gemeinsam, ähnlich wie bei einer Regressionsanalyse.
Ziel der Hauptkomponentenanalyse ist es jetzt, die Ladungen von jeder Variable auf jede Hauptkomponente zu errechnen: die optimale Anzahl an Hauptkomponenten und die optimalen Ladungen jeder Variable auf jede Hauptkomponente.
Grafisch könnten wir die Hauptkomponentenanalyse wie unten darstellen (mit vier Variablen und einer Hauptkomponente):
Daraus lässt sich auch für diese Hauptkomponente eine Gleichung ableiten:
Variable1 × Gewichtung1 + Variable2 × Gewichtung2 + Variable3 × Gewichtung3 + Variable4 × Gewichtung4 = Hauptkomponente
Diese Gleichung ist sehr ähnlich, wie wir auch eine Regressionsgleichung aufstellen würde (diese Art Regressiongleichung wird auch als Linearkombination bezeichnet, ihr Ergebnis als Score). Die Hauptkomponente ist damit eine echte virtuelle Variable. Wir könnten sie beispielsweise berechnen und in ein Regressionsmodell als Variable mit aufnehmen, statt der vielen Variablen. Im Falle der Regression hätten wir dann unser Ziel erreicht: durch das aufnehmen von wenigen Hauptkomponenten hätten wir keine starke Korrelation mehr zwischen den Variablen (da Hauptkomponenten immer miteinander unkorreliert sind) und generell die Anzahl die Variablen reduziert.
Faktorenanalyse
Faktorenanalyse ist auch ein Verfahren zur Dimensionalitätsreduktion. Sie versucht die Anzahl der latenten Variablen (auch latentes Konstrukt genannt) und die zugrunde liegende Faktorstruktur aus einer Reihe von Variablen zu identifizieren. Latente Variablen können wir nicht direkt mit einer Variable messen, sondern nur über die Verhältnisse von verschiedenen Variablen zueinander schätzen. So können wir beispielsweise Verträglichkeit nicht direkt messen. Wir können aber die Antworten verschiedenen Variablen, wie beispielsweise „Ich bin einfühlsam, warmherzig.“ und „Ich begegne anderen mit Respekt.“ analysieren. Dabei gehen wir davon aus, dass Personen bei denen Verträglichkeit ähnlich stark ausgeprägt ist, auch ähnlich auf beiden Variablen scoren würden.
Faktorenanalyse schätzt Faktoren, die die Antworten auf beobachtete Variablen beeinflussen und erlaubt uns damit, die Anzahl an latenten Konstrukten (Faktoren) in unseren Daten zu identifizieren und beschreiben. Analog zu unserer Abbildung oben, würde eine Faktorenanalyse mit einem latenten Konstrukt und vier Variablen so wie unten aussehen:
Der größte Unterschied zwischen beiden Abbildungen ist, dass die Pfeile bei der Faktorenanalyse von dem latenten Konstrukt ausgehen. Jede Variable misst damit einen Teil des latenten Konstrukts, die Gewichtung.
Zusätzlich sehen wir an der rechten Seite auch noch Kreise, die auf die Variablen deuten (e1 bis e4). Dies sind die Messfehler.
Aus diesem Modell resultieren damit vier Gleichungen:
- Variable1 = Latentes Konstrukt × Gewichtung1 + Messfehler e1
- Variable2 = Latentes Konstrukt × Gewichtung2 + Messfehler e2
- Variable3 = Latentes Konstrukt × Gewichtung3 + Messfehler e3
- Variable4 = Latentes Konstrukt × Gewichtung4 + Messfehler e4
Schlüsselpunkte
- Hauptkomponentenanalyse reduziert die Variablen auf ihre Hauptkomponenten und versucht, den Informationsgehalt beizubehalten, während Faktoranalyse nützlich ist, um latente (unbeobachtbare) Variablen zu messen.
- Wenn Variablen nichts gemeinsam haben, wird Faktorenanalyse keinen gut zugrundeliegenden Faktor finden, Hauptkomponentenanalyse hingegen aber eine gut definierte Hauptkomponente, die die maximale Varianz in den Daten erklärt.
- Wenn das Ziel darin besteht, eine latente Variable zu messen, aber eine Hauptkomponentenanalyse verwendet wird, werden die Ladungen der Komponenten höchstwahrscheinlich höher sein, als sie es bei Verwendung der Faktoranalyse gewesen wären. Dies wäre irreführend, da wir annehmen würden, wir hätten einen gut-definierten Faktor, wenn wenn wir in Wirklichkeit eine gut-definierte Hauptkomponente haben, die eine Mischung aus der Varianz der Daten ist.
- Wenn das Ziel ist, die Anzahl der Variablen zu reduzieren und gleichzeitig das grösste Mass an Variabilität in den Daten beizubehalten aber Faktoranalyse verwendet wird, werden die Faktorladungen wahrscheinlich niedriger sein, als bei einer Hauptkomponentenanalyse. Dies wäre irreführend, da wir annehmen würden, wir hätten das grösste Mass an Variabilität in unseren Daten beibehalten, wenn wir in Wirklichkeit die Variabilität behalten haben, die über alle Variablen hinweg gemeinsam ist.