Lexikon

SSCP-Matrix

Bei vielen Statistikprogrammen lässt sich die SSCP-Matrix als Teil der statistischen Analyse ausgeben. Sie wird von vielen Verfahren zur Berechnung verschiedener statistischer Kennwerte verwendet. Wenn wir eine Matrix A haben, dessen Spalten Variablen sind und dessen Zeilen Datenwerte darstellen, dann können wir dessen inneres Produkt berechnen, indem wir ATA berechnen (AT ist die transponierte Matrix). Geometrisch betrachtet ist diese resultierende Matrix von ATdie Matrix der Skalarprodukte (daher, die Matrix der Punktprodukte). Algebraisch betrachtet ist ATA die SSCP-Matrix (Sums of Squares and Cross Products).

Für alle Beispiele werden wir die folgende Matrix A verwenden, die aus zwei Variablen (die Spalten), mit je acht Messungen (die Zeilen, n) besteht. \[\small{\mathbf{A} = \begin{bmatrix}
8 & 8 \\
2 & 3 \\
1 & 6 \\
6 & 5 \\
8 & 8 \\
9 & 5 \\
1 & 5 \\
9 & 7
\end{bmatrix}, \;\mathbf{A}^\mathrm{T} = \begin{bmatrix}
8 & 2 & 1 & 6 & 8 & 9 & 1 & 9 \\
8 & 3 & 6 & 5 & 8 & 5 & 5 & 7
\end{bmatrix}, \; \mathbf{A}^\mathrm{T}\mathbf{A} = \begin{bmatrix}332 & 283 \\
283 & 297\end{bmatrix}}\]

Streumatrix und Kovarianzmatrix

Wenn wir die Variablen in der Matrix zentrieren (also den Mittelwert jeder Spalte von jedem Wert in der Spalte abziehen), erhalten wir die Streumatrix. Die Streumatrix D wird oft verwendet, um die Kovarianzmatrix zu schätzen, beispielsweise bei der Berechnung multivariater Normalverteilung. Wenn wir die Streumatrix durch die Anzahl der Fälle teilen, erhalten wir die Kovarianzmatrix. Schauen wir uns das mal genauer an:

Das arithmetische Mittel der Zahlen in der ersten Spalte beträgt 5,5; das in der zweiten Spalte 5,875. Mit diesen beiden Werten zentrieren wir jetzt die Werte unserer Matrix A.

\[\small{\mathbf{C}_\mathbf{A} = \begin{bmatrix}
8{\color{Red} -5.5} & 8{\color{Red} -5.875} \\
2{\color{Red} -5.5} & 3{\color{Red} -5.875} \\
1{\color{Red} -5.5} & 6{\color{Red} -5.875} \\
6{\color{Red} -5.5} & 5{\color{Red} -5.875} \\
8{\color{Red} -5.5} & 8{\color{Red} -5.875} \\
9{\color{Red} -5.5} & 5{\color{Red} -5.875} \\
1{\color{Red} -5.5} & 5{\color{Red} -5.875} \\
9{\color{Red} -5.5} & 7{\color{Red} -5.875}
\end{bmatrix} = \begin{bmatrix}2.5 & 2.125 \\
-3.5 & -2.875 \\
-4.5 & 0.125 \\
0.5 & -0.875 \\
2.5 & 2.125 \\
3.5 & -0.875 \\
-4.5 & -0.875 \\
3.5 & 1.125\end{bmatrix},\;\mathrm{Cov}=\frac{\mathbf{C}_\mathbf{A}^\mathrm{T}\mathbf{C}_\mathbf{A}}{n} = \begin{bmatrix}\underline{11.25} & 3.0625 \\
3.0625 & \underline{2.609375}\end{bmatrix}}\]

Da die Kovarianz einer Zufallsvariablen mit sich selbst einfach die Varianz dieser Zufallsvariablen ist, ist jedes Element auf der Hauptdiagonale der Kovarianzmatrix die Varianz einer der Zufallsvariablen (in unserem Beispiel unterstrichen). Deshalb wird die Kovarianzmatrix auch oft Varianz-Kovarianzmatrix genannt. Wie auch die Korrelationsmatrix, ist die Kovarianzmatrix symmetrisch.

Korrelationsmatrix

Die Korrelationsmatrix wird in der Berechnung vieler statistischer Verfahren verwendet, weshalb es Sinn macht hierfür ein schnelles und effizientes Verfahren zu verwenden. Die Berechnung der Korrelationsmatrix erfolgt fast identisch zu der Berechnung der Kovarianzmatrix, mit einem entschiedenen Unterschied: während die Daten bei der Kovarianzmatrix lediglich zentriert wurden, müssen sie zur Berechnung der Korrelationsmatrix z-Standardisiert werden. Anschließend berechnen wir wieder wie gehabt \(\small\frac{\mathbf{A}^\mathrm{T}\mathbf{A}}{n}\) und erhalten damit die Korrelationsmatrix.

In unserem Beispiel hatten wir bereits gesagt, dass das arithmetische Mittel der Zahlen in der ersten Spalte 5,5 beträgt und das der zweiten 5,875. Die Standardabweichung der ersten Spalte beträgt 3,354102 und der zweiten Spalte 1,615356. Gemäß der Formel der z-Standardisierung müssen wir den Mittelwert von Datenpunkt abziehen und durch die Standardabweichung teilen und die z-Transformation durchzuführen, wie folgt:

\[\small{\mathbf{A}_z = \begin{bmatrix}
{\color{Red}\frac{{\color{Black}8} – 5.5}{3.354102}} & {\color{Red}\frac{{\color{Black}8} – 5.875}{1.615356}} \\
{\color{Red}\frac{{\color{Black}2} – 5.5}{3.354102}} & {\color{Red}\frac{{\color{Black}3} – 5.875}{1.615356}} \\
{\color{Red}\frac{{\color{Black}1} – 5.5}{3.354102}} & {\color{Red}\frac{{\color{Black}6} – 5.875}{1.615356}} \\
{\color{Red}\frac{{\color{Black}6} – 5.5}{3.354102}} & {\color{Red}\frac{{\color{Black}5} – 5.875}{1.615356}} \\
{\color{Red}\frac{{\color{Black}8} – 5.5}{3.354102}} & {\color{Red}\frac{{\color{Black}8} – 5.875}{1.615356}} \\
{\color{Red}\frac{{\color{Black}9} – 5.5}{3.354102}} & {\color{Red}\frac{{\color{Black}5} – 5.875}{1.615356}} \\
{\color{Red}\frac{{\color{Black}1} – 5.5}{3.354102}} & {\color{Red}\frac{{\color{Black}5} – 5.875}{1.615356}} \\
{\color{Red}\frac{{\color{Black}9} – 5.5}{3.354102}} & {\color{Red}\frac{{\color{Black}7} – 5.875}{1.615356}}
\end{bmatrix} = \begin{bmatrix}0.745356 & 1.315499 \\
-1.0435 & -1.77979 \\
-1.34164 & 0.077382 \\
0.149071 & -0.54168 \\
0.745356 & 1.315499 \\
1.043498 & -0.54168 \\
-1.34164 & -0.54168 \\
1.043498 & 0.696441\end{bmatrix}}\]

Aus der Matrix mit den z-transformierten Datenwerten Az berechnen wir jetzt \(\frac{\mathbf{A}_z^\mathrm{T}\mathbf{A}}{n}\) und erhalten die Korrelationsmatrix R:

\[\mathbf{R} = \frac{\mathbf{A}_z^\mathrm{T}\mathbf{A}}{n} = \begin{bmatrix}1 & 0.565238 \\
0.565238 & 1\end{bmatrix}\]

Schnelle Variante

Neben der ober gezeigten Variante zur Berechnung der Korrelationsmatrix, existiert noch eine schnellere Variante, die vor allem von Statistikprogrammen bevorzugt verwendet wird, da sie in der Regel schneller zu und einfacher berechnen ist und wir die Korrelationsmatrix direkt aus den untransformierten Daten berechnen können. Im ersten Schritt bilden wir den Zeilenvektor S mit den Summen unserer Spalten. Wir haben zwei Spalten; die Summe aller Zahlen in der ersten Spalte ist 44, die in der zweiten Spalte ist 47. Daraus ergibt sich \(\small\mathbf{S} = \begin{bmatrix}44 & 47\end{bmatrix}\). Daraus berechnen wir zuerst die Streumatrix D:

\[\mathbf{D} = \mathbf{A}^\mathrm{T}\mathbf{A}-\frac{\mathbf{S}^\mathrm{T}\mathbf{S}}{n} = \begin{bmatrix}\underline{90} & 24.5 \\
24.5 & \underline{20.875}\end{bmatrix}\]

Die Elemente auf der Hauptdiagonalen (hier unterstrichen) benötigen wir noch für den nächsten und finalen Schritt. Aus den Elementen der Diagonalen bilden wir eine weitere Zeilenmatrix, d. Sie hat in unserem Beispiel den Wert \(\small\mathbf{d} = \begin{bmatrix}90 & 20.875\end{bmatrix}\). Aus der Streumatrix und dessen Diagonalen berechnen wir die Korrelationsmatrix R mit folgender Formel:

\[\mathbf{R} = \dfrac{\mathbf{D}}{\sqrt{\mathbf{d}^\mathrm{^T}\mathbf{d}}}\]