Bekannte Datentransformationen
Hauptsächlich werden Datentransformationen verwendet, weil viele statistische Verfahren gewisse Ansprüche an die Verteilung ihrer Daten bzw. an die Verteilung der Residuen stellen. Die meisten parametrischen statistischen Verfahren verlangen normalverteilte Daten bzw. normalverteile Residuen. In anderen Fällen muss die Beziehung zwischen Variablen linear sein.
Oft erfüllen unsere Daten diese Voraussetzungen allerdings nicht. In manchen Fällen ist es sinnvoll, keine Transformation durchzuführen, sondern zu prüfen, warum die Daten nicht normalverteilt sind. In anderen Fällen sind die Verfahren robust genug, um auch mit nicht normalverteilten Daten zu rechnen. Um diese Voraussetzungen dennoch zu erfüllen, kann es hilfreich sein, die Daten zu transformieren.
Es gibt eine Reihe von bekannten und oft verwendeten Transformationen, die sich nach den Daten richtet.
Schiefe Daten
Statt die Daten zu transformieren, kann für schiefe Daten stattdessen auch ein generalisiertes lineares Modell berechnet werden (O’Hara & Kotze, 2010).
Schwach rechtsschiefe Daten
Schwach rechtsschiefe Daten, ähnlich wie im Histogramm rechts, können mit einer Quadratwurzel transformiert werden, um symmetrischer zu werden. Hier gilt zu beachten, dass die Quadratwurzel nicht für negative Zahlen definiert ist. Sollten negative Zahlen im Datensatz vorhanden sein, sollten die Daten zuerst so transformiert werden, dass keine negativen Zahlen mehr vorhanden sind oder es sollte eine andere Transformation vorgezogen werden (siehe auch den Punkt Optimale Parameter automatisch berechnen).Die Formel in SPSS dafür wäre Sqrt(VARIABLE)
, wobei VARIABLE
durch den Namen der Variablen ersetzt werden muss.
Rechtsschiefe Daten
Wenn die Daten etwas schiefer sind als im ersten Beispiel, also das Histogramm eher wie das Beispiel rechts aussieht, können wir eine stärkere Transformation anwenden. Mäßig rechtsschiefe Daten können mit einem Logarithmus transformiert werden, um sie symmetrischer zu machen. Wie auch bei der Quadratwurzel gilt: Sind negative Zahlen vorhanden, müssen die Daten entweder vorschoben oder ein anderes Verfahren verwendet werden.Die Formel in SPSS dafür wäre Ln(VARIABLE)
, wobei VARIABLE
durch den Namen der Variablen ersetzt werden muss.
Stark rechtsschiefe Daten
Wenn die Daten stark rechtsschief sind und damit ähnlich aussehen wie im Beispiel rechts, muss die Inverse der Daten genommen werden. Sie ist die stärkste Transformation bei rechtsschiefen Daten, die allgemein üblich verwendet wird. Hier ist zu beachten, dass die Inverse nicht für die Zahl Null definiert ist. Sollte die Zahl Null in den Daten vorkommen, müssen sie entweder zuerst verschoden werden oder eine andere Transformation verwendet werden.Die Formel in SPSS dafür wäre 1/VARIABLE
, wobei VARIABLE
durch den Namen der Variablen ersetzt werden muss.
Linksschiefe Daten
Die Transformationen für linksschiefe Daten sind prinzipiell dieselben wie für rechtsschiefe Daten, mit einem Unterschied: Bevor wir sie anwenden können, müssen wir die Daten erst einmal spiegeln. Um das zu tun, müssen wir den größten Wert der Variablen ermitteln (z.B. mit Analysieren > Deskriptive Statistiken > Deskriptive Statistik… in SPSS). Zu diesem Wert addieren wir noch 1, damit der kleinste Wert nicht Null ist. Bei mäßig rechtsschiefen Daten haben wir den Logarithmus angewendet, den wir auch hier verwenden würden. Die Formel in SPSS dafür wäreLn(MAX + 1 - VARIABLE)
, wobei MAX
der größte Wert unserer Daten wäre und VARIABLE
der Namen der Variablen, die wir transformieren wollen.
Optimale Parameter automatisch berechnen
Dies sind die drei am häufigsten verwendeten Transformationen für schiefe Daten. Darüber hinaus gibt es noch zwei weitere Transformationen, die Daten symmetrischer machen werden: Die Box-Cox Powertransformation und die Johnson Transformation.
Die Box-Cox Powertransformation versucht nicht explizit, die Daten normal zu verteilen, sondern die Varianz zu stabilisieren. Der Nebeneffekt dieser Transformation ist allerdings, dass die Daten in der Regel symmetrischer werden, d.h. näher an einer Normalverteilung liegen. Die Johnson Transformation hingegen wurde speziell entwickelt, um Daten so zu transformieren, dass sie einer Normalverteilung näher kommen.
Leider sind beide Methoden nicht standardmäßig bei SPSS dabei. Daher haben wir für beide Transformationen Online-Rechner geschrieben, die die optimalen Parameter für die Transformation vollautomatisch berechnen und zur Verfügung stellen.
Nicht-lineare Daten oder Heteroskedastizität
Ein weitere Grund um Daten zu transformieren wäre, wenn der Zusammenhang zwischen zwei Variablen nicht linear ist oder keine Homoskedastizität (Varianzgleicheit) besteht. Viele parametrischen Verfahren setzen dies voraus. Bei einer nicht-linearen Beziehung zwischen zwei Variablen können wir die abhängige Variable, die unabhängige Variable oder beide transformieren.
Wenn unsere abhängige Variable schneller ansteigt als die unabhängige Variable, können wir eine logarithmische Transformation versuchen, wie bei schwach rechtsschiefen Daten.
Wenn das Gegenteil der Fall ist, also die unabhängige Variable schneller ansteigt als die abhängige Variable, können wir die Variable quadrieren. Die Formel in SPSS dafür wäre VARIABLE ** 2
, wobei VARIABLE
wieder durch den Namen der Variable ersetzt werden muss, die transformiert werden soll.
Literaturverzeichnis
- O’Hara, R. B., & Kotze, D. J. (2010). Do not log-transform count data. Methods in Ecology and Evolution, 1(2), 118–122. doi:10.
1111/ j. 2041- 210X. 2010. 00021. x