Einstieg in die Datentransformation
Parametrische Prüfverfahren machen gewisse Annahmen über die Daten, die analysiert werden sollen. Sind diese Annahmen verletzt, liefert das Verfahren oft verzerrte Ergebnisse. Transformationen können angewendet werden, damit die Daten diese Annahmen wieder erfüllen bzw. ihnen näher kommen, die Interpretierbarkeit der Ergebnisse zu ermöglichen und Daten besser grafisch zu visualizieren.
Die Wahl zwischen den verschiedenen Transformationen wird entschieden, je nachdem wie die Daten aussehen, und wie sie später aussehen sollen.
Gründe für Datentransformation
Welche Transformationen angewendet wird und ob eine Transformationen überhaupt angewendet werden soll oder darf hängt zu Großteil auch von dem verwendeten statistischen Verfahren ab. Will man beispielsweise 95%-Konfidenzintervalle berechnen, würde man normalerweise den Mittelwert berechnen, plus-minus den Standardfehler multipliziert mit dem Faktor 1,96. Der Wert 1,96 wird allerdings aus der inversen Standardnormalverteilung berechnet. Für die Berechnung der Konfidenzintervalle müssten die Daten etwa normalverteilt sein. Der zentrale Grenzwertsatz sagt uns allerdings, dass wir ab einer gewissen Stichprobengröße von der Normalverteilung ausgehen können. Sind allerdings die Daten nicht normalverteilt, die Stichprobengröße nur klein und die Daten schief, wird der zentrale Grenzwertsatz unzureichend halten. Wenn uns bekannt ist, dass die Daten schief sind, können wir eine Transformationen anwenden, damit die Daten eher symmetrisch verteilt sind und die Voraussetzungen für die Berechnung der Konfidenzintervalle erfüllt sind.
Daten werden oft transformiert, um sie grafisch besser darzustellen. Wenn wir beispielsweise alle Länder der Welt nach ihrer Bevölkerung und Fläche abtragen wollen, werden wir feststellen, dass der Großteil der Länder in der unteren linken Ecke des Diagramms zu finden ist und dort einen Cluster formt. Einige wenige Länder würden allerdings im oberen Bereich der Grafik geplottet werden. Eine einfache Änderung der Achsenskalierung würde dies nicht ändern. Würde man allerdings beide Achsen logarithmisch transformieren, würden sich die Daten ebenmäßig über das Diagramm verteilen.
Daten können deshalb auch transformiert werden, um ihre Interpretierbarkeit zu verbessern.