Lexikon

Overfitting, Überanpassung

Überanpassung (engl. Overfitting) ist ein statistisches Konzept, bei dem ein Modell zu sehr auf die Besonderheiten der Trainingsdaten abgepasst wird, bis zu dem Punkt, an dem es nicht mehr gut auf neue Daten verallgemeinert. Dies kann aus verschiedenen Gründen geschehen, aber eine häufige Ursache ist, dass das Modell zu viele Parameter im Verhältnis zur Menge der Trainingsdaten hat. In diesem Fall hat das Modell nicht nur die zugrundeliegenden Beziehungen in den Daten „gelernt“, sondern auch zufälliges Rauschen und andere Eigenheiten, die für den Trainingssatz spezifisch sind.

Overfitting kann sowohl beim überwachten als auch beim unüberwachten Lernen ein Problem darstellen. Beim überwachten Lernen kommt es zu einer Überanpassung, wenn ein Modell zu eng an die Trainingsdaten angepasst ist und sich nicht gut auf neue Fälle verallgemeinern lässt. Dies kann passieren, wenn das Modell zu komplex ist oder wenn es zu wenige Trainingsbeispiele gibt. Beim unüberwachten Lernen kommt es zu einer Überanpassung, wenn ein Modell versucht, aus zu wenigen Beispielen zu lernen, und sich diese schließlich merkt, anstatt sie zu verallgemeinern.

Es gibt zwei generelle Möglichkeiten, Overfitting zu vermeiden: (1) die Verwendung eines einfacheren Modells oder (2) die Verwendung von mehr Daten. Bei einem einfacheren Modell ist die Wahrscheinlichkeit einer Überanpassung geringer, aber es kann sein, dass es nicht alle Nuancen der Daten erfassen kann. Mehr Daten können hingegen helfen, weil das Modell dadurch mehr Möglichkeiten hat, einen größeren und breiteren Satz an Beispielen zu sehen, was dazu beitragen kann, dass sich bestimmte Fälle nicht einprägen und das Modell auch die Gesetzmäßigkeiten in den Daten erkennt, anstatt sie sich zu „merken“.

Darüber hinaus gibt es mehrere statistische Methoden zur Vermeidung von Overfitting. Eine davon ist die Kreuzvalidierung: Die Daten werden in zwei Gruppen zufällig aufgeteilt, wobei mit einer Gruppe trainiert und mit einer anderen getestet wird.Daher hat man eine Gruppe, mit der das Modell aufgestellt wird und eine Gruppe mit anderen Daten, mit der geschaut wird, wir gut das Modell die Daten auch abbildet. Auf diese Weise können wir uns ein Bild davon machen, wie gut ein Modell bei neuen Daten abschneidet, bevor wir es tatsächlich verwenden.

Eine andere Möglichkeit ist die Regularisierung: Dem Modell wird ein Straffaktor hinzugefügt, wenn es zu viele Parameter hat. Dadurch wird das Modell zur Suche nach einfacheren, besser verallgemeinerbaren Lösungen angeregt.

Im Allgemeinen ist die Überanpassung ein Problem, das wir vermeiden wollen. Es kann zu einer schlechten Leistung bei neuen Daten führen und in einigen Fällen sogar dazu, dass das Modell das Rauschen in den Daten lernt, anstatt die zugrunde liegenden Beziehungen und Gesetzmäßigkeiten. Mit sorgfältigem Design und Tuning ist es jedoch möglich, Modelle zu erstellen, die eine Überanpassung vermeiden und sich gut auf neue Daten verallgemeinern lassen.

Diesen Eintrag zitieren

Hemmerich, W. (2022). StatistikGuru: Overfitting, Überanpassung. Retrieved from https://statistikguru.de/lexikon/overfitting.html
@misc{statistikguru,
    title    = {StatistikGuru},
    subtitle = {Overfitting, Überanpassung},
    year     = {2022},
    month    = {jul},
    url      = {https://statistikguru.de/lexikon/overfitting.html},
    author   = {Hemmerich, Wanja A.},
    urldate  = {2022-12-10}
}