Lexikon

Regularisierung

Regularisierung (engl. regularization) ist die Abstimmung oder Auswahl der bevorzugten Komplexität des statistischen Modells, sodass die Vorhersagefähigkeit (Generalisierbarkeit) des Modells verbessert wird. Verwendet man keine Regularisierung, kann das Modell zu komplex werden und die Daten überanpassen, oder zu einfach werden und die Daten unteranpassen. In beiden Fällen hatte das Modell nur eine geringe Generalisierbarkeit.

Hat man beispielsweise nur einen kleinen Datensatz und verwendet die Methode der kleinsten Quadrate (least-squares fitting; OLS) um sein Modell anzupassen, wird das Modell in der Regel überangepasst sein. Ein überangepasstes Modell beschreibt zufällige Abweichung oder Rauschen und nicht die eigentliche Beziehung der Variablen zueinander. (Es ist nicht nur die absolute Anzahl an Datenpunkten entscheidend, sondern auch das Verhältnis von Prädiktoren zu Datenpunkten.) Regularisierung versucht dieser Überanpassung entgegenzuwirken, indem eine hohe Komplexität des Modells penalisiert, also bestraft, wird. Diese Bestrafung wirkt sich meist vor allem aus, wenn das Modell große Regressionskoeffizienten hat oder viele Koeffizienten ungleich Null sind.

Die optimale Komplexität eines Modells hängt von verschiedenen Faktoren ab, unter anderem die Art des Prozesses, der abgebildet werden soll und die Qualität der Daten. A-priori weiß man entsprechend nicht, welche Komplexität optimal wäre.

Um eine Regularisierung durchführen zu können, werden zwei Dinge benötigt:

  1. Eine Möglichkeit, die Qualität des Modells zu bewerten. (Beispielsweise mit Kreuzvalidierung oder einem Validationsdatensatz.)
  2. Eine Möglichkeit, die Komplexität des Modells anzupassen. Dies kann beispielsweise durch einen Parameter passieren oder durch die Auswahl eines anderen Modells, das eine höhere bzw. niedrigere Komplexität besitzt.

Durch Auswahl einer geeigneten Komplexität, erhält man ein Modell welches die Daten bestmöglich vorhersagen kann.

Bekannte Verfahren, die Regularisierung verwenden, sind Ridge-Regression, LASSO und Elastic net Regression.