Lexikon

BIC, Bayes’sches Informationskriterium

Das Bayes’sche Informationskriterium (BIC; engl. Bayesian information criterion) ist eine Statistik, die für den Vergleich und die Auswahl verschiedener statistischer Modelle verwendet wird. Es weist viele grundlegende und mathematische Ähnlichkeiten mit dem Akaike-Informationskriterium (AIC) auf.

AIC und BIC verwenden dieselben Informationen aus der Likelihood-Funktion, aber das BIC sieht eine strengere Strafe (penalty) für das Hinzufügen weniger sinnvoller Variablen vor und tendiert daher zu einfacheren Modellen. Wie beim AIC, ist das BIC ein Maß für den Informationsverlust und das Modell mit dem niedrigsten BIC ist im Allgemeinen das zu bevorzugende.

Ganz allgemein stellen AIC und BIC zwei Alternativen zu den Bayes-Faktoren dar, die es nicht erforderlich machen, dass die Forscher Apriori-Verteilungen formulieren, und die jeweils unterschiedliche Strafen für Overfitting (d. h. eine Tendenz zu übermäßig komplexen Modellen) vorsehen, wobei AIC die geringste und BIC die größte Strafe vorsieht.

Unterschiede zwischen AIC und BIC

Trotz seiner Ähnlichkeit mit dem AIC, hat das BIC eine gänzlich andere Motivation. Er ergibt sich aus dem Bayes’schen Ansatz zur Modellauswahl, und die Wahl des Modells mit dem minimalen BIC ist gleichbedeutend mit der Wahl des Modells mit der größten (ungefähren) Posteriorwahrscheinlichkeit.

Bei der Modellauswahl gibt es allerdings keinen klaren Favoriten zwischen AIC und BIC. Das BIC ist als Auswahlkriterium asymptotisch konsistent. Das bedeutet, dass bei einer Familie von unterschiedlichen Modellen, einschließlich des wahren Modells, die Wahrscheinlichkeit, dass BIC das richtige Modell auswählt, gegen eins geht, wenn der Stichprobenumfang zunimmt. Dies ist bei AIC nicht der Fall, da es dazu neigt, Modelle auszuwählen, die mit zunehmendem Stichprobenumfang in der Regel komplexer werden (eventuell auch zu komplex). Auf der anderen Seite wählt das BIC bei endlichen Stichproben, wie sie in der Regel vorkommen, oft zu einfache Modelle aus, da es die Modellkomplexität deutlich stärker bestraft.

Siehe auch