Lexikon

Mahalanobis-Distanz

Die Mahalanobis-Distanz ist ein Maß für die Strecke zwischen zwei Punkten in einem Raum, der durch zwei korrelierte Variablen definiert wurde. Es ist eine multidimensionale Verallgemeinerung des Prinzips die Distanz zwischen einem Punkt P und dem Mittelwert einer Verteilung V auszudrücken. Die Distanz ist hierbei die Anzahl der Standardabweichungen die P von V entfernt liegt. Die Distanz ist Null, wenn P dem Mittelwert der von V entspricht.

Die Mahalanobis-Distanz wird gerne verwendet, um Ausreißer in Datensätzen zu bestimmen, in Clusteranalysen und bei Klassifikationsverfahren.

Intuitive Erklärung

Stellen wir uns vor, wir wollten wissen, ob ein Punkt Q (in diesem Fall das Ergebnis eines Tests) noch zu einer Menge anderer Punkte gehört. Wir haben bereits einige andere Testwerte erhoben, von denen wir wissen, dass sie Teil dieser Menge sind. Im ersten Schritt würden wir den Durchschnitt, oder Centroiden, der anderen Punkte ermitteln. Unsere Intuition sagt uns, dass je näher unser Punkt Q an dem Centroid liegt, desto höher ist die Wahrscheinlichkeit, dass er Teil der Menge ist.

Allerdings ist der Centroid als reines Maß für den Mittelwert nicht sehr aussagekräftig. Wir benötigen auch noch ein Maß für die Streuung der Punkte unserer Menge. Je geringer die Streuung ist, desto aussagekräftiger wird der Centroid.

Eine einfache Herangehensweise wäre es, die Standardabweichung der Entfernungen zum Centroiden zu berechnen. Liegt unser Punkt mehr als eine (oder 1,5) Standardabweichungen vom Centroiden entfernt, könnten wir schlussfolgern, dass der Punkt nicht mehr Teil unserer Menge ist.

Diesen Gedanken können wir allgemeiner ausdrücken, indem wir unseren Punkt standardisieren. Wenn wir den standardisierten Wert mit einer Normalverteilung überprüfen, erhalten wir die Wahrscheinlichkeit, dass der Punkt auch Teil der Menge ist.

Der Nachteil hierbei ist allerdings, dass wir annehmen, die Punkte wären sphärisch um den Centroiden verteilt. Wäre die Verteilung der Punkte aber nicht sphärisch, sondern beispielsweise elliptisch, wäre die Wahrscheinlichkeit, dass der Punkt zu der Menge gehört, nicht nur abhängig von der reinen Entfernung zum Centroiden, sondern auch von der Richtung. Auf der Seite, an der die Ellipse kürzer ist, muss der Punkt näher am Centroiden liegen, damit er noch Teil der Menge ist; umgekehrt kann der Punkt an der längeren Seite weiter entfernt liegen und immer noch Teil der Menge sein.

Mathematisch betrachtet ist die Mahalanobis-Distanz die Entfernung des Punktes von dem Centroiden geteilt durch die Länge der Ellipse in der Richtung des Punktes.