Komplexere Modelle
Offensichtlich ist das Perzeptron kein vollständiges Modell menschlicher Entscheidungsfindung! Das Beispiel veranschaulicht aber, wie ein Perzeptron verschiedene Arten von Daten abwägen kann, um Entscheidungen zu treffen. Und es sollte plausibel erscheinen, dass ein komplexes Netzwerk von Perzeptronen ganz subtile Entscheidungen treffen könnte:
In diesem Netzwerk trifft die erste Spalte der Perzeptronen – was wir die erste Schicht (engl. Layer) der Perzeptronen nennen werden – drei sehr einfache Entscheidungen, indem sie die Daten der Eingaben gegeneinander abwägt. Was ist mit den Perzeptronen in der zweiten Schicht? Jede dieser Perzeptionen trifft eine Entscheidung, indem sie die Ergebnisse der ersten Entscheidungsebene gegeneinander abwägt. Auf diese Weise kann ein Perzeptron in der zweiten Schicht eine Entscheidung auf einer komplexeren und abstrakteren Ebene treffen als ein Perzeptron in der ersten Schicht. Und noch komplexere Entscheidungen kann das Perzeptron in der dritten Schicht treffen. Auf diese Weise kann ein vielschichtiges Netzwerk von Perzeptronen eine differenzierte Entscheidungsfindung betreiben.
Übrigens haben wir bei der Definition von Perzeptronen gesagt, dass ein Perzeptron nur einen einzigen Ausgang hat. Im obigen Netzwerk sehen die Perzeptrone aber so aus, als hätten sie mehrere Ausgänge. Tatsächlich sind sie immer noch nur eine Ausgabe, denn derselbe Ausgabewert wird lediglich an die anderen Perzeptrone weitergeleitet. Die Mehrfachausgabepfeile sind lediglich ein nützlicher Hinweis darauf, dass der Ausgang eines Perzeptrons als Eingang für mehrere andere Perzeptrons verwendet wird. Es ist weniger umständlich, als eine einzelne Ausgabelinie zu zeichnen, die sich dann aufteilt.
Vereinfachen wir die Art und Weise, wie wir Perzeptrone definieren. Die Bedingung \(\sum_j w_j x_j > \mbox{Schwellenwert}\) ist etwas umständlich, und wir können zwei Notationsänderungen vornehmen, um sie zu vereinfachen. Die erste Änderung besteht darin, \(\sum_j w_j x_j\) als Punktprodukt zu schreiben, \(w \cdot x \equiv \sum_j w_j x_j\), wobei w und x Vektoren sind, deren Komponenten die Gewichte bzw. Eingaben sind. Die zweite Änderung besteht darin, die Schwellenwerte auf die andere Seite der Ungleichung zu verschieben und sie durch das so genannte Perzeptron-Bias b, \(b \equiv -\mbox{Schwellenwert}\), zu ersetzen. Durch die Verwendung des Bias anstelle des Schwellwertes kann die Perzeptron-Regel umgeschrieben werden:
\(\begin{eqnarray} \mbox{Ausgabe} = \left\{ \begin{array}{ll} 0 & \mbox{wenn } w\cdot x + b \leq 0 \\ 1 & \mbox{wenn } w\cdot x + b > 0 \end{array} \right. \tag{2}\end{eqnarray}\)So, dass ist doch viel Eleganter!
Wir können uns den Bias als Maß dafür vorstellen, wie einfach es ist, das Perzeptron dazu zu bringen, eine 1 auszugeben. Oder, um es biologischer auszudrücken, die Bias ist ein Maß dafür, wie einfach es ist, das Perzeptron zum Feuern zu bringen (in Anlehnung an Neurone). Für ein Perzeptron mit einer wirklich großen Bias ist es extrem einfach, eine 1 auszugeben. Aber wenn das Bias sehr negativ ist, dann ist es für das Perzeptron schwierig, eine 1 auszugeben. Wie wir später noch sehen werden, bringt die Einführung des Bias weitere Vorteile mit sich, unter Anderem eine weitere Vereinfachung der Notation. Aus diesem Grund werden wir im Weiteren nicht den Schwellenwert verwenden, sondern immer den Bias.