Neural Networks

Activation Function

Eine Aktivierungsfunktion (Activation Function) ist eine mathematische Komponente in künstlichen neuronalen Netzen, die über das 'Feuern' eines Neurons entscheidet. Sie wird auf das Ergebnis der gewichteten Summe der Eingaben eines Neurons (plus Bias) angewendet und transformiert diesen Wert in den Output des Neurons. Ohne Aktivierungsfunktionen wären neuronale Netze, egal wie viele Schichten sie haben, mathematisch gesehen nur eine einzige große lineare Regression. Sie wären nicht in der Lage, komplexe, nicht-lineare Zusammenhänge (wie die Form eines Gesichts oder die Grammatik einer Sprache) zu lernen.

Die Aktivierungsfunktion führt die notwendige 'Nicht-Linearität' in das Modell ein. Historisch wurde oft die 'Sigmoid'-Funktion verwendet, die Werte sanft zwischen 0 und 1 skaliert, ähnlich dem biologischen Vorbild. In modernes Deep Learning haben sich jedoch andere Funktionen durchgesetzt, insbesondere 'ReLU' (Rectified Linear Unit), die einfach alle negativen Werte auf Null setzt und positive Werte unverändert lässt. ReLU ist rechentechnisch extrem effizient und hilft gegen das Problem des 'Verschwindenden Gradienten' (Vanishing Gradient Problem) bei sehr tiefen Netzen.

Es gibt viele spezialisierte Varianten wie Leaky ReLU, ELU, Swish (von Google) oder GeLU (in Transformers genutzt), die je nach Architektur und Datenlage Vorteile bieten. Die Wahl der richtigen Aktivierungsfunktion ist ein wichtiger Hyperparameter beim Design neuronaler Architekturen.

Math Deep Learning