In Transformer-Architekturen spielt die Self-Attention eine zentrale Rolle, um die Beziehungen zwischen verschiedenen Eingabeworten zu erfassen. Um die Berechnung der Aufmerksamkeitswerte zu stabilisieren und zu verbessern, wird ein Scaling-Mechanismus verwendet. Dieser besteht darin, die Dot-Products der Query- und Key-Vektoren durch die Quadratwurzel der Dimension der Key-Vektoren zu teilen, was mathematisch wie folgt dargestellt wird:
Hierbei sind die Query-Vektoren und die Key-Vektoren. Durch diese Skalierung wird sichergestellt, dass die Werte für die Softmax-Funktion nicht zu extrem werden, was zu einer besseren Differenzierung zwischen den Aufmerksamkeitsgewichten führt. Dies trägt dazu bei, das Problem der Gradientenexplosion zu vermeiden und ermöglicht eine stabilere und effektivere Trainingsdynamik im Modell. In der Praxis führt das Scaling zu einer besseren Leistung und schnelleren Konvergenz beim Training von Transformer-Modellen.
Start your personalized study experience with acemate today. Sign up for free and find summaries and mock exams for your university.