Die Self-Attention-Mechanik in Transformern ermöglicht es dem Modell, verschiedene Teile einer Eingabesequenz miteinander zu gewichten und zu vergleichen, um den Kontext besser zu erfassen. Bei der Berechnung der Aufmerksamkeit wird ein Skalierungsfaktor eingeführt, um die Ergebnisse der Dot-Produkt-Operation zu stabilisieren. Dieser Faktor ist normalerweise der Quadratwurzel der Dimension der Schlüssel-Vektoren, also . Ohne diese Skalierung könnten die Dot-Produkte sehr große Werte annehmen, was zu einer extremen Aktivierung der Softmax-Funktion führen würde und somit die Lernstabilität beeinträchtigen könnte. Durch die Skalierung wird sichergestellt, dass die Aufmerksamkeit gleichmäßig verteilt wird und das Modell somit effektiver lernen kann. Die Formel für den Selbstaufmerksamkeitsmechanismus kann dann wie folgt dargestellt werden:
Hierbei sind , und die Abfragen, Schlüssel und Werte der Eingabe.
Starte dein personalisiertes Lernelebnis mit acemate. Melde dich kostenlos an und finde Zusammenfassungen und Altklausuren für deine Universität.