Attention Mechanisms sind ein zentraler Bestandteil moderner neuronaler Netze, insbesondere in der Verarbeitung natürlicher Sprache und der Bildverarbeitung. Sie ermöglichen es einem Modell, sich auf bestimmte Teile der Eingabedaten zu konzentrieren, während andere Teile ignoriert werden. Dies geschieht durch die Berechnung von Gewichtungen, die bestimmen, wie viel Aufmerksamkeit jedem Element der Eingabesequenz geschenkt wird. Mathematisch wird dies oft durch die Berechnung eines Aufmerksamkeitsvektors dargestellt, der aus den Eingaben generiert wird. Ein häufig verwendetes Modell ist das Scaled Dot-Product Attention, bei dem die Gewichtungen durch die Skalarprodukte zwischen Queries und Keys bestimmt werden:
Hierbei sind die Abfragen, die Schlüssel und die Werte, wobei die Dimension der Schlüssel darstellt. Durch die Verwendung von Attention Mechanisms können Modelle effektiver relevante Informationen extrahieren und gezielt verarbeiten, was ihre Leistung erheblich steigert.
Starte dein personalisiertes Lernelebnis mit acemate. Melde dich kostenlos an und finde Zusammenfassungen und Altklausuren für deine Universität.