Stochastic Gradient Descent (SGD) ist ein Optimierungsalgorithmus, der häufig im Bereich des maschinellen Lernens und der neuronalen Netze eingesetzt wird. Im Gegensatz zum traditionellen Gradientenabstieg, der den gesamten Datensatz verwendet, um den Gradienten der Verlustfunktion zu berechnen, nutzt SGD nur einen einzelnen Datenpunkt oder eine kleine Stichprobe (Mini-Batch) in jedem Schritt. Dies führt zu einer schnelleren und dynamischeren Anpassung der Modellparameter, da die Updates häufiger und mit weniger Rechenaufwand erfolgen.
Der Algorithmus aktualisiert die Parameter eines Modells gemäß der Regel:
Hierbei ist die Lernrate, der Gradient der Verlustfunktion für den Datenpunkt . Trotz seiner Vorteile kann SGD jedoch zu einer hohen Varianz in den Updates führen, was es notwendig macht, geeignete Techniken wie Lernratenanpassung oder Momentum zu verwenden, um die Konvergenz zu verbessern.
Starte dein personalisiertes Lernelebnis mit acemate. Melde dich kostenlos an und finde Zusammenfassungen und Altklausuren für deine Universität.