Reinforcement Q-Learning ist ein verstärkendes Lernen-Verfahren, das darauf abzielt, eine optimale Strategie für einen Agenten in einer gegebenen Umgebung zu erlernen. Der Agent interagiert mit der Umgebung, indem er Aktionen auswählt und dafür Rückmeldungen in Form von Belohnungen erhält. Der Kern des Q-Learning-Algorithmus ist die Q-Funktion, die den Wert einer bestimmten Aktion in einem bestimmten Zustand beschreibt. Diese Q-Werte werden iterativ aktualisiert, basierend auf der Formel:
Hierbei steht für den aktuellen Zustand, für die gewählte Aktion, für die erhaltene Belohnung, für den nächsten Zustand, für die Lernrate und für den Diskontfaktor. Durch ständiges Lernen und Anpassen der Q-Werte kann der Agent schließlich eine Strategie entwickeln, die es ihm ermöglicht, in der Umgebung maximale Belohnungen zu erzielen.
Starte dein personalisiertes Lernelebnis mit acemate. Melde dich kostenlos an und finde Zusammenfassungen und Altklausuren für deine Universität.