Der UCB-Algorithmus (Upper Confidence Bound) ist eine effektive Strategie zur Lösung des Multi-Armed Bandit-Problems, das in der Entscheidungsfindung und im maschinellen Lernen häufig vorkommt. Bei diesem Problem steht ein Agent vor der Wahl, aus mehreren Optionen (Armen) zu wählen, wobei jede Option eine unbekannte Belohnungsverteilung hat. Der UCB-Algorithmus verfolgt einen explorativen Ansatz, indem er sowohl die mittlere Belohnung jeder Option als auch die Unsicherheit über diese Schätzungen berücksichtigt.
Die zentrale Idee des UCB-Algorithmus besteht darin, eine obere Schranke für die geschätzte Belohnung jeder Option zu berechnen, die sowohl die bisherige Leistung als auch die Anzahl der Male, die die Option gewählt wurde, einbezieht. Diese Schranke wird wie folgt definiert:
Hierbei ist die geschätzte durchschnittliche Belohnung der Option zum Zeitpunkt , die Anzahl der Ziehungen von Option , und der natürliche Logarithmus von . Der Agent wählt dann
Starte dein personalisiertes Lernelebnis mit acemate. Melde dich kostenlos an und finde Zusammenfassungen und Altklausuren für deine Universität.