StudierendeLehrende

Hierarchical Reinforcement Learning

Hierarchical Reinforcement Learning (HRL) ist ein Ansatz im Bereich des maschinellen Lernens, der darauf abzielt, komplexe Entscheidungsprobleme durch die Einführung von Hierarchien zu lösen. Bei HRL wird ein Hauptziel in kleinere, überschaubarere Unterziele zerlegt, die als Subaufgaben bezeichnet werden. Dies ermöglicht es dem Agenten, Strategien auf verschiedenen Abstraktionsebenen zu entwickeln und zu optimieren.

Ein typisches HRL-Modell besteht aus zwei Hauptkomponenten: dem Manager und den Arbeitern. Der Manager entscheidet, welches Subziel der Agent als nächstes verfolgen soll, während die Arbeiter die spezifischen Aktionen zur Erreichung dieser Subziele ausführen. Durch diese Hierarchisierung kann der Lernprozess effizienter gestaltet werden, da der Agent nicht ständig alle möglichen Aktionen im gesamten Problembereich evaluieren muss, sondern sich auf die relevanten Teilprobleme konzentrieren kann.

Insgesamt bietet HRL eine vielversprechende Möglichkeit, die Komplexität im Reinforcement Learning zu reduzieren und die Lerngeschwindigkeit zu erhöhen, indem es die Struktur von Aufgaben nutzt.

Weitere verwandte Begriffe

contact us

Zeit zu lernen

Starte dein personalisiertes Lernelebnis mit acemate. Melde dich kostenlos an und finde Zusammenfassungen und Altklausuren für deine Universität.

logoVerwandle jedes Dokument in ein interaktives Lernerlebnis.
Antong Yin

Antong Yin

Co-Founder & CEO

Jan Tiegges

Jan Tiegges

Co-Founder & CTO

Paul Herman

Paul Herman

Co-Founder & CPO

© 2025 acemate UG (haftungsbeschränkt)  |   Nutzungsbedingungen  |   Datenschutzerklärung  |   Impressum  |   Jobs   |  
iconlogo
Einloggen

Planck-Konstante

Die Planck-Konstante ist eine fundamentale physikalische Konstante, die die quantenmechanischen Eigenschaften von Materie und Licht beschreibt. Sie wird normalerweise mit dem Symbol hhh dargestellt und hat den Wert h≈6,626×10−34 Jsh \approx 6,626 \times 10^{-34} \, \text{Js}h≈6,626×10−34Js. Diese Konstante spielt eine zentrale Rolle in der Quantenmechanik, insbesondere in der Beziehung zwischen Energie EEE und Frequenz ν\nuν eines Photons, die durch die Gleichung E=h⋅νE = h \cdot \nuE=h⋅ν gegeben ist. Die Planck-Konstante ist auch entscheidend für das Verständnis von Phänomenen wie dem photoelektrischen Effekt und der quantisierten Natur des Lichts. In der modernen Physik wird sie häufig in Form der reduzierten Planck-Konstante ℏ\hbarℏ verwendet, die definiert ist als ℏ=h2π\hbar = \frac{h}{2\pi}ℏ=2πh​.

Lieferkettenoptimierung

Die Supply Chain Optimization (Lieferkettenoptimierung) bezieht sich auf den Prozess der Verbesserung der Effizienz und Effektivität aller Aktivitäten, die in der Lieferkette eines Unternehmens stattfinden. Ziel ist es, die Gesamtkosten zu minimieren und gleichzeitig die Servicequalität zu maximieren. Dies umfasst verschiedene Aspekte wie die Planung, Beschaffung, Produktion, Lagerung und Distribution von Waren und Dienstleistungen.

Ein zentraler Bestandteil der Lieferkettenoptimierung ist die Analyse und Gestaltung von Flussdiagrammen, um Engpässe oder Überkapazitäten zu identifizieren. Hierbei kommen häufig mathematische Modelle und Algorithmen zum Einsatz, um Entscheidungsprozesse zu unterstützen. Beispielsweise kann die Optimierung des Bestandsniveaus mit der Formel:

EOQ=2DSH\text{EOQ} = \sqrt{\frac{2DS}{H}}EOQ=H2DS​​

beschrieben werden, wobei DDD die Nachfrage, SSS die Bestellkosten und HHH die Lagerhaltungskosten sind. Durch effektive Strategien zur Optimierung der Lieferkette können Unternehmen nicht nur Kosten sparen, sondern auch ihre Reaktionsfähigkeit auf Marktveränderungen erhöhen.

Shapley-Wert

Der Shapley Value ist ein Konzept aus der kooperativen Spieltheorie, das zur Verteilung von Gewinnen oder Verlusten unter den Mitgliedern einer Koalition verwendet wird. Er wurde von Lloyd Shapley entwickelt und basiert auf der Idee, dass jeder Spieler einen bestimmten Beitrag zum Gesamtergebnis leistet. Der Shapley Value berücksichtigt nicht nur den individuellen Beitrag eines Spielers, sondern auch, wie dieser Beitrag in verschiedenen Koalitionen zum Tragen kommt.

Mathematisch wird der Shapley Value für einen Spieler iii in einer Koalition durch die Formel

ϕi(v)=∑S⊆N∖{i}∣S∣!⋅(∣N∣−∣S∣−1)!∣N∣!⋅(v(S∪{i})−v(S))\phi_i(v) = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|! \cdot (|N| - |S| - 1)!}{|N|!} \cdot (v(S \cup \{i\}) - v(S))ϕi​(v)=S⊆N∖{i}∑​∣N∣!∣S∣!⋅(∣N∣−∣S∣−1)!​⋅(v(S∪{i})−v(S))

definiert, wobei NNN die Menge aller Spieler ist und v(S)v(S)v(S) den Wert der Koalition SSS darstellt. Der Shapley Value hat zahlreiche Anwendungen in verschiedenen Bereichen, wie z.B. der Wirtschaft, der Politik und der Verteilung von Ressourcen, da er faire und rationale Entscheidungsfindungen fördert.

Phasenverschobener Vollbrückenwandler

Der Phase-Shift Full-Bridge Converter ist ein leistungsfähiger DC-DC-Wandler, der häufig in Anwendungen wie der Stromversorgung von Hochleistungsgeräten eingesetzt wird. Er besteht aus vier Schaltern, die in einer Vollbrücke konfiguriert sind, und nutzt die Phasenverschiebung der Schaltsignale, um die Ausgangsspannung zu steuern. Diese Technik ermöglicht eine effiziente Energieübertragung und reduziert die Schaltverluste, da die Schalter in weicher Schaltung betrieben werden können. Die Ausgangsleistung kann durch die Anpassung der Phasenverschiebung zwischen den Schaltern variiert werden, was eine präzise Regelung der Ausgangsspannung ermöglicht.

Ein weiterer Vorteil dieses Konverters ist die Isolation zwischen Eingangs- und Ausgangsseite, die durch einen Transformator erreicht wird. Die mathematische Beziehung für die Ausgangsspannung VoutV_{out}Vout​ kann durch die Formel

Vout=Vin⋅DnV_{out} = \frac{V_{in} \cdot D}{n}Vout​=nVin​⋅D​

beschrieben werden, wobei VinV_{in}Vin​ die Eingangsspannung, DDD das Tastverhältnis und nnn das Übersetzungsverhältnis des Transformators ist.

Mahler-Maß

Die Mahler Measure ist ein Konzept aus der algebraischen Geometrie und der Zahlentheorie, das zur Quantifizierung der Komplexität von Polynomen verwendet wird. Sie ist definiert für ein gegebenes mehrvariables Polynom P(x1,x2,…,xn)P(x_1, x_2, \ldots, x_n)P(x1​,x2​,…,xn​) und wird mathematisch als

M(P)=∏i=1nmax⁡(1,∣ai∣)M(P) = \prod_{i=1}^{n} \max(1, |a_i|) M(P)=i=1∏n​max(1,∣ai​∣)

beschrieben, wobei aia_iai​ die Koeffizienten des Polynoms sind. Die Mahler Measure misst dabei nicht nur den Betrag der Koeffizienten, sondern berücksichtigt auch die maximalen Werte, um eine Art "Volumen" im Koeffizientenraum zu erfassen. Diese Maßzahl hat bedeutende Anwendungen in der Diophantischen Geometrie, da sie hilft, die Größe und die Wurzeln von Polynomen zu charakterisieren. Zudem spielt die Mahler Measure eine Rolle in der Untersuchung von transzendentalen Zahlen und der arithmetischen Geometrie.

Graph-Isomorphismus

Der Begriff Graph Isomorphism bezieht sich auf die Beziehung zwischen zwei Graphen, bei der es eine Eins-zu-eins-Zuordnung der Knoten eines Graphen zu den Knoten eines anderen Graphen gibt, sodass die Struktur beider Graphen identisch bleibt. Das bedeutet, dass, wenn zwei Graphen isomorph sind, sie die gleiche Anzahl von Knoten und Kanten besitzen und die Verbindungen zwischen den Knoten (die Kanten) gleich sind, nur die Benennung der Knoten kann unterschiedlich sein. Mathematisch ausgedrückt, sind zwei Graphen G1=(V1,E1)G_1 = (V_1, E_1)G1​=(V1​,E1​) und G2=(V2,E2)G_2 = (V_2, E_2)G2​=(V2​,E2​) isomorph, wenn es eine bijektive Funktion f:V1→V2f: V_1 \to V_2f:V1​→V2​ gibt, sodass für alle u,v∈V1u, v \in V_1u,v∈V1​ gilt:

{u,v}∈E1  ⟺  {f(u),f(v)}∈E2.\{u, v\} \in E_1 \iff \{f(u), f(v)\} \in E_2.{u,v}∈E1​⟺{f(u),f(v)}∈E2​.

Das Problem des Graph-Isomorphismus ist von großer Bedeutung in verschiedenen Bereichen, einschließlich der Chemie, wo die Struktur von Molekülen als Graphen dargestellt werden kann, und in der Informatik, insbesondere in der Komplexitätstheorie. Trotz seines scheinbar einfachen Charakters ist es bisher nicht bekannt