Optimal entscheiden in einer bekannten Umwelt

Lorenz, Uwe

doi:10.1007/978-3-662-68311-8_3

Uwe Lorenz²

278 Accesses

Zusammenfassung

In diesem Abschnitt wird beschrieben, wie eine optimale Handlungsstrategie in einer Umwelt mit einer endlichen Anzahl von Zuständen und Aktionsmöglichkeiten berechnet werden kann. Sie lernen den Unterschied zwischen einer „off-Policy“- und einer „on-Policy“-Bewertung von Aktionsmöglichkeiten kennen. Es werden die beiden Ansätze „Zustandsbewertung“ und „Taktiksuche“ vorgestellt und in Übungsszenarien mit dem Java-Hamster angewendet und ausprobiert. Zudem werden wir die „Policy-Iteration“ als Kombination der beiden unterschiedlichen Ansätze kennen lernen, die sich hier auf interessante Weise ergänzen. Daraus lässt sich eine allgemeine Strategie zur Suche von optimalem Verhalten ableiten. Schließlich wird auf der erarbeiteten Grundlage die Ermittlung von optimalen Zügen in einem überschaubaren Brettspielszenario mit einem Gegenspieler vorgestellt.

„In der Praxis muss der Mensch die Wahrheit, d. h. die Wirklichkeit und Macht, die Diesseitigkeit seines Denkens beweisen.“ (Aus „Thesen über Feuerbach“)

(Karl Marx)

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

eBook: USD 24.99; Price excludes VAT (USA)

Softcover Book: USD 34.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

1.
Vgl. Sutton und Barto 2018, Kap. 4.1
2.
Prozesse die einander widersprechen, aber doch eine Einheit bilden und sich u. U. in einer neuen.
Stufe aufheben können.

Literatur

Alpaydin E (2019) Maschinelles Lernen., 2., erweiterte Auflage. De Gruyter Studium, Berlin/Boston.
Google Scholar
Bohles D. Java-hamster-model. www.java-hamster-modell.de
Russell S, Norvig P (2010) Artificial intelligence. A modern approach, 3. Aufl. Pearson Education, New Jersey
Google Scholar
Sutton RS, Barto A (2018) Reinforcement learning. An introduction, 2. Aufl. The MIT Press (Adaptive computation and machine learning), Cambridge/London
Google Scholar

Download references

Author information

Authors and Affiliations

Neckargemünd, Baden-Württemberg, Deutschland
Uwe Lorenz

Authors

Uwe Lorenz
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Uwe Lorenz .

3.1 Elektronisches Zusatzmaterial

Zusatzmaterial 1 (ZIP 202 kb)

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Lorenz, U. (2024). Optimal entscheiden in einer bekannten Umwelt. In: Reinforcement Learning. Springer Vieweg, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-68311-8_3

Download citation

DOI: https://doi.org/10.1007/978-3-662-68311-8_3
Published: 05 April 2024
Publisher Name: Springer Vieweg, Berlin, Heidelberg
Print ISBN: 978-3-662-68310-1
Online ISBN: 978-3-662-68311-8
eBook Packages: Computer Science and Engineering (German Language)

Publish with us

Policies and ethics

Optimal entscheiden in einer bekannten Umwelt