Skip to main content

Optimal entscheiden in einer bekannten Umwelt

  • Chapter
  • First Online:
Reinforcement Learning
  • 278 Accesses

Zusammenfassung

In diesem Abschnitt wird beschrieben, wie eine optimale Handlungsstrategie in einer Umwelt mit einer endlichen Anzahl von Zuständen und Aktionsmöglichkeiten berechnet werden kann. Sie lernen den Unterschied zwischen einer „off-Policy“- und einer „on-Policy“-Bewertung von Aktionsmöglichkeiten kennen. Es werden die beiden Ansätze „Zustandsbewertung“ und „Taktiksuche“ vorgestellt und in Übungsszenarien mit dem Java-Hamster angewendet und ausprobiert. Zudem werden wir die „Policy-Iteration“ als Kombination der beiden unterschiedlichen Ansätze kennen lernen, die sich hier auf interessante Weise ergänzen. Daraus lässt sich eine allgemeine Strategie zur Suche von optimalem Verhalten ableiten. Schließlich wird auf der erarbeiteten Grundlage die Ermittlung von optimalen Zügen in einem überschaubaren Brettspielszenario mit einem Gegenspieler vorgestellt.

„In der Praxis muss der Mensch die Wahrheit, d. h. die Wirklichkeit und Macht, die Diesseitigkeit seines Denkens beweisen.“ (Aus „Thesen über Feuerbach“)

(Karl Marx)

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

eBook
USD 24.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever
Softcover Book
USD 34.99
Price excludes VAT (USA)
  • Compact, lightweight edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Vgl. Sutton und Barto 2018, Kap. 4.1

  2. 2.

    Prozesse die einander widersprechen, aber doch eine Einheit bilden und sich u. U. in einer neuen.

    Stufe aufheben können.

Literatur

  • Alpaydin E (2019) Maschinelles Lernen., 2., erweiterte Auflage. De Gruyter Studium, Berlin/Boston.

    Google Scholar 

  • Bohles D. Java-hamster-model. www.java-hamster-modell.de

  • Russell S, Norvig P (2010) Artificial intelligence. A modern approach, 3. Aufl. Pearson Education, New Jersey

    Google Scholar 

  • Sutton RS, Barto A (2018) Reinforcement learning. An introduction, 2. Aufl. The MIT Press (Adaptive computation and machine learning), Cambridge/London

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Uwe Lorenz .

3.1 Elektronisches Zusatzmaterial

Rights and permissions

Reprints and permissions

Copyright information

© 2024 Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature

About this chapter

Check for updates. Verify currency and authenticity via CrossMark

Cite this chapter

Lorenz, U. (2024). Optimal entscheiden in einer bekannten Umwelt. In: Reinforcement Learning. Springer Vieweg, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-68311-8_3

Download citation

  • DOI: https://doi.org/10.1007/978-3-662-68311-8_3

  • Published:

  • Publisher Name: Springer Vieweg, Berlin, Heidelberg

  • Print ISBN: 978-3-662-68310-1

  • Online ISBN: 978-3-662-68311-8

  • eBook Packages: Computer Science and Engineering (German Language)

Publish with us

Policies and ethics