Zusammenfassung
In diesem Kapitel wird beschrieben, wie ein Agent ein unbekanntes Umweltsystem, in das er gesetzt wurde, erkunden kann. Dabei entdeckt er Zustände mit Belohnungen und muss zum einen die Pfade zu diesen Zielen optimieren, d. h. seine „Performanz verbessern“, zum anderen aber auch neue Ziele und Handlungsoptionen erkunden. Hierbei muss der Agent einen Kompromiss zwischen „Ausbeutung“ (Exploitation) und „Erkundung“ (Exploration) berücksichtigen. Einerseits muss er den möglichen Lohn bereits entdeckter Ziele kassieren, andererseits die Erkundung bewerkstelligen ohne zu wissen, ob sich der Abstecher ins Neuland überhaupt lohnt. Hierbei gibt es verschiedene Ansätze, die wertvollen Erfahrungen zu verarbeiten, die der Agent sammelt. Zum einen zielen sie darauf ab, diese so zu verarbeiten, dass der Agent unter gleichen Bedingungen künftig besser reagiert („Modellfreie Methoden“), zum anderen gibt es Ansätze, die darauf abzielen, Modelle zu verbessern, die vorhersagen können, was bei der Auswahl bestimmter Aktionen passieren würde. Zudem gibt es auch Ansätze, die Exploration zu optimieren. Dabei können Begriffe wie bspw. „Neugier“ oder „Langeweile“ als Inspirationsquelle dienen.
Nichts kann existieren ohne Ordnung. Nichts kann entstehen ohne Chaos. (Albert Einstein)
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Literatur
Dennett DC (2018) Von den Bakterien zu Bach – und zurück. Die Evolution des Geistes. Suhrkamp, Berlin
Kocsis L, Szepesvári C (2006) Bandit Based Monte-Carlo Planning. In: Fürnkranz J, Scheffer T, Spiliopoulou M (Hrsg) Machine learning: ECML 2006. 17th European Conference on Machine Learning, Berlin, Germany, September 18–22, 2006; proceedings. ECML; European Conference on Machine Learning. Springer, Berlin (Lecture notes in computer science Lecture notes in artificial intelligence, 4212), S 282–293
Godfrey-Smith P (2019) Der Krake, das Meer und die tiefen Ursprünge des Bewusstseins, 1. Aufl. Matthes & Seitz, Berlin
Legg S, Hutter M (2007) A collection of definitions of intelligence. In: IDSIA-07-07
Pathak D, Agrawal P, Efros AA, Darrell T (2017) Curiosity-driven Exploration by Self-supervised Prediction. arXiv:1705.05363
Russell S, Norvig P (2010) Artificial intelligence. A modern approach, 3. Aufl. Pearson Education Inc., New Jersey, USA
Silver D, Huang A (2016) Mastering the game of go with deep neural networks and tree search. Nature. https://www.nature.com/articles/nature16961
Sutton RS, Barto A (2018) Reinforcement learning. An introduction. Second edition. The MIT Press, Cambridge (Adaptive computation and machine learning)
Williams RJ (1992) Simple statistical gradient-following algorithms for connectionist reinforcement learning, S 229–256
Author information
Authors and Affiliations
4.1 Elektronisches Zusatzmaterial
Rights and permissions
Copyright information
© 2024 Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature
About this chapter
Cite this chapter
Lorenz, U. (2024). Entscheiden und Lernen in einer unbekannten Umwelt. In: Reinforcement Learning. Springer Vieweg, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-68311-8_4
Download citation
DOI: https://doi.org/10.1007/978-3-662-68311-8_4
Published:
Publisher Name: Springer Vieweg, Berlin, Heidelberg
Print ISBN: 978-3-662-68310-1
Online ISBN: 978-3-662-68311-8
eBook Packages: Computer Science and Engineering (German Language)