Zeitschrift für Operations-Research

, Volume 27, Issue 1, pp 17–37 | Cite as

Bounds for the regret loss in dynamic programming under adaptive control

  • M. Kolonko
Papers Series A: Theory

Abstract

We consider a Markovian dynamic programming model in which the transition probabilities depend on an unknown parameterθ. We estimate the unknownθ and adapt the control action to the estimated value. Bounds are given for the expected regret loss under this adaptive procedure, i.e. for the loss caused by using the adaptive procedure instead of an (unknown) optimal one. We assume that the dependence of the model onθ is Lipschitz continuous. The bounds depend on the expected estimation error. When confidence intervals forθ with fixed width are available, we obtain bounds for the expected regret loss that hold uniformly inθ.

Key words

Dynamic programming under uncertainty adaptive control bounds for regret loss 

Zusammenfassung

Wir betrachten ein Markoffsches Dynamisches Optimierungsmodell, in dem die übergangswahrscheinlichkeiten von einem unbekannten Parameterθ abhängen.θ wird geschätzt, und die Kontrollaktionen werden an die Schätzwerte angepaßt. Es werden Schranken für den erwarteten regret angegeben, d.h. für den Verlust, der bei Anwendung dieses adaptiven Verfahrens im Vergleich zum Optimum auftritt. Als zentrale Voraussetzung benutzen wir eine Lipschitz-stetige Abhängigkeit der Modellgrößen vonθ. Die Schranken hängen von dem erwarteten Schätzfehler ab. Gibt es Konfidenz-Intervalle fürθ mit fester Länge, so lassen sich Schranken für den regret angeben, die unabhängig vonθ sind.

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

References

  1. Bertsekas, D.P., andE.S. Shreve: Stochastic Optimal Control. The Discrete Time Case. New York 1978.Google Scholar
  2. Borkar, V., andP. Varaiya: Adaptive Control of Markov Chains. IEEE Trans. Aut. Cont. AC-24,6, 1979, 953–957.CrossRefMATHGoogle Scholar
  3. Cohen, D.L.: Measure Theory. Boston 1980.Google Scholar
  4. Doshi, B., andS.E. Shreve: Strong Consistency of a Modified Maximum Likelihood Estimator for Controlled Markov Chains. J. Appl. Prob.17, 1980, 726–734.MathSciNetCrossRefMATHGoogle Scholar
  5. Halmos, P.: Measure Theory. New York 1964.Google Scholar
  6. Hinderer, K.: Foundations of non-stationary dynamic programming with discrete time-parameter. Lecture Notes in Operations Research and Math. Systems33, 1970, Berlin.Google Scholar
  7. Kolonko, M.: The Average Optimal Adaptive Control of a Markov Renewal Model in Presence of an Unknown Parameter. To appear in Math. Operationsforschung und Statistik, Series Optimization, 1981.Google Scholar
  8. —: Strongly Consistent Estimation in a Controlled Markov Renewal Model. J. Appl. Prob.19, 1982, 532–545.MathSciNetCrossRefMATHGoogle Scholar
  9. Kurano, M.: Discrete-time Markovian decision processes with an unknown parameter: average return criterion. J.Op. Res. Soc. Jap.15, 1972, 67–76.MathSciNetMATHGoogle Scholar
  10. Mandl, P.: Estimation and Control in Markov Chains. Adv. Appl. Prob.6, 1974, 40–60.MathSciNetCrossRefMATHGoogle Scholar
  11. Schäl, M.: Conditions for Optimality in Dynamic Programming and for the Limit of n-stage Optimal Policies to Be Optimal. Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete32, 1975, 179–196.MathSciNetCrossRefMATHGoogle Scholar
  12. —: Estimation and Control in Discounted Stochastic Dynamic Programming. Preprint no. 428, SFB 72, Universität Bonn. Bonn 1981.Google Scholar
  13. -: Estimation and Control in Finite State Discounted Dynamic Programming. Optimization: Theory and Algorithms. New York 1982 (forthcoming).Google Scholar

Copyright information

© Physica-Verlag 1983

Authors and Affiliations

  • M. Kolonko
    • 1
  1. 1.Institut für Mathematische StatistikUniversität KarlsruheKarlsruhe

Personalised recommendations