Zeitschrift für Operations Research

, Volume 18, Issue 3, pp 91–104 | Cite as

Zur Extrapolation in Markoffschen Entscheidungsmodellen mit Diskontierung

  • H. Schellhaas
Article

Zusammenfassung

Es wird eine einheitliche Methode entwickelt, beiMarkoffschen Entscheidungs-modellen (diskreteMarkoff-Ketten,Semi-Markoff-Prozesse, regenerative Prozesse) mit endlichem Zustands- und Entscheidungsraum und Diskontierung aus den Iterierten der Wertiteration oder überrelaxation obere und untere Schranken für den Optimalwert der Zielfunktion zu gewinnen. Schließlich werden einige numerische Ergebnisse für die resultierenden Algorithmen angegeben.

Summary

The paper deals withMarkovian decision models (discreteMarkov chains, semi-Markov processes, regenerative processes) with finite state and action space in the case of discounting future rewards. A unified method is derived to obtain upper and lower bounds for the optimal objective function based on iterates of value iteration or successive overrelaxation. Finally some numerical tests for the resulting algorithms are given.

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

Literaturverzeichnis

  1. Albrecht, J.: Fehlerschranken und Konvergenzbeschleunigung bei einer monotonen oder alternierenden Iterationsfolge. Num. Math.4, 196–208, 1962.Google Scholar
  2. Denardo, E. V.: Contraction Mappings in the Theory Underlying Dynamic Programming. SIAM Review9, 165–177, 1967.Google Scholar
  3. Finkbeiner, B., undW. Runggaldier: Ein Wertiterationsalgorithmus für unendliche sequentielle Entscheidungsprozesse mit Diskontierung. In:R. Henn, H. P. Künzi, H. Schubert (Hrsg.), Operations Research Verfahren VI (1. Oberwolfach-Tagung über OR 1968), 124–131, Meisenheim 1969.Google Scholar
  4. Hastings, N. A. J.: Some Notes on Dynamic Programming and Replacement. Operat. Res. Quart.19, 453–464, 1968.Google Scholar
  5. —: Optimization of Discounted Markov Decision Problems. Operat. Res. Quart.20, 499–500, 1969.Google Scholar
  6. —: Bounds on the Gain of a Markov Decision Process. Operat. Res.19, 240–244, 1971.Google Scholar
  7. Hitchcock, D. F., andJ. B. MacQueen: On Computing the Expected Discounted Return in a Markov Chain. Nav. Res. Logist. Quart.17, 237–241, 1970.Google Scholar
  8. Howard, R. A.: Dynamic Programming and Markov Processes. The MIT Press, Cambridge 1960.Google Scholar
  9. Jewell, W.S.: Markov-Renewal Programming I and II. Operat. Res.3, 938–971, 1963.Google Scholar
  10. Mac Queen, J.: A Modified Dynamic Programming Method for Markovian Decision Problems. J. Math. Anal. Appl.14, 38–43, 1966.Google Scholar
  11. —: A Test for Suboptimal Actions in Markovian Decision Problems. Operat. Res.15, 559–561, 1967.Google Scholar
  12. Morton, T. E.: On the Asymptotic Convergence Rate of Cost Differences for Markovian Decision Processes. Operat. Res.19, 244–248, 1971.Google Scholar
  13. Odoni, A. R.: On Finding the Maximal Gain for Markov Decision Processes. Operat. Res.17, 857–860, 1969.Google Scholar
  14. Porteus, E. L.: Some Bounds for Discounted Sequential Decision Processes. Management Science18, 7–11, 1971.Google Scholar
  15. Reetz, D.: Solution of a Markovian Decision Problems by Successive Overrelaxation. Zeitschr. f. Operat. Res.17, 29–32, 1973.Google Scholar
  16. Schellhaas, H.: Regenerative stochastische Entscheidungsprozesse mit endlich vielen Zuständen. In:R. Henn, H. P. Künzi, H. Schubert (Hrsg.): Operations Research Verfahren XIII (IV. Oberwolfach-Tagung über OR 1971), 332–357, Meisenheim 1972.Google Scholar
  17. Schweitzer, P. J.: Multiple Policy Improvements in Undiscounted Markov Renewal Programming. Operat. Res.19, 784–793, 1971.Google Scholar
  18. Shapiro, J. F.: Turnpike Planning Horizons for a Markovian Decision Model. Management Science14, 292–300, 1968.Google Scholar

Copyright information

© Physica-Verlag 1974

Authors and Affiliations

  • H. Schellhaas
    • 1
  1. 1.Fachbereich MathematikTechnische Hochschule61 Darmstadt

Personalised recommendations