Zusammenfassung
Es wird eine einheitliche Methode entwickelt, beiMarkoffschen Entscheidungs-modellen (diskreteMarkoff-Ketten,Semi-Markoff-Prozesse, regenerative Prozesse) mit endlichem Zustands- und Entscheidungsraum und Diskontierung aus den Iterierten der Wertiteration oder überrelaxation obere und untere Schranken für den Optimalwert der Zielfunktion zu gewinnen. Schließlich werden einige numerische Ergebnisse für die resultierenden Algorithmen angegeben.
Summary
The paper deals withMarkovian decision models (discreteMarkov chains, semi-Markov processes, regenerative processes) with finite state and action space in the case of discounting future rewards. A unified method is derived to obtain upper and lower bounds for the optimal objective function based on iterates of value iteration or successive overrelaxation. Finally some numerical tests for the resulting algorithms are given.
Literaturverzeichnis
Albrecht, J.: Fehlerschranken und Konvergenzbeschleunigung bei einer monotonen oder alternierenden Iterationsfolge. Num. Math.4, 196–208, 1962.
Denardo, E. V.: Contraction Mappings in the Theory Underlying Dynamic Programming. SIAM Review9, 165–177, 1967.
Finkbeiner, B., undW. Runggaldier: Ein Wertiterationsalgorithmus für unendliche sequentielle Entscheidungsprozesse mit Diskontierung. In:R. Henn, H. P. Künzi, H. Schubert (Hrsg.), Operations Research Verfahren VI (1. Oberwolfach-Tagung über OR 1968), 124–131, Meisenheim 1969.
Hastings, N. A. J.: Some Notes on Dynamic Programming and Replacement. Operat. Res. Quart.19, 453–464, 1968.
—: Optimization of Discounted Markov Decision Problems. Operat. Res. Quart.20, 499–500, 1969.
—: Bounds on the Gain of a Markov Decision Process. Operat. Res.19, 240–244, 1971.
Hitchcock, D. F., andJ. B. MacQueen: On Computing the Expected Discounted Return in a Markov Chain. Nav. Res. Logist. Quart.17, 237–241, 1970.
Howard, R. A.: Dynamic Programming and Markov Processes. The MIT Press, Cambridge 1960.
Jewell, W.S.: Markov-Renewal Programming I and II. Operat. Res.3, 938–971, 1963.
Mac Queen, J.: A Modified Dynamic Programming Method for Markovian Decision Problems. J. Math. Anal. Appl.14, 38–43, 1966.
—: A Test for Suboptimal Actions in Markovian Decision Problems. Operat. Res.15, 559–561, 1967.
Morton, T. E.: On the Asymptotic Convergence Rate of Cost Differences for Markovian Decision Processes. Operat. Res.19, 244–248, 1971.
Odoni, A. R.: On Finding the Maximal Gain for Markov Decision Processes. Operat. Res.17, 857–860, 1969.
Porteus, E. L.: Some Bounds for Discounted Sequential Decision Processes. Management Science18, 7–11, 1971.
Reetz, D.: Solution of a Markovian Decision Problems by Successive Overrelaxation. Zeitschr. f. Operat. Res.17, 29–32, 1973.
Schellhaas, H.: Regenerative stochastische Entscheidungsprozesse mit endlich vielen Zuständen. In:R. Henn, H. P. Künzi, H. Schubert (Hrsg.): Operations Research Verfahren XIII (IV. Oberwolfach-Tagung über OR 1971), 332–357, Meisenheim 1972.
Schweitzer, P. J.: Multiple Policy Improvements in Undiscounted Markov Renewal Programming. Operat. Res.19, 784–793, 1971.
Shapiro, J. F.: Turnpike Planning Horizons for a Markovian Decision Model. Management Science14, 292–300, 1968.
Author information
Authors and Affiliations
Rights and permissions
About this article
Cite this article
Schellhaas, H. Zur Extrapolation in Markoffschen Entscheidungsmodellen mit Diskontierung. Zeitschrift für Operations Research 18, 91–104 (1974). https://doi.org/10.1007/BF01949684
Received:
Issue Date:
DOI: https://doi.org/10.1007/BF01949684