Zeitschrift für Operations-Research

, Volume 23, Issue 7, pp 275–287

# A method of bisection for discounted Markov decision problems

• D. Bartmann
Article

## Abstract

We describe in this paper how to introduce the concept of bisection into Dynamic Programming of stationary Markovian decision processes with infinite horizon. The combination of these two methods delivers a new class of algorithms. A basic bisection algorithm is given. Its rate of convergence is rather independent of the input data, especially the discount factor or contracting factorΒ. If in any method of successive approximations we haveΒ > 0.5, then the bisection method has a faster convergence than the successive approximations. Bisection is especially advantageous ifΒ is close to unity. The computation of two inventory control problems with the basic algorithm of bisection is presented. The second example has a discount factorΒ=0.9994. Using Howard's automobile replacement problem the new method is compared with value iteration, policy iteration andPorteus' method of extrapolations. Among them bisection turned out to be the most powerful procedure. The combination withPorteus' method of extrapolation is not as efficient as the bisection method alone. We also investigate how to combine the bisection method with monotone extrapolation when the transition matrices do not have equal row sums.

## Keywords

Successive Approximation Markovian Decision Process Infinite Horizon Bisection Method Policy Iteration
These keywords were added by machine and not by the authors. This process is experimental and the keywords may be updated as the learning algorithm improves.

## Zusammenfassung

In dieser Arbeit wird die Idee der Bisektion in die Dynamische Optimierung stationärer Markovscher Entscheidungsprozesse mit unendlichem Planungshorizont eingeführt. Die Verbindung dieser beiden Methoden schafft eine neue Klasse von Algorithmen. Ein Basisalgorithmus, der selbst Ausgangspunkt zahlreicher Verfeinerungen und Spezialisierungen bildet, wird vorgestellt. Seine Konvergenzgeschwindigkeit ist nahezu unabhängig von Input-Daten, speziell dem Diskontfaktor bzw. der Lipschitz-KonstantenΒ. Die Bisektion ist immer dann schneller als die Methode der sukzessiven Approximation, fallsΒ>0,5 ist. Deshalb ist das neue Verfahren besonders bei Problemen mit schwacher Kontraktionseigenschaft, d.h.Β nahe bei eins, geeignet. Der Rechenverlauf des Basisalgorithmus wird anhand zweier Lagerhaltungsmodelle diskutiert von denen das zweite eine Lipschitz-KonstanteΒ=0.9994 besitzt. Am Beispiel des Howardschen Autoersatzproblems zeigt sich, daß das Bisektionsverfahren im Vergleich mit der Wertiteration, Politikiteration undPorteus' Extrapolationsverfahren das schnellste Verfahren ist. Die Kombination der Bisektion mit der Extrapolationsmethode ist ungünstiger als die Bisektion allein. Es wird noch untersucht, wie die Bisektion mit der monotonen Extrapolation verbunden werden kann, wenn die Zustands-übergangsmatrizen keine konstanten Zeilensummen besitzen.

## References

1. Bartmann, D.: Optimierung Markovscher Entscheidungsprozesse. Doctoral Dissertation. Technical University of Munich, 1975.Google Scholar
2. -: Acceleration of the Method of Successive Approximations in Dynamic Programming. Internal Working Paper 1979.Google Scholar
3. Beckmann, M.J., andD. Hochstädter: Berechnung optimaler Entscheidungsregeln für die Lagerhaltung. Jahrbücher für die Nationalökonomie und Statistik182 (2), 1968, 106–123.Google Scholar
4. Denardo, E. V.: Contraction Mappings in the Theory Underlying Dynamic Programming. SIAM Review9, 1967, 165–177.
5. Hastings, N.A.J.: Optimization of Discounted Markov Decision Problems. Operational Research Quarterly20, 1969, 449–500.Google Scholar
6. McQueen, J.: A Modified Dynamic Programming Method for Markovian Decision Problems. Journal of Mathematical Analysis and Application14, 1966, 38–43.
7. —: A Test for Sub-Optimal Actions in Markovian Decision Problems. Operations Research15, 1967, 559–561.
8. Porteus, E.L.: Some Bounds for Discounted Sequential Decision Processes. Management Science18, 1971, 7–11.
9. Puterman, M.L., andM.C. Shin: Modified Policy Iteration Algorithm for Discounted Markov Decision Problems. Management Science24, 1978, 1127–1137.
10. White, D.J.: A Survey of Algorithm for Some Restricted Classes of Markov Decision Problems. Proceedings in Operations Research 8. Ed. by K.-W. Gaede et al. Würzburg 1978, 103–121.Google Scholar