본 교재에서는 Dynamic Programming 을 다음과 같이 정의한다. The term dynamic programming (DP) refers to a collection of algorithms that can be used to compute optimal policies given a perfect model of the environment as a Markov decision process (MDP). Dynamic Programming, DP는 Markov Decision Process (MDP) 같은 환경의 완벽한 모델이 주어졌을 때 Optimal Policy를 계산하는 데 사용되는 알고리즘이다. 따라서 이번 챕터에서는 environment 가 finite MDP 라는 가정을 하고 진..