이 책의 남은 파트에서 지속적으로 다룰 문제를 소개하는 중요한 챕터로 이 문제를 해결하는 방법을 우리는 강화학습이라 여긴다. 이번 챕터를 통해 강화학습 문제가 어떤 것인지 개괄적으로 알아보고 그 응용에 대해 다룬다. 또한 강화학습 문제의 수학적으로 이상적인 형태를 다루고 Bellman equation이나 Value function과 같이 강화학습 문제의 수학적 구조의 중요한 요소들에 대해 학습한다. 3.1. The Agent-Environment Interface 앞서 계속 언급하였듯 강화학습에서 agent는 actions를 선택하고 environment는 그 actions에 반응하여 agent에게 새로운 situation을 제시하며, reward를 발생시킨다. 그리고 agent는 시간을 거쳐 그 rew..