์ด ์ฑ ์ ๋จ์ ํํธ์์ ์ง์์ ์ผ๋ก ๋ค๋ฃฐ ๋ฌธ์ ๋ฅผ ์๊ฐํ๋ ์ค์ํ ์ฑํฐ๋ก ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ์ ์ฐ๋ฆฌ๋ ๊ฐํํ์ต์ด๋ผ ์ฌ๊ธด๋ค. ์ด๋ฒ ์ฑํฐ๋ฅผ ํตํด ๊ฐํํ์ต ๋ฌธ์ ๊ฐ ์ด๋ค ๊ฒ์ธ์ง ๊ฐ๊ด์ ์ผ๋ก ์์๋ณด๊ณ ๊ทธ ์์ฉ์ ๋ํด ๋ค๋ฃฌ๋ค. ๋ํ ๊ฐํํ์ต ๋ฌธ์ ์ ์ํ์ ์ผ๋ก ์ด์์ ์ธ ํํ๋ฅผ ๋ค๋ฃจ๊ณ Bellman equation์ด๋ Value function๊ณผ ๊ฐ์ด ๊ฐํํ์ต ๋ฌธ์ ์ ์ํ์ ๊ตฌ์กฐ์ ์ค์ํ ์์๋ค์ ๋ํด ํ์ตํ๋ค. 3.1. The Agent-Environment Interface ์์ ๊ณ์ ์ธ๊ธํ์๋ฏ ๊ฐํํ์ต์์ agent๋ actions๋ฅผ ์ ํํ๊ณ environment๋ ๊ทธ actions์ ๋ฐ์ํ์ฌ agent์๊ฒ ์๋ก์ด situation์ ์ ์ํ๋ฉฐ, reward๋ฅผ ๋ฐ์์ํจ๋ค. ๊ทธ๋ฆฌ๊ณ agent๋ ์๊ฐ์ ๊ฑฐ์ณ ๊ทธ rew..