๊ฐํํ์ต ( Reinforcement Learning ) ํ๊ฒฝ(Environment)์ ํ์ํ๋ ํ์ต์ฃผ์ฒด(Agent)๋ ํ์ฌ ์ํ(State)๋ฅผ ์ธ์ํ์ฌ ์ด๋ค ํ๋(Action)์ ์ทจํ๊ณ , ํ๊ฒฝ์ผ๋ก๋ถํฐ ๋ณด์(Reward)๋ฅผ ์ป๋๋ค. ๊ฐํํ์ต์ ์๊ณ ๋ฆฌ์ฆ์ Agent๊ฐ ์์ผ๋ก ๋์ ๋ Reward๋ฅผ ์ต๋ํํ๋ ์ผ๋ จ์ Actions๋ก ์ ์๋๋ Policy๋ฅผ ์ฐพ๋ ๋ฐฉ๋ฒ์ด๋ค. ํ์ฌ ์ ํํ Action์ด ๋ฏธ๋์ ์์ฐจ์ Reward์ ์ํฅ์ ๋ฏธ์น๋ค๋ ๊ฒ์ด ์ค์ํ๋ค. (Delayed Reward) ์ ์์ ๊ณผ ๋ฐ์ ์ฑ ๊ต์๋์ ์์ ์ ์ฐธ๊ณ ํ์ฌ ๊ฐํํ์ต์ ๋ํ ์ด๋ก ์ ์ธ ์ดํด๋ฅผ, Python OpenAI Gym ๋ผ์ด๋ธ๋ฌ๋ฅผ ํ์ฉํ์ฌ ๊ทธ ๊ตฌํ์ ๋ชฉํ๋ก ๊ณต๋ถํ๊ณ ํด๋น ๋ด์ฉ์ ์ ..