728x90
반응형
강화학습 ( Reinforcement Learning )
환경(Environment)을 탐색하는 학습주체(Agent)는 현재 상태(State)를 인식하여 어떤 행동(Action)을 취하고, 환경으로부터 보상(Reward)를 얻는다. 강화학습의 알고리즘은 Agent가 앞으로 누적될 Reward를 최대화하는 일련의 Actions로 정의되는 Policy를 찾는 방법이다. 현재 선택한 Action이 미래의 순차적 Reward에 영향을 미친다는 것이 중요하다. (Delayed Reward)
위 서적과 박유성 교수님의 < Stable Baselines를 이용한 강화학습 > 서적을 참고하여 강화학습에 대한 이론적인 이해를, Python OpenAI Gym 라이브러를 활용하여 그 구현을 목표로 공부하고 해당 내용을 정리할 계획이다.
728x90
반응형
'AI > 강화학습' 카테고리의 다른 글
[ 강화학습 ] 4. Dynamic Programming (0) | 2021.11.25 |
---|---|
[ 강화학습 ] 3. Finite Markov Decision Processes (0) | 2021.09.23 |
[ 강화학습 ] 2. Multi-arm Bandits (0) | 2021.09.17 |
[ 강화학습 ] 1. The Reinforcement Learning Problem (0) | 2021.09.16 |