728x90
반응형
- 주어진 어떤 상황(state)에서 보상(reward)을 최대화할 수 있는 행동(action)에 대해 학습
- 답이 존재하는 훈련데이터를 토대로 한 학습이 아닌 환경과의 상호작용을 통해 학습
- 현재 선택한 Action이 미래의 순차적 보상에 영향 (Delayed Reward)
- External Supervisor이 존재하지 않는다.
[ Trade-off between Exploitation and Exploration ]
Agent는 reward를 얻기 위한 action을 선택하기 위해 이미 경험한 것을 exploit하거나
미래에 더 나은 action selection을 위한 environment와의 상호작용을 위해 explore한다.
위 두 방법 중에 더 나은 결과를 만들 방법을 택하여야 한다.
강화학습 구성요소에 대한 이해를 위한 예시
Cart-Pole Problem
- 목적 : 이동하는 카트 위 기둥 균형 맞추기
- 상태 : 각도, 각속도, 위치, 수평속도 등등
- 행동 : 카트에 가해지는 수평력
- 보상 : 기둥이 수직을 이루면 각 시간단계별 1의 보상
Atari Breakout Game
- 목적 : 반사되는 공을 이용하여 벽돌 깨기
- 상태 : raw pixel
- 행동 : agent가 취하는 control
- 보상 : 게임에서 주는 score
Elements of Reinforcement Learning
Agent와 Environment에 대한 설명에 앞서 강화학습 시스템은 4가지 주요 구성요소로 이루어진다.
1. policy
- 특정 시점에 agent의 행동 방향을 정의한다.
- 본 교재에서는 policy를 'a mapping from perceived states of the environment to actions to be taken when in those states.'라고 정의하였다.
2. reward signal
- 매 시점마다 environment는 agent에게 reward라는 single number를 보낸다.
- reward signal은 agent에게 어떤 것이 좋은 event이고, 나쁜 event인지를 정의내린다.
- 즉, reward signal은 policy를 바꾸는 데 있어 주요한 basis가 된다.
3. value function
- specifies what is good in the long run.
- 해당 상태로부터 시작하여 시간이 지나 기대할 수 있는 reward의 총량을 의미한다.
- reward가 해당 시점의 desirability of environmental states를 의미한다면, value는 long-term desirability를 의미한다.
4. (optionally) model
- environment를 모방한 것으로 특정 state와 action이 주어졌을 때 resultant next state와 next reward를 예측한다.
- model은 planning에 이용된다.
728x90
반응형
'AI > 강화학습' 카테고리의 다른 글
[ 강화학습 ] 4. Dynamic Programming (0) | 2021.11.25 |
---|---|
[ 강화학습 ] 3. Finite Markov Decision Processes (0) | 2021.09.23 |
[ 강화학습 ] 2. Multi-arm Bandits (0) | 2021.09.17 |
[ 강화학습 ] 0. Introduction (0) | 2021.09.16 |