AI/강화학습

[ 강화학습 ] 1. The Reinforcement Learning Problem

hae-koos 2021. 9. 16. 22:44
728x90
반응형

  • 주어진 어떤 상황(state)에서 보상(reward)을 최대화할 수 있는 행동(action)에 대해 학습
  • 답이 존재하는 훈련데이터를 토대로 한 학습이 아닌 환경과의 상호작용을 통해 학습
  • 현재 선택한 Action이 미래의 순차적 보상에 영향 (Delayed Reward)
  • External Supervisor이 존재하지 않는다.

 

[ Trade-off between Exploitation and Exploration ]

Agent는 reward를 얻기 위한 action을 선택하기 위해 이미 경험한 것을 exploit하거나

미래에 더 나은 action selection을 위한 environment와의 상호작용을 위해 explore한다.

위 두 방법 중에 더 나은 결과를 만들 방법을 택하여야 한다.


강화학습 구성요소에 대한 이해를 위한 예시

Cart-Pole Problem

  • 목적 : 이동하는 카트 위 기둥 균형 맞추기
  • 상태 : 각도, 각속도, 위치, 수평속도 등등
  • 행동 : 카트에 가해지는 수평력
  • 보상 : 기둥이 수직을 이루면 각 시간단계별 1의 보상

Atari Breakout Game

  • 목적 : 반사되는 공을 이용하여 벽돌 깨기
  • 상태 : raw pixel
  • 행동 : agent가 취하는 control
  • 보상 : 게임에서 주는 score

Elements of Reinforcement Learning

Agent와 Environment에 대한 설명에 앞서 강화학습 시스템은 4가지 주요 구성요소로 이루어진다.

 

1. policy

  • 특정 시점에 agent의 행동 방향을 정의한다.
  • 본 교재에서는 policy를 'a mapping from perceived states of the environment to actions to be taken when in those states.'라고 정의하였다.

2. reward signal

  • 매 시점마다 environment는 agent에게 reward라는 single number를 보낸다.
  • reward signal은 agent에게 어떤 것이 좋은 event이고, 나쁜 event인지를 정의내린다.
  • 즉, reward signal은 policy를 바꾸는 데 있어 주요한 basis가 된다.

3. value function

  • specifies what is good in the long run.
  • 해당 상태로부터 시작하여 시간이 지나 기대할 수 있는 reward의 총량을 의미한다.
  • reward가 해당 시점의 desirability of environmental states를 의미한다면, value는 long-term desirability를 의미한다.

4. (optionally) model

  • environment를 모방한 것으로 특정 state와 action이 주어졌을 때 resultant next state와 next reward를 예측한다.
  • model은 planning에 이용된다.

728x90
반응형