728x90
반응형

AI 33

[ 강화학습 ] 2. Multi-arm Bandits

Part Ⅰ. Tabular Solution Methods 강화학습의 simplest forms에 대하여 배우는 챕터다. action-value function이 array나 table 형태로 나타나기에 충분할 정도로 그 state와 action space가 작은 형태다. 이러한 경우, optimal value function과 optimal policy를 찾을 가능성이 높다. 이는 오직 approximate solutions만 찾아내는 much larger problems과 대비된다. 강화학습이 다른 학습들과 구분되는 가장 중요한 특징은 correct actions에 대한 정보를 제공하여 instruct 하는 것이 아니라 actions을 평가한다는 것이다. 이것이 곧 active exploration의..

AI/강화학습 2021.09.17

[ 강화학습 ] 1. The Reinforcement Learning Problem

주어진 어떤 상황(state)에서 보상(reward)을 최대화할 수 있는 행동(action)에 대해 학습 답이 존재하는 훈련데이터를 토대로 한 학습이 아닌 환경과의 상호작용을 통해 학습 현재 선택한 Action이 미래의 순차적 보상에 영향 (Delayed Reward) External Supervisor이 존재하지 않는다. [ Trade-off between Exploitation and Exploration ] Agent는 reward를 얻기 위한 action을 선택하기 위해 이미 경험한 것을 exploit하거나 미래에 더 나은 action selection을 위한 environment와의 상호작용을 위해 explore한다. 위 두 방법 중에 더 나은 결과를 만들 방법을 택하여야 한다. 강화학습 구성요..

AI/강화학습 2021.09.16

[ 강화학습 ] 0. Introduction

강화학습 ( Reinforcement Learning ) 환경(Environment)을 탐색하는 학습주체(Agent)는 현재 상태(State)를 인식하여 어떤 행동(Action)을 취하고, 환경으로부터 보상(Reward)를 얻는다. 강화학습의 알고리즘은 Agent가 앞으로 누적될 Reward를 최대화하는 일련의 Actions로 정의되는 Policy를 찾는 방법이다. 현재 선택한 Action이 미래의 순차적 Reward에 영향을 미친다는 것이 중요하다. (Delayed Reward) 위 서적과 박유성 교수님의 서적을 참고하여 강화학습에 대한 이론적인 이해를, Python OpenAI Gym 라이브러를 활용하여 그 구현을 목표로 공부하고 해당 내용을 정..

AI/강화학습 2021.09.16
728x90
반응형