728x90
반응형

AI/강화학습 5

[ 강화학습 ] 4. Dynamic Programming

본 교재에서는 Dynamic Programming 을 다음과 같이 정의한다. The term dynamic programming (DP) refers to a collection of algorithms that can be used to compute optimal policies given a perfect model of the environment as a Markov decision process (MDP). Dynamic Programming, DP는 Markov Decision Process (MDP) 같은 환경의 완벽한 모델이 주어졌을 때 Optimal Policy를 계산하는 데 사용되는 알고리즘이다. 따라서 이번 챕터에서는 environment 가 finite MDP 라는 가정을 하고 진..

AI/강화학습 2021.11.25

[ 강화학습 ] 3. Finite Markov Decision Processes

이 책의 남은 파트에서 지속적으로 다룰 문제를 소개하는 중요한 챕터로 이 문제를 해결하는 방법을 우리는 강화학습이라 여긴다. 이번 챕터를 통해 강화학습 문제가 어떤 것인지 개괄적으로 알아보고 그 응용에 대해 다룬다. 또한 강화학습 문제의 수학적으로 이상적인 형태를 다루고 Bellman equation이나 Value function과 같이 강화학습 문제의 수학적 구조의 중요한 요소들에 대해 학습한다. 3.1. The Agent-Environment Interface 앞서 계속 언급하였듯 강화학습에서 agent는 actions를 선택하고 environment는 그 actions에 반응하여 agent에게 새로운 situation을 제시하며, reward를 발생시킨다. 그리고 agent는 시간을 거쳐 그 rew..

AI/강화학습 2021.09.23

[ 강화학습 ] 2. Multi-arm Bandits

Part Ⅰ. Tabular Solution Methods 강화학습의 simplest forms에 대하여 배우는 챕터다. action-value function이 array나 table 형태로 나타나기에 충분할 정도로 그 state와 action space가 작은 형태다. 이러한 경우, optimal value function과 optimal policy를 찾을 가능성이 높다. 이는 오직 approximate solutions만 찾아내는 much larger problems과 대비된다. 강화학습이 다른 학습들과 구분되는 가장 중요한 특징은 correct actions에 대한 정보를 제공하여 instruct 하는 것이 아니라 actions을 평가한다는 것이다. 이것이 곧 active exploration의..

AI/강화학습 2021.09.17

[ 강화학습 ] 1. The Reinforcement Learning Problem

주어진 어떤 상황(state)에서 보상(reward)을 최대화할 수 있는 행동(action)에 대해 학습 답이 존재하는 훈련데이터를 토대로 한 학습이 아닌 환경과의 상호작용을 통해 학습 현재 선택한 Action이 미래의 순차적 보상에 영향 (Delayed Reward) External Supervisor이 존재하지 않는다. [ Trade-off between Exploitation and Exploration ] Agent는 reward를 얻기 위한 action을 선택하기 위해 이미 경험한 것을 exploit하거나 미래에 더 나은 action selection을 위한 environment와의 상호작용을 위해 explore한다. 위 두 방법 중에 더 나은 결과를 만들 방법을 택하여야 한다. 강화학습 구성요..

AI/강화학습 2021.09.16

[ 강화학습 ] 0. Introduction

강화학습 ( Reinforcement Learning ) 환경(Environment)을 탐색하는 학습주체(Agent)는 현재 상태(State)를 인식하여 어떤 행동(Action)을 취하고, 환경으로부터 보상(Reward)를 얻는다. 강화학습의 알고리즘은 Agent가 앞으로 누적될 Reward를 최대화하는 일련의 Actions로 정의되는 Policy를 찾는 방법이다. 현재 선택한 Action이 미래의 순차적 Reward에 영향을 미친다는 것이 중요하다. (Delayed Reward) 위 서적과 박유성 교수님의 서적을 참고하여 강화학습에 대한 이론적인 이해를, Python OpenAI Gym 라이브러를 활용하여 그 구현을 목표로 공부하고 해당 내용을 정..

AI/강화학습 2021.09.16
728x90
반응형