2. 강화학습 MDP_벨만방정식
- 최초 등록일
- 2019.10.20
- 최종 저작일
- 2019.10
- 3페이지/ 한컴오피스
- 가격 1,000원
* 본 문서(hwp)가 작성된 한글 프로그램 버전보다 낮은 한글 프로그램에서 열람할 경우 문서가 올바르게 표시되지 않을 수 있습니다.
이 경우에는 최신패치가 되어 있는 2010 이상 버전이나 한글뷰어에서 확인해 주시기 바랍니다.
목차
I. MDP 문제 해결 방법
II. 벨만 기대방정식
Ⅲ. 참고문헌
본문내용
I. MDP 문제 해결 방법
1. 강화학습 문제
- Sequential Decision Problem
- 수학적 정의 : MDP(Markov Decision Process)
2. MDP의 목표
- 최대 보상을 얻을 수 있는 행동을 선택
- 보상 : 매 타임스템마다 행동 선택의 기준
3. MDP의 문제 풀이 방법
- Dynamic Programming : 환경에 대한 모든 정보를 알고 가장 좋은 정책을 “계산”
- Reinforcement Learning : 환경과의 상호작용을 통해 가장 좋은 정책을 “학습”
4. 에이전트와 환경간 상호작용 과정
1) 에이전트가 상태를 관찰
2) 어떠한 기준(가치함수)에 따라 행동을 선택(탐욕정책 : Greed Action Selection)
3) 환경으로부터 보상을 받음
참고 자료
이원웅(2018), 가깝고도 먼 DeepRL