2. 강화학습 MDP_벨만방정식

통도사

개인인증 판매자스토어

최초 등록일: 2019.10.20
최종 저작일: 2019.10; 3페이지/ 한컴오피스; 가격 1,000원

다운로드

장바구니

상세정보
자료후기 (0)
자료문의 (0)
판매자정보

* 본 문서(hwp)가 작성된 한글 프로그램 버전보다 낮은 한글 프로그램에서 열람할 경우 문서가 올바르게 표시되지 않을 수 있습니다. 이 경우에는 최신패치가 되어 있는 2010 이상 버전이나 한글뷰어에서 확인해 주시기 바랍니다.

본문내용

I. MDP 문제 해결 방법
1. 강화학습 문제
- Sequential Decision Problem
- 수학적 정의 : MDP(Markov Decision Process)

2. MDP의 목표
- 최대 보상을 얻을 수 있는 행동을 선택
- 보상 : 매 타임스템마다 행동 선택의 기준

3. MDP의 문제 풀이 방법
- Dynamic Programming : 환경에 대한 모든 정보를 알고 가장 좋은 정책을 “계산”
- Reinforcement Learning : 환경과의 상호작용을 통해 가장 좋은 정책을 “학습”

4. 에이전트와 환경간 상호작용 과정
1) 에이전트가 상태를 관찰
2) 어떠한 기준(가치함수)에 따라 행동을 선택(탐욕정책 : Greed Action Selection)
3) 환경으로부터 보상을 받음

참고 자료

이원웅(2018), 가깝고도 먼 DeepRL

환불정책

해피캠퍼스는 구매자와 판매자 모두가 만족하는 서비스가 되도록 노력하고 있으며, 아래의 4가지 자료환불 조건을 꼭 확인해주시기 바랍니다.

파일오류	중복자료	저작권 없음	설명과 실제 내용 불일치
파일의 다운로드가 제대로 되지 않거나 파일형식에 맞는 프로그램으로 정상 작동하지 않는 경우	다른 자료와 70% 이상 내용이 일치하는 경우 (중복임을 확인할 수 있는 근거 필요함)	인터넷의 다른 사이트, 연구기관, 학교, 서적 등의 자료를 도용한 경우	자료의 설명과 실제 자료의 내용이 일치하지 않는 경우

이런 노하우도 있어요!더보기

2. 강화학습 MDP_벨만방정식

목차

본문내용

참고 자료

태그

자료후기(0)

자료문의

주의사항

이런 노하우도 있어요!더보기

파워링크

파워링크