I. MDP 문제 해결 방법1. 강화학습 문제- Sequential Decision Problem- 수학적 정의 : MDP(Markov Decision Process)2. MDP의 목표- 최대 보상을 얻을 수 있는 행동을 선택- 보상 : 매 타임스템마다 행동 선택의 기..
반복게임의 벨만방정식 풀이법(1) 반복게임에서 보수 개념반복게임에서 경기자의 목적함수는 그가 현재와 미래에 받을 수 있을 보수를 현재가치로 환산하여 합산한 것이다.즉, 경기자가 생각하는 보수의 흐름을 현재가치화한 액수이다. 특정 경기자가i번째기에u_i의 보수를 얻는다고..