Q-러닝과 SARSA 알고리즘의 비교와 응용
2025.12.19
1. Q-러닝 알고리즘
Q-러닝은 오프폴리시 학습 알고리즘으로, 에이전트가 실제로 취한 행동과 관계없이 항상 최적의 행동을 기준으로 가치함수를 업데이트한다. 수식은 Q(s,a) ← Q(s,a) + α[r + γ max_a' Q(s',a') - Q(s,a)]로 표현되며, 다음 상태에서 가능한 모든 행동 중 최대 가치를 선택하여 업데이트한다. 탐험적 행동을 하더라도 학습은 최적 정책을 향해 수렴하며, 게임 AI와 전략 게임에서 널리 사용되었다. 최근에는 딥 Q-네트워크(DQN)로 발전하여 고차원 환경에서도 학습이 가능하다.
2. SAR...
2025.12.19