총 10개
-
DQN과 A2C network를 활용한 CartPole 강화학습 훈련과정 및 code2025.01.131. CartPole environment OpenAI gym의 CartPole은 카트 위에 막대기가 고정되어 있고 막대기는 중력에 의해 바닥을 향해 자연적으로 기울게 되는 환경을 제공한다. CartPole의 목적은 카트를 좌, 우로 움직이며 막대기가 기울지 않고 서 있을 수 있도록 유지시켜 주는 것이 목적인데, 강화 학습 알고리즘을 이용하여 막대기를 세울 수 있는 방법을 소프트웨어 에이전트가 스스로 학습할 수 있도록 한다. 2. DQN algorithm Deep Q-Network는 state-action value Q값을 Deep...2025.01.13
-
심층 강화학습의 등장과 발전 과정2025.12.191. 딥 Q-네트워크(DQN) 2015년 딥마인드가 개발한 DQN은 심층 강화학습의 전환점을 마련했다. 합성곱 신경망을 이용해 아타리 게임의 픽셀 이미지를 입력으로 받아 행동가치함수를 근사하였다. 경험 재현과 목표 네트워크 기법을 도입해 학습의 안정성을 확보했으며, 인간 전문가를 능가하는 게임 성능을 보여주었다. 이는 DRL이 실질적으로 고차원 문제를 해결할 수 있음을 입증한 상징적 사건이었다. 2. 액터-크리틱(Actor-Critic) 구조 정책 기반 알고리즘의 단점인 높은 분산과 느린 수렴 속도를 보완하기 위해 제안되었다. 액터...2025.12.19
-
강화학습과 딥러닝의 결합: 딥 강화학습의 이론과 응용2025.12.191. 강화학습의 기본 개념 강화학습은 에이전트가 환경과 상호작용하며 시행착오를 통해 보상을 극대화하는 행동을 학습하는 과정이다. 상태, 행동, 보상, 정책, 가치 함수의 다섯 가지 요소로 구성되며, 마르코프 의사결정 과정(MDP)으로 수학적으로 표현된다. 전통적 강화학습 알고리즘인 Q-러닝은 상태-행동 쌍의 가치를 추정하지만, 상태와 행동의 수가 많아질수록 계산 복잡성이 기하급수적으로 증가하는 한계가 있다. 2. 딥 강화학습의 알고리즘과 기술 발전 2015년 딥마인드의 딥 Q-네트워크(DQN)는 CNN을 이용해 고차원 입력을 처리하...2025.12.19
-
강화학습의 이론과 실제 적용 사례2025.12.191. 강화학습의 이론적 기초 강화학습은 에이전트가 환경과 상호작용하며 보상을 최대화하는 행동 전략을 학습하는 방법론이다. 마르코프 의사결정 과정(MDP)이 수학적 토대이며, 상태, 행동, 보상, 전이 확률로 구성된다. 벨만 방정식은 현재 상태의 가치를 미래 보상의 기대값으로 정의하는 핵심 원리이다. 가치 기반 방법(Q-러닝, DQN)과 정책 기반 방법(REINFORCE, PPO)으로 나뉘며, 모델 기반과 모델 프리 접근법이 있다. 2. 심층 강화학습과 게임 분야 적용 딥러닝과 강화학습의 결합으로 심층 강화학습이 탄생했다. 고차원 입...2025.12.19
-
게임 분야에서의 강화학습 활용 사례2025.12.191. 강화학습의 게임 적용 역사 게임은 명확한 규칙과 보상 구조를 제공하여 인공지능 알고리즘 성능 평가에 적합한 환경이다. 1950년대 체스 프로그램부터 시작하여 1980~1990년대 틱택토, 체커, 백개먼 등 단순한 보드 게임에서 강화학습이 시험되었다. 이는 확률적 게임에서도 강화학습이 작동할 수 있음을 입증한 중요한 사례들이다. 게임은 인공지능 연구에서 오랫동안 실험적 검증의 장으로 활용되어 왔으며, 강화학습의 시행착오 학습 특성과 잘 맞아떨어진다. 2. 알파고와 알파제로의 혁신 2016년 구글 딥마인드의 알파고는 세계 바둑 챔...2025.12.19
-
화학공학을 위한 머신러닝과 딥러닝 기본이론2025.11.181. 지도학습 알고리즘 나이브 베이즈 분류, 선형판별분석, K-최근접 이웃, 서포트 벡터 머신, 랜덤 포레스트, 그레디언트 부스트, 신경망 등의 지도학습 알고리즘들을 다룬다. 이들은 정답이 있는 데이터를 활용하여 분류와 회귀 문제를 해결하는 기계학습 기법이다. 각 알고리즘은 서로 다른 수학적 원리와 최적화 방법을 기반으로 하며, 화학안전 분야에 적용하기 위해서는 선형대수학, 미분적분학 등의 기초 수학 이해가 필수적이다. 2. 비지도학습 및 군집화 K-평균 군집화, 계층적 군집화, 밀도 기반 클러스터링(DBSCAN) 등의 비지도학습 ...2025.11.18
-
자율주행 자동차와 강화학습 기반 의사결정 시스템2025.12.191. 자율주행 기술의 발전 단계 자율주행 기술은 미국자동차공학회(SAE)가 정의한 0단계부터 5단계까지의 자동화 수준으로 구분된다. 현재 상용화된 차량은 2단계~3단계 수준에 해당하며, 고도 자율주행을 실현하기 위해서는 더욱 정교한 인공지능이 필요하다. 기존의 규칙 기반 제어와 경로 계획 알고리즘은 환경 변화에 대한 적응성이 부족하다는 한계가 있었다. 2. 강화학습 기반 의사결정 알고리즘 자율주행 시스템에서 강화학습은 인식, 예측, 의사결정, 제어 모듈 중 의사결정과 제어에 활용된다. 에이전트는 도로 상황을 상태로 인식하고 가속·감...2025.12.19
-
마르코프 의사결정과정을 통한 강화학습의 이론적 기반2025.12.191. 마르코프 의사결정과정(MDP) 마르코프 의사결정과정은 상태 집합, 행동 집합, 전이 확률 함수, 보상 함수, 감가율로 정의되는 확률적 틀이다. 에이전트가 특정 상태에서 행동을 선택하면 환경은 전이 확률에 따라 새로운 상태와 보상을 반환한다. MDP는 강화학습을 수학적으로 정식화하고 복잡한 환경 속에서의 의사결정을 명확히 모델링하는 핵심적 도구로 기능한다. 2. 벨만 방정식과 동적 계획법 벨만 방정식은 가치 함수와 최적 정책을 정의하는 핵심 요소로, 특정 상태의 가치를 재귀적으로 표현한다. 동적 계획법은 벨만 방정식을 반복적으로...2025.12.19
-
강화학습의 기본 개념과 기계학습 패러다임 속 위치2025.12.191. 기계학습 패러다임의 분류 기계학습은 지도학습, 비지도학습, 강화학습으로 구분된다. 지도학습은 입력과 정답 쌍으로 함수 근사나 분류 모델을 학습하며 이미지 분류나 음성 인식에 활용된다. 비지도학습은 정답 없는 데이터에서 구조를 발견하는 데 중점을 두며 군집화나 차원 축소 기법이 대표적이다. 강화학습은 정답이 직접 주어지지 않고 에이전트가 환경과 상호작용하며 보상 신호를 통해 장기적 전략을 학습하는 방식으로, 시행착오를 경험하면서 학습하는 체계이다. 2. 강화학습의 정의와 특징 강화학습은 에이전트가 환경에서 상태를 관찰하고 행동을...2025.12.19
-
Q-러닝과 SARSA 알고리즘의 비교와 응용2025.12.191. Q-러닝 알고리즘 Q-러닝은 오프폴리시 학습 알고리즘으로, 에이전트가 실제로 취한 행동과 관계없이 항상 최적의 행동을 기준으로 가치함수를 업데이트한다. 수식은 Q(s,a) ← Q(s,a) + α[r + γ max_a' Q(s',a') - Q(s,a)]로 표현되며, 다음 상태에서 가능한 모든 행동 중 최대 가치를 선택하여 업데이트한다. 탐험적 행동을 하더라도 학습은 최적 정책을 향해 수렴하며, 게임 AI와 전략 게임에서 널리 사용되었다. 최근에는 딥 Q-네트워크(DQN)로 발전하여 고차원 환경에서도 학습이 가능하다. 2. SAR...2025.12.19