총 23개
-
Q-러닝과 SARSA 알고리즘의 비교와 응용2025.12.191. Q-러닝 알고리즘 Q-러닝은 오프폴리시 학습 알고리즘으로, 에이전트가 실제로 취한 행동과 관계없이 항상 최적의 행동을 기준으로 가치함수를 업데이트한다. 수식은 Q(s,a) ← Q(s,a) + α[r + γ max_a' Q(s',a') - Q(s,a)]로 표현되며, 다음 상태에서 가능한 모든 행동 중 최대 가치를 선택하여 업데이트한다. 탐험적 행동을 하더라도 학습은 최적 정책을 향해 수렴하며, 게임 AI와 전략 게임에서 널리 사용되었다. 최근에는 딥 Q-네트워크(DQN)로 발전하여 고차원 환경에서도 학습이 가능하다. 2. SAR...2025.12.19
-
마르코프 의사결정과정을 통한 강화학습의 이론적 기반2025.12.191. 마르코프 의사결정과정(MDP) 마르코프 의사결정과정은 상태 집합, 행동 집합, 전이 확률 함수, 보상 함수, 감가율로 정의되는 확률적 틀이다. 에이전트가 특정 상태에서 행동을 선택하면 환경은 전이 확률에 따라 새로운 상태와 보상을 반환한다. MDP는 강화학습을 수학적으로 정식화하고 복잡한 환경 속에서의 의사결정을 명확히 모델링하는 핵심적 도구로 기능한다. 2. 벨만 방정식과 동적 계획법 벨만 방정식은 가치 함수와 최적 정책을 정의하는 핵심 요소로, 특정 상태의 가치를 재귀적으로 표현한다. 동적 계획법은 벨만 방정식을 반복적으로...2025.12.19
-
강화학습의 기본 개념과 기계학습 패러다임 속 위치2025.12.191. 기계학습 패러다임의 분류 기계학습은 지도학습, 비지도학습, 강화학습으로 구분된다. 지도학습은 입력과 정답 쌍으로 함수 근사나 분류 모델을 학습하며 이미지 분류나 음성 인식에 활용된다. 비지도학습은 정답 없는 데이터에서 구조를 발견하는 데 중점을 두며 군집화나 차원 축소 기법이 대표적이다. 강화학습은 정답이 직접 주어지지 않고 에이전트가 환경과 상호작용하며 보상 신호를 통해 장기적 전략을 학습하는 방식으로, 시행착오를 경험하면서 학습하는 체계이다. 2. 강화학습의 정의와 특징 강화학습은 에이전트가 환경에서 상태를 관찰하고 행동을...2025.12.19
-
DQN과 A2C network를 활용한 CartPole 강화학습 훈련과정 및 code2025.01.131. CartPole environment OpenAI gym의 CartPole은 카트 위에 막대기가 고정되어 있고 막대기는 중력에 의해 바닥을 향해 자연적으로 기울게 되는 환경을 제공한다. CartPole의 목적은 카트를 좌, 우로 움직이며 막대기가 기울지 않고 서 있을 수 있도록 유지시켜 주는 것이 목적인데, 강화 학습 알고리즘을 이용하여 막대기를 세울 수 있는 방법을 소프트웨어 에이전트가 스스로 학습할 수 있도록 한다. 2. DQN algorithm Deep Q-Network는 state-action value Q값을 Deep...2025.01.13
-
양자컴퓨터와 인공지능의 융합 가능성2025.12.191. 양자 머신러닝(QML) 양자 머신러닝은 양자 알고리즘을 기반으로 한 새로운 형태의 머신러닝으로, 양자 상태의 중첩과 얽힘을 활용하여 데이터 공간을 압축하거나 병렬 연산을 수행한다. 고전적 머신러닝이 선형대수와 확률적 연산에 기반한다면, QML은 데이터 처리 속도를 단축하고 기존 모델이 처리하기 어려운 복잡한 패턴을 효율적으로 인식하게 한다. 구글은 양자 머신러닝을 활용해 이미지 분류 실험을 진행했다. 2. 양자 신경망(Quantum Neural Network) 양자 신경망은 뉴런의 활성화 함수와 가중치 연산을 양자 게이트와 큐...2025.12.19
-
머신러닝의 3가지 학습 방법2025.12.111. 지도 학습 (Supervised Learning) 지도 학습은 미리 정의된 레이블(정답)을 포함한 데이터를 이용하여 모델을 학습시키는 방법입니다. 입력 데이터와 함께 그에 대응하는 출력 레이블이 제공되며, 주요 알고리즘으로는 결정 트리, 로지스틱 회귀, 서포트 벡터 머신, 선형 회귀, 신경망 등이 있습니다. 이미지 분류, 스팸 메일 필터링, 음성 인식 등 다양한 분야에서 활용되며, 각 이미지를 사전에 정의된 카테고리로 분류하거나 이메일이 스팸인지 판별하는 작업에 사용됩니다. 2. 비지도 학습 (Unsupervised Learn...2025.12.11
-
심층 강화학습의 등장과 발전 과정2025.12.191. 딥 Q-네트워크(DQN) 2015년 딥마인드가 개발한 DQN은 심층 강화학습의 전환점을 마련했다. 합성곱 신경망을 이용해 아타리 게임의 픽셀 이미지를 입력으로 받아 행동가치함수를 근사하였다. 경험 재현과 목표 네트워크 기법을 도입해 학습의 안정성을 확보했으며, 인간 전문가를 능가하는 게임 성능을 보여주었다. 이는 DRL이 실질적으로 고차원 문제를 해결할 수 있음을 입증한 상징적 사건이었다. 2. 액터-크리틱(Actor-Critic) 구조 정책 기반 알고리즘의 단점인 높은 분산과 느린 수렴 속도를 보완하기 위해 제안되었다. 액터...2025.12.19
-
강화학습과 딥러닝의 결합: 딥 강화학습의 이론과 응용2025.12.191. 강화학습의 기본 개념 강화학습은 에이전트가 환경과 상호작용하며 시행착오를 통해 보상을 극대화하는 행동을 학습하는 과정이다. 상태, 행동, 보상, 정책, 가치 함수의 다섯 가지 요소로 구성되며, 마르코프 의사결정 과정(MDP)으로 수학적으로 표현된다. 전통적 강화학습 알고리즘인 Q-러닝은 상태-행동 쌍의 가치를 추정하지만, 상태와 행동의 수가 많아질수록 계산 복잡성이 기하급수적으로 증가하는 한계가 있다. 2. 딥 강화학습의 알고리즘과 기술 발전 2015년 딥마인드의 딥 Q-네트워크(DQN)는 CNN을 이용해 고차원 입력을 처리하...2025.12.19
-
Verilog를 이용한 Sequential Logic 설계2025.12.201. FPGA (Field Programmable Gate Array) FPGA는 설계 가능한 논리 소자와 프로그래밍 가능한 내부 회로를 포함한 반도체 소자입니다. AND, OR, XOR, NOT 등의 기본 논리 게이트 기능을 복제하여 프로그래밍할 수 있으며, 플립플롭이나 메모리 블록 등의 메모리 요소를 포함하고 있어 디지털 IC 설계 및 검증에 활용됩니다. 2. Verilog (Hardware Description Language) IEEE 1364로 표준화된 Verilog는 전자 회로 및 시스템 설계에 사용되는 하드웨어 기술 언...2025.12.20
-
[인공지능의세계 A+] 기말고사 문제풀이 객관식 + 서술형 + 단답형 문제+해설2025.05.101. 기계학습 기계학습은 인간의 학습능력을 기계나 컴퓨터에서 구현한 것으로, 지도학습과 비지도학습으로 구분할 수 있다. 지도학습은 학습 데이터의 정답이 주어지는 반면, 비지도학습은 정답이 주어지지 않는다. 신경망은 자동으로 가중치를 학습하는 기계학습 방식이다. 강화학습은 보상을 통해 최적의 행동을 학습하는 방식으로, 알파고가 자체 연습 대국을 통해 좋은 수를 학습하는 데 사용되었다. 2. 클러스터링 K-Means 클러스터링은 데이터를 K개의 클러스터로 분류하는 방법이다. K-Means 클러스터링의 단점은 k의 개수를 사전에 정해야 ...2025.05.10
