기계학습(머신러닝) 알고리즘과 평가 방법
- 최초 등록일
- 2020.06.05
- 최종 저작일
- 2019.11
- 43페이지/ 한컴오피스
- 가격 5,000원
목차
1. 지도학습 기반 연관 플로우 분석을 위한 기계학습 알고리즘 및 평가 방법
1) 기계학습 개요
2) 지도학습 기반 기계학습 알고리즘
3) 모델 성능평가 지표
4) 모델 검증 방법론
2. 홀드아웃교차검증
본문내용
가. 지도학습 기반 연관 플로우 분석을 위한 기계학습 알고리즘 및 평가 방법
1) 기계학습 개요
이번 절에서는 지도학습 기반의 연관 플로우 분석을 이해하기 위한 기초적인 기계학습을 간단히 소개한다.
가) 지도학습과 비지도학습
기계학습 시스템에서는 지도학습, 비 지도학습, 준 지도학습, 강화 학습으로 총 4가지의 주요 범주를 가지고 있다. 본 연구에서는 지도학습만 다루므로 본 보고서에서 지도학습만 서술한다.
(1) 지도학습
지도학습이란 모델에 답 또는 결과 부분을 훈련 데이터에 포함 시키는 것이다. 여기서 답 또는 결과 부분은 레이블이라 한다. 즉, 지도학습은 레이블이 포함된 데이터를 사용한다.
<그림 5-1>에서 보는 바와 같이 메일 위에 원은 각각의 메일에 대한 레이블이다. 이렇게 훈련 데이터는 모델에 사용이 되고, 새로운 입력이 들어오면 적절한 결과를 출력한다. 지도학습은 손으로 쓴 숫자 판별, 의료 기기의 데이터로 종양 판단, 스팸 메일 여부 판단, 신용카드 거래 감지 등 여러 분야에 사용이 된다.
분류는 지도학습의 작업이며 <그림 5-1>과 같은 스팸 메일 여부를 판단의 좋은 예시이다. 스팸 메일과 정상 메일은 판단할 수 있는 클래스이다. 훈련 데이터는 이 2가지 클래스 중 한 가지에 속해있어야 한다. 본 연구에서는 이 작업을 악성(Malware), 양성(Benign)을 분류하는 데 사용한다.
회귀는 훈련 데이터에 있는 특징 즉, 예측 변수를 사용해 타깃을 예측하는 작업이다.
모델을 훈련 시키기 위해서는 예측 변수와 레이블이 포함된 훈련 데이터 많이 필요하다. 일부 회귀 알고리즘은 분류에 사용할 수 있고 아닐 수도 있다. 예를 들어 분류에 널리 쓰이는 로지스틱 회귀(Logistic Regression)는 클래스에 속할 확률을 출력한다(예를 들어 <그림 5-2>에서 스팸 메일일 가능성이 40%이다).
참고 자료
없음