머신러닝 기초
- 최초 등록일
- 2017.11.29
- 최종 저작일
- 2016.03
- 13페이지/ MS 워드
- 가격 3,500원
목차
없음
본문내용
K-means는 레이블이 없는 데이터들을 군집화하는 가장 간단한 비지도학습 중 하나다. K-means에서 다루는 레이블이 없는 데이터에서는 몇 개의 클러스터가 존재하는지 모르기 때문에 분류할 클러스터의 수를 미리 정한다. K-means에서의 K가 바로 클러스터의 개수를 의미한다. 분류할 클러스터의 수가 정해지면 각 클러스터마다 초기중심을 정한다. K-means에서 사용되는 중심의 의미는 클러스터를 대표하는 가상의 레이블이며 각 학습 데이터가 자신이 속한 클러스터를 결정하는 데 기준점이 된다. 초기 중심은 임의로 정해지며, 학습이 진행되면서 각 클러스터마다 최적의 중심으로 이동한다. 최적의 중심을 구하는 것이 k-means 알고리즘의 핵심이다. 최적의 중심을 구하는 개념은 매우 직관적이고 간단하다. 즉, 모든 데이터는 임의로 정한 k개의 초기 중심까지 거리를 계산하고, 가장 가까이에 있는 중심을 자기 클러스터의 중심이라고 생각한다. K개의 클러스터가 정해지면 각 클러스터에 속한 학습 데이터의 좌표 값 평균을 구해 이를 새로운 중심으로 정한다. 다시 모든 학습 데이터는 새롭게 정의된 k개의 중심까지 거리를 계산하고, 가장 가까운 중심을 자기가 속한 클러스터로 정의한다. 이를 반복하면서 데이터가 클러스터의 소속을 바꾸는 경우가 생기지 않으면 종료한다.
K-means 알고리즘
① 클러스터 개수 결정(k=n) 후 임의의 중심 n개 설정
② 모든 데이터는 n개의 중심까지 거리를 계산한 후 가장 가까운 중심을 자신의 클러스터 중심이라고 정함
③ 각 클러스터마다 학습 데이터의 좌표 값 평균을 계산한 후 이를 새로운 중심으로 설정
④ 새로 보정 후 이동된 중심을 기준으로 2,3 단계를 반복
⑤ 만약 모든 학습 데이터 중에서 자신이 속하는 클러스터를 변경하는 경우가 발생되지 않으면 학습 완료
참고 자료
없음