2024 방송통신대 머신러닝 출석수업 만점 과제물

문서 내 토픽

1. k-최근접 이웃 알고리즘

k 값은 k-최근접 이웃 알고리즘에서 최근접 이웃 수를 나타낸다. k 값이 작을수록 모델이 훈련 데이터에 민감해져서 과적합 문제가 발생할 수 있다. 반대로 k 값이 지나치게 크면 너무 많은 이웃을 고려하게 되어 모델이 단순화되어 데이터의 세부적인 패턴을 잘 잡지 못하여 성능이 떨어지게 된다.
2. 거리 계산 방식

기존 knn에 적용된 거리 계산식은 유클리드 거리 방식에서 맨하탄 거리 계산 방식으로 변경하였다. 유클리드 거리는 두 점 간의 직선적 거리를 측정하고, 맨하탄 거리는 각 차원에서 거리를 단순히 합산하는 방식으로 격자 형태로 거리를 측정한다. 데이터 분포가 직선적이기 때문에 유클리드 거리가 약간 더 정확도가 높게 나왔다.
3. 최적의 k값 선택

다양한 k 값을 실험하면서 테스트 정확도가 가장 높은 k=20이 적절한 값이라고 판단했다. k=20일 때 정확도가 83%를 기록했으며, 베이즈 분류기와 맨하탄 거리 계산식과 비교했을 때 두 모델의 정확도가 비슷했기 때문이다.

Easy AI와 토픽 톺아보기

1. k-최근접 이웃 알고리즘

k-최근접 이웃 알고리즘은 데이터 분류 및 예측 문제에서 널리 사용되는 기계 학습 알고리즘입니다. 이 알고리즘은 새로운 데이터 포인트에 대해 가장 유사한 k개의 이웃을 찾아 그들의 레이블을 기반으로 해당 데이터 포인트의 레이블을 예측합니다. 이 알고리즘의 장점은 구현이 간단하고 해석이 쉽다는 것입니다. 또한 비모수 방식이기 때문에 데이터의 분포에 대한 가정이 필요하지 않습니다. 그러나 데이터 차원이 높아지면 성능이 저하되는 단점이 있습니다. 따라서 적절한 특성 선택 및 차원 축소 기법이 필요합니다. 또한 k값 선택이 중요한데, 이는 데이터 특성과 문제 도메인에 따라 달라질 수 있습니다. 전반적으로 k-최근접 이웃 알고리즘은 간단하면서도 강력한 분류 및 예측 기법으로, 다양한 응용 분야에서 활용되고 있습니다.
2. 거리 계산 방식

k-최근접 이웃 알고리즘에서 거리 계산 방식은 매우 중요한 요소입니다. 일반적으로 유클리드 거리, 맨하탄 거리, 코사인 유사도 등이 사용됩니다. 유클리드 거리는 가장 널리 사용되는 방식으로, 두 데이터 포인트 간의 직선 거리를 계산합니다. 맨하탄 거리는 직선 거리가 아닌 직교 거리를 계산하며, 이는 특히 이미지 처리 분야에서 유용합니다. 코사인 유사도는 두 벡터 간의 각도 유사도를 측정하며, 주로 텍스트 분석이나 추천 시스템 등에서 사용됩니다. 각 거리 계산 방식은 데이터의 특성과 문제 도메인에 따라 적합성이 달라질 수 있습니다. 따라서 문제에 맞는 적절한 거리 계산 방식을 선택하는 것이 중요합니다. 또한 데이터 전처리 과정에서 특성 스케일링을 수행하면 거리 계산의 정확도를 높일 수 있습니다.
3. 최적의 k값 선택

k-최근접 이웃 알고리즘에서 k값 선택은 매우 중요한 하이퍼파라미터입니다. k값은 새로운 데이터 포인트에 대해 고려할 이웃의 수를 결정합니다. k값이 너무 작으면 과적합(overfitting)의 위험이 있고, 너무 크면 과소적합(underfitting)의 위험이 있습니다. 따라서 적절한 k값을 선택하는 것이 중요합니다. 일반적으로 k값은 데이터 크기의 제곱근 근처에서 시작하여 교차 검증(cross-validation) 등의 방법으로 최적의 k값을 찾습니다. 또한 문제 도메인, 데이터 특성, 노이즈 수준 등에 따라 최적의 k값이 달라질 수 있습니다. 때로는 k값을 동적으로 조정하는 방법도 고려해볼 수 있습니다. 예를 들어 데이터 밀도가 높은 영역에서는 작은 k값을, 데이터 밀도가 낮은 영역에서는 큰 k값을 사용하는 것입니다. 결과적으로 최적의 k값 선택은 k-최근접 이웃 알고리즘의 성능에 큰 영향을 미치므로, 문제와 데이터에 맞는 적절한 k값을 찾는 것이 중요합니다.