데이터 마이닝, 출석수업 과제물 (2023 1학기, 30점 만점)
본 내용은
"
(방송대) 데이터 마이닝, 출석수업 과제물 (2023 1학기, 30점 만점)
"
의 원문 자료에서 일부 인용된 것입니다.
2024.03.10
문서 내 토픽
  • 1. 데이터 마이닝 기법
    데이터 마이닝은 데이터에서 의미를 추출하는 기법을 의미하며, 모수적 모형 접근 방법과 알고리즘 접근 방법이 모두 활용될 수 있다. 모수적 모형 접근법은 모형을 설정하고 모수를 추정하는 방식이며, 알고리즘 접근법은 정해진 알고리즘으로 계산하여 결과를 분석하는 방식이다. 각각의 장단점이 있으며, SNS 텍스트 데이터 분석에 활용할 수 있다.
  • 2. 로지스틱 회귀모형 적합
    와인 품질 데이터에 로지스틱 회귀모형을 적합하였다. alcohol 변수만 사용한 모형, sulphates 변수만 사용한 모형, 그리고 유의미한 4개 변수(alcohol, sulphates, volatile, totalSD)를 사용한 모형을 비교하였다. AIC 값이 가장 작은 4개 변수 모형이 가장 적합한 것으로 나타났다.
  • 3. 분할표와 지니지수
    입력변수 X1, X2와 목표변수 Y가 모두 범주형인 데이터의 분할표를 생성하고, 지니지수를 이용하여 최적의 분리점을 찾았다. X1=3을 기준으로 분류하는 것이 가장 낮은 지니지수를 보였다.
  • 4. 분류의사결정나무
    분할표 데이터를 이용하여 분류의사결정나무를 생성하였다. 뿌리노드가 한 번 분할된 나무 구조를 확인하고, 각 자식노드의 집단별 빈도를 확인하였다. 또한 불순도 감소분을 계산하였다.
Easy AI와 토픽 톺아보기
  • 1. 데이터 마이닝 기법
    데이터 마이닝 기법은 방대한 양의 데이터에서 유의미한 정보와 패턴을 발견하는 강력한 도구입니다. 다양한 기법들이 존재하는데, 각각의 장단점이 있어 상황에 맞는 적절한 기법을 선택하는 것이 중요합니다. 예를 들어 군집분석은 유사한 특성을 가진 그룹을 찾아내고, 연관규칙 마이닝은 항목들 간의 연관성을 발견하는데 유용합니다. 또한 의사결정나무나 신경망 등의 기계학습 기법은 예측 모델 구축에 활용될 수 있습니다. 데이터 마이닝 기법은 다양한 분야에서 활용되고 있으며, 데이터 기반 의사결정을 가능하게 하여 조직의 경쟁력을 높일 수 있습니다.
  • 2. 로지스틱 회귀모형 적합
    로지스틱 회귀모형은 이진 종속변수를 예측하는데 널리 사용되는 통계 모델입니다. 이 모형은 독립변수들과 종속변수 간의 비선형적인 관계를 모델링할 수 있어 다양한 분야에 적용될 수 있습니다. 예를 들어 의료 분야에서 질병 발생 여부를 예측하거나, 마케팅 분야에서 고객의 구매 여부를 예측하는데 활용될 수 있습니다. 로지스틱 회귀모형 적합 시 주요 고려사항은 변수 선택, 모형 평가, 과적합 방지 등입니다. 또한 모형의 해석 및 결과 활용에 있어서도 주의가 필요합니다. 전반적으로 로지스틱 회귀모형은 다양한 분야에서 유용하게 활용될 수 있는 강력한 분석 기법이라고 볼 수 있습니다.
  • 3. 분할표와 지니지수
    분할표와 지니지수는 범주형 데이터 분석에 널리 사용되는 기법입니다. 분할표는 두 개 이상의 범주형 변수 간의 관계를 파악하는데 유용하며, 카이제곱 검정 등을 통해 통계적 유의성을 확인할 수 있습니다. 지니지수는 불평등 정도를 측정하는 지표로, 주로 의사결정나무 모형에서 변수 중요도 평가에 활용됩니다. 이러한 기법들은 데이터의 특성을 이해하고 의사결정을 내리는데 도움을 줄 수 있습니다. 다만 분할표 해석 시 주의해야 할 점들이 있고, 지니지수 역시 다른 지표들과 함께 고려되어야 합니다. 전반적으로 분할표와 지니지수는 범주형 데이터 분석에 유용한 도구이지만, 상황에 맞는 적절한 활용이 필요할 것 같습니다.
  • 4. 분류의사결정나무
    분류 의사결정나무는 복잡한 데이터에서 의사결정 규칙을 발견하고 예측 모델을 구축하는데 유용한 기법입니다. 이 기법은 데이터를 반복적으로 분할하여 의사결정 규칙을 생성하며, 결과를 직관적으로 이해할 수 있는 장점이 있습니다. 또한 변수 중요도 평가, 결측치 처리, 비선형 관계 모델링 등 다양한 기능을 제공합니다. 분류 의사결정나무는 고객 세분화, 신용 평가, 질병 진단 등 다양한 분야에서 활용되고 있습니다. 다만 과적합 문제, 불균형 데이터 처리, 해석의 한계 등의 단점도 존재하므로 이를 고려하여 적절히 활용해야 합니다. 전반적으로 분류 의사결정나무는 강력하고 유용한 분석 기법이라고 볼 수 있습니다.