
방통대 [데이터마이닝] 2024 출석과제물 (30점 만점 인증 / 표지제외 12페이지 분량 / 코드 및 해설 포함)
본 내용은
"
방통대 [데이터마이닝] 2024 출석과제물 (30점 만점 인증 / 표지제외 12페이지 분량 / 코드 및 해설 포함)
"
의 원문 자료에서 일부 인용된 것입니다.
2024.05.23
문서 내 토픽
-
1. 모수적 모형 접근법모수적 모형 접근법은 통계를 사용하여 데이터의 특징과 의미를 해석할 수 있는 분석 모델을 만드는 전통적인 방법입니다. 주로 사용하는 모형으로는 선형 회귀분석, 로지스틱 회귀모형이 있으며 모델 내에서 a 또는 b 같은 모수를 최소제곱법 또는 최대우도추정법을 사용하여 추정합니다. 모수적 모형 접근법으로 만들어진 분석 모델은 원인과 결과에 대한 설명이 용이하다는 장점이 있지만, 분석 모델을 만드는데 사용했던 데이터가 아닌 다른 데이터를 사용할 경우 정확도가 낮아지거나 적용 자체가 불가능할 수 있다는 단점이 있습니다.
-
2. 알고리즘 접근 방법알고리즘 접근 방법은 머신러닝과 같은 현대적인 방법을 사용하여 데이터의 특징과 의미를 학습, 즉 계산하여 구하는 방식입니다. 복잡한 데이터에도 적용이 가능하고 다양한 형태의 데이터를 분석하고자 할 때 사용할 수 있다는 장점이 있습니다. 반면에 모델이 만들어진 과정을 정확히 파악할 수 없기 때문에 결과 해석이 어렵다는 단점이 있습니다. 또한 과도적합되었을 경우에는 처음 학습한 데이터와 다른 형태의 데이터가 입력될 경우 결과에 대한 정확도가 낮아진다는 단점도 있습니다.
-
3. 방송통신대 한종대 교수 상담 게시판 분석방송통신대 한종대 교수 상담 게시판에 올라온 텍스트를 분석할 때, 유용한 주제 중 하나는 학생들의 문의 게시글이 필요로 하는 답변 갯수에 관한 분석입니다. 이 분석은 분류 의사결정나무 알고리즘을 활용하여 진행됩니다. 의사결정나무의 변수로는 주요 키워드의 포함 여부와 게시글 총 글자 수를 사용합니다. 주요 키워드는 한 번에 해결되는 문의글인지, 여러 차례 질답을 주고 받아야 하는지에 대한 정보와 연관되어 있으므로 답변 갯수에 영향을 미치는 속성이라고 생각합니다. 게시글의 총 글자 수는 문의글에 가지고 있는 정보량과 관련되어 있습니다.
-
4. 와인품질 데이터 분석와인품질 데이터를 불러오고 head() 명령어로 데이터를 확인한 결과, 12개의 속성으로 이루어진 데이터이면서 quality를 제외한 모든 데이터가 연속형 자료임을 확인할 수 있습니다. summary() 명령어로 데이터의 기술통계량을 확인하여 각 속성값들이 중심에 몰려있거나 퍼져있는 정도를 예측할 수 있습니다. quality 라는 속성은 품질이 우수할 경우 1, 보통일 경우 0으로 나타내므로 factor 함수를 이용하여 범주형으로 나타나도록 처리합니다.
-
5. 로지스틱 회귀모형 구축와인품질 데이터를 이용하여 로지스틱 회귀모형을 구축하였습니다. 먼저 alcohol 변수 하나만을 입력변수로 설정하여 모형을 만들었고, 그 다음에는 sulphates 변수 하나만을 입력변수로 설정하여 모형을 만들었습니다. 두 경우 모두 Logit 값이 크고 Pr 값이 작아 유의미한 입력변수임을 확인할 수 있었습니다. 또한 AIC 값이 입력변수가 없는 상태의 이탈도보다 작아 회귀모형 적합 시 중요한 변수임을 확인할 수 있었습니다.
-
6. 중요 변수 선택전체 변수 중 5개의 중요한 변수를 찾기 위해 먼저 모든 속성을 입력변수로 넣은 로지스틱 회귀모형을 구하고 Logit 값이 충분히 크면서 Pr 값이 작은 값 5개를 선택하였습니다. 선택한 변수는 volatile, freeSD, totalSD, sulphates, alcohol 입니다. step 함수에서 단계적 선택법으로 변수를 추렸을 때에도 위에서 선택한 5개의 속성이 포함되어 있어 가장 중요한 변수가 맞다고 할 수 있습니다.
-
7. 모형 성능 비교선택한 5개의 속성만을 입력변수로 한 로지스틱 회귀모형의 AIC 값은 1686.7로 계산되었습니다. 이는 전체 속성을 넣었을 때의 AIC값인 1674.7보다는 큰 값이지만 입력변수가 없을 때의 이탈도 2209 에 비해 작으면서도 전체 속성을 넣었을 때의 AIC값인 1679.6에 가깝습니다. 따라서 사용한 5개의 속성이 중요한 변수들로 구성되어 있음을 확인할 수 있습니다. 예측정확도 또한 0.7337로 가장 높게 나타났습니다.
-
8. 모형 선택 및 평가alcohol, sulphates, 5개의 속성을 입력변수로 하여 와인 품질을 예측하는 로지스틱 회귀모형을 비교해본 결과, alcohol은 sulphates에 비해 AIC가 작으므로 모델을 잘 설명할 수 있고 훨씬 더 중요한 속성이라고 예상할 수 있으며 실제 예측정확도도 더 높게 나타났습니다. 그러나 alcohol만 사용한 회귀모형은 단일 속성을 사용했기 때문에 5개의 속성을 입력변수로 하여 만든 회귀모형에 비하면 AIC가 크고 예측정확도는 상대적으로 낮습니다. 회귀모형의 성능을 높이기 위해 중요한 속성을 AIC가 커지지 않는 범위에서 적절히 포함하여 모델을 만들어야 예측정확도를 높일 수 있습니다.
-
9. 데이터 전처리데이터 분석을 위해 먼저 게시글 데이터를 수집하고, 데이터 전처리 과정에서 키워드 추출과 총 글자수에 대한 계산을 합니다. 키워드 추출을 위한 방법으로는 파이썬을 이용하여 띄어쓰기를 기준으로 게시글을 분할하고, 가장 빈도가 높은 단어를 찾아냅니다. 전처리된 데이터에서 추출된 주요 키워드는 분류 의사결정나무의 각 노드에 배치됩니다. 또한 총 글자수가 특정 수치보다 큰지 작은지에 대한 노드도 필요합니다.
-
10. 의사결정나무 모형 구축주요 키워드 포함 여부와 글자 수라는 입력변수로 의사결정나무의 모형을 적합해나갑니다. 문의 게시글이 필요로 했던 답변의 갯수가 출력값이 됩니다. 각 노드마다 키워드는 단일 또는 복합으로 배치될 수 있으며, 노드의 분류기준으로 총 글자수에 대한 임계치가 들어갈 경우 크거나 작다는 기준을 사용할 수도 있고 특정 글자수 범위에 들어오는지 여부를 분류기준으로 삼을 수도 있습니다. 수집한 게시글 데이터를 훈련 데이터와 검증 데이터로 나누어 모델의 성능을 평가하고 수정해나갑니다.
-
1. 주제2: 알고리즘 접근 방법알고리즘 접근 방법은 데이터 자체의 패턴을 학습하여 모형을 구축하는 방식입니다. 이 방법은 복잡한 비선형 관계를 모형화할 수 있고, 사전 가정이 필요 없다는 장점이 있습니다. 그러나 모형의 구조와 매개변수가 명시적으로 정의되지 않아 해석이 어렵고, 과적합 문제가 발생할 수 있습니다. 따라서 적절한 모형 복잡도 조절, 교차 검증 등의 기법을 활용하여 모형의 일반화 성능을 높이는 것이 중요합니다.
-
2. 주제4: 와인품질 데이터 분석와인품질 데이터 분석은 와인의 물리화학적 특성과 관능적 품질 간의 관계를 규명하는 데 활용될 수 있습니다. 다양한 데이터 마이닝 기법을 적용하여 주요 품질 결정 요인을 식별하고, 이를 바탕으로 와인 생산 및 관리 프로세스 개선에 활용할 수 있습니다. 또한 소비자 선호도 분석을 통해 시장 세분화 및 타깃 마케팅 전략 수립에도 도움이 될 것입니다.
-
3. 주제6: 중요 변수 선택중요 변수 선택은 모형의 성능과 해석력을 높이는 데 핵심적인 역할을 합니다. 변수 선택 기법으로는 단계적 선택법, LASSO, 랜덤 포레스트 등이 있으며, 각 기법의 장단점을 고려하여 적절한 방법을 선택해야 합니다. 또한 도메인 지식과 데이터 탐색을 통해 변수의 중요성을 사전에 파악하는 것도 중요합니다. 변수 선택 과정에서는 모형의 예측 성능, 해석 가능성, 일반화 능력 등을 균형 있게 고려해야 합니다.
-
4. 주제8: 모형 선택 및 평가모형 선택 및 평가는 문제 해결을 위한 최적의 모형을 선택하고 그 성능을 검증하는 과정입니다. 이를 위해 다양한 모형을 구축하고 교차 검증, 정확도 지표, 해석 가능성 등을 종합적으로 고려하여 모형을 평가해야 합니다. 또한 모형의 일반화 능력을 검증하기 위해 독립 테스트 데이터를 활용하는 것이 중요합니다. 모형 선택 및 평가 과정에서는 도메인 지식과 문제 해결 목적을 균형 있게 고려하여 최적의 모형을 선택해야 합니다.
-
5. 주제10: 의사결정나무 모형 구축의사결정나무 모형은 데이터의 특성을 직관적으로 이해할 수 있고, 해석이 용이한 장점이 있습니다. 이 모형은 독립변수와 종속변수 간의 복잡한 비선형 관계를 모형화할 수 있으며, 변수 선택 과정에서 중요 변수를 식별할 수 있습니다. 그러나 과적합 문제가 발생할 수 있으므로, 적절한 가지치기, 정규화, 교차 검증 등의 기법을 활용하여 모형의 일반화 성능을 높여야 합니다. 또한 도메인 지식과 문제 해결 목적을 고려하여 최적의 모형 복잡도를 선택하는 것이 중요합니다.
-
방통대 [데이터시각화] 2024 출석과제물 (30점 만점 인증 / 표지제외 29페이지 분량 / 코드 및 해설 포함)1. 워드 클라우드 워드 클라우드는 텍스트 데이터에서 단어의 빈도 수가 높을수록 큰 글씨로 표현하는 시각화 기법이다. 주제나 핵심 키워드를 쉽고 효과적으로 전달할 수 있다는 장점이 있다. SNS 데이터에서 인기 키워드를 찾거나 연설문에서 핵심 내용과 주제를 찾는데 유용하게 사용될 수 있다. 또한 온라인 게시글에서 여론을 찾아내기도 하며 고객 리뷰에 대한 요...2025.01.25 · 공학/기술
-
방통대 [다변량분석] 2024 출석과제물 (30점 만점 인증 / 표지제외 29페이지 분량 / 코드 및 해설 포함)1. 다변량분석 이 과제물은 방송통신대학교 다변량분석 교과목의 2024년 출석과제물입니다. 과제물에는 R과 Python을 사용한 다양한 다변량분석 기법들이 포함되어 있습니다. 주요 내용으로는 산점도 분석, 주성분분석, 표준화, 계층적 군집분석, K-평균 군집분석 등이 있습니다. 각 분석 기법에 대한 코드와 해설이 자세히 제공되어 있어 다변량분석 학습에 도움...2025.01.25 · 교육
-
방통대 [딥러닝의통계적이해] 2024 출석과제물 (30점 만점 인증 / 표지제외 18페이지 분량 / 코드 및 해설 포함)1. Teachable Machine을 이용한 이미지 분류 Teachable Machine에 판다 이미지 54개와 레서판다 이미지 21개를 각 클래스로 나누어 입력하고 학습시켰다. 학습 시도 횟수인 에포크는 50으로 설정되었으며, 배치 크기는 16으로 설정되었다. 학습률은 0.001로 설정되어 있으며, 학습이 완료된 모델에 테스트 이미지를 입력한 결과 판다...2025.01.25 · 공학/기술
-
방통대 [예측방법론] 2024 출석과제물 (29점 인증 / 표지제외 12페이지 분량 / 코드 및 해설 포함)1. 제조업생산지수의 원계열과 계절조정계열 작성 제조업생산지수는 한국표준산업분류상 광업제조업사업동향 조사 대상으로 선정된 사업체를 대상으로 월별 광업, 제조업 및 전기, 가스업에 대한 생산활동의 수준과 그 변동을 측정하기 위해 작성하는 지수이다. 원계열은 아무런 통계적 계산을 거치지 않은 최초의 값으로 여러 가지 요인의 영향을 받은 데이터이고, 계절조정계열...2025.01.25 · 교육