
30점 만점 방통대 다변량분석 2024-1학기
문서 내 토픽
-
1. t-분포 난수 생성 및 분석R과 파이썬을 이용하여 자유도가 5인 t-분포를 따르는 난수 100개를 생성하고 히스토그램, 상자그림, 줄기-잎 그림을 그려 분석하였다. 난수 생성 시 학번 뒤 4자리로 seed를 설정하였으며, R에서는 rt() 함수, 파이썬에서는 np.random.standard_t() 함수를 사용하였다. 히스토그램 결과 -4부터 4 이상 범위에 분포하며 오른쪽 꼬리가 긴 모양이었고, 상자그림 결과 중앙값이 0에 가깝고 제1사분위수와 제3사분위수가 각각 -2보다 크고 2보다 작았다. 줄기-잎 그림 결과 -1과 1 사이에 분포가 밀집되어 있으며 약간 한쪽으로 치우친 분포를 보였다.
-
2. Longley 데이터 분석R에 내장된 Longley 데이터를 이용하여 산점도 행렬, 별그림, 얼굴그림을 그리고 분석하였다. 산점도 행렬 결과 unemployed, armed.forces를 제외하고는 상관관계가 비교적 높게 나타났다. 별그림과 얼굴그림에서는 변수 간 관계를 시각적으로 확인할 수 있었다. 또한 Longley 데이터를 CSV 파일로 저장하고 파이썬에서 읽어와 산점도 행렬을 그려 R과 비교하였다.
-
3. 주성분분석어느 도시의 14개 지역에 대한 사회조사 자료를 이용하여 주성분분석을 실시하였다. R과 파이썬 모두에서 상관계수 행렬, 고윳값, 고윳값이 확보하는 정보의 양 및 누적정보량을 구하였다. 그 결과 1보다 큰 고윳값은 2개이며, 이들이 확보하는 누적정보량은 86%였다. 주성분 계수와 주성분 점수를 구하여 변수 간 관계를 분석하였다.
-
4. 군집분석세계 46개 주요 도시의 물가와 소득 데이터를 이용하여 R과 파이썬에서 각각 군집분석을 실시하였다. 먼저 데이터를 표준화하고, 최장연결법을 이용하여 덴드로그램을 그린 결과 3개의 군집이 적절한 것으로 판단하였다. 이어서 K-평균 군집분석을 실시하여 4개 군집으로 분류하고 군집별 특성을 분석하였다.
-
1. t-분포 난수 생성 및 분석t-분포는 정규분포와 유사하지만 평균이 0이고 표준편차가 1인 정규분포와 달리 자유도에 따라 다른 분포를 가집니다. t-분포는 작은 표본 크기에서 모집단의 평균을 추정할 때 유용하게 사용됩니다. 난수 생성 시 t-분포를 활용하면 실제 데이터와 유사한 분포를 만들어낼 수 있어 통계 분석에 도움이 됩니다. 또한 t-검정, 신뢰구간 추정 등 다양한 통계 기법에서 t-분포가 활용되므로 이에 대한 이해가 필요합니다. 실제 데이터에 t-분포를 적용하여 분석하고 해석하는 과정은 통계 분석의 핵심 부분이라고 할 수 있습니다.
-
2. Longley 데이터 분석Longley 데이터는 다중공선성 문제가 있는 대표적인 데이터셋입니다. 이 데이터를 분석하면 다중공선성이 회귀분석 결과에 미치는 영향을 확인할 수 있습니다. 다중공선성은 독립변수 간 강한 상관관계로 인해 발생하며, 회귀계수 추정의 정확성을 떨어뜨리고 표준오차를 증가시킵니다. Longley 데이터 분석을 통해 다중공선성 진단 방법과 이를 해결하기 위한 기법들을 학습할 수 있습니다. 또한 이 데이터는 시계열 데이터이므로 시계열 분석 기법도 함께 적용해볼 수 있습니다. Longley 데이터 분석은 다양한 통계 기법을 종합적으로 활용할 수 있는 좋은 실습 기회가 될 것입니다.
-
3. 주성분분석주성분분석은 고차원 데이터를 저차원으로 축소하여 데이터의 주요 특징을 효과적으로 추출할 수 있는 기법입니다. 이를 통해 데이터의 복잡성을 줄이고 핵심 정보를 효과적으로 활용할 수 있습니다. 주성분분석은 차원 축소, 데이터 시각화, 변수 선택 등 다양한 용도로 활용될 수 있습니다. 특히 고차원 데이터를 다루는 기계학습 및 딥러닝 분야에서 주성분분석은 중요한 전처리 기법으로 사용됩니다. 주성분분석을 통해 데이터의 주요 특징을 파악하고 이를 활용하여 보다 효과적인 모델을 구축할 수 있습니다.
-
4. 군집분석군집분석은 데이터 내에 존재하는 자연스러운 그룹을 찾아내는 기법입니다. 이를 통해 데이터의 구조와 특성을 이해할 수 있으며, 유사한 특성을 가진 데이터를 하나의 그룹으로 묶어 효과적으로 관리할 수 있습니다. 군집분석은 고객 세분화, 이상치 탐지, 데이터 압축 등 다양한 분야에서 활용될 수 있습니다. 특히 비지도 학습 기법인 군집분석은 데이터의 내재적 구조를 발견하는 데 유용합니다. 다양한 군집화 알고리즘과 군집 수 결정 기법을 이해하고 적절한 방법을 선택하는 것이 중요합니다. 또한 군집 결과에 대한 해석과 활용 방안을 모색하는 것도 중요한 과정입니다.
30점 만점 방통대 다변량분석 2024-1학기
본 내용은 원문 자료의 일부 인용된 것입니다.
2024.12.30