
총 46개
-
머신러닝에서의 차원축소2025.05.101. 차원 축소 차원 축소는 고차원 데이터를 저차원으로 변환하는 과정으로, 데이터의 복잡성을 줄이고 특징을 추출하거나 시각화하기 위해 사용됩니다. 주요 방법으로는 특징 선택과 특징 추출이 있으며, 차원 축소의 이점은 데이터 시각화, 계산 효율성 향상, 잡음 제거 등입니다. 2. 차원의 개념 차원은 데이터를 표현하기 위해 필요한 축의 수를 의미하며, 각 차원은 데이터의 특정 특성을 나타내는 변수 또는 속성이 됩니다. 차원이 높을수록 데이터의 복잡성과 계산 비용이 증가하므로 차원 축소가 필요합니다. 3. 특징(feature)의 개념 특...2025.05.10
-
다중 선형 회귀 (Multiple Linear Regression, MLR)2025.05.091. 다중 선형 회귀 (Multiple Linear Regression, MLR) 다중 선형 회귀(Multiple Linear Regression, MLR)는 하나의 종속 변수를 다수의 독립 변수와의 선형 관계로 설명하는 모델입니다. 단순 선형 회귀가 하나의 독립 변수와 하나의 종속 변수 간의 선형 관계를 모델링하는 것과 달리, MLR은 여러 개의 독립 변수가 종속 변수와의 선형 관계에 영향을 미칠 수 있는 경우를 다룹니다. 예를 들어, 주택 가격을 예측하기 위해 주택의 크기, 방의 개수, 위치, 건물 연식 등 여러 독립 변수들을 ...2025.05.09
-
Data Preparation2025.01.131. Feature Extraction and Portability Feature extraction은 다양한 출처(센서, 이미지, 웹 기록, 침입감지, 문서 등)에서 데이터를 얻는 것을 말한다. Portability는 다른 유형으로 데이터를 변환하는 것을 말한다. 포터빌리티의 예로는 이산화, 이진화, LSA, SAX, DWT, DFT 등이 있다. 이러한 변환 방법들은 데이터의 크기를 줄이거나 다른 형태로 표현하는 데 사용된다. 2. Data Cleaning 데이터 클리닝은 누락되거나 오류가 있는 데이터를 제거하는 것을 말한다. 누...2025.01.13
-
PCA & SVD2025.01.131. PCA (주성분 분석) PCA는 데이터의 분산(variance)을 최대한 보존하면서 서로 직교하는 새 기저(축)를 찾아, 고 차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 기법입니다. 데이터의 분산을 최대로하는 새로운 기저를 찾기 위해서는 데이터 행렬 A의 공분산 행렬을 구해야 합니다. 공분산 행렬의 고유분해(Eigendecomposition)를 통해 가장 큰 고유값 몇 개를 고르고, 그에 해당하는 고유벡터를 새로운 기저로 하여 데이터 벡터들을 정사영시키면 PCA 작업이 완료됩니다. 2. SVD (특이값 분...2025.01.13
-
Kernel PCA & Spectral Clustering2025.01.131. Kernel PCA Kernel PCA는 편향이 큰 실세계의 데이터를 분석하는데 어려움이 있고, outlier data에 매우 민감한 linear PCA의 단점을 보완하기 위해 kernel trick을 수행한다. 하지만 분산이 가장 큰 축으로 데이터들을 정사영 시킬 뿐, clustering algorithm을 적용하지는 않는다. 2. Spectral Clustering Spectral Clustering은 군집화를 더 쉽게 하기 위해서 유사도 행렬 A를 통해 데이터들을 변형된 공간에 넣고, 후에 clustering algori...2025.01.13
-
지식부족 간호진단2025.05.011. PCA 사용법 대상자는 IV PCA사용법에 대해 2가지 이상 말할 수 있다. PCA 버튼을 누르지 않아도 일정한 속도로 진통제가 주입되며, 환자가 통증을 느낄 때 버튼을 누르면 다량의 진통제가 주입되 일시적으로 통증을 조절할 수 있습니다. 버튼은 15분에 한번 씩 누를 수 있고 그것보다 일찍 누르면 약제가 주입되지는 않는다고 말했다. 2. 자궁근종 관리 대상자는 3 일이내 자궁근종의 악화 요인에 대해 말할 수 있다. 대상자는 퇴원 전까지 HIFU후 자궁근종의 관리방법에 대해 3가지 이상 말할 수 있다. HIFU후 자궁근종의 관...2025.05.01
-
2020 빅데이터 보고서2025.05.071. 미국 지역별 소득 지수 해당 트리맵을 보면, 미국의 중앙 지역, 남쪽 지역, 동북 지역에 인구수에 따른 소득 지수가 높은 것을 알 수 있습니다. 2. 고등학교 졸업률과 범죄율 해당 트리맵을 보면, 고등학교 졸업률이 낮은 지역이 상대적으로 범죄율이 높게 나타난다는 것을 알 수 있습니다. 3. 소득, 문맹률, 인구수 해당 버블차트를 보면, 소득이 높고 문맹률이 낮은 지역일수록 인구수가 높게 나타난다는 것을 알 수 있습니다. 4. 문맹률, 범죄율, 지역 면적 해당 버블차트를 보면, 문맹률과 범죄율이 낮은 지역의 면적이 문맹율이 높고...2025.05.07
-
한국방송통신대학교 통계데이터과학과 다변량분석 2022년 출석과제(만점)2025.01.251. 주성분 분석 데이터의 요약 통계량을 확인하고 Boxplot으로 데이터의 분포를 확인하였다. 상관계수행렬과 산점도 행렬을 보고 변수들 간의 상관관계를 분석하였다. 주성분 분석을 실시하여 제 1주성분과 제 2주성분이 전체 정보의 86.4%를 설명하는 것을 확인하였다. 주성분 계수를 통해 각 변수들의 주성분에 대한 기여도를 파악하였다. 2. 인자분석 Bartlett의 구형성 검정과 KMO 검정을 통해 인자분석의 적합성을 확인하였다. 주성분 인자법을 이용한 인자분석 결과, 2개의 유의한 인자가 도출되었다. 직교회전 방식인 varima...2025.01.25
-
2024년 1학기 방송통신대 출석수업대체과제물 다변량분석) R과 파이썬을 각각 이용하여 작성하시오. 교재 연습문제 1장 3번, 4번 2장 3번 4장 3번 (1)-(3)2025.01.251. t-분포 난수 생성 및 분석 자유도가 5인 t-분포를 따르는 난수 100개를 R과 파이썬을 이용하여 생성하고, 히스토그램, 상자그림, 줄기-잎 그림을 그려 t-분포의 특성을 분석하였다. 히스토그램에서는 0을 중심으로 대칭의 모습을 보이지만 완전한 대칭은 아니며, 상자그림에서는 평균값이 0보다 약간 작은 것으로 나타났다. 줄기-잎 그림에서도 0점대를 중심으로 대칭의 구조를 보이고 있으나 일부 이상치가 확인되었다. 2. Longley 데이터 분석 R에 내장된 Longley 데이터를 이용하여 산점도행렬, 별그림, 얼굴그림을 그려 변...2025.01.25
-
30점 만점 방통대 다변량분석 2024-1학기2025.01.261. t-분포 난수 생성 및 분석 R과 파이썬을 이용하여 자유도가 5인 t-분포를 따르는 난수 100개를 생성하고 히스토그램, 상자그림, 줄기-잎 그림을 그려 분석하였다. 난수 생성 시 학번 뒤 4자리로 seed를 설정하였으며, R에서는 rt() 함수, 파이썬에서는 np.random.standard_t() 함수를 사용하였다. 히스토그램 결과 -4부터 4 이상 범위에 분포하며 오른쪽 꼬리가 긴 모양이었고, 상자그림 결과 중앙값이 0에 가깝고 제1사분위수와 제3사분위수가 각각 -2보다 크고 2보다 작았다. 줄기-잎 그림 결과 -1과 1...2025.01.26