
방통대 [데이터시각화] 2024 출석과제물 (30점 만점 인증 / 표지제외 29페이지 분량 / 코드 및 해설 포함)
본 내용은
"
방통대 [데이터시각화] 2024 출석과제물 (30점 만점 인증 / 표지제외 29페이지 분량 / 코드 및 해설 포함)
"
의 원문 자료에서 일부 인용된 것입니다.
2024.05.23
문서 내 토픽
-
1. 워드 클라우드워드 클라우드는 텍스트 데이터에서 단어의 빈도 수가 높을수록 큰 글씨로 표현하는 시각화 기법이다. 주제나 핵심 키워드를 쉽고 효과적으로 전달할 수 있다는 장점이 있다. SNS 데이터에서 인기 키워드를 찾거나 연설문에서 핵심 내용과 주제를 찾는데 유용하게 사용될 수 있다. 또한 온라인 게시글에서 여론을 찾아내기도 하며 고객 리뷰에 대한 요약을 제공하기도 한다. 특히나 미국 대선 때 사용되는 워드 클라우드에서는 각 후보자의 핵심 공약이나 정책 방향, 이슈, 유권자들이 중요하게 생각하는 가치관을 직관적으로 확인할 수 있었다. 연설이나 토론에서 사용한 단어로부터 후보자가 어떤 이념을 가지고 어떤 이슈에 무게를 두는지도 쉽게 파악할 수 있어 기사나 뉴스에서 활용하기에 좋은 시각화라고 할 수 있다.
-
2. 버블차트한스 로즈링의 강의에서는 버블차트가 계속하여 등장한다. 처음 등장하는 버블차트는 자녀 수 대비 기대수명을 국가별로 나타낸 산점도이다. 대부분의 데이터는 왼쪽 위와 오른쪽 아래에 모여있으며 두 군집으로 나뉠 수 있음을 쉽게 파악할 수 있다. 한스 로즈링은 자녀 수가 많고 기대수명이 낮은 국가의 집단은 개발도상국에 해당되며, 자녀 수가 적고 기대수명이 큰 국가의 집단은 서양국가, 즉 선진국에 해당된다고 설명한다. 다음 차트에서는 연도별 버블차트를 순차적으로 한 화면에서 재생시킨 동적 시각화를 사용하여 자녀 수, 기대수명, 연도, 국가라는 4가지 데이터가 어떤 관계를 가지고 있으며 도표에 나타나지 않은 보건환경 개선과 선진국의 지원이라는 요인이 어떤 영향을 미쳤는지 함께 설명되었다. 또한 선택하지 않은 국가의 포인트는 투명도를 높이고 미국, 중국, 멕시코의 포인트는 색상을 보다 선명하게 하여 원하는 정보를 동일한 차트에서 강조하여 전달하고 있었다.
-
3. 회귀분석facebook 광고비(facebook)를 가로축, 판매액(sales)를 세로축으로 하는 산점도를 그리고, facebook을 독립변수(설명변수)로, sales를 종속변수(반응변수, 결과변수)로 하는 회귀직선을 산점도 위에 그렸다. 이를 통해 facebook 광고비와 판매액 간의 관계를 시각적으로 확인할 수 있었다.
-
4. 바이올린 그림headache 데이터셋은 순번, 성별, 위험도, 치료제 종류, 두통의 강도로 이루어졌다. summary 함수의 요약결과로부터 치료제는 X, Y, Z 세 가지 값이 들어있는 범주형 데이터임을 알 수 있다. 범주형 데이터별 연속형 데이터의 분포를 시각화로 나타내기 위해 바이올린 그림을 그려보았다. 바이올린 그림에서는 데이터 분포가 적을 경우 얇게, 많을 경우엔 두껍게 끄려지기 때문에 강도별 분포를 확인하기 수월하다.
-
1. 워드 클라우드워드 클라우드는 텍스트 데이터의 핵심 단어를 시각적으로 표현하는 기법입니다. 이를 통해 문서나 주제에 대한 핵심 개념을 쉽게 파악할 수 있습니다. 워드 클라우드는 데이터 분석, 마케팅, 교육 등 다양한 분야에서 활용되고 있습니다. 단어의 크기와 위치, 색상 등을 통해 단어의 중요도와 관계를 직관적으로 보여줄 수 있어 효과적인 시각화 기법이라고 생각합니다. 다만 단어 간의 관계나 문맥을 완전히 반영하기는 어려운 한계가 있으므로, 워드 클라우드를 다른 분석 기법과 함께 활용하는 것이 좋습니다.
-
2. 버블차트버블차트는 데이터 간의 상관관계와 크기를 한눈에 파악할 수 있는 유용한 시각화 기법입니다. 버블의 크기로 데이터의 규모를, 버블의 위치로 데이터 간의 상관관계를 나타낼 수 있습니다. 이를 통해 복잡한 데이터 관계를 직관적으로 이해할 수 있습니다. 특히 시장 분석, 투자 전략 수립, 의사결정 지원 등에 활용도가 높습니다. 다만 버블이 겹치거나 크기가 너무 차이나는 경우 가독성이 떨어질 수 있으므로, 데이터 특성에 맞는 적절한 스케일링이 필요합니다. 또한 버블 간의 관계를 명확히 표현하기 위해 추가적인 정보 제공이 필요할 수 있습니다.
-
3. 회귀분석회귀분석은 변수 간의 관계를 수학적으로 모델링하여 예측 및 설명력을 제공하는 강력한 통계 기법입니다. 독립변수와 종속변수 간의 선형 또는 비선형 관계를 파악할 수 있으며, 이를 통해 미래 값을 예측하거나 변수 간의 영향력을 분석할 수 있습니다. 회귀분석은 경영, 경제, 공학, 의학 등 다양한 분야에서 널리 활용되고 있습니다. 다만 회귀모형의 가정 충족 여부, 다중공선성, 이상치 등을 면밀히 검토해야 하며, 모형의 한계와 해석에 주의를 기울여야 합니다. 또한 회귀분석 결과를 실제 상황에 적용할 때는 데이터의 특성과 모형의 적합성을 고려해야 합니다.
-
4. 바이올린 그림바이올린 그림은 연속형 데이터의 분포를 시각화하는 기법으로, 박스플롯과 유사하지만 더 자세한 정보를 제공합니다. 바이올린 그림은 데이터의 밀도 함수를 나타내어 데이터의 분포 형태를 직관적으로 보여줍니다. 이를 통해 데이터의 중심경향, 분산, 왜도, 첨도 등의 특성을 한눈에 파악할 수 있습니다. 바이올린 그림은 특히 비대칭적이거나 다봉 분포를 가진 데이터를 효과적으로 표현할 수 있습니다. 이는 데이터 탐색, 가설 검정, 모델 선택 등 다양한 분석 과정에서 유용하게 활용될 수 있습니다. 다만 바이올린 그림은 데이터의 실제 값을 직접적으로 보여주지 않으므로, 다른 시각화 기법과 함께 사용하는 것이 좋습니다.
-
방통대 [데이터마이닝] 2024 출석과제물 (30점 만점 인증 / 표지제외 12페이지 분량 / 코드 및 해설 포함)1. 모수적 모형 접근법 모수적 모형 접근법은 통계를 사용하여 데이터의 특징과 의미를 해석할 수 있는 분석 모델을 만드는 전통적인 방법입니다. 주로 사용하는 모형으로는 선형 회귀분석, 로지스틱 회귀모형이 있으며 모델 내에서 a 또는 b 같은 모수를 최소제곱법 또는 최대우도추정법을 사용하여 추정합니다. 모수적 모형 접근법으로 만들어진 분석 모델은 원인과 결과...2025.01.25 · 정보통신/데이터
-
방통대 [다변량분석] 2024 출석과제물 (30점 만점 인증 / 표지제외 29페이지 분량 / 코드 및 해설 포함)1. 다변량분석 이 과제물은 방송통신대학교 다변량분석 교과목의 2024년 출석과제물입니다. 과제물에는 R과 Python을 사용한 다양한 다변량분석 기법들이 포함되어 있습니다. 주요 내용으로는 산점도 분석, 주성분분석, 표준화, 계층적 군집분석, K-평균 군집분석 등이 있습니다. 각 분석 기법에 대한 코드와 해설이 자세히 제공되어 있어 다변량분석 학습에 도움...2025.01.25 · 교육
-
방통대 [딥러닝의통계적이해] 2024 출석과제물 (30점 만점 인증 / 표지제외 18페이지 분량 / 코드 및 해설 포함)1. Teachable Machine을 이용한 이미지 분류 Teachable Machine에 판다 이미지 54개와 레서판다 이미지 21개를 각 클래스로 나누어 입력하고 학습시켰다. 학습 시도 횟수인 에포크는 50으로 설정되었으며, 배치 크기는 16으로 설정되었다. 학습률은 0.001로 설정되어 있으며, 학습이 완료된 모델에 테스트 이미지를 입력한 결과 판다...2025.01.25 · 공학/기술