*다* 스토어

*다*

개인인증

팔로워0 팔로우

소개

등록된 소개글이 없습니다.

전문분야 등록된 전문분야가 없습니다.

판매자 정보

학교정보

입력된 정보가 없습니다.

직장정보

입력된 정보가 없습니다.

자격증

입력된 정보가 없습니다.

판매지수

판매중 자료수

8개
전체 판매량

93개
최근 3개월 판매량

0개
자료후기 점수

평균A+
자료문의 응답률

-

전체자료 8개

[출석대체과제물] 방통대 출석대체과제물 2022 품질경영 평가A+최고예요

2022학년도 1학기 출석수업대체(과제물)(온라인 제출용)※ A4용지 편집 사용?교과목명:?학번:?성명:?연락처:- 이하 작성1. 교재의 1장 4절에서는 교육기관인 대학에서 교육의 품질보증을 확보하기 위해 어떤 일을 해야 하는지 설명하였다. 행정기관인 교육부에서 행정의 품질보증을 확보하기 위해 어떤 일을 해야 하는지 설명하시오.교육부는 대한민국의 인적자원 개발정책과 학교교육, 평생교육 및 학술에 관한 사무를 관장하는 중앙행정기관이다. 교육부에서는 하는 주 업무는 교육에 관한 중장기 발전계획을 수립하고 초·중등학교 교육제도 및 입학제도의 개선, 고등교육 기본정책의 수립 및 시행, 공교육 정상화 정책의 수립 및 시행, 지방교육자치제도 기본정책의 수립 및 제도 개선 등 교육 및 인적자원 개발정책과 학술에 관한 사무를 관장한다. 즉, 교육부에서는 국민들이 필수 교육과정을 이행할 수 있도록 관리해주고 국민들에게 질 높은 교육서비스를 제공할 수 있도록 정책을 개정하고 수립하는 일을 한다. 우리나라의 교육과정은 크게 유아교육, 초등교육, 중등교육, 고등교육, 대학교육, 평생교육으로 나눠진다. 각 교육과정 마다 요구되는 사항들은 서로 상이하며 국민마다 기대하는 교육수준도 상이하다. 유아교육에서는 ‘놀이’를 중심으로 유아들이 배움을 느낄 수 있도록 놀이 중심의 교육과정을 중요시 여기며 초중고등교육에서는 방과 후 학교, 자기주도 학습 등 학생들이 주도적으로 학습할 수 있는 환경을 마련하고 진로를 탐색하고 적성을 찾을 수 있도록 선택 과목을 다양하게 개설하는 것을 중요시 여긴다. 이처럼 교육부에서는 교육과정에 따라 교육목적을 달리하고 교육과정에 맞춰 교육내용을 고안하여 정책을 수립한다. 국민들 또한 교육부에게 바라는 교육 서비스는 자녀의 연령대별로, 교육자의 연령대 마다 다르다. 자녀가 유치원, 어린이집에 다닐 경우 부모는 교육부에서 유아학비를 지원해주고 국공립 유치원, 어린이집 설립을 확대해주기를 바라며 자녀가 초, 중, 고등학교를 다니는 경우 수업료, 급식비, 방과 후 학교 등 학비나 교육비 지원을 확대나 공교육이 정상화될 수 있도록 교육부에서 힘써주기를 바란다. 이처럼 교육부에서는 국민들에게 질 좋은 교육서비스를 제공해주면서 올바른 교육과정을 설립하기 위해서 행정시스템을 제대로 구축하고 행정 품질이 보증되도록 노력해야한다. 교육부에서 행정의 품질보증을 확보하기 위해서 해야 할 일로는 우선적으로 교육부가 시행하는 각 제도들이 잘 이행되고 있는지는 확인하고 관리하는 일을 해야한다. 교육기관 및 행정기관들을 감사하거나 교육 감찰관을 각 도에 설립하여 지도 및 관리, 모니터링 하여 교육의 품질이 떨어지지 않도록 수시로 관리하며 교육정책의 기준이 명확한지, 평가기준은 올바른지를 내부적으로 평가하고 타 기관의 감사를 통해 행정 품질에 대해 점검하는 방법이 있다. 또한 공공기관, 행정기관 간에 업무를 협력하는데 있어서 착오가 발생하지 않도록 표준단어, 용어, 도메인 및 코드를 정의하고 데이터가 일관되게 적용될 수 있도록 표준을 준수하는지 확인하고 일관성 있게 작성되도록 가이드라인을 만들어야 한다. 또한 데이터품질관리 총괄책임자를 선임하여 실무담당자, 책임자, 담당자별로 업무를 지정하며 업무를 효율적으로 운영할 수 있게 지원해주고 업무가 잘 이행 하고 있는지 평가를 진행하고 정기적으로 데이터 품질관리 교육도 실시해야한다.시스템적인 측면에서는 iso 표준에 기반으로 둔 품질경영시스템을 구축하여 평가 인증을 획득하여교육부에서 행정의 품질이 보증되도록 확보하는 방법이 있다. 시스템 프로세스를 구축해놓으면 교육품질과 행정정책을 손 쉽게 관리할 수 있으며 높은 수준의 서비스를 제공하여 학습자, 교육기관, 교육부 행정직원들의 만족도를 높일 수 있다. 교육부에서 ISO 9000 인증을 받기 위해서 7단계의 로드맵으로 작성하면 아래와 같이 작성할 수 있다.1단계: ISO 9000 프로젝트를 주도하고 조정해 나갈 사업부를 편성하고 최고 경영자를 선임한다.2단계: 품질시스템 영역을 결정한다. 요구사항과 현재의 품질시스템 간의 초기 갭 분석을 실시한다.3단계: 보다 광범위한 요소로부터 그렇지 않은 요소까지 품질시스템을 짠다.4단계: 각 시도 교육청, 기관별 품질매뉴얼부터 각 부서별, 담당자별 프로젝트의 품질계획, 사업부별품질 계획 등 품질시스템의 문서를 체계화한다.5단계: 품질시스템 성과에 대한 객관적인 측정지수를 개발한다. 선택된 지수를 측정하고 모니터링하고 내부 품질감사를 실시한다.6단계: 성과를 높이기 위한 시정 및 예방조치를 취한다. 진행과정을 기록하고 추적한다.7단계: 외부 감사를 통해 품질시스템 인증을 받는다.이렇게 iso9000을 취득하면 교육 및 행정서비스를 효율적으로 처리할 수 있는 프로세스가 구축되면서 기관별, 사업별, 부서별 관리가 용이해지며 체계적인 접근 방법을 제공해줌으로써 업무의 효율성이 증대될 수 있다. 또한 국민들의 요구와 기대를 만족시킬 수 있도록 행정 정책을 제공해줌으로써 행정 품질 보증을 확보할 수 있다.2. 인터넷상에서 6시그마 프로젝트를 하나 수집하여 공정능력분석은 어떻게 이루어졌는지 설명하시오. 참고로 한국표준협회 홈페이지에서 우수 품질분임조 사례 중 6시그마와 관련된 프로젝트를 참조할 수 있다. 6시그마 프로젝트 추진단계인 Define(정의), Measure(측정), Analyze(분석), Improve(개선), Control(관리)의 단계 중 Measure(측정) 단계에서 측정시스템 및 공정능력분석을 다룬다.공정능력이란 공정의 업무처리능력을 일컫는 것으로, 생상공정이 얼마나 목표치와 일치하는 품질의 제품을 생산해 내는지 나타내는 공정의 능력을 말한다. 이는 안정된 공정이 합리적으로 달성할 수 있는 능력의 한계를 말하며, 불량률 또는 분포로도 나타낼 수 있다.공정능력분석은 주로 공정능력의 현재 수준을 파악하거나 개선효과를 파악하고 관리상태를 확인하는데 목적을 두며 6시그마 프로젝트와 같은 기획을 통해 공정능력을 향상시킬 수 있다. 6시그마 프로젝트는 Define(문제도출), Measure(현상분석), Analyze(근본원인파악), Improve(개선), Control(표준화)로 5계의 단계로 나눠지며 5개 단계 중 공정능력분석은 측정 단계에서 이루어진다.한국표준협회 홈페이지에 게시된 된 우수품질분임조 사례 중 6시그마와 관련된 프로젝트를 참고한 사례는 “삼성전자㈜ 무선사업부에서 갤럭시탭 코팅공정 개선으로 부적합품률 감소”의 사례로 삼성전자에서 6시그마 프로젝트를 통해 부적합품률을 어떻게 감소하였는지 확인해볼 수 있다.measure 단계에서 갤럭시탭 사출공정 세부 부적합품률 현황을 보면 코팅고정 단계에서 68.4% 점유율을 차지하고 있어 손실 비용이 높게 나타난 것을 알 수 있다. 코팅공정 부적함품률은 계절성이 없으며 평균 부적합품률이 17,584ppm 수준으로 8,084ppm 개선하여 9,500ppm을 목표로 설정하였다. 코팅공장 부적함품 유형별 조사결과를 보면 도막 두께, 식각 깊이에서 누적점유율이 70.2%로 부적합품이 가장 많이 발생하여 중점 관리 항목으로 선정되었음을 알 수 있다. 여기서 도막 두께, 식각 깊이를 측정할 수 있는 측정시스템을 선정하게 되는데 선정된 측정 기구가 공정관리용으로 적합한지 분석하고 분석결과를 기반으로 판단하게 된다.

통계·데이터과학과| 2022.06.29| 5페이지| 6,500원| 조회(295)

품질경영, 방통대, 통계학과, 출석대체과제물, 통계데이터과학과

미리보기

닫기
[출석대체과제물] 2022 데이터마이닝 평가A좋아요

2022학년도 1학기 출석수업대체(과제물)(온라인 제출용)※ A4용지 편집 사용?교과목명:데이터마이닝?학번:?성명:?연락처:- 이하 작성1. 데이터마이닝은 데이터에서 의미를 추출하는 기법을 의미하며, 모수적 모형 접근방법과 알고리즘 접근 방법이 모두 활용될 수 있다. 모수적 모형 접근법과 알고리즘 접근법의 특징, 장단점 및 사례를 조사하시오. 또한 SNS에 게시된 텍스트 데이터를 분석한다고 할 때, 어떠한주제를 분석하면 좋을지 주제를 제안하고 어떤 방법을 이용하여 분석하면 좋을지 데이터 마이닝 측면에서 논하시오. (7점)모수적 모형 접근방법은 단순 선형 회귀모형 Y=a+bx와 같이 데이터로부터 모수 a,b 를 추정하는 접근방법으로 최소제곱법이나 최대우도추정법을 활용하여 모수를 추정한다는 특징이 있다. 모수적 모형 접근방법은 결과의 해석이 용이하고 결과가 대체로 단순하다는 장점이 있으나 설정한 식에 부합하지 않은 데이터나 복잡한 데이터일 경우 정확도가 낮아 해석이 어렵다는 단점이 있다. 알고리즘 접근방법은 특정 유형의 패턴이나 추세를 파악하여 알고리즘에 의해 정해진 방식으로 데이터를 학습시키고 결과를 분석한다는 특징이 있다. 알고리즘 접근방법은 복잡한 데이터도 적용이 가능하다는 장점이 있으나 알고리즘의 속성이나 방법에 대한 이론적 근거를 모르는 경우 남용, 과접합 등의 문제가 발생한다는 단점이 있으며 기계만이 인지할 수 있는 결과로 인해 해석이 어렵다는 단점이 있다. 모수적 모형 접근방법의 대표적인 방법으로는 선형 회귀분석, 로지스틱회귀모형 있으며 알고리즘 접급방법의 대표적인 방법으로는 의사결정나무, 신경망모형, 랜덤포레스트 방법이 있다. 모수적 모형 접근 방법은 주로 두 개의 값만 가지는 종속변수와 독립변수의 관계를 추정할 때 사용되며 알고리즘 접급방법은 주로 복잡하고 대량인 데이터 안에서 관계 및 패턴을 탐색하고 분석하고자할 때 사용된다.모수적 모형 접근방법의 사례로는 ‘제품 무게에 따른 가격 예측’, ‘학력에 따른 수입예측’ 등과 같이 두 변수간의 관계를 파악하고자 할 때 사용할 수 있으며 알고리즘 접근법의 사례로는 고객관리, 신용평가, 이미지 분석 등이 있다. 알고리즘 접근법의 사례 중 하나인 고객관계관리데이터에 대한 접근방법에 대해 자세히 기술 하자면 고객정보 데이터 안에는 고객마다의 정보가 다양하게 분포되어 있어 고객의 성향을 한눈에 알아보기 쉽지 않다. 모수적 모형 접근방법으로는 고객별 특징을 알아내기가 어려워 유의미한 결과를 도출해낼 수 없다. 이에 반에 알고리즘 접근 방법은 고객의 구매형태, 고객성향 변동 등 데이터 안에서의 관계를 탐색하고 분석할 수 있어 모수적 모형의 접근방법과 달리 유의미한 결과를 도출해낼 수 있다.sns에 게시된 텍스트 데이터를 분석하고자 할 때 적절한 주제로는 서비스 만족도 조사, 시설이용자나 매체 이용자의 만족도 평가 등 특정 주제나 이슈에 대한 생각이나 반응을 알아내고자 할 때 적절히 사용될 수 있다. 이러한 주제를 분석하는 방법으로는 게시글 안에서 긍정을 의미하는 단어(+1)와 부정을 의미하는 단어(-1)를 분류하고 단어 마다 가중치를 부여하여 합산된 결과를 가지고 분석하는 방법이 있으며 문장 내에서 사용된 단어의 출현 빈도를 가지고 특성을 알아내거나 유사성을 지닌 단어들끼리 묶어 군집을 분석하는 방법도 있다. 이렇게 텍스트와 같은 비정형데이터를 가지고 작성자의 성향이나 의견, 태도와 같은 주관적인 데이터를 특정주제에 대하여 긍정적인 생각을 가지고 있는지 또는 부정적인 생각을 가지고 있는지를 분석하는 자연어 처리 기술을 감성분석(Sentimen Analysis)한다. 감정분석을 통해 빈도수를 기반으로 감성을 점수화하여 비정형 데이터를 분석할 수 있다.이러한 비정형 데이터나 대용량의 텍스트 자료를 분석하는 방법을 ‘텍스트마이닝기법‘이라 하며 sns와 같이 1초에 수십만 건의 데이터 생성되는 환경에서 유의미한 정보를 추출할 수 있는 대표적인 분석기법이라 할 수 있다.2. 와인품질 데이터에 로지스틱 회귀모형을 적합하고자 한다. 과거의 분석 경험을 통해alcohol 변수와 sulphates 두 변수가 매우 중요한 변수라는 것이 밝혀졌다고 하자. ① 이 두변수만을 입력변수로 하여 와인 품질을 예측하는 로지스틱 회귀모형을 적합하시오. 또한, 이적합 결과를 교재의 ② 전체 변수를 모두 넣고 분석한 결과 및 ③ 변수 선택을 하여 몇 개의변수만 선택하고 분석한 결과와 비교하시오. (7점)① 두 변수(alcohol, sulphates)를 입력변수로하여 와인 품질을 예측하는 로지스틱 회귀모형[해석]두 변수를 입력변수로 한 로지스틱 회귀모형은glm 함수 (family=binomial)를 사용하여 모형을 적합시킬 수 있으며 회귀계수의 부호와 크키로 모형을 해석할 수 있다.회귀계수를 보면 alcohol, sulphates 변수 둘 다 양수이므로 수치가 높을수록 와인의 품질이 높을 가능성이 높다고 말할 수 있으며 alcohol은 한 단위 증가할수록 오즈는 2.8배 , sulphates는 한 단위 증가할수록 오즈는 452배 증가한다 할 수 있다. 예측함수는 predict 함수를 이용하며 임계치가 0.5보다 크면 품질이 우수(1) 아니면 품질이 보통(0)으로 예측할 수 있으며 정오분류표를 옆 화면과 같이 만들 수 있다.적합한 모형에서 얻은 예측값과 관측값을 보면품질이 보통이라 정분류된 수는 395개, 품질이 우수하다고 정분류된 수는 469개 이며 오분류된 경우는 154개, 176개이다. 예측정확도는 약 72.4%, 민감도는 72.7%, 특이도는 71.9%인 것을 알 수 있다.② 전체 변수를 모두 넣고 분석한 결과[해석]전체변수를 입력변수로 한 로지스틱 회귀모형을 적합한 결과는 옆 화면과 같으며 회귀계수의 부호와 크키로 모형을 해석하면 아래와 같이 설명할 수 있다.fixed, freeSD, density, sulphates, alcohol의 회귀계수는 양수로 수치가 높을수록 와인의 품질이 높을 가능성이 높다고 말할 수 있으며 volatile, citric, residual, chloridestotalSD, PH 는 회귀계수가 음수로 수치가 높을수록 와인의 품질이 저하된다고 말할 수 있다.적합한 모형에서 얻은 예측값과 관측값을 보면품질이 보통이라 정분류된 수는 402개, 품질이 우수하다고 정분류된 수는 493개 이며 오분류된 경우는 147개, 152개이다.예측정확도는 약 75%, 민감도는 76.4%, 특이도는 73.2%라 말할 수 있다.③ 변수 선택을 하여 몇 개의 변수만 선택하고분석한 결과[해석]단계적 선택법을 실행하는 함수는 step함수로AIC가 가장 작은 최종모형을 선택하여 모형을 적합하는 방법은 옆 화면과 같다. 단계적 선택법을 시행한 결과 density, residsugar, fixed 변수는 제외되며 8개 변수만을 입력변수로 적합한 최종모형의 AIC는 1245.5인 것을 확인할 수 있다.적합한 모형에서 얻은 예측값과 관측값을 보면품질이 보통이라 정분류된 수는 402개, 품질이 우수하다고 정분류된 수는 495개 이며 오분류된 경우는 147개, 150개로 예측정확도는 약 75%, 민감도는 76.7%, 특이도는 73.2%인 것을 알 수 있다. 단계적 선택법을 이용하여 모형을 적합한 경우 단계적 선택법을 이용하지 않은 모형보다 예측정확도가 높게 나타난다는 것을 알 수 있다.3. 입력변수와 목표변수가 모두 범주형인 어떤 데이터의 두 입력 변수 X1과 X2는 1, 2, 3 등세 가지 값을 갖고, 목표변수는 Y=1, Y=2의 2개의 범주를 갖는다고 할 때, 각 집단별로 X1과X2에 대하여 분할표를 아래와 같이 생성하였다. 물음에 답하시오. (8점)Y=1 Y=2(1) 분할표를 보고 이 데이터의 원형을 유추하여 생성하시오. 단, 데이터 세트의 첫째 줄에는변수명 X1, X2, Y를 명시하시오.(2) 지니지수를 이용하여 최초 분할 시 최적의 분리점을 찾으시오.최초 분할 시 최적의 분리점은 X1을 {3} 과 {1,2}로 나누는 것이다.(3) 뿌리노드가 한번 분할된 분류의사결정나무를 생성하고, 두 자식노드에서 관찰치들의 집단별 빈도를 밝히시오.X1=1 , X1={2,3} 분할된 자식노드에서 왼쪽 자식노드는 14개 (Y=1이 12개, Y=2가 2개), 오른쪽 자식노드는 25개(Y=1이 8개, Y2=17개)로 분할되었다.

통계·데이터과학과| 2022.06.24| 1페이지| 6,000원| 조회(601)

방통대, 방송대, 통계학과, 출석대체과제물, 통계데이터과학과

미리보기

닫기
데이터시각화 출석대체과제물 [만점]

2021학년도 1학기 출석수업대체과제물(온라인 제출용)교과목명 :학 번 :성 명 :연 락 처 :________________________________________________________________________________○ 과 제 명 : 데이터시각화 출석수업대체과제물- 이하 과제 작성※ 표지는 A4용지 사용1. COVID-19 관련 데이터 시각화의 국내외 사례 3개를 찾고 비교하여 정리하시오.[사례1] 첨부사이트: http://ncov.mohw.go.kr/시도별 확진환자현황 (05.12 00시 기준, ‘20.1.3. 이후 누계)[사례1]은 국내 코로나바이러스 확진자 수를 시도별로 나누어 확진자 수가 많을수록 진한 파란색으로 확진자 수가 적을수록 연한 파란색으로 나타내어 색깔로 지역별 확진자 수를 구분할 수 있도록 시각화한 자료이다. 이미지파일을 보면 서울, 경기, 인천, 대구, 부산 지역의 색이 다른 지역보다 진하게 나타났는데 이를 통해 다른 지역에 비해 확진자 수가 많이 나온 지역임을 알 수 있으며 색이 가장 연한 세종, 제주지역은 확진자 수가 다른 지역 비해 적게 발생된 지역임을 알 수 있다.[사례2] 첨부사이트: http://ncov.mohw.go.kr/시도별 확진환자현황 (05.12 00시 기준, ‘20.1.3. 이후 누계)[사례2]는 [사례1]과 같이 시도별 확진환자현황을 막대그래프로 시각화하여 나타낸 자료이다. [사례1]은 색깔로 확진환자 수를 구분지어 지역별 비교는 가능하나 서울, 경기, 인천과 같이 근처 지역 간의 색깔차이가 명확하게 나타나지 않을 경우 정확한 구분이 어렵다는 단점이 있지만 [사례2]는 막대그래프로 표현하여 지역별 정도차이를 정확하게 구분할 수 있다는 장점이 있다. 이미지를 보면 서울지역의 누적 확진자 수는 40,118로 확진자 수가 가장 제일 높게 나타난 지역임을 알 수 있으며 서울, 경기, 대구 순으로 확진자 수가 높게 나타났음을 알 수 있다.[사례3] 첨부사이트: JHU CSSE COVID-19 Data신규 확진자 및 사망자 통계자료[사례3]은 확진자 및 사망자 수를 2020년도 2월20일부터 2021년 5월10일까지 나타낸 것으로 확진자 수의 변화를 꺾은선 그래프로 시각화한 자료이다. 이미지 파일을 보면 21.02.20일부터 2.29일까지 확진자 수가 급격하게 증가하다 다시 감소하는 추세를 보인 것을 알 수 있으며 3월부터 8월10일까지는 다소 완만한 형태를 보이다 11월부터 급격한 증가추세를 보인 것을 알 수 있다. 12월에는 확진자 수가 전반적으로 높게 나왔으며 12월24일에 일이 확진자 수가 최대로 많아 나왔음을 알 수 있다. 위 이미지를 보면 몇 월 며칠에 확진자 수가 가장 많이 나타났으며 그래프의 추세가 전반적으로 어떻게 변화되는지를 알아보기 쉬워 국내 확진자 수의 변이를 쉽게 파악할 수 있다.2. 한스 로즈링의 TED 강의(아래의 URL 이용)를 보고 데이터 시각화의 역할 등 느낀 점을 1페이지 이내로 정리하시오.한스 로즈링의 강연은 자신이 가지고 있는 사고방식이 실제 자료와 얼마나 일치하는지에 관한 질문을 던지며 시작된다. 한 학생이 우리와 그들을 서양 세계와 개발도상국으로 나누어 개발도상국은 집단구성의 적은 수명을 보인 나라로 서양세계는 소수의 가족집단과 높은 수명을 보이는 나라로 정의하였다고 말하였다. 1950년대의 데이터만 봐서는 학생의 말이 틀린 건 아니지만 그 정의는 1950년도에만 국한되었으며 60년도부터 2000년도까지 데이터의 흐름을 보면 대다수의 국가들이 수명이 증가되고 가족의 구성형태 또한 소규모의 형태로 변화되고 있어 학생의 정의가 실제 자료와 일치하지 않았음을 보여주었다. 그뿐만 아니라 전 세계인구의 소득분포표, GDP와 아동 생존율의 데이터를 보여주며 일반적으로 사람들이 생각하였던 개발도상국이라는 개념은 실제 데이터와 일치하지 않을 가능성이 높으며 다양한 변수들이 존재하기 때문에 선진국과 개발도상국을 두 집단으로 경계 지을 수 없다는 말을 하고자 했던 것 같다. 나도 한스 로즈링의 강연을 듣기 전만 해도 학생의 생각과 같이 개발도상국은 시대에 뒤처져 문명의 발전이 이뤄지지 않는 나라라 생각하였으며 선진국과 개발도상국을 잘사는 나라와 못사는 나라라고 단순히 단정 지어 생각하였었다. 하지만 시각화된 데이터들을 보며 한스 로즈링의 주장대로 생각보다 많은 나라들이 사회적으로 발전하였고 내가 알고 있던 사고방식은 오래전 학습되었던 사고에만 머물러 있어 새로운 관점으로 사실을 바라보지 못하였음을 알 수 있었다. 만약에 한스 로즈링이 시각화된 데이터를 사용하지 않고 말이나 글, 혹은 정제되지 않은 데이터만을 가지고 강연을 진행하였다면 나뿐만 아니라 많은 사람들이 한스 로즈링의 의견에 쉽게 공감하지 못하였을 것이다. 한스 로즈링은 자신의 주장에 설득력을 높이기 위해 데이터를 시각화하였으며 청중들이 알아보기 쉽게 변화과정을 시각적으로 나타내어 청중들이 자신의 주장을 타당하게 받아들이게끔 유도하였다. 아마 한스 로즈링이 질문에 뒷받침할 이야기로 개발도상국에 관한 이야기를 한 것도 개발도상국에 대한 인식이 일반적으로 빈곤한 나라라 여겨지지만 실제데이터는 그렇지 않다는 것을 명확하게 보여줄 수 있으며 시각적으로 변화과정이 분명하게 드러나기 때문에 자신의 주장을 뒷받침하기에 좋은 사례라 생각되어 위와 같은 이야기를 꺼내지 않았을까 하는 생각이 들었다. 강연을 보며 데이터를 시각화하여 표현하는 것은 주장의 타당성과 설득력을 높일 수 있으며 말하고자 하는 바를 보다 정확하게 전달할 수 있어 데이터를 시각화하며 표현하는 것이 중요하다는 것을 다시한번 느낄 수 있었다.3. Anscombe’s quartet은 네 개의 데이터셋으로 구성되어있고 각 데이터셋은 x와 y 두 개의 변수로 이루어져있다. 각 데이터셋을 산점도로 표현하고, y를 결과변수, x를 설명변수로 하는 회귀직선을 산점도 위에 그려보시오.각 데이터셋을 산점도로 표현하고 y를 결과변수, x를 설명변수로 하는 회귀직선을 산점도위에 그리면 아래와 같이 나타낼 수 있다.1) (X1, Y1의 산점도와 회귀선)▶코드2) (X2, Y2의 산점도와 회귀선)▶코드3) (X3, Y3의 산점도와 회귀선)▶코드4) (X4, Y4의 산점도와 회귀선)▶코드4. COVID-19 관련 한국, 중국, 미국, 프랑스의 COVID-19 신규 확진자 수의 추이를 데이터 시각화로 비교하고 향후 추이에 대해 의견 기술하라데이터를 이용하여 코로나 관련 한국, 중국, 미국, 프랑스의 신규 확진자 수의 추이를 시각화하여 나타낸 그림은 아래와 같으며 나라별 확진자 수를 한 그래프에 나타내기에는 인원수가 서로 상이하여 각 나라마다의 확진자 수 그래프를 나타내고 한 화면에 4개의 그래프가 같이 나타나도록 하였다.1) 각 나라별 확진자 수 그래프[한국의 신규 확진자 수]한국의 신규 확진자 수를 시각화하여 나타낸 그림은 위와 같으며 한국의 신규 확진자 수의 변화추세를 보면 1월에는 확진자 수가 다소 적게 나타났지만 2월부터 확진자 수가 급진적으로 증가하였음을 알 수 있으며 2월 말 기점으로 증가추세가 감소하여 3월부터 7월까지는 큰 변화 없이 확진자수가 적게 나타났음을 알 수 있다. 그 후 8월부터 확진자 수가 다시 증가하다 줄어든 추세를 보였으며 11월부터 12월까지는 급격한 증가 추세를 보임을 알 수 있다. 증가추세는 12월까지 말까지 계속 되었으며 12월에 최대 확진자수가 나타났음을 알 수 있다.[중국의 신규 확진자 수]중국의 확진자 수를 시각화하여 나타낸 그림은 위와 같으며 중국의 확진자 수의 추세를 보면 12월말부터 1월까지 확진자 수가 점진적으로 증가하다 약간의 감소폭을 보인 후 2월 중순부터 2월 말까지 급격한 증가폭을 보인 것을 알 수 있다. 2월 말에 확진자 수가 최대로 나오다 확진자 수는 급격히 줄어들었으며 3월부터 12월 중순까지 큰 변화없이 확진자 수가 적게 나타나는 것을 알 수 있다.[프랑스의 신규 확진자 수]프랑스의 확진자 수를 시각화하여 나타낸 그림은 위와 같으며 프랑스의 신규 확진자 수의 추세를 보면 3월부터 증가 추세를 보이다 4월부터 다시 줄어들었으며 4월부터 7월 말까지는 다소 완만한 형태의 그래프 모양이 나타나 신규 확진자수의 변화가 크지 않았음을 짐작할 수 있다. 확진자 수는 8월부터 점점 가파르게 증가추세를 보였으며 11월 초에 확진자 수가 최대로 나타났음을 알 수 있다. 11월 초 이후로 부터는 확진자수가 점점 감소하는 추세를 보이고 있으며 12월까지 확진자 수는 감소하고 있는 추세를 보인 것으로 알 수 있다.[미국의 신규 확진자 수]미국의 확진자 수를 시각화하여 나타낸 그림은 위와 같으며 미국의 신규 확진자 수의 추세를 보면 1월,2월에는 확진자 수가 매우 적게 나타나다 3월부터 7월까지 점진적으로 증가하는 추세를 보이는 것을 알 수 있다. 7월 이후로부터는 확진자 수가 점점 감소추세는 보였지만 9월부터 다시 증가하였으며 11월부터 12월까지는 확진자 수가 급격히 증가하는 추세를 보이는 것을 알 수 있다.2) 한국, 중국, 프랑스, 미국의 그래프 비교, 향후 추이나라별 확진추세를 비교하기 위해 한 화면에 4개의 그래프를 동시에 나타내면 아래와 같이 나타낼 수 있다. 중국을 제외한 한국, 중국, 프랑스의 신규 확진자 수의 추세를 보면 세 나라 모두 10월부터 증가추세를 보였으며 세 나라 모두 4분기에 확진자 수가 급격히 증가하는 것을 볼 수 있다.위 그래프의 추세로만 봐서는 한국, 미국, 프랑스의 확진 추세는 앞으로 점차 감소하는 추세로 보일 것으로 예상되며 백신이 도입됨과 더불어 확진자 수가 향후에는 더 줄어들 것으로 예상된다.▶ R코드▶ R스크립트#출석대체과제물 3번anscombex

통계·데이터과학과| 2022.04.23| 10페이지| 6,500원| 조회(398)

방통대, 방송대, 데이터시각화, 통계데이터과학과

미리보기

닫기
[30점만점] 다변량분석 출석대체과제물 평가A+최고예요

2021학년도 1학기 출석수업대체과제물(온라인 제출용)교과목명 :학 번 :성 명 :연 락 처 :________________________________________________________________________________○ 과 제 명 : 다변량 분석 출석수업대체과제물- 이하 과제 작성※ 표지는 A4용지 사용1. 연습문제 1장(p.31) 1.3번 1.5번1.3 자유도가 5인 t-분포를 따르는 난수 100개를 만들어 분석하고자 한다.(1) 난수를 생성하라(2) 히스토그램을 그리고 설명하라(3) 상자그림을 그리고 설명하라(4) 줄기-잎 그림을 그리고 설명하라[실행화면, 줄기-잎 그림][히스토그램][상자그림]자유도가 5인 t-분포를 따르는 난수를 생성하는 함수는 rt로 rt(100,5)를 입력하면 100개의 난수를 생성할 수 있다. 히스토그램을 그리는 함수는 hist로 hist(a)를 입력하면 위와 같이 히스토그램이 그려지며 stem(a), boxplot(a)를 입력하면 위와 같이 줄기-잎 그림, 상자그림이 그려진다. 히스토그램과 줄기-잎 그림을 보면 ?1부터 1구간에 난수가 밀집되어 생성된 것을 확인할 수 있으며 특히 0~1구간에 난수가 가장 많이 생성된 것을 알 수 있다. 상자그림을 보면 중앙값은 0근처인 것을 알 수 있으며 특이점이6개 존재한다는 것을 알 수 있다.1.5 USairpollution 자료를 이용하여 그래프를 그리고자 한다.(1) 산점도행렬, 별그림, 얼굴그림을 그리고 해석하라1. 산점도행렬은 pairs() 함수를 이용하여 그릴 수 있다2. 별그림은 stars() 함수를 이용하여 그릴 수 있다3. 얼굴그림은 faces() 함수를 이용하여 그릴 수 있다.[해석]산점도행렬, 별그림, 얼굴그림을시각화 하여 나타낸 결과는 옆 화면과 같으며 시각화된 결과를 해석하면 아래와 같이 해석할 수 있다.산점도 행렬을 보면manu와 popul은 서로 양의상관관계를 갖는 것을 알 수 있다. 별그림과 얼굴그림을 보면chicago, Philadelphia 것을 알 수 있다.(2) (temp, wind)의 bivariate boxplot을 그리고 해석하라[실행화면][bivariate boxplot]temp, wind의 bivariate boxplot을 그리면 위와 같이 나타낼 수 있으며 bivariate boxplot를 보면 특이값이 2개 존재하는 것을 알 수 있다.특이값의 케이스번호는 23번, 31번이며 23번은 miami, 31번은 phoenix 이다.(3) (manu, popul)의 산점도에 SO2의 정보를 나타내는 bubble plot을 그리고 해석하라.[실행화면][bubble plot]manu, popul 의 산점도에 제3의 변수인 SO2의 정보의 크기에 따라 원으로 나타낸 그림은 위와 같으며manu가 커질수록 popul의 값도 같이 커지면서 S02의 원의 크기도 같이 커져가는 것을 알 수 있다.2. 연습문제 2장(p.59) 2.2번 2.3번2.2 다음 자료는 21개의 회사를 대상으로 재무상황 6개 변수를 측정한 결과이다해당 자료는 data2라는 객체에 넣어 작업하였으며 작업결과는 아래와 같다.(1) 6개 변수들에 대한 분산,공분산행렬을 구하라.분산 공분산행렬은 cov() 함수를 이용하여 구할 수 있으며 실행결과는 아래와 같다(2) 6개 변수들에 대한 상관계수행렬을 구하라상관계수행렬은 cor()함수를 이용하여 구할 수 있으며 실행결과는 아래와 같다(3) R을 이용하여 다음과 같이 주성분분석을 실시하고 결과를 비교하라.1) 고유근을 구하고 그 고유근이 확보하는 정보의 양 및 누적정보량을 구하라.고유근과 고유근이 확보하는 정보의 양, 누적 정보량은 아래 표와 같다.고유근comp.1comp.2comp.3comp.4comp.5comp.6각 정보의 양36.69%24.76%15.23%12.41%8.32%2.58%누적 정보의 양36.69%61.45%76.69%89.09%97.41%100%2) 1보다 큰 고유근의 수와 그 고유근들이 확보하는 누적정보의 양을 구하라.첫 번째 주성분의 분산은 2.2이고 두 번째 주성분의적정보의 양은 61.45%이다.3) 위의 결과를 이용하여 주성분을 구하라[실행결과][스크리 그림] [행렬도]스크리 그림을 보면 고유값이 1보다 큰 주성분이 2개로 제1, 제2 주성분의 선형결합식은 아래와 같이 나타낼 수 있다. 선형결합식을 보면 제1주성분의 X2, X4, X5, X6 변수가 큰 값을 가진 것을 보아 제 1주성분은 X2, X4, X5, X6과 연관성이 높은 성분이라 유추할 수 있으며 제 2주성분은 X3, X4, X5 변수가 큰 값을 가진 것을 보아 제 2주성분은 X3, X4, X5와 연관성이 있는 성분이라 유추할 수 있다. 또한 행렬도를 보면 X2, X6가 서로 가까운 곳에 위치하며 비슷한 방향에 가리키고 있는 것을 보아 X2와 X6는 서로 상관성이 높을 것이라는 것을 유추할 수 있다.PC _{1} =0.319X _{1} +0.456X _{2} +0.342X _{3} -0.417X _{4} +0.416X _{5} +0.475X _{6}PC _{2} =-0.27X _{2} -0.559X _{3} -0.540X _{4} +0.482X _{5} -0.29X _{6}2.3 다음은 어느 도시의 14개 지역에 대한 사회조사자료이다. 이 자료를 이용하여 다음과 같이 주성분분석을 실시하라(1) 5개 변수들 사이의 상관계수행렬을 구하라.5개 변수들 사이의 상관계수행렬은 cor()함수를 이용하여 구할 수 있으며 실행결과는 위와 같다.(2) 고유근을 구하고 그 고유근이 확보하는 정보의 양 및 누적정보량을 구하라.고유근comp.1comp.2comp.3comp.4comp.5각 정보의 양60.57%25.82%11.45%1.91%0.24%누적 정보의 양60.57%86.40%97.85%99.76%100%고유근과 고유근이 확보하는 정보의 양, 누적 정보량은 아래 표와 같다.(3) 1보다 큰 고유근과 그 고유근들이 확보하는 누적정보의 양을 구하라첫 번째 주성분의 분산은 3.03이고 두 번째 주성분의 분산은 1.29으로 1보다 큰 고유근의 수는 2개이다. 이 2개의 고유근이 확보행결과][스크리 그림] [행렬도]스크리 그림을 보면 고유값이 1보다 큰 주성분의 수는 2개로 제1, 제2 주성분은 아래와 같이 나타낼 수 있다. 선형결합식을 보면 제1주성분은 X1(총 인구), X3(총 고용자 수), X4(의료종사자 수)의 변수들이 큰 값을 가지고 있어 전반적으로 인구수와 관련이 있는 성분인 것으로 유추할 수 있으며 제2주성분은 X5(주택가격의 중위수 값) 변수와 X2(거주자 학력의 중위수 값이)이 큰 값을 가지고 있어 학력, 주택가격과 관련성이 높은 성분이라는 것을 유추할 수 있다.※ X1=총 인구(1,000명), X2=거주자 학력의 중위수 값, X3=총 고용자 수(1,000명),X4=의료종사자 수 (100명), X5=주택가격의 중위수 값PC _{1} =0.558 TIMES X1+0.313 TIMES X2+0.568 TIMES X3+0.487 TIMES X4-0.174 TIMES X5PC _{2} =0.131 TIMES X1+0.629 TIMES X2-0.310 TIMES X4+0.701 TIMES X5또한 행렬도를 보면 X1(총 인구), X3(총 고용자 수)가 서로 가까운 곳에 위치하며 비슷한 방향에 가리키고 있어 서로 양의 상관관계를 가지고 있다는 것을 알 수 있으며 X4(의료종사자 수)와 X5(주택가격의 중위수 값)은 서로 반대방향을 가리키고 있어 서로 음의 상관관계가 있음을 알 수 있다.3. 연습문제 3장(p.95) 3.1번, 3.2번3.1 다음의 데이터는 서을 강남구의 어느 중학교 1학년 남학생 38명의 체력 진단 테스트와 운동력 테스트와 운동력 테스트의 결과이다. 인자분석을 실시하여 적절한 해석을 하라.1) 자료 가져오기, 초기 인자 분석 실행하기[실행화면][스크리 그림]principal() 함수를 이용하여 인자분석을 실행하면 위의 실행화면과 같이 나타나며 실행화면과 스크리 그림을 보면 고유근이 1이상인 인자는 2개인 것을 알 수 있다.2) 인자분석 결과: varimax 이용 결과V2: 허리굽혀펴기V3: 수직으로 높이뛰기V4: 배근는 각 변수의 공통성을 의미하며 U2는 고유분산을 의미한다. SS loadings는 각 인자에 의해 설명되는 분산의 양을 의미하며 RC1의 분산이 39%, RC2의 분산이 20%인 것으로 보아 두 인자에 의해 설명되어지는 변동은 총 변동의 59%라 할 수 있다.회전된 요인에 대한 변수들의 요인 적재값을 보면 첫 번째 인자는 V3(수직으로 높이뛰기), V4(배근력), V5(약력), V6(50m달리기), V7(넓이뛰기), V9(턱걸이)의 값이 높게 나타나 첫 번째 인자는 전체적인 체력과 관련된 것으로 보이며 두 번째 인자는 V2(허리굽혀펴기), V8(볼던지기)의 값이 높게나타나 두 번째 인자는 상체체력과 관련이 높은 것으로 파악할 수 있다.3.2 다음의 자료는 300명의 대학생들에게 biology(BIO), geology(GEO), chemistry(CHEM),algebra(ALG), calculus(CALC), and statistics(STAT) 6개의 과목에 대하여 선호도를 조사한 결과이다.[해석표]1) 자료 가져오기 및 요약통계량2) 인자분석 실행하기3) 인자분석결과① 고유근① 고유근factanal()함수를 이용하여 나온 인자부하값을 이용하여 고유근을 구하면 실행결과와 같이 나타나며 두 번째 인자까지만 고유근이 1 이상이므로 2개의 인자가 유효하다 할 수 있다.② varimax 회전 결과③ varimax 회전결과 (“subject", "stat" 제외)② varimax 회전 결과varimax 인자회전 후 결과를 보면“subject", "stat"는 공통성이 0.3이하로제외하는 것이 타당하다③ varimax 회전결과(“subject", "stat" 제외)인자를 2개로 설정하였을 때p-value의 값이 0.245로 유요한 인자는 2개이며 첫 번째 인자가 42.1%, 두 번째 인자가 32.2%의 설명력을 가져 총 74.3%의 설명력을 가지는 것을 알 수 있다.첫 번째 인자는 BIO,GEO,CHEM의 비중이 큰 인자이며 두 번째 인자는 ALG, CALC의 비중이 있다.

통계·데이터과학과| 2022.04.15| 13페이지| 7,500원| 조회(257)

방통대, 방송대, 다변량분석, 통계데이터과학과

미리보기

닫기
엑셀데이터분석 기말과제 (A+)

2020학년도 1학기 기말시험(온라인평가) 제출용?교과목명:엑셀데이터분석?학번:?성명:?연락처:?평가유형:과제물형(과제물형, 주관식형, 혼합형 중 해당 유형 표기)?주관식형:※ 주관식일 경우 문제번호 표기 후 답안 작성?과제물유형:( 공통 ) 형※ 평가유형이 과제물형 경우 해당 유형 작성(예 : 공통 / A형 / B형 / C형 / D형 / E형)?과제명:엑셀데이터분석 기말시험1. 엑셀 함수를 이용해서 다음의 확률 값을 구하여라. (10점)(1)X ``sim``B(`15,``0.7 `)```일 때P `{` X ``>=`` 10`} ```,P` {`2 ``=`` 10`} ```확률을 구할 수 있다.◀ P(X?9)- number_s: 9 (성공횟수)- Trials: 15 (독립 시행횟수)- Probability_s: 0.7(각 시행에서 성공확률)- cumulative:1 (누적확률질량함수)BINOMDIST(9,15,0.7,1) = 0.2783 으로 1-0.2783 은 0.7216 이다.즉,P `{` X ``>=`` 10`} ```의 확률 = 0.7216 (72.16%) 이다.P` {`2 ``

통계·데이터과학과| 2021.02.21| 16페이지| 7,500원| 조회(420)

방통대, 방송통신대학교, 기말과제, 통계데이터학과

미리보기

닫기