2020학년도 2학기 기말시험(온라인평가) 제출용?교과목명:파이썬과R?학번:?성명:?연락처:?평가유형:과제물(과제물형, 주관식형, 혼합형(과제물+주관식) 중 해당 유형 표기)?주관식형:※ 주관식일 경우 문제번호 표기 후 답안 작성?과제물유형:공통형?과제명:1. 연습문제 8장(268페이지) 2번, 3번2. 연습문제 9장(284페이지) 2번, 3번3. 연습문제 10장(300페이지) 1번, 2번4. 연습문제 11장(320페이지) 1번, 2번- 이하 과제 및 답안 작성 (※ A4용지 편집 사용)【교재 연습문제 8장】 p.2682. 다음 자료는 1985년 USDA의 여성 영양 관련 자료이다. 20~50세의 연령에서 랜덤하게 선택된 737명의 여성 영양자료로서 변수는 다음과 같다.(1) 자료에서 결측치는 0으로 표시되어 있다. 결측지를 제거하는 명령을 쓰고, 각 변수에 결측치가 몇 개 있는지 구하시오.(2) 변수(calcium, iron, protein, vitamin A, vitamin C)의 (평균, 표준편차, 최솟값, 최댓값, 중앙값, 제1사분위수, 제3사분위수)를 구하시오.(3) 변수(calcium, iron, protein, vitamin A, vitamin C)의 상자그림 및 히스토그램을 그리고, 각 변수의 분포를 설명하시오.【 R 】(1) 자료에서 결측치는 0으로 표시되어 있다. 결측지를 제거하는 명령을 쓰고, 각 변수에 결측치가 몇 개 있는지 구하시오.R-Studio 출력화면결과설명『sum(is.na(nutrient))』함수를 통하여 전체 데이터에서 결측치가 23개인 것을 확인할 수 있고, 『sum(is.na(nutrient$변수명))』의 형태로 각 변수별로 결측치가 몇 개인지 확인해 볼 수 있다.또한, 『colSums(is.na(nutrient[,-c(1)]))』으로 각 변수별 결측치가 몇 개나 되는지를 단 한 번의 명령으로 알아볼 수 있다. 각 변수별 결측치의 개수는 calcium 4개, iron 2개, protein 1개, vitaminA 9개, vitaminC 7개이다.『na.omit(nutrient)』으로 결측치가 있는 행을 모두 삭제한 결과를 화면에서 쉽게 확인해 볼 수 있다.R 코드nutrient
【교재 연습문제 2장】 p.397. 광복절인 1945년 8월 15일은 무슨 요일인지 R로 계산하시오.1. R Studio 출력화면2. 결과해석날짜와 시간 등의 자료를 처리하려면 문자열로 읽은 후 이를 날짜 객체로 바꾸어 주어야 하는데, 이것을 위하여 as.Date 함수를 사용할 수 있다. 이 함수는 문자열로 주어진 날짜의 값을 날짜 객체로 변환해 주며, 기본적인 형태는 “%Y-%m-%d”로 년-월-일의 순서로 주어져야 한다. 원자료의 형태가 기본형태가 아닐 경우에는 format 함수를 사용하여 자료의 형식을 지정해 줄 수도 있다. 요일을 확인하고자 하는 경우에는 weekdays() 함수를 사용할 수 있으며, format()과 as.Date()를 이용하여 년, 월, 일, 요일 등을 표현할 수 있다. 이와 같은 방식으로 코딩을 하면, 우리나라의 광복절인 8월 15일이 1945년 당시에 “수요일”이었다는 것을 확인할 수 있다.3. R 코드Independence_day <- as.Date("1945-08-15")str(Independence_day)weekdays(Independence_day)format(as.Date(Independence_day), "%Y년 %m월 %d일 %a요일")【교재 연습문제 2장】 p.398. 광복절인 1945년 8월 15일은 무슨 요일인지 파이썬으로 계산하시오.1. Python 출력화면2. 결과해석Python에서 날짜와 시간 등은 datetime 패키지 등을 활용하여 작업을 수행할 수 있다. 특정한 형태로 출력할 때는 %Y, %m, %d, %A 등의 값을 사용할 수 있는데, 이 경우 datetime 객체의 strftime 메소드를 호출한다. strftime 메소드는 날짜와 시간의 형식을 입력받아서 문자열로 변환하는 기능을 한다.
2020학년도 1학기 과제물(온라인 제출용)교과목명 :학 번 :성 명 :연 락 처 :____________________________________________________________________________○ 과제유형 : ( 공통 ) 형○ 과 제 명 :※ 1970년 1분기∼2019년 4분기까지 분기별 GDP(2015년 기준)의 원계열과 계절조정계열을 찾고 다음 문제에 대해 답하시오.1. 원계열과 계절조정계열에 대한 시계열도표를 같이 그리고, 각 시계열의 특징을 변동요인 중심으로 기술하시오.(5점)2. 원계열과 계절조정계열에 대한 스펙트럼을 같이 그래프로 표현하고, 그 특징을 시계열들의 변동요인과 연계해서 설명하시오.(10점)3. 계절조정계열과 이를 차분한 계열(차분계열)을 각각 구한 후, 두 계열에 대해 다음을 구하시오.⑴ ADF(Augmented Dickey-Fuller) 검정을 실시하고 검정결과를 정리하시오(7점).⑵ 두 계열의 상관도표와 부분상관도표를 작성하고 그 특징을 정리하시오(8점).1. 한국은행 통계 홈페이지(ecos.bok.kr)에서 찾는다.국민계정-경제활동별 GDP 및 GNI(계절조정, 원계열)-국내총생산(시장가격, GDP)로 찾아서 다운로드 받는다.* 국가통계포털(www.kosis.kr)에서도 찾을 수 있다.2. 프로그램 수행결과중 필요한 부분만 추출하여 과제물을 작성해야 한다.3. R 프로그램을 반드시 이용한다.4. 상관도표, 부분상관도표와 스펙트럼의 경우 그래프로 표현해야 한다.(그림 파일을 첨부할 때 온라인 제출이 가능하도록 크게 하지 않는다.)5. 이용한 프로그램 코드를 부록으로 첨부한다.6. 표와 기술내용이 유사성이 클 경우 감점한다.7. 인용할 경우 출처를 반드시 밝힌다.- 이하 과제 작성 (다음 페이지부터)※ 1970년 1분기∼2019년 4분기까지 분기별 GDP(2015년 기준)의 원계열과 계절조정계열을 찾고 다음 문제에 대해 답하시오.1. 원계열과 계절조정계열에 대한 시계열도표를 같이 그리고, 각 시계열의 특징을 변동요인 중심으로 기술하시오.(5점)R Studio 출력화면결과해석시계열도표(time series plot)는 시간이 경과함에 따라 시계열의 자료값이 변화하는 것을 그린 그래프로, 시간을 x축으로 하고 시계열의 관측값을 y축으로 하여 꺾은선 그래프의 형태로 그린 것이다. 시간은 주기를 가지면서 흘러가는데, 여기서 주기는 주파수영역(frequency domain) 정보를 말하며, 시간이 흘러가는 것은 시간영역(time domain) 정보를 뜻한다.국민총생산(GDP) 등의 경제시계열(Yt)은 주파수영역인 변동주기에 따라 일반적으로 추세변동요인(Tt), 순환변동요인(Ct), 계절변동요인(St), 불규칙변동요인(It)으로 구성된다고 생각한다. 여기서 추세변동요인(trend variation)은 인구변화, 기술변화, 생산성 증대 등에 따른 장기적 변동으로 통상 10년 이상의 변동주기를 가진다. 예를 들어, 대한민국 인구의 저출산 고령화로 인하여 경제활동인구가 장기적으로 줄어들 것으로 예상되는데 이는 우리나라의 경제에 장기적으로 영향을 미칠 것으로 판단된다. 순환변동요인(cyclical variation)은 경기순환에 따라 반복되며 나타나는 변동으로 주로 2~5년 주기로 변동이 나타한다. 경기순환은 정부의 경제정책과 매우 밀접한 연관이 있으므로 경제당국이 주요하게 살펴본다. 계절변동요인(seasonal variation)은 주로 1년을 주기로 하여 반복되며 나타나는 변화로서 계절의 변화 및 각종 관습이나 관행 등에 의해 생긴다. 계절변동요인에는 달력에 따라 변동하는 요일구성변동과 설, 추석 등 명절변동요인이 포함된다. 불규칙변동요인(irregular variation)은 파업, 태풍, 지진, 홍수 등 돌발적 혹은 천재지변과 같은 불가항력적 요인이나 원인불명의 요인에 의하여 나타나는 변동이다. 불규칙변동요인은 특별히 안정적 주기를 가지지 않으나 부분적으로는 매우 짧은 주기의 변동을 가지고 있다. 시계열도표를 통해 시계열의 변동요인을 눈으로 확인하는 것이 가능하다.위에서 R Studio로 작성된 그림은 1970년 1분기∼2019년 4분기까지의 분기별 GDP(2015년 기준)의 원계열(검정색)과 계절조정계열(붉은색)에 대한 시계열도표이다. 원계열(original series)이란 글자 그대로 아무런 수정도 가하지 않은 조사된 그 자체의 값, 즉 작성된 통계에 아무런 조정을 가하지 않은 원래 상태의 통계수치이다. 계절조정계열(seasonally adjusted series)은 원계열의 통계수치에서 1년의 주기를 갖는 계절변동요인을 제거한 것이다. GDP와 같이 계절변동요인이 큰 경제통계 분석 시 원계열의 전기대비 증감율을 이용하게 되면 오류를 초래하기 쉽다.이 그래프에서 실질 GDP의 원계열을 보면 추세적으로 증가하는 추세변동요인과 톱니 모양의 계절변동요인이 있음을 확인할 수 있다. GDP는 일반적으로 시간이 흐르면서 인구증가, 생산성 향상 등으로 증가하는 경향이 있다. 이처럼 시간에 따라 추세적으로 증가하는 변동분이 그래프에 나타나고 있다. 실질 GDP에 톱니 모양의 계절변동요인이 있는 것은 우리나라 GDP는 분기별 영업일수의 차이, 농산물의 수확시기 등으로 매년 1/4분기에는 작게, 4/4분기에는 크게 나타나는 패턴을 보인다. 반면, GDP의 원계열 시계열도표에서 보이는 톱니 모양의 계절변동요인이 계절조정계열의 시계열 도표에서는 사라진 것으로 보이는데, 이것은 경기변동요인만을 확인하기 위해 계절변동요인을 제거했기 때문이다. 계절조정계열에서의 GDP는 1/4분기에 감소하고 4/4분기에 크게 증가하는 계절변동요인이 제거되어 평탄하게 증가하고 있음을 알 수 있다.R 코드> setwd("D:/R/work/data")> gdp gdp> plot(gdp[,1]/1000, ylab="GDP(원계열)", xlab="연도", col="black")> lines(gdp[,2]/1000, col="red")2. 원계열과 계절조정계열에 대한 스펙트럼을 같이 그래프로 표현하고, 그 특징을 시계열들의 변동요인과 연계해서 설명하시오.(10점)R Studio 출력화면결과해석시계열의 주파수 정보는 시계열에 존재하는 특정한 주기의 변동과 연관성이 있는 정보이다. 일반적으로 긴 주기의 시계열은 저주파 변동을 가지는 시계열이고, 짧은 주기의 시계열은 고주파 변동을 가진 시계열이라고 할 수 있다.주기도(periodoram)는 어떤 특정한 시계열이 어떤 주기를 갖고 움직이는지를 보여주는 도표이다. 주기도에서 어떤 특정한 주파수에 큰 값이 보이면, 그 시계열에 해당 주파수(또는 주기)의 변동이 크다고 판단한다.주기도는 일반적으로 변동성이 크기 때문에 해당 시계열의 주기를 제대로 파악하기 어렵다. 따라서 주기도를 평활화하여 살펴보는데, 이렇게 주기도를 평활화한 결과를 스펙트럴 밀도함수(스펙트럼)라고 부른다. 스펙트럴 밀도함수는 x축으로, 주파수는 y축으로 로그변환된 스펙트럴 밀도함수값을 주로 이용한다.실질 국내총생산(GDP) 원계열과 계절조정계열의 시계열도표를 1.번 문제에 대한 답안에서와 같이 그렸다면, 위의 R Studio에서 그린 그림과 같다. 원계열의 스펙트럼을 구해보면 저주파수와 계절주파수에서 큰 값을 가지는 것으로 나타났다. 여기서 저주파수의 큰 값은 추세변동요인이 존재하고 있다는 것을 뜻하며, 계절주파수의 큰 값은 계절변동요인이 존재하고 있다는 것을 의미한다. 반면, 실질 국내총생산(GDP) 계절조정계열의 스펙트럼을 구해보면 원계열의 스펙트럼에서 계절주파수의 큰 값이 사라지는 것을 볼 수 있다. 이것은 바로 계절조정계열에서 계절변동요인이 제거되었음을 뜻하는 것이다.R 코드> setwd("D:/R/work/data")> gdp gdp_o gdp_sa par(mfrow=c(2,1))> spectrum(gdp_o, spans=c(3,3), main="GDP 원계열", col="black")> spectrum(gdp_sa, spans=c(3,3), main="GDP 계절조정계열", col="red")3. 계절조정계열과 이를 차분한 계열(차분계열)을 각각 구한 후, 두 계열에 대해 다음을 구하시오.⑴ ADF(Augmented Dickey-Fuller) 검정을 실시하고 검정결과를 정리하시오(7점).⑵ 두 계열의 상관도표와 부분상관도표를 작성하고 그 특징을 정리하시오(8점). 교과목 담당교수님께 질의하여 차분의 방법은 아래의 A방법이나 B방법 중 어느 방법을 사용해도 무방하다는 답변을 받았습니다. 여기에서 저는 일반적으로 많이 쓰이는 방법인 A방법(계절조정계열의 로그변환계열, 로그변환계열을 차분한 계열)을 사용하였습니다.⑴ ADF(Augmented Dickey-Fuller) 검정을 실시하고 검정결과를 정리하시오(7점).R Studio 출력화면결과해석단위근검정은 어떤 시계열이 안정시계열인지 불안정시계열인지 검토하는 검정이다. 단위근(unit root)을 검정하는 대표적인 방법 중의 하나가 ADF(Augmented Dicky-Fuller) 검정이다. ADF 검정에서 p를 선택하는 방법은 자유도를 확보하기 위하여 가급적이면 크기가 작은 수를 택하되, 다만 오차의 자기상관이 감안될 수 있도록 충분히 커야 한다. 실제의 경우 AIC(Akaike Information Criterion) 통계량과 SBC(Schwarz’s Bayesian Criterion) 통계량 등의 모형선택기준을 이용하여 선택하는 경우가 많다.위의 그림은 로그변환된 계절변동조정 실질 국내총생산(GDP)의 수준변수 및 1차 차분변수에 대해서 ADF 검정을 실시하는 프로그램을 R Studio에서 구현한 것이다. 여기서 adf.test는 ADF를 검증하는 함수이다.계절변동조정 GDP(1970년 1/4분기 ~ 2019년 4/4분기)를 로그변환한 후 ADF 검정을 실시해 보면 수준변수의 유의확률(p-value)은 0.99로 나타나 단위근(unit root)이 있다는 귀무가설을 기각하지 못하는 것으로 나타났다. 따라서 계절조정계열에는 단위근이 존재한다고 볼 수 있으며, 또한 그렇게 때문에 이 시계열은 불안정한 시계열임을 알 수 있다.
『온라인 제출용』2019학년도 2학기 출석수업대체과제물교과목명 : 데이터마이닝학 번 :성 명 :연 락 처 :____________________________________________________________________________○ 과 제 명 : 1장 연구과제 3번 (3점)2장 연구과제 2번 (단, data는 담당교수 홈페이지 자료실의 타이태닉 데이터(titanic.csv)를 이용하시오.) 또한, 이 타이태닉 데이터에 나무모형을 적합하시오.이러한 결과를 통해 로지스틱 회귀모형과 나무모형의 특징을 간단하게 비교해 보시오. (6점)3장 연구과제 2번의 (1)~(3) (6점)3장 연구과제 3번 (6점)4장 연구과제 2번 (3점)4장 연구과제 4번 (6점)- 이하 과제 작성※ 표지는 A4용지 사용지혜의 시대를 여는 지식 네트워크 중심대학!The Hub University of Knowledge Network Opening the Age of Wisdom자연과학대학 정보통계학과●●● (20**35-******)2019학년도 2학기 (●●●)한국방송통신대학교 정보통계학과 출석수업 대체과제제1장 연구과제 3. 데이터마이닝의 수행과정을 단계별로 설명하라. (3점)일반적으로 데이터마이닝의 수행단계는 [표 1-1]과 같다. 각 단계들은 상호배타적이거나 한 방향으로 획일적으로 적용되기보다는 상호보완적으로 반복되어 수행된다. 슈무엘(Shumueli) 외(2010)에서 정리한 각 단계별 특징을 간략히 살펴보기로 한다.[표 1-1] 데이터마이닝의 수행단계 (출처: 교재 p.10~11, Shmueli et al., Data Mining for Business Intgellggence, 2010)연번단계내용?목적결정프로젝트의 목적을 계획하고 설정하는 단계이다. 많은 경우 계획단계에서 문제의식이 미리 설정되어 관련 데이터를 수집하게 되지만, 때로는 데이터 수집 후 탐색과정을 거쳐 문제가 설정되기도 한다. 그리고 탐색과정에서 얻은 새로운 발견으로부터 기 설정된 목적이 재설정되기도 한다.?데이터 수집데이터는 보통 데이터베이스에서 무작위로 추출하거나 전부 추출하지만, 때로는 분산된 데이터베이스(소비자들의 구매이력자료)를 사용할 수도 있고 외부 데이터베이스(신용평가기관으로부터 얻는 신용등급자료)를 사용할 수도 있다.?데이터 탐색 및 정제본격적인 데이터마이닝 기법을 적용하기 위해서 데이터를 표준화 및 점검(quality control)하는 단계이다. 데이터에 결측치가 존재하는지, 모든 값은 상식적인 범위 내에 있는지, 이상치는 존재하는지 등의 여부를 조사하여 분석에 적합하도록 조치를 취한다. 이러한 탐색과정은 그래프를 이용한 시각화나 탐색적 자료분석의 기법이 효과적으로 활용된다.?데이터마이닝 방법 결정데이터마이닝 문제(분류, 예측, 군집화 등) 및 데이터마이닝 기법(로지스틱 회귀, 신경만, 계측군집 등)을 선택하는 단계이다. 이 단계에서 일반적인 문제(1단계에서 제기된 문제)를 구체적인 통계분제로 전환하여 수리적 접근을 한다.?모형선택이 단계에서는 데이터마이닝 프로세스의 여러 단계를 반복적으로 수행하여 가장 좋은 모형을 찾는 단계이다. 보통 검증 데이터(test data)를 이용하여 가장 좋은 성능을 내는 모델 파라미터를 결정한다. 이는 데이터마이닝 기법을 탑재한 분석도구에 의해 수행된다.?성능평가이 단계에서는 검증 데이터를 이용하여 구축된 모형이 성능을 평가하여 가장 효율적인 모형을 찾는다. 예측문제의 경우, 다양한 데이터마이닝 기법 중 예측력이 가장 우수한 것을 선택하여 최종모형으로 선정한다.?적용구축된 모형을 운용 시스템에 타재하여 실제 의사결정에 적용하는 단계이다. 예를 들어 구축된 모형을 적용하여 구매가능성이 높은 고객을 결정하고 해당 고객에게 구매권유 메일을 보내어 수익창출 가능성을 높인다.제2장 연구과제 2. 이항형 목표변수를 가진 데이터를 구해서 로지스틱 회귀모형을 적합해 보라(단, data는 담당교수 홈페이지 자료실의 타이태닉 데이터(titanic.csv)를 이용하시오). 또한, 이 타이태닉 데이터에 나무모형을 적합하시오. 이러한 결과를 통해 로지스틱 회귀모형과 나무모형의 특징을 간단하게 비교해 보시오. (6점)로지스틱 회귀모형 적합데이터를 들여다보면, 좌석등급(Class)을 중심으로 볼 때, 3등석에 있던 승객들이 많이 사망한 반면, 1등석에 있던 승객들이 생존율은 상당히 높다. 『First Class > Second Class > Third Class > Crew』의 순서로 생존율의 차이가 있다는 것이 확인된다. 또한, 성별(Sex) 기준 생존율은 『여성(Female) > 남성(Male)』이며, 연령(Age) 기준으로는 『어린이(Child) > 성인(Adult)』이다. 즉, 좌석등급, 성별, 연령이라는 세 변수는 생사(生死)를 구분하는 데 중요한 역할을 하고 있는 것이다. 이 데이터를 상호작용이 없는 로지스틱 회귀모형(logistic regression model)으로 분석하면 3개의 변수가 모두 유의함을 확인할 수 있다.아래는 R Studio로 시행한 로지스틱 회귀분석 결과 화면이다. R Console의 위에 있는 창에서 R Code를 함께 확인할 수 있다. AIC 값은 2222.1 이고, 모든 변수의 유의확률은 0.05 이하로 통계적으로 유의하다. 변수들 중 ClassSecond, ClassThird, SexMale은 추정계수가 음수(-)이며, 이는 객실 등급이 2~3등석이고, 성별이 남성이면 생존율에 음(-) 영향을 미친다는 것을 의미하는 것이다.setwd("D:/R/")titanic.data = read.csv("titanic.csv", header=T)head(titanic.data)summary(titanic.data)titanic.logit = glm(Survived ~ Class + Age + Sex, family=binomial, data=titanic.data)summary(titanic.logit)library(car)Anova(titanic.logit)나무모형 적합성별(Sex)에 따른 생존율은 좌석의 등급(Class)에 따라 영향을 받았다. 일반적으로 여성(Female)이 남성(Male)보다 생존율이 높은 것으로 보이지만, 좌석등급에 따라 영향이 다르다. 3등석을 빼고 보면 여성은 남성보다 생존율이 높으나 좌석등급에 따라 그 영향이 다르다는 것이 확인된다. 다시 말해 3등석을 제외하면 여성은 남성보다 생존율이 매우 높다. 하지만 3등석 승객인 경우 여성과 남성의 생존율의 차이는 크지 않다. 이는 좌석등급과 성별변수 사이에 상호작용을 암시한다.좌석등급(Class)에 따른 생존율은 성별(Sex)에 따라 영향을 받는다. 여성(Female)인 경우에 3등석인 경우와 1~2등석인 경우에 생존율에 눈에 띄는 차이가 있다. 하지만 남성의 경우 좌석등급에 따른 생존율이 여성과 비교해서 상대적으로 낮다. 이는 좌석등급과 성별변수 간의 상호작용의 근거가 될 수 있다.연령(Age)에 따른 생존율은 성별(Sex)의 영향을 받는다. 여성의 경우 성인(Adult)과 어린이(Child)의 생존율에 차이가 없지만, 남성의 경우 성인보다 어린이의 생존율이 높다. 이는 연령과 성별변수 간의 상호작용임을 의미한다.좌석등급(Class)에 따른 생존율은 연령(Age)과 성별(Sex)에 의해 영향을 받는다. 남자 어린이의 경우 1, 2등석에서는 생존율이 높으나 3등석에서는 매우 낮다. 성인 남성의 경우 1, 2등석에서와 3등석에서의 생존율의 차이가 크지 않다. 이는 연령과 좌석등급 변수 간의 상호작용임을 알 수 있다. 하지만 이러한 현상은 여성에게는 발견되지 않는다. 즉, 이런 현상은 연령, 좌석등급, 성별의 3차 상호작용을 암시한다.아래는 R Studio를 이용하여 타이타닉 데이터를 나무모형에 적합시킨 결과화면이다. R Console의 위에 있는 창에서 R Code를 함께 확인할 수 있다. R Console의 내용이 길어진 관계로 총 4번에 걸쳐서 나누어 캡처하였다.library(rpart)my.control
『온라인 제출용』2019학년도 2학기 출석수업대체과제물교과목명 : 데이터과학입문학 번 :성 명 :연 락 처 :____________________________________________________________________________○ 과 제 명 : 1. 데이터 분석에 기계학습과 같은 알고리즘 접근방법이 도입된 이유를 기술하시오. (3점) 이러한 기계학습과 같은 알고리즘 접근방법의 특징을 모수적 모형 접근방법과 비교하여 약술하시오. (6점)2. 빅데이터 시대의 주요 기술 중 하나로서 더그 커팅(Doug Cutting)이 공개한 하둡(Hadoop)을 꼽을 수 있다. 하둡의 개념을 조사하여 간략하게 기술하시오. (6점)3. 추천 시스템에 활용되는 협업필터링은 무엇인지 설명하고 이의 종류로서 어떤 방법이 있는지 기술하시오. (6점)4. 빅데이터 시대의 도래로 우리 사회는 많은 변화를 겪고 있다. 이러한 환경 변화로부터 비롯될 수 있는 긍정적인 영향과 부정적인 영향에 대한 자신의 견해를 기술하시오. (3점) 또한, 이와 관련한 데이터과학자의 역할을 논하시오. (3점)5. 데이터 품질의 정의를 기술하고, 좋은 품질의 데이터가 기업경영에 미치는 영향에 대해 논하시오. (3점)- 이하 과제 작성※ 표지는 A4용지 사용지혜의 시대를 여는 지식 네트워크 중심대학!The Hub University of Knowledge Network Opening the Age of Wisdom자연과학대학 정보통계학과●●● (20**35-******)2019학년도 2학기 (●●●)한국방송통신대학교 정보통계학과 출석수업 대체과제1. 데이터 분석에 기계학습과 같은 알고리즘 접근방법이 도입된 이유를 기술하시오. (3점)이러한 기계학습과 같은 알고리즘 접근방법의 특징을 모수적 모형 접근방법과 비교하여 약술하시오. (6점)데이터마이닝을 간단하게 말하다면 데이터 분석이라고 할 수 있을 것이다. 굳이 데이터마이닝이라는 개념이 알려지기 전의 데이터 분석과는 구분을 하고 의미를 찾고자 한다면, “대해서만 생각을 집중시킬 수 있다.이와 같이 데이터에만 집중할 수 있도록 해주는 하둡의 개발철학으로 빅데이터 처리가 매우 간단해지게 되었다. 그 결과로 대용량의 데이터를 처리할 필요가 있는 다양한 분야에 하둡을 활용하기 위한 연구가 세계적으로 활성화되고 있다. 대용량 스팸메일 처리(조성환 등, 2009), 비디오 트랜스코딩(김명진 등, 2012), 다중 염기서열 정렬(박승현 등, 2011), 내용 기반 음악검색(정형용 등, 2011) 등 수많은 분야에서 하둡을 응용하는 사례가 발견된다.하둡의 역사2006년, 더그 커팅(Doug Cutting)과 마이크 카파렐라(Mike Cafarella)이 오픈소스(open source)로 하둡을 발표했다. 하둡을 개발하기 전에 두 사람은 너치(Apache Nutch)라고 하는 오픈소스 검색엔진 프로젝트를 이끌었다. 2006년 당시의 인터넷 전체 웹사이트들의 규모는 수입 억 페이지가 넘는 것으로 색인관리에서 제약을 가지고 있는 너치만을 이용해서는 실용적인 검색엔진을 구현하는데 한계가 있었다.한편 구글(Google)은 2003년에 자사 분산파일시스템(구글파일시스템; Google File System 또는 GFS)의 구조에 대한 논문을 발표하였다(Ghemawat et al., 2003). 이 논문은 검색엔진에서 웹사이트의 색인을 만들 때 생산되는 거대한 파일들을 관리하는 방법에 관한 노하우를 포함하고 있었다. 커팅은 이 논문의 아이디어를 빌어서 너치를 위한 분산파일시스템(NDFS: nutch distributed file system)을 개발하였는데 이것은 훗날 하둡 분산파일시스템(HDFS)의 전신이 된다. 그 다음 해 구글은 자사의 분산파일시스템인 GFS 상에서 대용량 데이터의 수월한 처리가 가능한 맵리듀스(MapReduce) 프레임워크(framework)를 발표한다(Dean et al., 2004). 맵리듀스 프레임워크는 곧 너치 프로젝트에서도 도입하게 되었다. 그 결과 너치는 분산파일시스템(NDFS)과 맵리듀스를 활용하여 수tering)하여 제공하는 시스템을 말한다. 여기서 ‘필터링(filtering)’이란 여러 가지 항목 중 적합한 항목을 선택하는 기술이다. 최근 급변하는 기술발전에 따라 여러 가지 신(新)기법이 사용되기는 하지만, 일반적으로 추천시스템은 협업필터링(Collaborative filtering)과 콘텐츠 기반 필터링(Content-based filtering)을 기초로 한다. 여기서는 문제에서 요구하는 협업필터링에 대해서만 다루고자 한다.협업필터링이란 기존의 사용자 행동정보를 대규모로 분석하고, 해당 사용자와 비슷한 성향의 사용자들이 기존에 좋아했던 아이템을 추천하는 기술을 말한다. 즉, 여러 사람의 콘텐츠를 평가한 데이터, 즉 기호정보(taste information)를 바탕으로 수많은 콘텐츠를 걸러내서 사용자의 성향과 가장 비슷한 아이템을 추천하는 시스템이다. 협업필터링은 크게 2가지 접근방법을 활용한다. ? 사용자 기반 필터링은 유사한 사용자들을 찾은 후, 해당 사용자가 아직 구입하지 않은 아이템을 추천하는 방식이다. ? 아이템 기반 필터링은 아이템들 사이의 유사성을 계산하고, 유사한 아이템들 중에서 구입하지 않은 아이템을 추천한다. 다만, 위의 두 가지 접근방법은 사용자들의 선호도만을 고려하는 것이다. 즉, 사용자의 다른 행동정보([예] online 상에서 페이지 돌아다닌 행동이나 특정 페이지에서 있었던 시간, 실구매 내역, SNS 상의 추천 등)들을 모두 활용한다면 보다 더 정교한 추천시스템을 구축할 수 있을 것이다. 이와 같이 사용자 혹은 아이템의 유사성만 기억하는 방법이 아닌, 축적된 사용자 행동정보로 진보된 소위 모형기반 협업필터링(model-based collaborative filtering)이 연구되어 왔다.[그림 3-01] (협업필터링) 사용자A와 B가 사과와 오렌지를 구매했으므로, 사과를 산 사용자C에게 오렌지를 추천흔한 예를 들면, 온라인 쇼핑 웹페이지에서 자주 보이는 ‘이 상품을 구매한 사용자가 함께 구매한 상품들’ 서비스이다. 또한, DC는 다음과 같이 정의를 내렸다. “빅데이터(big data)란 비디오, 오디오, 텍스트 등 다양한 형태의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처이다.” 빅데이터란 단지 대규모 자료만을 의미하는 게 아니라 이를 수집하고 분석하는 기술까지를 의미하는 용어라 이해하면 되겠다.빅데이터를 경영자원으로서 혁신과 경쟁력 강화, 생산성 향상에 가장 중요한 요소라고 평가하고 있는데, 구체적으로 빅데이터를 활용하여 긍정적인 결과를 얻는 경우는 어떤 경우인가? ? (혁신) 소비자의 행종과 시장변동을 예측할 수 있어 비즈니스 모델을 혁신하고 신사업을 발굴할 수 있다. ? (경쟁력) 원가절감과 제품차별화, 그리고 투명성 증가로 기업 경쟁력을 강화할 수 있다. ? (생산성) 산업부문 전반의 생산성을 향상하여 GDP 증가를 가져온다.도대체 빅데이터가 무엇이기에 이처럼 획기적인 결과를 가져온단 말일까? 지금도 우리 주위에는 수많은 데이터들이 흘러다니고 있다. 그리고 이러한 데이터를 들여다 보면 의미있는 정보를 얻을 수 있다. 여기에서 빅데이터가 새로운 기회를 제공하는 것이다. 기존에는 불가능했던 일들이 다양한 형태의 대용량 데이터를 신속하게 활용(수집, 발굴, 분석)하게 되면서 가능해진 것이다. 정답은 다양한 대용량 데이터를 신속히 분석하여 새로운 통찰력을 얻을 수 있다는 점이다. ? 다중 채널의 고객에 대한 감성 및 경험을 분석하여 마케팅에 활용하며, ? 신생아실에서 예측분석을 통해 생명을 위협하는 상황을 최대한 빨리 감지하며, ? 기후와 지리데이터를 분석하여 풍력발전기 및 풍력발전소 부지계획과 날씨 패턴을 분석하며, ? 실시간 트랜젝션 데이터를 기반으로 리스크 측정 및 이에 대한 의사결정을 신속히 하며, ? 산재되어 있는 비디오, 오디오와 테이터 피드를 통해 범인과 위협을 감지할 수 있다. 이제까지 제시한 예들은 빅데이터를 활용한 극히 일부라 할 수 있다.현재 모든 기업이 보유한 빅데이터는 여러 제도적 장치 마련도 중요하지만 정보사용자의 윤리의식이 먼저 전제되어야 한다.(2) 정보요용 및 분석결과의 맹신빅데이터를 기반으로 하는 분석과 예측기법이 나날이 발전하면서 예측정확도가 높아지는 한편, 분석의 대상이 되는 사람들은 예측모델의 희생양이 될 개연성도 함께 높아지고 있다. 미국의 경찰관들이 컴퓨터 알고리즘을 통한 범죄예측 분석에 따라 특정 지역을 순찰한 결과 강력범죄 발생률이 눈에 띄게 감소하는 효과를 본 것으로 확인되었다. 하지만 이러한 예측 알고리즘을 미래로 과도하게 확대해석할 경우, 범죄를 저지를 개연성이 높다는 예측만으로 의심을 사고 처벌을 받는 것은 명백한 행위결과에 대해서만 책임을 물어야 하는 법적 정의를 훼손하게 된다.어떤 한 사람이 특정한 사회·경제적 특성을 지닌 집단에 속하고 있다는 이유만으로 자신의 개인신용과 관계없이 부당하게 대출을 거절당할 수 있다. 행동프로파일 분석 기반 예측결과가 오용되어, 어떤 고등학생이 특정한 대학 또는 특정한 학과로 진학할 기회 자체를 잃을 수도 있다. 인과성이 과학적으로 완전히 입증되지 않았음에도 불구하고 유전자 분석을 통해 특정한 질병과의 관련성이 높다는 이유로 의사가 해당 환자에 대한 수술을 진료 또는 치료를 거부하거나, 보험회사에서 특정한 사람들에 대해 보험가입을 거부할 수도 있다. 이는 기회의 균등이라는 사회의 기본적 정의와 가치를 훼손하는 결과를 낳을 것이다.이런 책임원칙 훼손 위기요인을 적절히 통제하려면 기존의 책임원칙을 더욱 보강하고 강화해야 한다. 특정한 기업들이 담합할 가능성이 높다고 본 예측 알고리즘의 판단을 근거로 해당 기업에 법적 또는 경제적 처벌이나 제재를 가해서는 안 된다. 어떤 사람이 채용이나 담보대출, 신용카드 발급 여부에 대한 결정 등에서 예측자료에 의해 불이익을 당할 가능성을 최소화하는 장치를 마련하는 것이 빅데이터 시대에서는 매우 중요한 과정이 될 것이다.빅데이터 활용자가 데이터를 지나치게 과신할 때도 커다란 문제가 생길 수 있다. 특히 미래를 예측해야 하는 경우 닌다.