먼저, 상용로그를 취한 값에 100 을 곱한 값을 반응변수 (Lpress)로 설정하였다.그리고 온도(temp)를 독립변수로 설정하여 산점도를 그려보았다.위 결과값으로 얻은 아래의 산점도를 통해 온도와 대기 압력이라는 두 변수 간에는 온도가 증가하면 대기 압력도 직선적으로 증가함을 확인할 수 있다.따라서 단순회귀직선이 타당함을 알 수 있다.[회귀모형 적합 결과]회귀적합 결과는 다음과 같다. 회귀 계수의 추정값은 절편은 -42.2 이고, 기울기는 0.9 로 단순회귀방정식은 Y(Lpress)=0.9*X(temp)-42.2 가 된다. 결정계수는 0.995 로, 총변동 중에 99.5%가 회귀 방정식으로 설명되는 회귀변동이 차지하고 있음을 알 수 있다. F-값은 2962 이고, p-값은 2.2e16 보다 작기 때문에 적합된 회귀직선이 유의하다는 것을 의미한다.[분산분석 결과]아래의 분산분석표의 F 검정으로 회귀방정식이 유의한 가에 대한 검정이 가능하다. 검정통계량은 2961.5 이고, 이에 대한 유의 확률은 2.2e-16 보다 작기에 적합된 회귀선이 유의하다는 것을 알 수 있다.[잔차 및 추정값 결과]Names 함수를 통해 회귀적합 변수를 확인할 수 있고, cbind 로 변수를 결합할 수 있다.
1. 다음을 설명하시오.(6 점)(1) 빅데이터의 출현배경빅데이터는 거대한 크기를 가진 다양한 데이터들을 의미한다. 이러한 빅데이터의 출현배경은 방대한 데이터의 축적, 관련 기술 발전, 데이터 과학자 출현, 사회 및 문화적 변화 등 다양하게 존재한다하나의 사례를 통해 살펴보자. 불과 몇 년 전만해도 배달 음식을 주문하기 위해 집에 있는 전단지나 배달광고책차를 보고 매장에 전화를 해야했다. 그러나 이제는 스마트폰에 설치된 배달 어플리케이션을 통해 쉽고 빠르게 주문이 가능해졌다. 위 사례를 통해 다음의 두가지 사실을 확인할 수 있다. 먼저, 기술의 발전으로 한 손만 사용해도 단시간에 방대한 양의 데이터정보를 쉽게 확인할 수 있다는 점이다. 그리고 소비활동이 상품 중심에서 고객 중심으로 변화함에 따라 평범한 일상조차 고도로 개인맞춤 서비스화 되었다는 점이다.
(1)R 을 이용하여 주성분분석을 실행하고 해석하라.변수 별 기술 통계량과 Cor=T 상관계수 행렬을 이용하여 주성분분석을 실행한 결과이다. 이를 바탕으로 막대 그래프를 그려보았다. 누적 기여율이 85%가 넘으면 주성분의 수로 결정하기 때문에 2 개의 주성분이 있다고 결정할 수 있다. 또한 스크리 그림은 아래와 같이 나타난다. 스크리 그림을 통해 고유값이 수평을 유지하기 전 단계로 주성분의 수를 선택하기에 유효한 주성분을 2 개로 판단한다. 이에 따라 주성분의 계수도 다음과 같이 2 개로 나타낼 수 있다. 주성분 1=0.536(Murder)+0.583(Assault)+0.278(Urban Pop)+0.543(Rape)주성분 2=0.418(Murder)+0.188(Assault)-0.873(Urban Pop)-0.167(Rape)아래 그림은 4 개 변수들 간의 산점도를 확인한 것이다. Murder 과 urbanPOP 비율 간의 관련성이 적은 것으로 확인된다. Murder/Assault 의 비율이 상대적으로 높은 지역은 조지아, 메릴랜드이고 Repe 의 비율이 높은 지역은 미시간, 텍사스인 것을 확인할 수 있다.(2)파이썬을 이용하여 주성분 분석을 실행하고 설명하라.describe 로 기술 통계량을 구한 값은 위와 같다.
1. (5 점) 제 1 장 연습문제(p. 17) 2 번(1) 개체(entity)와 개체타입(entity type)개체: 실세계의 구별 가능한 유형 또는 무형적인 사물을 의미한다.개체타입: 개체가 가진 하나 이상의 속성을 애트리뷰트라고 하는데, 각 각의 애트리뷰트는 해당 개체의 타입을 나타낸다.(2) 개체 무결성(entity integrity): 기본키를 구성하는 에트리뷰트들은 어떤 것도 null값을 가질 수 없다는 제약을 명시한다. 일부가 null로 채워진 기본 키는 해당 튜플을 식별하지 못하기 때문에 기본 키 역할이 불가능하다.(3) 데이터 베이스 질의어(query): 데이터 베이스에서 원하는 데이터를 얻기 위해 관계형 DBMS 에 질의하는 언어로 사용되는 것이 SQL이다.(4) 스키마(schema): 개체 타입을 표현하는 애트리뷰트 정보를 스키마(R)라고 한다.(5) 도메인(domain): 각 애트리뷰트가 취할 수 있는 갑의 집합을 도메인이라고 한다.(6) 튜플(tuple): 모든 데이터를 2차원 관계 테이블 형태로 나타낸 관계형 데이터베이스의 행을 의미한다.(7) 슈퍼 키(super key): 튜플을 유일하게 식별하기 위해 구성된 에트리뷰트들의 집합을 슈퍼키라고 한다.(8) 후보 키(candidate key): 키 식별에 필요한 최소한의 애트리뷰트로만 구성된 슈퍼키를 후보키라고 한다.(9) 기본 키(primary key): 후보 키가 둘 이상 있는 경우에는 그중 하나를 선택하는 게 이를 기본 키라고 한다.(10) 외래 키(foreign key): 하나의 테이블의 기본 키를 다른 테이블에서 이용하고자 할 때 설정하여 사용하는 키를 외래 키라고 한다.2. (5 점) 제 2 장 연습문제(p. 41) 1 번다음 E-ER다이어그램에 대응되는 관계 스키마를 작성하시오.(1) 각 개체가 가지는 어트리뷰트를 나열하고, 대출과 지급 간의 관계성을 띄는 대출지급은 이들의 기본키인 대출번호와 지급번호를 어트리뷰트로 가진다.