인제대학교 데이터사이언스 기말고사 시험 요약본
- 최초 등록일
- 2022.08.10
- 최종 저작일
- 2021.12
- 6페이지/ MS 워드
- 가격 3,900원
소개글
"인제대학교 데이터사이언스 기말고사 시험 요약본"에 대한 내용입니다.
목차
I. [ 2장] 질적변수, 양적변수
II. [ 3장] 결측치, 이상치
III. [ 4장] 도수분포표, 상자그림, 막대그래프, 히스토그램, 원그래프
IV. [ 5장] 도수분포표, 히스토그램, 산점도, 상관분석
V. [ 6장] 선형회귀분석
VI. [ 7장] 의사결정나무
VII. [ 8장] 신경망
VIII. [ 9장? ]
본문내용
[ 2장] 질적변수, 양적변수
자료값 : 변수에 해당되는 측정값(한 아이디에 해당하는 5번 변수의 자료값)
= 사례 Example, Case : 자료값의 모임, 관측값, 행(가로)
ID 변수 : 개체에 대한 식별애 사용 = 번호변수
변수 = 열(세로)
반응변수 label : 영향을 받는 변수, 대상/목적이 되는 변수
설명변수 regular : 영향을 주는 변수, 일반적인 변수
질적변수 : 특성을 분류하는 변수, 숫자 의미 x
- 이항변수 binominal : 두 가지 값만 가진 변수 (성별, 암유무 등)
- 다항변수 polynominal : 3개 이상의 값을 가진 변수 (성별, 혈액형, 국적, 브랜드 등)
양적변수 : 숫자 의미 o
- 연속형변수 Real : 측정단위를 이용해 측정한 변수 (온도, 점수, 키, 몸무게, 수치 등)
- 이산형변수 Integer : 나이, 형제나 자매의 수 등의 형태의 변수
대표값 : 평균과 중앙값(제2사분위수)는 다를 수 있음
최솟값 – 제1사분위수Q1=25% – 중앙값(제2사분위수Q2=50%) – 제3사분위수Q3=75% - 최댓값
중앙값 : 자료를 크기 순으로 놓을 때 중앙에 놓이는 값
산포도 : 흩어짐의 정도, 분산, 표준편차 = 루트(분산), 범위, 사분위수 범위
범위 : 최댓값 – 최솟값
사분위수 범위 : Q3 – Q1
Read Excel : Excel 형태의 데이터를 불러옴
[ 3장] 결측치, 이상치
결측치 : (빈칸), 이상치 : “,” 등
Retrieve : 저장소에 저장된 데이터를 불러옴
Filter Examples : 조건에 맞는 사례를 찾음
Replace : 자료값 변경
Generate ID : ID 변수 생성
Generate Attributes : 새로운 변수 생성
Generate Data : 데이터 생성
[ 4장] 도수분포표, 상자그림, 막대그래프, 히스토그램, 원그래프
1. 도수분포표
도수 Absolute Count : 변수가 갖는 각 자료값이 나타내는 빈도 수
참고 자료
없음