본문내용
1. 데이터의 종류와 특징
1.1. 범주형 데이터
1.1.1. 명목형 데이터
명목형 데이터는 고유한 순위(순서)가 없는 데이터로, 어떤 속성을 분류하기 위해서만 수치를 부여한 데이터이다. 성별(남, 여), 혈액형(A, B, AB, O형), 학과(경영학과, 전자공학과, 경제학과 등), 제품 모델명(아이폰12, 갤럭시S21 등)이 대표적인 명목형 데이터의 사례이다. 이러한 명목형 데이터는 각 범주에 속한 데이터의 빈도수를 분석 대상으로 한다는 특징이 있다. 예를 들어, 성별 데이터에서는 남성과 여성의 수를 파악하는 것이 분석의 주된 목적이 된다. 또한 명목형 데이터는 범주 간 순서 관계가 없기 때문에 사칙연산의 의미가 없다. 다만 범주를 구분하기 위해 임의로 부여된 숫자일 뿐이다.
1.1.2. 순서형 데이터
순서형 데이터는 계량화는 어려우나 상대적 크기나 순서를 비교할 수 있는 데이터이다. 명목형 데이터와 달리 순서형 데이터는 순위나 등급 등의 특성을 반영할 수 있다. 예를 들어 학점(A, B, C, D, F), 자격증 등급(1급, 2급, 3급), 육류 등급(프라임, 초이스, 셀렉트) 등이 순서형 데이터에 해당한다. 비록 정량적으로 측정하기는 어렵지만 순서의 크고 작음을 비교할 수 있다는 점에서 순서형 데이터는 유용하게 활용될 수 있다. 이처럼 순서형 데이터는 명목형 데이터보다 높은 수준의 정보를 제공하며, 다양한 분석 기법을 적용할 수 있다는 장점이 있다.
1.2. 수치형 데이터
1.2.1. 이산형 데이터
이산형 데이터는 수직선 상에서 자연수로 셀 수 있는 불연속적인 데이터이다. 즉, 가산할 수 있는 데이터로, 숫자로 표현되더라도 연속적이지 않고 떨어져 있는 특징을 가지고 있다. 재고 수량, 인구 수, 책 권수 등과 같은 데이터가 이산형 데이터에 해당된다.
이산형 데이터는 계수에 의해 측정되는 데이터로, 정수 값만을 가진다. 예를 들어, 주어진 기간 동안 생산된 제품의 개수, 어떤 지역의 인구 수, 특정 기사의 조회 수 등이 이산형 데이터에 해당된다. 이러한 데이터는 분할이 가능하지만 나눌 수 없는 특성을 가지고 있다.
이산형 데이터는 실제 세계에서 매우 다양한 분야에서 관찰되며, 통계 분석과 의사결정 과정에서 중요한 역할을 한다. 예를 들어, 기업에서는 제품 판매 수량, 고객 수, 불량품 수 등을 이산형 데이터로 관리하고, 이를 바탕으로 생산 계획, 마케팅 전략 수립, 품질 관리 등의 의사결정을 내린다. 또한 사회과학 연구에서도 설문조사 결과, 범죄 발생 건수, 인구 통계 등의 이산형 데이터가 활용된다.
이산형 데이터는 일반적으로 비율 척도나 간격 척도로 측정되며, 이를 활용하여 평균, 분산, 상관관계 등의 통계적 분석을 수행할 수 있다. 또한 이산형 데이터는 범주형 데이터와 더불어 데이터 마이닝, 기계 학습 등 다양한 데이터 분석 기법의 적용 대상이 된다.
요약하면, 이산형 데이터는 실세계의 다양한 현상을 표현하는 데 중요한 역할을 하며, 정량적 분석과 의사결정 과정에서 필수적인 데이터 유형이라고 할 수 있다.
1.2.2. 연속형 데이터
연속형 데이터는 일정한 범위 내에서 끊임없이 변화할 수 있는 데이터이다. 즉, 수직선상에서 그 값이 연속적으로 나타나며, 셀 수 없이 많은 값을 가질 수 있다. 이러한 데이터는 수치상의 의미가 크...