본문내용
1. 경영통계 Chapter 2
1.1. 다양한 표본추출 방법
1.1.1. 단순임의추출
단순임의추출은 모집단에서 랜덤하게 표본을 선택하는 방법이다. 이 방법은 각 항목이 선택될 확률이 동일하다는 장점이 있다. 난수표나 엑셀의 RANDBETWEEN 함수를 이용하여 간단히 구현할 수 있다.
구체적으로 살펴보면 다음과 같다. 먼저 모집단 내 각 항목에 일련번호를 부여한다. 그 후 난수표나 RANDBETWEEN 함수를 이용하여 원하는 개수의 번호를 무작위로 추출한다. 그리고 추출된 번호에 해당하는 데이터 값을 선별하여 표본으로 사용한다. 이 방법은 단순하지만 각 항목이 선택될 확률이 동일하므로 대표성 있는 표본을 얻을 수 있다는 장점이 있다.
다만 모집단의 크기가 크거나 데이터가 산재되어 있는 경우 이 방법을 적용하기 어려울 수 있다. 또한 추출된 표본이 특정 패턴을 가질 수 있다는 단점도 있다. 그러므로 단순임의추출은 표본의 대표성을 높이기 위한 기본적인 방법이지만, 상황에 따라 계통추출, 군집추출 등의 다른 표본추출 방법을 함께 고려해볼 필요가 있다.
1.1.2. 계통추출
계통추출은 전체 모집단을 등간격으로 나누어 매 k번째 단위를 추출하는 방법이다. 이 방법을 사용하면 특정 특성을 가진 개체들이 고루 분포될 수 있어 모집단을 잘 대표할 수 있다.
계통추출을 하는 과정은 다음과 같다. 먼저 전체 모집단의 크기 N과 추출할 표본의 크기 n을 정한다. 그리고 구간간격 k를 N/n으로 계산한다. 그 다음 첫 번째 추출 대상을 1부터 k 사이의 난수로 선정하고, 이후 매 k번째 단위를 추출한다.
계통추출의 장점은 추출이 간편하고 무작위성을 어느 정도 보장할 수 있다는 것이다. 또한 모집단의 특성을 잘 반영할 수 있다는 특징이 있다. 단점으로는 첫 번째 추출 대상이 중요한데, 이 첫 번째 항목이 특정 특성을 가지고 있다면 전체적으로 편향될 수 있다는 점이 있다.
따라서 계통추출은 모집단의 특성을 잘 반영할 수 있는 효과적인 표본추출 방법이라고 볼 수 있다."
1.1.3. 군집추출
군집추출(Cluster Sampling)은 모집단을 몇 개의 하위집단으로 나누고, 그 중 일부 하위집단을 선택하여 표본을 추출하는 방법이다. 이는 모집단 내에 자연적으로 존재하는 하위집단 또는 군집을 활용하여 효율적인 표본 추출이 가능하다는 장점이 있다.
문서에서는 Two-stage 군집추출의 사례를 제시하고 있다. 먼저 k개의 하위 군집을 임의로 정하고, 이때 각 부서를 군집이라고 보았다. k=1일 경우 데이터의 신뢰성이 하락하고, k=3일 경우 비용 절감 효과가 하락하므로 k=2로 설정하였다. 그리고 분홍색 군집, 노란색 군집, 초록색 군집, 파란색 군집에 1부터 4까지의 일련번호를 부여한 후, 엑셀 함수 =RANDBETWEEN(1,4)을 통해 두 군집을 단순임의추출하였다. 마지막으로 선택된 노란색 군집과 파란색 군집에서 각각 4개씩의 데이터 값을 단순임의추출하였다.
이러한 군집추출 방식은 모집단이 넓게 분포되어 있는 경우에 효과적이며, 개별 표본 추출의 어려움을 해결할 수 있다. 또한 표본 추출 과정에서 발생하는 비용을 절감할 수 있다는 장점이 있다. 다만 군집 내부의 동질성이 높고 군집 간의 이질성이 크지 않다면 표본의 대표성이 낮아질 수 있는 단점이 있다.
1.2. 데이터 유형 분류
1.2.1. 연속형 데이터
연속형 데이터는 물리적 측정치 혹은 연속적인 숫자로 표현되는 데이터를 의미한다. 이러한 데이터는 소수점 이하의 값을 갖고 있어 무한히 세분화될 수 있는 특성이 있다. 대표적인 예로 길이, 무게, 시간, 속도 등을 들 수 있다.
연속형 데이터는 비율형 데이터로 분류된다. 이는 데이터에 의미 있는 0이 존재하고, 사칙연산이 가능하기 때문이다. 즉, 연속형 데이터는 연산이 가능한 데이터 유형으로, 가중치나 계수를 계산하는데 활용될 수 있다.
예를 들어 어떤 제품의 무게를 측정한 데이터의 경우, 0g은 의미 있는 값이며 무게의 크기를 비교하거나 계산할 수 있다. 따라서 이는 연속형 비율 데이터에 해당한다.
연속형 데이터는 통계 분석에 있어 중요한 역할을 한다. 회귀분석, 상관분석 등의 다양한 통계 기법에 활용되며, 이를 통해 변수 간의 관계를 파악할 수 있다. 또한 연속형 데이터는 평균, 표준편차와 같은 대표값 산출이 가능하여 데이터의 특성을 요약하는데 유용하다.
이처럼 연속형 데이터는...