본문내용
1. 데이터의 대표값과 산포도
1.1. 모수와 통계량
모수와 통계량은 통계학의 기본적인 개념이다. 모집단의 수적 특성을 나타내는 통계적 수치를 모수라 하며, 표본의 통계적 수치를 통계량이라 한다. 모수는 그리스 문자로 표기되고, 통계량은 영문자로 표기된다. 예를 들어 모평균은 μ로, 표본평균은 로 표기한다. 연구자는 모집단의 모수를 알지 못하기 때문에 표본의 통계량을 이용하여 모수를 추정한다. 따라서 표본의 통계량은 모집단의 모수를 대표하는 역할을 한다. 이처럼 모수와 통계량은 서로 다른 개념이지만 밀접한 관계를 갖고 있다고 할 수 있다."
1.2. 산술평균
산술평균은 가장 신뢰할 수 있는 대표값이고 양적변수에 대해서만 사용하며, 그냥 평균이라고 부른다. 산술평균은 자료 값들의 합을 자료 수로 나눈 값으로, 다음과 같은 계산식으로 구할 수 있다.
bar X = SMALLSUM { X_i} over {n}
여기서 bar X는 표본 평균을 나타내며, Σ{X_i}는 자료 값들의 합을 의미한다. n은 자료의 총 개수이다. 산술평균은 자료들의 중심경향을 나타내는 대표값으로, 자료들의 위치를 가장 잘 설명하는 값이다. 따라서 산술평균은 자료의 위치를 나타내는 가장 대표적이고 신뢰할 수 있는 통계량이라고 할 수 있다.
1.3. 표본분산의 정의식과 계산식
편차제곱합 (Sum of Squares, SS)은 표본분산을 구할 때 사용되는 개념으로, 각 관찰값과 표본평균의 차이를 제곱한 값들의 합을 의미한다. 이는 SMALLSUM (X_i - bar X )^2로 나타낼 수 있다.
여기서 X_i는 i번째 관찰값, bar X는 표본평균을 나타낸다. 편차제곱합은 표본분산의 정의식에 포함되어 있으며, 표본분산을 계산할 때 사용된다.
표본분산의 정의식은 다음과 같다:
S^2 = { SMALLSUM (X_i - bar X )^2} over {n-1}
이 때 n은 표본의 크기를 나타낸다. 즉, 편차제곱합을 표본의 크기에서 1을 뺀 값으로 나누어 주면 표본분산이 계산된다.
이처럼 표본분산의 정의식은 편차제곱합과 자유도 (n-1)을 이용하여 표현할 수 있다. 이는 모집단의 분산을 추정하기 위한 것으로, n-1로 나누어줌으로써 편의되지 않은 추정량을 얻을 수 있다.
1.4. 표준편차와 표준오차
표준편차는 모집단이나 표본을 구성하는 개별 관찰값들의 산포도를 나타내는 척도이다. 표준편차는 관찰값들의 평균으로부터의 편차를 제곱하여 더한 값의 제곱근으로 계산된다. 즉, 관찰값들이 평균으로부터 얼마나 떨어져 있는지, 즉 퍼져있는 정도를 나타낸다. 표준편차가 크다는 것은 관찰값들이 평균으로부터 크게 떨어져 있다는 것을 의미한다.
한편 표준오차는 표본평균들의 표준편차를 가리킨다. 다시 말해, 표본평균들이 모평균으로부터 떨어져 있는 정도를 나타낸다. 표본이 클수록 표준오차가 작아지므로, 표준오차는 표본크기에 의해 영향을 받는다. 표준오차를 이용하면 모수에 대한 신뢰구간을 구할 수 있다.
따라서 표준편차와 표준오차는 각각 개별 관찰값들의 산포도와 표본평균들의 산포도를 나타내는 척도라고 할 수 있다. 이들은 자료의 특성을 파악하고 모집단에 대한 추정을 하는데 중요한 역할을 한다."
1.5. 유의숫자
평균이 20.05이고 표준편차가 3.685로 계산되었을 때, 유의숫자를 나타내는 식은 "20.05±3.68"로 쓰며, 이는 관찰값이 표준편차 범위 내에 있음을 의미한다. 즉, 이 경우 데이터의 유의성이 높다고 볼 수 있다.
반면에 평균이 18.234이고 표준오차가 1.045로 계산되었을 때, 유의숫자는 "18.2±1.04"로 나타낸다....