엑셀(excel) 2007을 이용한 분산분석(ANOVA) 레포트

소개글

통계학에서 분산분석이란 주로 특정 실험에서 각 요인의 처리별로 생성된 값들이 처리에 따라 차이가 나는지 검증하기 위한 통계적 기법으로 일명 실험계획법이라고도 합니다. 즉 실험결과 데이터를 분산분석하여 각 처리가 실험결과값에 영향을 미치는지를 판단할 수 있습니다.
예를 들어 ㈜KH전자에는 동일제품을 만드는 5가지 종류의 기계가 있다고 가정해 봅니다. ㈜KH전자는 10일간 5가지 종류의 기계를 가동하여 각 기계의 생산성(각 기계당 1일 생산량)을 비교한 후, 이중에서 제일 좋은 기계를 선택하기로 할 경우 분산분석 기법을 이용하면 각 기계들간에 생산성(=평균)에 차이가 있는지의 여부를 판단할 수 있어 의사결정에 도움을 받을 수 있습니다.
즉, 귀무가설 H0 : μ_1=μ_2=μ_3=μ_4=μ_5 (5가지 기계의 평균(생산성)은 동일하다.) 와 대립가설 H1 : (5가지 기계의 평균(생산성)은 같지 않다.)로 설정하고 관찰된 평균값들의 차이가 귀무가설을 기각할 만큼 충분히 큰가를 결정하는 통계적 절차가 분산분석이라고 할 수 있습니다.
분산분석은 1919년 Ronald Fisher에 의해 고안된 방법으로 서로 다른 종류의 비료를 사용하여 작물을 재배하였을 경우 작물수확량에 차이가 나는가에 대해 조사하는 농업분야에 주로 사용되었습니다.
본 자료에서는 통계학에서 다루고 있는 분산분석과 관련한 여러 이론적 배경을 설명하지는 않습니다. 여러분들이 분산분석에 대한 어느 정도의 통계학적 지식을 가지고 있다는 가정하에서 Microsoft Office 엑셀(Excel) 2007을 이용하여 편하고 빠르게 분석분석 하는 방법에 대하여 설명하고자 합니다. 일원분산분석(one-factor ANOVA), 이원분산분석(two-factor ANOVA)-반복이 없는 경우, 이원분산분석(two-factor ANOVA)-반복이 있는 경우에 대하여 실제로 excel로 분산분석하는 절차를 화면으로 제시하였으며 그 결과치에 대한 분석방법을 기술하였습니다.

1. 분산분석이란?
2. 일원분산분석(one-factor ANOVA)
2.1 기초데이터
2.2 엑셀을 이용한 일원분산분석
3.이원분산분석(two-factor ANOVA)-반복이 없는 경우
3.1기초데이터
3.2엑셀을 이용한 이원분산분석(반복이 없는 경우)
4.이원분산분석(two-factor ANOVA)-반복이 있는 경우
4.1기초데이터
4.2엑셀을 이용한 이원분산분석(반복이 있는 경우)

본문내용

통계학에서 분산분석이란 주로 특정 실험에서 각 요인의 처리별로 생성된 값들이 처리에 따라 차이가 나는지 검증하기 위한 통계적 기법으로 일명 실험계획법이라고도 합니다. 즉 실험결과 데이터를 분산분석하여 각 처리가 실험결과값에 영향을 미치는지를 판단할 수 있습니다.
예를 들어 ㈜KH전자에는 동일제품을 만드는 5가지 종류의 기계가 있다고 가정해 봅니다. ㈜KH전자는 10일간 5가지 종류의 기계를 가동하여 각 기계의 생산성(각 기계당 1일 생산량)을 비교한 후, 이중에서 제일 좋은 기계를 선택하기로 할 경우 분산분석 기법을 이용하면 각 기계들간에 생산성(=평균)에 차이가 있는지의 여부를 판단할 수 있어 의사결정에 도움을 받을 수 있습니다.
즉, 귀무가설 H0 : μ_1=μ_2=μ_3=μ_4=μ_5 (5가지 기계의 평균(생산성)은 동일하다.) 와 대립가설 H1 : (5가지 기계의 평균(생산성)은 같지 않다.)로 설정하고 관찰된 평균값들의 차이가 귀무가설을 기각할 만큼 충분히 큰가를 결정하는 통계적 절차가 분산분석이라고 할 수 있습니다. 분산분석은 1919년 Ronald Fisher에 의해 고안된 방법으로 서로 다른 종류의 비료를 사용하여 작물을 재배하였을 경우 작물수확량에 차이가 나는가에 대해 조사하는 농업분야에 주로 사용되었습니다.
본 자료에서는 통계학에서 다루고 있는 분산분석과 관련한 여러 이론적 배경을 설명하지는 않습니다. 여러분들이 분산분석에 대한 어느 정도의 통계학적 지식을 가지고 있다는 가정하에서 Microsoft Office 엑셀(Excel) 2007을 이용하여 편하고 빠르게 분석분석 하는 방법에 대하여 설명하고자 합니다. 본격적으로 분산분석하기 전에 분산분석에 사용되는 몇 가지 용어에 대하여 정의합니다.
- 독립변수(independent variable), 요인(factor), 인자: 앞의 예에서 보면 “기계의 종류”에 해당하며 종속변수 또는 반응변수에 영향을 줄 수 있을 것으로 판단되는 변수
- 종속변수(dependent variable), 반응변수(responsible variable): 앞의 예에서 보면 “1일 생산량”에 해당하며 실제 실험결과치에 해당하는 변수
- 요인수준(factor level), 처리(treatment): 한 요인(factor)내에서 실험치에 영향을 미치는 여러 가지 특별한 형태를 지칭하며 기계1, 기계2 ~ 기계5가 기계종류라는 요인(factor)내에서 요인수준 또는 처리(5 treatment)가 됨
- 일원분산분석(one-factor ANOVA): 기계종류라는 단일 요인(인자)과 반응변수(생산량)와의 관계를 분석
- 이원분산분석(two-factor ANOVA): 기계종류라는 단일 요인(인자) 이외에 다른 요인(예를 들어 근로자의 학력)을 추가하여 두 요인과 반응변수(생산량)와의 관계 분석
. 반복 없는 이원분산분석: 각 처리조합당 한번의 실험만 하는 이원분산분석
. 반복 있는 이원분산분석: 각 처리조합당 2회 이상의 실험을 반복할 경우의 이원분산분석.
이 경우 두요인간의 상호작용(교호작용)을 조사해야 함.
(※ 교호작용: 요인수준의 조합에 의하여 발생하는 효과)
그리고 분산분석은 다음의 가정하에서 실시됩니다.
- 각각의 모집단에 대한 반응변수는 정규분포이다.
- 반응변수의 분산은 모든 모집단에 대하여 동일하다.
- 실험결과값들은 독립이다.
이제 실제로 엑셀에서 실험결과 데이터를 가지고 분산분석을 해보도록 하겠습니다.