분산분석이란?실험계획법에서 사용되는 분석 방법의 하나로 분산분석(Analysis Of Variance)이란실험의 결과 관측된 변동량을 분산개념으로 파악한 다음, 이러한 분산이 각 요인에 기인하는 부분과 우연히 발생되었다고 볼 수 있는 부분으로 구분하여 비교함으로써 각 요인의 영향력 유무에 관한 판정을 시도하는 것이라고 할 수 있다. 즉, 특성값의 변동을 제곱합으로 나타내고, 이 제곱합을 실험에 관련된 요인별로 분해하여, 오차에 비해 큰 영향을 주는 요인이 무엇인가를 찾아내는 분석방법이다.·분산분석의 개념분산분석법(ANOVA, Analysis of Variance)은 세 집단 이상의 집단 평균치의 차이를 검정하고자 하는 경우에 이용하는 분석방법이다.분산분석(analysis of variance)은 연속자료변수인 종속변수가 분류변수라 일컬어지는 독립변수에 의해 만들어진 다양한 실험조건에서 측정이 된 경우이다. 실험디자인의 셀은 각 독립변수 수준의 조합을 나타낸다.실험의 예로서 지역에 따라 세 가지의 서로 다른 외국어향상 프로그램에 참가했을 때 외국어향상의 변화를 보는 경우를 들 수 있다. 여기서는 지역(종로, 동대문)과 프로그램(A,B,C)에 의해서 6개의 셀(cell) 이 형성된다. 이 경우에 종로와 동대문간에 외국어향상 변화의 차이, 프로그램 별로 외국어 향상 변화의 차이, 지역과 프로그램간의 변화에 따른 [지역과 프로그램의 상호작용(interaction)] 외국어향상 변화의집단간 평균차이를 보는 것이 분산분석이다.분산분석은 마케팅전략의 효과난 소비자집단의 반응차이 등과 같이 기업의 의사결정에 도움을 주는 비계량적인 독립변수와 계량적인 종속변수간의 관계를 파악하기 위한 것이다. 일반적으로 통제집단 사후측정설계와 유사한 디자인을 하고 있다. 분산분석은 기본적으로 독립변수에 의하여 구분된 집단들이 동일한 집단인지 아닌지를 분산개념을 이용하여 검증하는 것이다.전체 분산을 집단내분산(무작위오차에 의한 차이)과 집단간분산(실험처리에 의한 차이)으로 나누어 이 분산들을 각각의 자유도로 나눈 평균분산의 비율(집단간 평균분산/집단내 평균분산)의 수치를 이용하여 F검정을 하게 된다.1 분산분석에 있어 자료의 조건분산분석을 하려면 독립변수(인자라고 칭함)등의 척도는 명목 또는 서열척도이어야 하며 종속변수는 등간 또는 비율척도이어야 한다. 공변량(covariate)은 등간 또는 비유럭도의 자료만 사용할 수 있다.종속변수가 등간 또는 비율척도가 아니고 명목이나 서열척도인 경우에는 PROCCATMOD(SAS프로그램 이용)의 명목/서열척도의 분산분석란을 참조하기 바란다. 특히 인자가 가져야 할 조건은1 연구자가 관심있는 인자의 모든 수준(level)을 포함해야 한다.2 각 표본은 한 집단에만 포함되어 있어야 한다.3 인자의 수준은 정성적인 것과 정량적인 것 두 종류가 있다.2 분산분석의 가설분산분석의 기본적인 가설은 두 집단 사이의 평균의 차이를 검증하기 위한 것이다.·분산분석법의 유형분산분석법은 세 집단 이사의 집단의 평균치의 차이를 검정하고자 하는 경우에 사용한다. 여기서 세집단이라 함은 한 개의 독립변수가 3개 이상의 집단을 가지는 경우와 두 개 이상의 독립변수를 결합하였을 때 3개 이상의 집단을 가지는 경우가 있다.독립변수의 개수에 따라 적용되는 분산분석법을 다르게 적용하는데 독립변수가 1개인 경우는 일원분산분석법(One-way ANOVA), 독립변수가 2개인 경우는 이원분산분석법(Two-way ANOVA), 독립변수가 3개 이상인 경우 다원분산분석법(Mulit-way ANOVA)이라고 부른다.일원분산분석법연령별로 임금차이가 있는가? 등을 분석하고자 하는 경우와 같이 분석하고자 하는독립변수(여기서는 연령)가 1개인 경우를 말한다.이원분산분석법남녀별, 할력별 봉급차이가 있는지를 분석하고자 하는 경우처럼 분석하고자 하는 변수 (여기서는성별과 학력)가 2개인 경우를 말한다.다원분산분석법어떤 제품에 대한 광고 효과를 측정할 때 독립변수(남녀별, 연령별, 학력별)가 3개로 측정하였을 때를말한다. 독립변수가 3개 이상인 경우에 이용된다.·자료의 종류1) 수집방법에 따라(1) 조사자료 : 자연상태의 모집단에서 일정 표본을 추출하여 조사한 특성치로 구성예) 서울 소재 대학생의 교육비 추정(2) 실험자료: 계획된 실험에서 관측되는 자료예) 미생물을 배양하는 문제, 쌀의 생산량을 극대화하기 위한 비료실험2) 총변동에 관여하는 인자수에 따라(1) 일원분류자료 : 인자수 1개(2) 이원분류자료 : 인자수 2개(3) 다원분류자료 : 인자수 3개이상·분산분석의 기본가정1 독립성(independence)특정 표본의 측정치가 다른 표본의 측정치와 집단간에 서로 독립적이어야 한다.각 그룹은 상호 독립적이다.2 정규분포(Normally Distributed)정규분포를 따르지 않으면 t-검정과 마찬가지로 F통계량을 구할 수 없어 비모수적 방법을 사용해야 하나 정규분포에서 크게 벗어나지 않으면 분산분석법을 사용해도 상관없다.
12장. 확률표본추출·모든 연구대상이 표본으로 추출될 확률이 알려져 있음·표본구성 요소들을 추출하기 위하여 무작위적인 방법을 적용·객관적·자료의 정확성·표본으로부터 얻어낸 통계량을 통하여 표본오차와 그 정도를 추정 할 수 있음·많은 시간과 비용을 필요로 하고, 수행과정도 더 복잡하고 어려움1절 단순무작위표본추출법·흔히 이용되는 방법으로 크기가 N인 모집단으로부터 모집단의 모든 표본단위가 선택될 확률이 모두 같도록 n개의 표본단위를 선택하는 방법·표본으로 선택될 확률이 알려져 있고 동일[ 모집단 및 모수의 계산 ]● 측정할 모집단을 구한다.● 모집단의 모수와 계산·모집단의 평균값을 μ라 하고, 분산도를 σ²이라 한다. μ는 중앙집중도를 측정 하고, σ²는 분산정도를 측정하려는 모수이다.·평균 : μ = {{ SUM from { { i}=1} to N { X}_{i } } over {N }·분산 : σ² = {{ SUM from { { i}=1} to N ({ X}_{i }- mu )² } over {N}·표준편차 : σ = {SQRT { σ²}[ 표본의 추출 ]·실제의 경우 완전한 모집단의 목록을 입수하는 경우가 극히 드물고, 모집단의 수가 많아지면 입수가 가능하여도 사용하는데 시간과 노력의 낭비인 경우가 많다.·그래서 사회집단에 관한 조사에서는 모집단의 특성인 모수를 모르기 때문에 표본을 추출하여 모수를 추정한다.● 표본의 추출방법·단순무작위표본추출의 특징 - 1 각 요소들은 선택될 확률이 동일2 n개의 일정한 수의 표본을 선정한 다면 어떠한 조합도 선정될 확률은 동일·실제과정1 모집단을 확정하고 표본프레임을 작성한다2 각각의 표본에 고유번호를 부여한다3 표본의 크기를 정하고, 이에 따라 난수표등을 이용하여 추출된 표본의 번호를 확정한다4 위에 번호에 해당되는 표본을 추출한다● 표본통계량의 계산·표본평균 : {X = { SUM from { { i}=1} to N { X}_{i } } over { n}·표본분산 : {S² = { SUM from { { i}=1} to N ({ X}_{i }-X)² } over { n-1}·표본표준편차 : {S = SQRT { S²}[ 표본통계값에 의한 모집단의 모수측정 ]·모집단의 평균μ는 표본평균 X를 이용하여 추정하며, 모집단의 분산σ²은 표본분산 S²을 이용하여 추정된다.·{mu = { SUM from { { i}=1} to N (X) } over { n} , sigma ² = {S² } over {n }가 된다.·추정치와 모집단의 모수와의 일치 여부는 정확도에 따른 신뢰구간의 추정으로 알 수 있다.·신뢰구간 구하는 공식 : {X - Z {S }_{X }