분산분석
제7강 지리통계학
최재헌 교수
분산분석의 기본원리
• 비교집단의 수가 3개 이상인 경우 F분포를 이용 한 분산분석(analysis of variance)의 기법을 사용
• 분산분석은 3개 이상의 모집단 간에 나타나는 평균의 차이에 대한 유의성을 검정
– 귀무가설: K개 표본집단간에 나타나는 평균의 차이는 우연적인 표본오차에 의해 발생하여 동일한 모집단에 서 표본이 추출되었다고 가정
– 연구가설: 적어도 하나 이상의 집단은 평균이 같지 않 으며, 서로 다른 모집단에서 추출되었다는 것을 검정
분산분석의 개념
• 하나 또는 둘 이상의 설명변수(명목척도)와 그에 대응하 는 종속변수(등간, 비율척도)간의 관계를 분석
• 설명변수는 요인(factor)라고 명명하며, 상호 배타적인 특 성을 지닌 범주형 변수
• 각 범주내에서 종속변수의 분산은 설명변수의 변화에 따 른다는 가정에서 종속변수의 분산이 설명변수에 의해 어 느 정도 영향을 받는가를 분석하는 방법
• 표본집단들 간 평균차이를 나타내는 그룹간 분산과 각 표본집단 내에서 표본평균에 대한 모든 변량의 분산, 즉 그룹내 분산을 비교하는 방법
분석자료의 구조
요인수준 A1 A2
L
AcX
11X
21 LX
c1 X12 X22 L Xc21n1
X X2n2
L X
cnc M M O MX1 X2 L Xc X 평균
Xi 요인수준
i
의 평균X
전체평균• 표본집단을 구분하는 독립변수가 1개인
일원분산분석(one-way ANOVA), 독립변수
가 두개인 이원분산분석(two-way ANOVA),
독립변수가 여러 개인 다원분산분석 (ulti-
way ANOVA)로 나누어짐.
일원 분산분석
• 집단을 구분해주는 명목변수(설명변수)가 하나인 경우
• 각 집단에 대한 모평균 μ1, μ2, μ3 는 임의적인 것이 아니 라 고정되어 있으며, 각 그룹내의 오차 eij도 동일한 분산 을 나타내며 정규분포를 이룬다고 가정
• 각 표본집단이 정규분포를 이루지 못하고 정적 왜곡도를 가질 경우에는 측정치를 대수로 변환
• 자료가 등분산성을 충족하는가를 검사하여야 함.
• Levene 검정
이원 분산분석
• 명목척도로 측정된 독립변수가 2개이고, 각 독립변수의 범주 에 대응하는 종속변수간의 평균의 차이를 검정하는 방법
• 자료를 두개의 명복변수에 의해 행과 열로 이원배치하고, 행 의 평균, 열의 평균, 전체의 총평균을 구한다.
• 이원분산의 기본모델은 Y = u+a+b+e로 표시할 수 있음.
– Y는 모평균, a는 총평균에서 떨어진 A요인(행)의 분산의 정도, b 는 총평균에서 떨어진 B요인(열)의 분산의 정도, e는 그룹내에서 표준오차에 기인하는 오차
– TSS=RSS(행) + CSS(열) + WSS
• 명목척도 변수는 서로 독립적이라고 가정할때 종속변수의 분 산이 특정한 명목척도의 요인에 의해 변한다고 볼 수 있음.
이원 분산분석표
예제)
• 귀무가설과 연구가설을 수립
• 유의수준을 고려하여 F임계치를 구함
• F 통계량을 산출
• 일원분산분석을 이용 선형 지구별, 동심원 지대별로 차이가 있는지 검정
• 이원분산분석을 통해 검정하고 해석
상호작용이 있는 경우 이원분산분석 모델
• 상호작용이 두 요인간에 있는 경우에는 A요인에 대한 B 요인의 반응 기대값이 각 수준에서 상당한 차이를 나타 낸다.