Probability and Statistics for Environmental Engineers
부산가톨릭대학교 환경공학과 2학년
환경통계학
9. 분산분석
Introduction to ANOVA
앞서, 우리는 모수적 검증(parametric test)방법을 통해 두 집단간의 평균 비교 방법을 살펴보았음.
만일 비교대상 집단이 3개라면?? 혹은 그 이상이라면?
Pairwise 비교??
이러한 경우 쓸 수 있는 방법 Analysis of Variance (ANOVA)
구분 단변량 분산분석
One-way ANOVA Two-way ANOVA Multi-way ANOVA MANOVA
독립변수 1개 2개 3개 이상 1개 이상
종속변수 1개 2개 이상
One way ANOVA
귀무가설
pulping 공정(나무의 섬유질을 느슨하게 하여 종이를 만들게끔하는 공정)의 a,b,c,d 네 가지 표본, 물을 얼마만큼 쓰는가.
Table 10.1 (page 85)
분석의 목적 : a,b,c,d 네 군데의 공장에서 물을 쓰는 양이 유의한 차이 가 있는가
Figure 10.1 and BOX 10.1(page 86-88)
A, C, D 공정은 1톤 펄프에 비슷한 양의 물을 쓰는 것으로 보인다.
B는 좀 덜 쓰는것으로 보인다
모든 모든 공정에서의 분산은 비슷한 것으로 보인다.
Total variation = variation between samples + variation within samples
If the samples are drawn from the same normal population the two sources of variation(within and between) will be the same.
This is tested as the ration of the two variances, which follows the ‘F distribution’.
F= , by Table VIII (page 198-201) Variance between samples Variance within samples
분산의 구성
1) 집단내 분산(within group variation)은 각 집단의 평균치를 중심으로 집단요소 들의 측정치가 얼마나 퍼져 있는가
2) 집단간 분산(among group variation)은 각 집단의 평균들이 전체 평균에서 얼 마나 떨어져 있는가
3) 전체분산(total variation)은 각 표본의 측정치들이 전체 평균으로부터 얼마나 떨어져 있는가
그룹내 분산(WSS) + 그룹간 분산(BSS) = 총분산(TSS)
Introduction to ANOVA
앞서, 우리는 모수적 검증(parametric test)방법을 통해 두 집단간의 평균 비교 방법을 살펴보았음.
만일 비교대상 집단이 3개라면?? 혹은 그 이상이라면?
Pairwise 비교?? 타당하지 않다
이유는?
만약 5 set의 표본 평균들을 대상으로 유의수준 5%인 검정을 10 times 실시
실제 이들 평균들 간 차이가 없을 경우 옳은 결론을 내릴 확률은 한 쌍에서 0.95
10 times 모두의 t-검정에서 올바른 결론을 내릴 확률은 (0.95)^10
이는 적어도 djsm 하나의 검정이 잘못된 결론을 내리게 될 확률이 1- (0.95)^2=0.401이라는 말
이러한 경우 쓸 수 있는 방법 Analysis of Variance (ANOVA)
구분 단변량 분산분석
One-way ANOVA Two-way ANOVA Multi-way ANOVA MANOVA
독립변수 1개 2개 3개 이상 1개 이상
종속변수 1개 2개 이상
분산분석의 개념적 정의
“반응값들이 서로 다른 정도”를 나타내는 “분산”을, 그 원인에 따라 “나누는”, 즉 “분석하는” 통계적 방법
실제로는 “분산”이 아닌 “제곱합”을 분할 제곱합 ⇒ 분산공식의 분자에 있는 값
분산의 분리
모든 실험은 여러가지 요인에 의해 영향을 받으며
이러한 요인은 의도한 것일 수도 있으며 의도하지 않은 것일 수도 있음
의도한 것의 요인일 경우 설명할 수 있는 요인에 기인하는 variation
의도하지 않은 요인(통제할 수 없는 요인) 우연히 발생하였다고 볼 수 있는 variation (또는 설명이 안되는 variation, 혹은 error)
이와 같이 구분하여 비교함으로써, 각 요인의 effects 유무에 관한 판정을 시도 함
그룹간의 평균의 차이가 우연한 오차현상에 기인하는것인가?
그룹간의 진정한 차이에 의한 것인가?
분산의 구성
1) 집단내 분산(within group variation)은 각 집단의 평균치를 중심으로 집단요소 들의 측정치가 얼마나 퍼져 있는가
2) 집단간 분산(between group variation)은 각 집단의 평균들이 전체 평균에서 얼 마나 떨어져 있는가
3) 전체분산(total variation)은 각 표본의 측정치들이 전체 평균으로부터 얼마나 떨어져 있는가
그룹간 , 그룹 내 분산의 개념
총 분산 = 그룹 간 분산(Between)+ 그룹 내 분산(Within)
총 분산 = 어떤 요인에 의해 생긴 분산 + 오차에 의해 생긴 분산
개개의 관측치는 평균에 에러를 더한 것이라는 개념에 기초함
분산, Variation 제곱합(Sum of squares, SS)으로 표현
제곱합(SS) 평균과의 차이를 제곱한 값들의 합
총 분산 그룹 간 분산(k groups) 그룹 내 분산(ni) 수집된 데이터 전체가 가
지는 변동, 전체분산 어떤 요인에 의해 생긴 변
동, 처리(“treatments”)된 분 산
표본 내 변동에 대한 척도, 오차에 의한 그룹 내 변동
SStotal,
SST(Total Sum of Squares, 총 제곱합)
SSbetween, SSTr,(Treatment Sum of Squares) 처리제곱 합
SSwithin, SSE(Error Sum of Squares), 오차제곱합 SStotal – SSbetween
2 2
( ) /
x − x n
∑ ∑ ∑
Ti2 /ni −(∑
x) /2 n2 2
. ..
1 k
i k T
i
n x n x
=
∑
− 2 2.1 1 1
ni
k k
ij i i
i j i
x n x
= = =
∑∑
−∑
ANOVA Table(분산분석표)
Source of Variation 변동 자유도 SS
(Sum of Squares)
MS (Mean of Squares )
검정
Between samples 요인 k-1
(df1) SSTr MSTr
=SSTr/df1 F=MSTr/MSE
~ F(k-1, n-k) (one-tailed,
요인에 의한 변동 이 에러에 의한 변 동보다 커야 귀무 가설 기각하므로) Within samples 오차 n-k
(df2) SSE MSE
=SSE/df2
Total 총합 n-1 SST
F 분포의 의미
그룹 간 변동이 그룹 내 변동에 비하여 크다고 할 수 없을 경우,
그룹 내부 변동이 우연히 발생한 것 (통제할 수 없는 변인에 의한 것)이라고 간주하므로…
그룹 간의 변동도 유의하게 다르다고 말할 수 없다!
F 값이 크면 클수록 높은 유의수준을 하에서 귀무가설을 기각하게 됨
(Box 10.1)5%의 유의수준에서의 경우 F는 3.10보다 커야 귀무가설을 기각
(Box 10.1)1%의 유의수준에서 F는 8.10보다 커야 귀무가설을 기각 (F 분포 표 참조 )
One way ANOVA
귀무가설
pulping 공정(나무의 섬유질을 느슨하게 하여 종이를 만들게끔하는 공정)의 a,b,c,d 네 가지 표본, 물을 얼마만큼 쓰는가.
Table 10.1 (page 85)
분석의 목적 : a,b,c,d 네 군데의 공장에서 물을 쓰는 양이 유의한 차이 가 있는가
Figure 10.1 and BOX 10.1(page 86-88)
A, C, D 공정은 1톤 펄프에 비슷한 양의 물을 쓰는 것으로 보인다.
B는 좀 덜 쓰는것으로 보인다
모든 모든 공정에서의 분산은 비슷한 것으로 보인다.
Total variation = variation between samples + variation within samples
If the samples are drawn from the same normal population the two sources of variation(within and between) will be the same.
This is tested as the ration of the two variances, which follows the ‘F distribution’.
F= , by Table VIII (page 198-201) Variance between samples Variance within samples
10.1 Assumptions for ANOVA
각 모집단의 분산은 등분산이어야 한다는 가정이 필요
분산(변동)의 비(ratio)가 F-검정을 따른다는 것을 이용하여 분석하므 로 가정을 하게 되는데 이것이 정규성 가정 (normality assumption)
등분산 가정이나 정규성 가정이 만족하지 않는 경우 사용되는 비모수 검정 방법으로 Median 검정 일반, Kruskal-Wallis 분석(10.2) 방법이 있음
10.3 Two way ANOVA
Total variation = SSwithin + SSbetweenA+SSbetweenB+SSinteraction
A, B two variables
Interaction sum of squares is a measure of the dependence of on set of factors on another.
Is there a significant difference between the means of variable A, and is there a significant difference between the means of
variable B?