Probability and Statistics for Environmental Engineers

(1)

Probability and Statistics for Environmental Engineers

부산가톨릭대학교 환경공학과 2학년

(2)

환경통계학

9. 분산분석

(3)

Introduction to ANOVA

 앞서, 우리는 모수적 검증(parametric test)방법을 통해 두 집단간의 평균 비교 방법을 살펴보았음.

 만일 비교대상 집단이 3개라면?? 혹은 그 이상이라면?

 Pairwise 비교??

 이러한 경우 쓸 수 있는 방법  Analysis of Variance (ANOVA)

구분 단변량 분산분석

One-way ANOVA Two-way ANOVA Multi-way ANOVA MANOVA

독립변수 1개 2개 3개 이상 1개 이상

종속변수 1개 2개 이상

(4)

One way ANOVA

 귀무가설

 pulping 공정(나무의 섬유질을 느슨하게 하여 종이를 만들게끔하는 공정)의 a,b,c,d 네 가지 표본, 물을 얼마만큼 쓰는가.

 Table 10.1 (page 85)

 분석의 목적 : a,b,c,d 네 군데의 공장에서 물을 쓰는 양이 유의한 차이 가 있는가

(5)



Figure 10.1 and BOX 10.1(page 86-88)

 A, C, D 공정은 1톤 펄프에 비슷한 양의 물을 쓰는 것으로 보인다.

 B는 좀 덜 쓰는것으로 보인다

 모든 모든 공정에서의 분산은 비슷한 것으로 보인다.

 Total variation = variation between samples + variation within samples

 If the samples are drawn from the same normal population the two sources of variation(within and between) will be the same.

  This is tested as the ration of the two variances, which follows the ‘F distribution’.

F= , by Table VIII (page 198-201) Variance between samples Variance within samples

(6)

 분산의 구성

 1) 집단내 분산(within group variation)은 각 집단의 평균치를 중심으로 집단요소 들의 측정치가 얼마나 퍼져 있는가

 2) 집단간 분산(among group variation)은 각 집단의 평균들이 전체 평균에서 얼 마나 떨어져 있는가

 3) 전체분산(total variation)은 각 표본의 측정치들이 전체 평균으로부터 얼마나 떨어져 있는가

 그룹내 분산(WSS) + 그룹간 분산(BSS) = 총분산(TSS)

(7)

Introduction to ANOVA

 앞서, 우리는 모수적 검증(parametric test)방법을 통해 두 집단간의 평균 비교 방법을 살펴보았음.

 만일 비교대상 집단이 3개라면?? 혹은 그 이상이라면?

 Pairwise 비교?? 타당하지 않다

 이유는?

 만약 5 set의 표본 평균들을 대상으로 유의수준 5%인 검정을 10 times 실시

 실제 이들 평균들 간 차이가 없을 경우 옳은 결론을 내릴 확률은 한 쌍에서 0.95

 10 times 모두의 t-검정에서 올바른 결론을 내릴 확률은 (0.95)^10

 이는 적어도 djsm 하나의 검정이 잘못된 결론을 내리게 될 확률이 1- (0.95)^2=0.401이라는 말

 이러한 경우 쓸 수 있는 방법  Analysis of Variance (ANOVA)

구분 단변량 분산분석

One-way ANOVA Two-way ANOVA Multi-way ANOVA MANOVA

독립변수 1개 2개 3개 이상 1개 이상

종속변수 1개 2개 이상

(8)

분산분석의 개념적 정의

“반응값들이 서로 다른 정도”를 나타내는 “분산”을, 그 원인에 따라 “나누는”, 즉 “분석하는” 통계적 방법

실제로는 “분산”이 아닌 “제곱합”을 분할 제곱합 ⇒ 분산공식의 분자에 있는 값

(9)

분산의 분리

 모든 실험은 여러가지 요인에 의해 영향을 받으며

 이러한 요인은 의도한 것일 수도 있으며 의도하지 않은 것일 수도 있음

 의도한 것의 요인일 경우  설명할 수 있는 요인에 기인하는 variation

 의도하지 않은 요인(통제할 수 없는 요인)  우연히 발생하였다고 볼 수 있는 variation (또는 설명이 안되는 variation, 혹은 error)

 이와 같이 구분하여 비교함으로써, 각 요인의 effects 유무에 관한 판정을 시도 함

 그룹간의 평균의 차이가 우연한 오차현상에 기인하는것인가?

 그룹간의 진정한 차이에 의한 것인가?

(10)

 분산의 구성

 1) 집단내 분산(within group variation)은 각 집단의 평균치를 중심으로 집단요소 들의 측정치가 얼마나 퍼져 있는가

 2) 집단간 분산(between group variation)은 각 집단의 평균들이 전체 평균에서 얼 마나 떨어져 있는가

 3) 전체분산(total variation)은 각 표본의 측정치들이 전체 평균으로부터 얼마나 떨어져 있는가

(11)

그룹간 , 그룹 내 분산의 개념

 총 분산 = 그룹 간 분산(Between)+ 그룹 내 분산(Within)

 총 분산 = 어떤 요인에 의해 생긴 분산 + 오차에 의해 생긴 분산

 개개의 관측치는 평균에 에러를 더한 것이라는 개념에 기초함

 분산, Variation  제곱합(Sum of squares, SS)으로 표현

 제곱합(SS)  평균과의 차이를 제곱한 값들의 합

총 분산 그룹 간 분산(k groups) 그룹 내 분산(nⁱ) 수집된 데이터 전체가 가

지는 변동, 전체분산 어떤 요인에 의해 생긴 변

동, 처리(“treatments”)된 분 산

표본 내 변동에 대한 척도, 오차에 의한 그룹 내 변동

SStotal,

SST(Total Sum of Squares, 총 제곱합)

SS^between, SSTr,(Treatment Sum of Squares) 처리제곱 합

SSwithin, SSE(Error Sum of Squares), 오차제곱합 SS^total – SS^between

2 2

( ) /

x − x n

∑ ∑ ∑

^Tⁱ² ^/ⁿⁱ ⁻⁽

∑

^x^{) /}² ⁿ

2 2

. ..

1 k

i k T

i

n x n x

=

∑

− ² ²^.

1 1 1

ni

k k

ij i i

i j i

x n x

= = =

∑∑

−

∑

(12)

ANOVA Table(분산분석표)

Source of Variation 변동 자유도 SS

(Sum of Squares)

MS (Mean of Squares )

검정

Between samples 요인 k-1

(df1) SSTr MSTr

=SSTr/df1 F=MSTr/MSE

~ F(k-1, n-k) (one-tailed,

요인에 의한 변동 이 에러에 의한 변 동보다 커야 귀무 가설 기각하므로) Within samples 오차 n-k

(df2) SSE MSE

=SSE/df2

Total 총합 n-1 SST

 F 분포의 의미

 그룹 간 변동이 그룹 내 변동에 비하여 크다고 할 수 없을 경우,

 그룹 내부 변동이 우연히 발생한 것 (통제할 수 없는 변인에 의한 것)이라고 간주하므로…

 그룹 간의 변동도 유의하게 다르다고 말할 수 없다!

 F 값이 크면 클수록 높은 유의수준을 하에서 귀무가설을 기각하게 됨

 (Box 10.1)5%의 유의수준에서의 경우 F는 3.10보다 커야 귀무가설을 기각

 (Box 10.1)1%의 유의수준에서 F는 8.10보다 커야 귀무가설을 기각 (F 분포 표 참조 )

(13)

One way ANOVA

 귀무가설

 pulping 공정(나무의 섬유질을 느슨하게 하여 종이를 만들게끔하는 공정)의 a,b,c,d 네 가지 표본, 물을 얼마만큼 쓰는가.

 Table 10.1 (page 85)

 분석의 목적 : a,b,c,d 네 군데의 공장에서 물을 쓰는 양이 유의한 차이 가 있는가

(14)



Figure 10.1 and BOX 10.1(page 86-88)

 A, C, D 공정은 1톤 펄프에 비슷한 양의 물을 쓰는 것으로 보인다.

 B는 좀 덜 쓰는것으로 보인다

 모든 모든 공정에서의 분산은 비슷한 것으로 보인다.

 Total variation = variation between samples + variation within samples

 If the samples are drawn from the same normal population the two sources of variation(within and between) will be the same.

  This is tested as the ration of the two variances, which follows the ‘F distribution’.

F= , by Table VIII (page 198-201) Variance between samples Variance within samples

(15)

10.1 Assumptions for ANOVA

 각 모집단의 분산은 등분산이어야 한다는 가정이 필요

 분산(변동)의 비(ratio)가 F-검정을 따른다는 것을 이용하여 분석하므 로 가정을 하게 되는데 이것이 정규성 가정 (normality assumption)

 등분산 가정이나 정규성 가정이 만족하지 않는 경우 사용되는 비모수 검정 방법으로 Median 검정 일반, Kruskal-Wallis 분석(10.2) 방법이 있음

(16)

10.3 Two way ANOVA

 Total variation = SS^within + SS^betweenA+SS^betweenB+SSinteraction

 A, B  two variables

 Interaction sum of squares is a measure of the dependence of on set of factors on another.

 Is there a significant difference between the means of variable A, and is there a significant difference between the means of

variable B?