Ch4 one-way ANOVA

(1)

Ch4 one-way ANOVA

(2)

ANOVA란?

ANalysis Of VAriance

Ø

3개 이상의 모집단의 평균의 차이를 검정하는 방법

Ø

3개의 모집단일 경우

•

H0 : μ1 = μ2 = μ3

•

H0기각 : μ1 ≠ μ2 = μ3 or μ1 = μ2 ≠ μ3 or μ1 ≠ μ2 ≠ μ3 àPost hoc test 수행

(3)

One-way ANOVA란?

용어 정리

Ø

종속변수

•

독립변수에 의해 변하는 변수(결과)

Ø

Factor(요인)

•

실험에서의 독립변수.

Ø

Level(수준)

•

실험단위에 가해지는 특정 조건

Group Sex pVAS

NSAID 남 7.3

NSAID 남 6.5

NSAID 여 8.4

NSAID 여 7.2

DMARDs 남 3.5

DMARDs 남 4.1

DMARDs 여 3.6

DMARDs 여 2.9

Steroid 남 3.3 Steroid 남 2.8

용어 정리

Ø

종속변수

•

독립변수에 의해 변하는 변수(결과)

Ø

Factor(요인)

•

실험에서의 독립변수.

Ø

Level(수준)

•

실험단위에 가해지는 특정 조건

Steroid 남 2.8 Steroid 여 2.5 Steroid 여 2.9

치료방법

NSAID DMARDs Steroid

pVAS

7.3 3.5 3.3

6.5 4.1 2.8

8.4 3.6 2.5

7.2 2.9 2.9

Factor

Level

One-way ANOVA

Ø

Factor : 치료방법

Ø

Level : 3가지

à다음과 같이 Factor가 1개이고 Level이 여러 개 인 경우를 분석하기 위해 제한된 방법

(4)

종속

1-way ANOVA 절차

K개의 집단이 서로 독립인가, 종속인가 K개의 표본 분산이

등분산 인가?

표본의 크기가 30 이상인가?

공통분산 계산

Start

YES

NO

NO 독립 Repeated

Measured ANOVA

모수적 접근방법 1-way ANOVA

정규성 검정을 만족하는가?

비모수적 접근방법 Kruskal-Wallis test

집단 간에

차이가 나는가? 결론

Post Hoc test

YES

NO

NO YES

(5)

One-way ANOVA 조건

독립성

Ø

집단간 서로 독립

정규성

Ø

각 집단간 정규성을 만족

등분산성

Ø

각 집단의 분산은 등분산

균형자료

Ø

각 그룹마다 sample size가 같으면 Balanced data(균형 자료)

Ø

그렇지 안으면 Unbalanced data(불균형 자료)

독립성

Ø

집단간 서로 독립

정규성

Ø

각 집단간 정규성을 만족

등분산성

Ø

각 집단의 분산은 등분산

균형자료

Ø

각 그룹마다 sample size가 같으면 Balanced data(균형 자료)

Ø

그렇지 안으면 Unbalanced data(불균형 자료)

(6)

ANOVA 의 원리

factor의 Level

sample 1 2 3 ∙∙∙ k

1 y

11

y

21

y

31

y

k1

2 y

12

y

22

y

32

y

k2

3 y

13

y

23

y

33

y

k3

3 y

13

y

23

y

33

y

k3

∙∙∙

n y

1n

y

2n

y

3n

y

kn

mean y

1

y

2

y

3

y

k

y

(7)

전체 분산의 계산

분산

• 제곱합/자유도

전체분산 = 집단 간 분산 + 집단 내 분산 총제곱합

Ø

∑(Y

_ij

-Y)

²

= ∑ (Y

_i

-Y)

²

+∑(Y

_ij

-Y

_i

)

²

à총 제곱합 = 집단 간 제곱합 + 집단 내 제곱합 SST = SSA + SSE

자유도

Ø

전체(N-1) = 집단 간(k-1) + 집단 내(k(n-1)=N-k)

전체분산 = SSA/k-1 + SSE/N-k à MSA + MSE 분산

• 제곱합/자유도

전체분산 = 집단 간 분산 + 집단 내 분산 총제곱합

Ø

∑(Y

_ij

-Y)

²

= ∑ (Y

_i

-Y)

²

+∑(Y

_ij

-Y

_i

)

²

à총 제곱합 = 집단 간 제곱합 + 집단 내 제곱합 SST = SSA + SSE

자유도

Ø

전체(N-1) = 집단 간(k-1) + 집단 내(k(n-1)=N-k)

전체분산 = SSA/k-1 + SSE/N-k à MSA + MSE

(8)

df(degree of freedom)-자유도

통계추론 때 표본자료 중 모집단에 대한 정보를 주는 독립 적인 자료의 수

일반공식

Ø

df = N-k(사례수-통계적 제한 조건의 수)

예)

Ø

표본 분포의 각 통계치의 자유도 n-1

통계추론 때 표본자료 중 모집단에 대한 정보를 주는 독립 적인 자료의 수

일반공식

Ø

df = N-k(사례수-통계적 제한 조건의 수)

예)

Ø

표본 분포의 각 통계치의 자유도 n-1

(9)

f검정

t검정

àdifference mean/estimated SE=표본간 차이/우연에 의한 차이

f검정(분산비)

à

t,f à 우연에 의한 차이에 비해 실제에 대한 차이가 얼마인가.

추정표준오차 표본평균- 모평균

- =

= S x

t X μ

표본크기 표본표준편차

=

n S ^x S

ty variabili group

within

ty variabili group

between

1 분산 의한

우연에

분산

= 표본간 -

= -

k SSE N

SSA k f

t검정

àdifference mean/estimated SE=표본간 차이/우연에 의한 차이

f검정(분산비)

à

t,f à 우연에 의한 차이에 비해 실제에 대한 차이가 얼마인가.

ty variabili group

within

ty variabili group

between

1 분산 의한

우연에

분산

= 표본간 -

= -

k SSE N

SSA k

f

(10)

F비의 분포

e a

df F = ^a df

특징

Ø

Peak값

•

F=1에서 peak치를 갖는다.

Ø

F값은 항상 양수

•

표본간 분산/우연에 의한 분산

(11)

ANOVA에서의 F비 분포

F ~ F(2 12)일 때

Ø

(집단간 분산의 자유도, 집단내 분산의 자유도)

Ø

(k-1, N-k)

(12)

F 분포표

(13)

ANOVA표

Factor Sum of Square df Mean Square F-value

Treatment SSA k-1 MSA MSA

Error SSE N-k MSE MSE

Total SST N-1

(14)

예제

처방

NSAID DMARDs Steroid

7.3 3.5 3.3

6.5 4.1 2.8

8.4 3.6 2.5

7.2 2.8 2.9

8.5 3.9 3.6

5.8 4.3 3.3

7.5 4.5 3.5

7.4 3.5 4.3

6.3 3.6 3.1

집단간 분산

NSAID DMARDs Steroid

가설 설정

Ø

H0 : 치료방법에 따른 pVAS의 평 균차이가 없다.

검정 통계량 계산

6.3 3.6 3.1

6.7 3.3 3.4

NSAID DMARDs Steroid

평균 7.2 3.7 3.3

전체평균 4.7

SSA 92.1

MSA 46.05

집단내 분산

NSAID DMARDs Steroid

평균 7.2 3.7 3.3

편차제곱함 6.78 2.27 2.23

SSE 11.28

MSE 0.42

검정 통계량 계산

(15)

예제

Factor Sum of Square df Mean Square F-value

Treatment 92.1 2 46.05

109.64 Error 11.28 27 0.42

Total 103.38 29

ANOVA표

결론

Ø

~F(2, 27) : α = 0.05일 때, F

^α

= 3.35

Ø

F-value = 109.64

•

3.35<109.64

•

H

⁰

기각 : 세 집단의 평균 pVAS값 은 차이가 난다.

ANOVA표

결론

(16)

Kruskal-Wallis test

정규성을 만족하지 못하는 비모수적일 때 사용

Ø 다음 표본들을 1개의 그룹으로 합침

Ø 낮은 점수부터 등수를 구한다.

§ 동일한 점수가 있으면 그 순위 값들의 평균!

ü ex>1위와 2위가 동일점수 = 1.5

처방

NSAID DMARDs Steroid

7.3 3.5 3.3

6.5 4.1 2.8

8.4 3.6 2.5

7.2 2.8 2.9

8.5 3.9 3.6

5.8 4.3 3.3

7.5 4.5 3.5

pVAS 7.3 6.5 8.4 7.2 8.5 5.8 7.5 7.4 6.3 6.7

등위

26 23 29 25 30 21 28 27 22 24

정규성을 만족하지 못하는 비모수적일 때 사용

Ø 다음 표본들을 1개의 그룹으로 합침

Ø 낮은 점수부터 등수를 구한다.

§ 동일한 점수가 있으면 그 순위 값들의 평균!

ü ex>1위와 2위가 동일점수 = 1.5

7.5 4.5 3.5

7.4 3.5 4.3

6.3 3.6 3.1

6.7 3.3 3.4

등위

26 23 29 25 30 21 28 27 22 24

pVAS 3.5 4.1 3.6 2.8 3.9 4.3 4.5 3.5 3.6 3.3

등위

11 17 14 2.5 16 18.5 20 11 14 7

pVAS 3.3 2.8 2.5 2.9 3.6 3.3 3.5 4.3 3.1 3.4

등위

7 2.5 1 4 14 7 11 18.5 5 9

(17)

Kruskal-Wallis test

처방

NSAID DMARDs Steroid

26 11 7

23 17 2.5

29 14 1

25 2.5 4

30 16 14

21 18.5 7

28 20 11

27 11 18.5

22 14 5

24 7 9

) 1 (

3 ) ) (

1 (

12

1

2 + + -

= å

=

n N R N

H N

k

j j

j

R ^j = 표본j의 순위의 합 n ^j = j집단의 사례수

χ

²

분포를 따름 df = 3-1 = 2

α=0.05일 때 H

⁰

기각조건 χ

²

≥5.99

24 7 9

n1=10 R1=255 n2=10 R2=131 n3=10 R3=79

R ^j = 표본j의 순위의 합 n ^j = j집단의 사례수

χ

²

분포를 따름 df = 3-1 = 2

α=0.05일 때 H

⁰

기각조건 χ

²

≥5.99

21.099 ≥5.99이므로 H

⁰

를 기각한다.

099 . 21 )

31 ( 3 10 )

79 10

131 10

( 255 ) 31 ( 30

12 ² ² ²

= -

+ +

=

H

(18)

χ ² 분포

(19)

Post-hoc test(사후검정)-다중비교

언제 시행하나?

Ø

H0을 기각했을 경우

왜 하는가?

Ø

집단 k개 중 어느 것과 어느 것의 평균이 같거나 다른지 알고자 함

Ø

어느 집단 간에 차이가 있는지 알아보기 위해 실시

방법

언제 시행하나?

Ø

H0을 기각했을 경우

왜 하는가?

Ø

집단 k개 중 어느 것과 어느 것의 평균이 같거나 다른지 알고자 함

Ø

어느 집단 간에 차이가 있는지 알아보기 위해 실시

방법

검정법 비교시기 비교집단 표본수

Fisher LSD 사후비교 모든 짝 다른 표본

Tukey HSD 사후비교 모든 짝 같은 표본

Newman-Keuls 사후비교 모든 짝 같은 표본

Duncan 사후비교 모든 짝 다른 표본

Scheffe 사후비교 모든 조합 다른 표본

Dunnett 사전비교 대조군 다른 표본

Bonfernni 사전비교 모든 조합 다른 표본

(20)

SPSS실습

(21)

SPSS-One Way ANOVA

등분산 검정

T e s t of H omog e n e ity of Va r ia n c e s pVAS

1.973 2 27 .159

Levene

Statistic df1 df2 Sig.

ANO VA pVAS

90.761 2 45.380 108.874 .000

11.254 27 .417

102.015 29

Between Groups With in Groups Tota l

Sum of

Squ ares df Mea n Squ are F Sig.

(22)

M u ltiple C ompa r is on s Dependen t Varia ble: pVAS

3.45000* .28873 .000 2.7341 4.1659

3.89000* .28873 .000 3.1741 4.6059

-3.45000* .28873 .000 -4.1659 -2.7341

.44000 .28873 .296 -.2759 1.1559

-3.89000* .28873 .000 -4.6059 -3.1741

-.44000 .28873 .296 -1.1559 .2759

3.45000* .28873 .000 2.7022 4.1978

3.89000* .28873 .000 3.1422 4.6378

-3.45000* .28873 .000 -4.1978 -2.7022

(J) group 2.00 3.00 1.00 3.00 1.00 2.00 2.00 3.00 1.00 (I) group 1.00

2.00

3.00

1.00

2.00 Tukey HSD

Sch effe

Mea n Diffe rence

(I-J) Std. Error Sig. Lower Bou nd Upper Bou nd 95% Confidence Interva l

SPSS-One Way ANOVA

Post hoc

-3.45000* .28873 .000 -4.1978 -2.7022

.44000 .28873 .328 -.3078 1.1878

-3.89000* .28873 .000 -4.6378 -3.1422

-.44000 .28873 .328 -1.1878 .3078

1.00 3.00 1.00 2.00 2.00

3.00

The mean differe nce is significant at the .05 level.

*.

pVA S

10 3.2700

10 3.7100

10 7.1600

.296 1.000

10 3.2700

10 3.7100

10 7.1600

.139 1.000

10 3.2700

10 3.7100

10 7.1600

.328 1.000

group 3.00 2.00 1.00 Sig.

3.00 2.00 1.00 Sig.

Tukey HS D^a

Dun can^a

Sch effe^a

N 1 2

Subset for alpha = .05

Mea ns for groups in h omoge neous subs ets ar e displayed.

Use s Har monic Mean Sample Size = 10.000.

a.

(23)

SPSS-One Way ANOVA

등분산이 아닐때

M u ltiple C ompa r is on s Dependen t Varia ble: pVAS

Dun nett T3

3.45000* .31681 .000 2.6006 4.2994

3.89000* .31596 .000 3.0422 4.7378

-3.45000* .31681 .000 -4.2994 -2.6006

.44000 .22336 .175 -.1449 1.0249

-3.89000* .31596 .000 -4.7378 -3.0422

-.44000 .22336 .175 -1.0249 .1449

(J) group 2.00 3.00 1.00 3.00 1.00 2.00 (I) group 1.00

2.00

3.00 Mea n Diffe rence

(I-J) Std. Error Sig. Lower Bou nd Upper Bou nd 95% Confidence Interva l

The mean differe nce is significant a t the .05 level.

*.

(24)

SPSS-One Way ANOVA

비모수적 접근 방법-Kruskal-Wallis test

R a n ks

10 25.50

10 13.10

10 7.90

30 group

1.00 2.00 3.00 Tota l

pVAS N Mea n Ran k

T e s t S ta tis tic s

^{a ,b}

21.165 2 .000 Chi-Squa re

df

Asy mp. S ig.

pVAS

Kru skal W allis T est a.

Grouping Variable: group

b.

(25)

SPSS-One Way ANOVA

비모수적 접근 방법-Kruskal-Wallis test 사후검정

(26)

ANO VA RANK of pVAS

Sum of

SPSS-One Way ANOVA

T e s t of H omog e n e ity of Va r ia n c e s RANK of pVAS

M u ltiple C ompa r is on s Dependen t Varia ble: RANK of pVAS

12.400000* 2.117476 .000 7.14989 17.65011 17.600000* 2.117476 .000 12.34989 22.85011 -12.400000* 2.117476 .000 -17.65011 -7.14989 5.200000 2.117476 .053 -.05011 10.45011 -17.600000* 2.117476 .000 -22.85011 -12.34989 -5.200000 2.117476 .053 -10.45011 .05011 12.400000* 2.117476 .000 6.91567 17.88433 17.600000* 2.117476 .000 12.11567 23.08433 -12.400000* 2.117476 .000 -17.88433 -6.91567 5.200000 2.117476 .066 -.28433 10.68433 -17.600000* 2.117476 .000 -23.08433 -12.11567 -5.200000 2.117476 .066 -10.68433 .28433 (J) group

2.00 3.00 1.00 3.00 1.00 2.00 2.00 3.00 1.00 3.00 1.00 2.00 (I) group 1.00

2.00

3.00

1.00

2.00

3.00 Tukey HSD

Sch effe

Mea n Diffe rence

(I-J) Std. Error Sig. Lower Bou nd Upper Bou nd 95% Confidence Interva l

The mean differe nce is significant at the .05 level.

*.

1635.200 2 817.600 36.470 .000

605.300 27 22.419

2240.500 29

Between Groups With in Groups Tota l

Squ ares df Mea n Squ are F Sig.

RANK of pVAS

1.314 2 27 .285

Levene

Statistic df1 df2 Sig.