Ch4 one-way ANOVA
ANOVA란?
ANalysis Of VAriance
Ø
3개 이상의 모집단의 평균의 차이를 검정하는 방법Ø
3개의 모집단일 경우•
H0 : μ1 = μ2 = μ3•
H0기각 : μ1 ≠ μ2 = μ3 or μ1 = μ2 ≠ μ3 or μ1 ≠ μ2 ≠ μ3 àPost hoc test 수행One-way ANOVA란?
용어 정리
Ø
종속변수•
독립변수에 의해 변하는 변수(결과)Ø
Factor(요인)•
실험에서의 독립변수.Ø
Level(수준)•
실험단위에 가해지는 특정 조건Group Sex pVAS
NSAID 남 7.3
NSAID 남 6.5
NSAID 여 8.4
NSAID 여 7.2
DMARDs 남 3.5
DMARDs 남 4.1
DMARDs 여 3.6
DMARDs 여 2.9
Steroid 남 3.3 Steroid 남 2.8
용어 정리
Ø
종속변수•
독립변수에 의해 변하는 변수(결과)Ø
Factor(요인)•
실험에서의 독립변수.Ø
Level(수준)•
실험단위에 가해지는 특정 조건Steroid 남 2.8 Steroid 여 2.5 Steroid 여 2.9
치료방법
NSAID DMARDs Steroid
pVAS
7.3 3.5 3.3
6.5 4.1 2.8
8.4 3.6 2.5
7.2 2.9 2.9
Factor
Level
One-way ANOVA
Ø
Factor : 치료방법Ø
Level : 3가지à다음과 같이 Factor가 1개이고 Level이 여러 개 인 경우를 분석하기 위해 제한된 방법
종속
1-way ANOVA 절차
K개의 집단이 서로 독립인가, 종속인가 K개의 표본 분산이
등분산 인가?
표본의 크기가 30 이상인가?
공통분산 계산
Start
YES
NO
NO 독립 Repeated
Measured ANOVA
모수적 접근방법 1-way ANOVA
정규성 검정을 만족하는가?
비모수적 접근방법 Kruskal-Wallis test
집단 간에
차이가 나는가? 결론
Post Hoc test
YES
YES
NO
NO YES
One-way ANOVA 조건
독립성
Ø
집단간 서로 독립정규성
Ø
각 집단간 정규성을 만족등분산성
Ø
각 집단의 분산은 등분산균형자료
Ø
각 그룹마다 sample size가 같으면 Balanced data(균형 자료)Ø
그렇지 안으면 Unbalanced data(불균형 자료)독립성
Ø
집단간 서로 독립정규성
Ø
각 집단간 정규성을 만족등분산성
Ø
각 집단의 분산은 등분산균형자료
Ø
각 그룹마다 sample size가 같으면 Balanced data(균형 자료)Ø
그렇지 안으면 Unbalanced data(불균형 자료)ANOVA 의 원리
factor의 Level
sample 1 2 3 ∙∙∙ k
1 y
11
y21
y31
yk1
2 y
12
y22
y32
yk2
3 y
13
y23
y33
yk3
3 y
13
y23
y33
yk3
∙∙∙
n y
1n
y2n
y3n
ykn
mean y
1
y2
y3
yk
y전체 분산의 계산
분산
• 제곱합/자유도
전체분산 = 집단 간 분산 + 집단 내 분산 총제곱합
Ø
∑(Yij
-Y)2
= ∑ (Yi
-Y)2
+∑(Yij
-Yi
)2
à총 제곱합 = 집단 간 제곱합 + 집단 내 제곱합 SST = SSA + SSE
자유도
Ø
전체(N-1) = 집단 간(k-1) + 집단 내(k(n-1)=N-k)전체분산 = SSA/k-1 + SSE/N-k à MSA + MSE 분산
• 제곱합/자유도
전체분산 = 집단 간 분산 + 집단 내 분산 총제곱합
Ø
∑(Yij
-Y)2
= ∑ (Yi
-Y)2
+∑(Yij
-Yi
)2
à총 제곱합 = 집단 간 제곱합 + 집단 내 제곱합 SST = SSA + SSE
자유도
Ø
전체(N-1) = 집단 간(k-1) + 집단 내(k(n-1)=N-k)전체분산 = SSA/k-1 + SSE/N-k à MSA + MSE
df(degree of freedom)-자유도
통계추론 때 표본자료 중 모집단에 대한 정보를 주는 독립 적인 자료의 수
일반공식
Ø
df = N-k(사례수-통계적 제한 조건의 수)예)
Ø
표본 분포의 각 통계치의 자유도 n-1통계추론 때 표본자료 중 모집단에 대한 정보를 주는 독립 적인 자료의 수
일반공식
Ø
df = N-k(사례수-통계적 제한 조건의 수)예)
Ø
표본 분포의 각 통계치의 자유도 n-1f검정
t검정
àdifference mean/estimated SE=표본간 차이/우연에 의한 차이
f검정(분산비)
à
t,f à 우연에 의한 차이에 비해 실제에 대한 차이가 얼마인가.
추정표준오차 표본평균- 모평균
- =
= S x
t X μ
표본크기 표본표준편차
=
=
n S x S
ty variabili group
within
ty variabili group
between
1
분산 의한
우연에
분산
= 표본간 -
= -
k SSE N
SSA k f
t검정
àdifference mean/estimated SE=표본간 차이/우연에 의한 차이
f검정(분산비)
à
t,f à 우연에 의한 차이에 비해 실제에 대한 차이가 얼마인가.
ty variabili group
within
ty variabili group
between
1
분산 의한
우연에
분산
= 표본간 -
= -
k SSE N
SSA k
f
F비의 분포
e a
df F = a df
특징
Ø
Peak값•
F=1에서 peak치를 갖는다.Ø
F값은 항상 양수•
표본간 분산/우연에 의한 분산ANOVA에서의 F비 분포
F ~ F(2 12)일 때
Ø
(집단간 분산의 자유도, 집단내 분산의 자유도)Ø
(k-1, N-k)F 분포표
ANOVA표
Factor Sum of Square df Mean Square F-value
Treatment SSA k-1 MSA MSA
Error SSE N-k MSE MSE
Total SST N-1
Total SST N-1
예제
처방
NSAID DMARDs Steroid
7.3 3.5 3.3
6.5 4.1 2.8
8.4 3.6 2.5
7.2 2.8 2.9
8.5 3.9 3.6
5.8 4.3 3.3
7.5 4.5 3.5
7.4 3.5 4.3
6.3 3.6 3.1
집단간 분산
NSAID DMARDs Steroid
가설 설정
Ø
H0 : 치료방법에 따른 pVAS의 평 균차이가 없다.
검정 통계량 계산
6.3 3.6 3.1
6.7 3.3 3.4
NSAID DMARDs Steroid
평균 7.2 3.7 3.3
전체평균 4.7
SSA 92.1
MSA 46.05
집단내 분산
NSAID DMARDs Steroid
평균 7.2 3.7 3.3
편차제곱함 6.78 2.27 2.23
SSE 11.28
MSE 0.42
검정 통계량 계산
예제
Factor Sum of Square df Mean Square F-value
Treatment 92.1 2 46.05
109.64
Error 11.28 27 0.42
Total 103.38 29
ANOVA표
결론
Ø
~F(2, 27) : α = 0.05일 때, Fα
= 3.35Ø
F-value = 109.64•
3.35<109.64•
H0
기각 : 세 집단의 평균 pVAS값 은 차이가 난다.ANOVA표
결론
Kruskal-Wallis test
정규성을 만족하지 못하는 비모수적일 때 사용
Ø 다음 표본들을 1개의 그룹으로 합침
Ø 낮은 점수부터 등수를 구한다.
§ 동일한 점수가 있으면 그 순위 값들의 평균!
ü ex>1위와 2위가 동일점수 = 1.5
처방
NSAID DMARDs Steroid
7.3 3.5 3.3
6.5 4.1 2.8
8.4 3.6 2.5
7.2 2.8 2.9
8.5 3.9 3.6
5.8 4.3 3.3
7.5 4.5 3.5
pVAS 7.3 6.5 8.4 7.2 8.5 5.8 7.5 7.4 6.3 6.7등위
26 23 29 25 30 21 28 27 22 24
정규성을 만족하지 못하는 비모수적일 때 사용
Ø 다음 표본들을 1개의 그룹으로 합침
Ø 낮은 점수부터 등수를 구한다.
§ 동일한 점수가 있으면 그 순위 값들의 평균!
ü ex>1위와 2위가 동일점수 = 1.5
7.5 4.5 3.5
7.4 3.5 4.3
6.3 3.6 3.1
6.7 3.3 3.4
등위
26 23 29 25 30 21 28 27 22 24
pVAS 3.5 4.1 3.6 2.8 3.9 4.3 4.5 3.5 3.6 3.3
등위
11 17 14 2.5 16 18.5 20 11 14 7
pVAS 3.3 2.8 2.5 2.9 3.6 3.3 3.5 4.3 3.1 3.4
등위
7 2.5 1 4 14 7 11 18.5 5 9
Kruskal-Wallis test
처방
NSAID DMARDs Steroid
26 11 7
23 17 2.5
29 14 1
25 2.5 4
30 16 14
21 18.5 7
28 20 11
27 11 18.5
22 14 5
24 7 9
) 1 (
3 ) ) (
1 (
12
1
2
+ + -
= å
=
n N R N
H N
k
j j
j
R j = 표본j의 순위의 합 n j = j집단의 사례수
χ
2분포를 따름 df = 3-1 = 2
α=0.05일 때 H
0기각조건 χ
2≥5.99
24 7 9
n1=10 R1=255 n2=10 R2=131 n3=10 R3=79
R j = 표본j의 순위의 합 n j = j집단의 사례수
χ
2분포를 따름 df = 3-1 = 2
α=0.05일 때 H
0기각조건 χ
2≥5.99
21.099 ≥5.99이므로 H
0를 기각한다.
099 . 21 )
31 ( 3 10 )
79 10
131 10
( 255 ) 31 ( 30
12 2 2 2
= -
+ +
=
H
χ 2 분포
Post-hoc test(사후검정)-다중비교
언제 시행하나?
Ø
H0을 기각했을 경우왜 하는가?
Ø
집단 k개 중 어느 것과 어느 것의 평균이 같거나 다른지 알고자 함Ø
어느 집단 간에 차이가 있는지 알아보기 위해 실시방법
언제 시행하나?
Ø
H0을 기각했을 경우왜 하는가?
Ø
집단 k개 중 어느 것과 어느 것의 평균이 같거나 다른지 알고자 함Ø
어느 집단 간에 차이가 있는지 알아보기 위해 실시방법
검정법 비교시기 비교집단 표본수
Fisher LSD 사후비교 모든 짝 다른 표본
Tukey HSD 사후비교 모든 짝 같은 표본
Newman-Keuls 사후비교 모든 짝 같은 표본
Duncan 사후비교 모든 짝 다른 표본
Scheffe 사후비교 모든 조합 다른 표본
Dunnett 사전비교 대조군 다른 표본
Bonfernni 사전비교 모든 조합 다른 표본
SPSS실습
SPSS-One Way ANOVA
등분산 검정
T e s t of H omog e n e ity of Va r ia n c e s pVAS
1.973 2 27 .159
Levene
Statistic df1 df2 Sig.
ANO VA pVAS
90.761 2 45.380 108.874 .000
11.254 27 .417
102.015 29
Between Groups With in Groups Tota l
Sum of
Squ ares df Mea n Squ are F Sig.
M u ltiple C ompa r is on s Dependen t Varia ble: pVAS
3.45000* .28873 .000 2.7341 4.1659
3.89000* .28873 .000 3.1741 4.6059
-3.45000* .28873 .000 -4.1659 -2.7341
.44000 .28873 .296 -.2759 1.1559
-3.89000* .28873 .000 -4.6059 -3.1741
-.44000 .28873 .296 -1.1559 .2759
3.45000* .28873 .000 2.7022 4.1978
3.89000* .28873 .000 3.1422 4.6378
-3.45000* .28873 .000 -4.1978 -2.7022
(J) group 2.00 3.00 1.00 3.00 1.00 2.00 2.00 3.00 1.00 (I) group 1.00
2.00
3.00
1.00
2.00 Tukey HSD
Sch effe
Mea n Diffe rence
(I-J) Std. Error Sig. Lower Bou nd Upper Bou nd 95% Confidence Interva l
SPSS-One Way ANOVA
Post hoc
-3.45000* .28873 .000 -4.1978 -2.7022
.44000 .28873 .328 -.3078 1.1878
-3.89000* .28873 .000 -4.6378 -3.1422
-.44000 .28873 .328 -1.1878 .3078
1.00 3.00 1.00 2.00 2.00
3.00
The mean differe nce is significant at the .05 level.
*.
pVA S
10 3.2700
10 3.7100
10 7.1600
.296 1.000
10 3.2700
10 3.7100
10 7.1600
.139 1.000
10 3.2700
10 3.7100
10 7.1600
.328 1.000
group 3.00 2.00 1.00 Sig.
3.00 2.00 1.00 Sig.
3.00 2.00 1.00 Sig.
Tukey HS Da
Dun cana
Sch effea
N 1 2
Subset for alpha = .05
Mea ns for groups in h omoge neous subs ets ar e displayed.
Use s Har monic Mean Sample Size = 10.000.
a.
SPSS-One Way ANOVA
등분산이 아닐때
M u ltiple C ompa r is on s Dependen t Varia ble: pVAS
Dun nett T3
3.45000* .31681 .000 2.6006 4.2994
3.89000* .31596 .000 3.0422 4.7378
-3.45000* .31681 .000 -4.2994 -2.6006
.44000 .22336 .175 -.1449 1.0249
-3.89000* .31596 .000 -4.7378 -3.0422
-.44000 .22336 .175 -1.0249 .1449
(J) group 2.00 3.00 1.00 3.00 1.00 2.00 (I) group 1.00
2.00
3.00
Mea n Diffe rence
(I-J) Std. Error Sig. Lower Bou nd Upper Bou nd 95% Confidence Interva l
The mean differe nce is significant a t the .05 level.
*.
SPSS-One Way ANOVA
비모수적 접근 방법-Kruskal-Wallis test
R a n ks
10 25.50
10 13.10
10 7.90
30 group
1.00 2.00 3.00 Tota l
pVAS N Mea n Ran k
T e s t S ta tis tic s
a ,b21.165 2 .000 Chi-Squa re
df
Asy mp. S ig.
pVAS
Kru skal W allis T est a.
Grouping Variable: group
b.
SPSS-One Way ANOVA
비모수적 접근 방법-Kruskal-Wallis test 사후검정
ANO VA RANK of pVAS
Sum of
SPSS-One Way ANOVA
T e s t of H omog e n e ity of Va r ia n c e s RANK of pVAS
M u ltiple C ompa r is on s Dependen t Varia ble: RANK of pVAS
12.400000* 2.117476 .000 7.14989 17.65011 17.600000* 2.117476 .000 12.34989 22.85011 -12.400000* 2.117476 .000 -17.65011 -7.14989 5.200000 2.117476 .053 -.05011 10.45011 -17.600000* 2.117476 .000 -22.85011 -12.34989 -5.200000 2.117476 .053 -10.45011 .05011 12.400000* 2.117476 .000 6.91567 17.88433 17.600000* 2.117476 .000 12.11567 23.08433 -12.400000* 2.117476 .000 -17.88433 -6.91567 5.200000 2.117476 .066 -.28433 10.68433 -17.600000* 2.117476 .000 -23.08433 -12.11567 -5.200000 2.117476 .066 -10.68433 .28433 (J) group
2.00 3.00 1.00 3.00 1.00 2.00 2.00 3.00 1.00 3.00 1.00 2.00 (I) group 1.00
2.00
3.00
1.00
2.00
3.00 Tukey HSD
Sch effe
Mea n Diffe rence
(I-J) Std. Error Sig. Lower Bou nd Upper Bou nd 95% Confidence Interva l
The mean differe nce is significant at the .05 level.
*.
1635.200 2 817.600 36.470 .000
605.300 27 22.419
2240.500 29
Between Groups With in Groups Tota l
Squ ares df Mea n Squ are F Sig.
RANK of pVAS
1.314 2 27 .285
Levene
Statistic df1 df2 Sig.