제 8장 두 집단 비교
8.1 독립된 두 집단 분산 비교 8.2 독립된 두 집단 평균차 추정 8.3 독립된 두 집단 평균차 검정
8.4 대응비교
대응비교 또는 쌍체비교 (paired comparison)
•두 모집단의 평균을 비교할 때 실험단위를 동질적인 쌍으로 묶은 다 음, 각 쌍에 두 처리를 랜덤하게 적용하고, 각 쌍에서 모은 관측값의 차로 두 모집단의 평균의 차이에 관한 추론하는 방법
•랜덤화과정
한 쌍 내에서 처리의 순서를 랜덤하게 적용하는 방법
•대응비교 예
새로운 약의 효과를 확인하고 싶을 때
약효에 영향을 줄 수 있는 건강 상태 및 연령 등 통제 필요 환자별 약 복용 전후의 효과를 측정하여 차이 검정
대응비교에 의한 모평균의 비교
자료구조
관측값 : (𝑋𝑋1, 𝑌𝑌1), (𝑋𝑋2, 𝑌𝑌2), … , (𝑋𝑋𝑛𝑛, 𝑌𝑌𝑛𝑛)
가정 : 𝐸𝐸 𝑋𝑋𝑖𝑖 = 𝜇𝜇1, 𝐸𝐸 𝑌𝑌𝑖𝑖 = 𝜇𝜇2, 𝜇𝜇𝐷𝐷 = 𝜇𝜇1 − 𝜇𝜇2
𝐷𝐷𝑖𝑖 = 𝑋𝑋𝑖𝑖 − 𝑌𝑌𝑖𝑖 ~ 𝑖𝑖𝑖𝑖𝑖𝑖 𝑁𝑁(𝜇𝜇𝐷𝐷, 𝜎𝜎2) (𝑖𝑖 = 1,2, … , 𝑛𝑛)
�𝐷𝐷 = 𝑛𝑛1 ∑𝑖𝑖=1𝑛𝑛 𝐷𝐷𝑖𝑖 , 𝑆𝑆𝐷𝐷2= 𝑛𝑛−11 ∑𝑖𝑖=1𝑛𝑛 𝐷𝐷𝑖𝑖 − �𝐷𝐷 2
대응비교의 자료구조 및 모형 가정
쌍 처리1 처리2 처리효과의 차
𝟏𝟏 𝑿𝑿𝟏𝟏 𝒀𝒀𝟏𝟏 𝑫𝑫𝟏𝟏 = 𝑿𝑿𝟏𝟏 − 𝒀𝒀𝟏𝟏
𝟐𝟐 𝑿𝑿𝟐𝟐 𝒀𝒀𝟐𝟐 𝑫𝑫𝟐𝟐 = 𝑿𝑿𝟐𝟐 − 𝒀𝒀𝟐𝟐
⋮ ⋮ ⋮ ⋮
𝒏𝒏 𝑿𝑿𝒏𝒏 𝒀𝒀𝒏𝒏 𝑫𝑫𝒏𝒏 = 𝑿𝑿𝒏𝒏− 𝒀𝒀𝒏𝒏
대응표본의 두 모평균의 차이에 관한 추론은 𝑫𝑫𝒊𝒊 = 𝑿𝑿𝒊𝒊 − 𝒀𝒀𝒊𝒊에 대한 한 모평균에 대한 추론과 동일하다.
�𝐷𝐷 = 1𝑛𝑛 �𝑖𝑖=1
𝑛𝑛
𝐷𝐷𝑖𝑖 , 𝑆𝑆𝐷𝐷2 = 1
𝑛𝑛 − 1 �𝑖𝑖=1
𝑛𝑛
𝐷𝐷𝑖𝑖 − �𝐷𝐷 2
𝐷𝐷𝑖𝑖 = 𝑋𝑋𝑖𝑖 − 𝑌𝑌𝑖𝑖 ~ 𝑖𝑖𝑖𝑖𝑖𝑖 𝑁𝑁(𝜇𝜇𝐷𝐷, 𝜎𝜎2) 𝑆𝑆𝐷𝐷−𝜇𝜇� 𝐷𝐷
𝐷𝐷/ 𝑛𝑛 ∼ 𝑡𝑡(𝑛𝑛 − 1)
모평균의 차 𝝁𝝁𝑫𝑫 = 𝝁𝝁𝟏𝟏 − 𝝁𝝁𝟐𝟐에 대한 𝟏𝟏𝟏𝟏𝟏𝟏 𝟏𝟏 − 𝜶𝜶 % 신뢰구간
�𝐷𝐷 − 𝑡𝑡𝛼𝛼/2 𝑛𝑛 − 1 𝑆𝑆𝐷𝐷
𝑛𝑛 , �𝐷𝐷 + 𝑡𝑡𝛼𝛼/2 𝑛𝑛 − 1 𝑆𝑆𝐷𝐷 𝑛𝑛
모평균의 차이에 관한 추론 (대응비교)
새로운 교육방법이 암기력을 향상시키는지 확인하기 위해 9명의 사람들 을 대상으로 교육 전 후의 암기점수를 측정하였다. 암기점수는 교육효과 뿐만 아니라 개인의 능력에 영향을 받으므로 개인 능력에 따른 효과를 제 거하기 위해서 개인별 암기점수의 차이인 𝑫𝑫𝒊𝒊 = 𝑿𝑿𝒊𝒊 − 𝒀𝒀𝒊𝒊를 계산하여 추 론하기로 한다. 교육 전 암기점수의 모평균 𝝁𝝁𝑿𝑿와 교육 후 암기점수의 모 평균 𝝁𝝁𝒀𝒀의 차이를 신뢰수준 95%에서 추정하여라.
예제 8.10
사람 1 2 3 4 5 6 7 8 9
𝑋𝑋𝑖𝑖 64 89 18 62 85 69 87 63 72
𝑌𝑌𝑖𝑖 68 82 21 75 81 75 83 56 76
풀이
① 𝑖𝑖 = −0.89 𝑠𝑠𝐷𝐷 = 6.79, 𝑡𝑡0.025 8 = 2.31
② ∴ 𝜇𝜇𝑋𝑋와 𝜇𝜇𝑌𝑌 차이의 95% 신뢰구간(-6.12, 4.34)
예제 8.10
• 유의수준 𝜶𝜶에서 모평균의 차에 대한 가설검정
𝑇𝑇 ∼ 𝑡𝑡 𝑛𝑛 − 1 , 𝑃𝑃 𝑇𝑇 > 𝑡𝑡𝛼𝛼(𝑛𝑛 − 1) = 𝛼𝛼, 𝑠𝑠𝐷𝐷2= 𝑛𝑛−11 ∑𝑖𝑖=1𝑛𝑛 𝑖𝑖𝑖𝑖 − ̅𝑖𝑖 2
모평균의 차이에 대한 가설검정 (대응비교)
가설 𝑯𝑯𝟏𝟏 ∶ 𝝁𝝁𝑫𝑫 = 𝜹𝜹𝟏𝟏 𝑯𝑯𝟏𝟏 ∶ 𝝁𝝁𝑫𝑫 ≠ 𝜹𝜹𝟏𝟏
𝑯𝑯𝟏𝟏 ∶ 𝝁𝝁𝑫𝑫 = 𝜹𝜹𝟏𝟏(𝒐𝒐𝒐𝒐 𝑯𝑯𝟏𝟏 ∶ 𝝁𝝁𝑫𝑫 = 𝜹𝜹𝟏𝟏(𝒐𝒐𝒐𝒐
검정 통계량
(관측값) 𝒕𝒕 = �𝒅𝒅 − 𝜹𝜹𝟏𝟏
𝒔𝒔𝑫𝑫/ 𝒏𝒏 𝒕𝒕 = �𝒅𝒅 − 𝜹𝜹𝟏𝟏
𝒔𝒔𝑫𝑫/ 𝒏𝒏 𝒕𝒕 = �𝒅𝒅 − 𝜹𝜹𝟏𝟏
𝒔𝒔𝑫𝑫/ 𝒏𝒏
임계값 𝒕𝒕𝜶𝜶/𝟐𝟐(𝒏𝒏 − 𝟏𝟏) 𝒕𝒕𝜶𝜶(𝒏𝒏 − 𝟏𝟏) −𝒕𝒕𝜶𝜶(𝒏𝒏 − 𝟏𝟏)
유의
확률 2𝑷𝑷 𝑻𝑻 > 𝒕𝒕 𝑷𝑷 𝑻𝑻 > 𝒕𝒕 𝑷𝑷 𝑻𝑻 < 𝒕𝒕
𝑯𝑯𝟏𝟏를 기각할
경우
𝒕𝒕 > 𝒕𝒕𝜶𝜶/𝟐𝟐(𝒏𝒏 − 𝟏𝟏)
p-value< 𝜶𝜶 𝒕𝒕 > 𝒕𝒕𝜶𝜶(𝒏𝒏 − 𝟏𝟏)
p-value< 𝜶𝜶 𝒕𝒕 < −𝒕𝒕𝜶𝜶(𝒏𝒏 − 𝟏𝟏) p-value< 𝜶𝜶
예제 8.10에서 교육 후 암기점수의 모평균 𝝁𝝁𝑩𝑩가 교육 전 암기점수 의 모평균 𝝁𝝁𝑨𝑨 보다 높다는 주장을 유의수준 5%에서 검정하여라.
풀이
① 가설 𝐻𝐻0 ∶ 𝜇𝜇𝐴𝐴 − 𝜇𝜇𝐵𝐵 = 0 , 𝐻𝐻1∶ 𝜇𝜇𝐴𝐴 − 𝜇𝜇𝐵𝐵 < 0
② 검정통계량 𝑡𝑡 = 6.79/ 9−0.89 = −0.39
③ 𝑡𝑡=-0.39 >= −𝑡𝑡0.05 8 = −1.86 ⇒ 𝐻𝐻0 채택
④ ∴ 교육 후 암기점수가 교육 전 암기점수보다 높지 않다.
예제 8.11
A,B 두 진정제의 효과를 비교하기 위하여 12명의 환자를 건강상 태가 비슷한 환자끼리 묶어서 A와 B를 랜덤하게 적용하고 숙면시 간을 조사하였다. 두 진정제의 효과가 다르다고 할 수 있는지 유의 수준 5%하에서 검정하여라.
예제
• 귀무가설과 대립가설의 설정
𝜇𝜇𝐷𝐷 = 𝜇𝜇𝐴𝐴 − 𝜇𝜇𝐵𝐵 : 두 진정제의 효과 차이의 평균
𝐻𝐻0 ∶ 𝜇𝜇𝐷𝐷 = 0 𝐻𝐻1 ∶ 𝜇𝜇𝐷𝐷 ≠ 0
• 검정통계량 계산
̅𝑖𝑖 = −0.9, 𝑠𝑠𝐷𝐷 = 0.7925 𝑡𝑡 = 𝑠𝑠�𝑑𝑑−𝛿𝛿0
𝐷𝐷/ 𝑛𝑛 = 0.7925/ 6−0.9 = −2.782 𝑡𝑡 > 𝑡𝑡0.025 5 = 2.571
유의수준 5%의 기각역에 포함되므로 유의수준 5%하에서 귀무가설을 기각한다. 즉, 유의수준 5%하에서 두 진정제의 효과가 다르다고 판단할 수 있다.
예제
(계속)• 귀무가설과 대립가설의 설정
𝜇𝜇𝐴𝐴, 𝜇𝜇𝐵𝐵 : A, B 진정제를 투여하였을 때의 숙면시간 𝐻𝐻0 ∶ 𝜇𝜇𝐴𝐴 = 𝜇𝜇𝐵𝐵 𝐻𝐻1 ∶ 𝜇𝜇𝐴𝐴 ≠ 𝜇𝜇𝐵𝐵
• 검정통계량 계산
̅𝑥𝑥1 = 4.7, ̅𝑥𝑥2 = 5.6, 𝑠𝑠12 = 1.636, 𝑠𝑠22 = 0.756 𝑠𝑠𝑝𝑝2 = 5(1.636+0.756)
10 = 1.196 𝑡𝑡 = ̅𝑥𝑥1− ̅𝑥𝑥2
𝑠𝑠𝑝𝑝2 1𝑛𝑛1+𝑛𝑛21 = 4.7−5.6
1.196 16+16 = −1.425
예제
(계속 – 독립표본을 가정한 경우)• 귀무가설과 대립가설의 설정
𝜇𝜇𝐴𝐴, 𝜇𝜇𝐵𝐵 : A, B 진정제를 투여하였을 때의 숙면시간 𝐻𝐻0 ∶ 𝜇𝜇𝐴𝐴 = 𝜇𝜇𝐵𝐵 𝐻𝐻1 ∶ 𝜇𝜇𝐴𝐴 ≠ 𝜇𝜇𝐵𝐵
• 검정통계량 계산
̅𝑥𝑥1 = 4.7, ̅𝑥𝑥2 = 5.6, 𝑠𝑠12 = 1.636, 𝑠𝑠22 = 0.756 𝑠𝑠𝑝𝑝2 = 5(1.636+0.756)
10 = 1.196 𝑡𝑡 = ̅𝑥𝑥1− ̅𝑥𝑥2
𝑠𝑠𝑝𝑝2 1𝑛𝑛1+𝑛𝑛21 = 4.7−5.6
1.196 16+16 = −1.425
기각역 : 𝑡𝑡 > 𝑡𝑡0.025 10 = 2.228
예제
(계속 – 독립표본을 가정한 경우)• 귀무가설과 대립가설의 설정
𝜇𝜇𝐴𝐴, 𝜇𝜇𝐵𝐵 : A, B 진정제를 투여하였을 때의 숙면시간 𝐻𝐻0 ∶ 𝜇𝜇𝐴𝐴 = 𝜇𝜇𝐵𝐵 𝐻𝐻1 ∶ 𝜇𝜇𝐴𝐴 ≠ 𝜇𝜇𝐵𝐵
• 검정통계량 계산
̅𝑥𝑥1 = 4.7, ̅𝑥𝑥2 = 5.6, 𝑠𝑠12 = 1.636, 𝑠𝑠22 = 0.756 𝑠𝑠𝑝𝑝2 = 5(1.636+0.756)
10 = 1.196 𝑡𝑡 = ̅𝑥𝑥1− ̅𝑥𝑥2
𝑠𝑠𝑝𝑝2 1𝑛𝑛1+𝑛𝑛21 = 4.7−5.6
1.196 16+16 = −1.425
기각역 : 𝑡𝑡 > 𝑡𝑡0.025 10 = 2.228
예제
(계속 – 독립표본을 가정한 경우)독립표본으로 검정할 경우 진정제의 효과에 차이가 없다고 판단되어 진정제의 효과에 차이가 있다는 대응표본
결과와 다른 결론 발생
기각역에 포함되지 않으므로 효과가 다르다고 판단할 수 없다.
제 9장 여러 집단 비교
9.1 인자가 하나인 경우
9.2 수준별 모평균 비교
9.3 인자가 두 개인 경우
비교 대상 집단이 3개 이상일 때, 집단별 특성값의 평균이 같은지 비교하는 방법
특성값의 변동을 제곱합으로 나타내고, 제곱합을 요인(처리)별로 분해하여, 오차보다 큰 영향을 주는 요인을 찾는 분석 방법
특성값의 변동 또는 분산을 분석하는 방법
분산분석
여러 공법에 의한 금속가공품의 인장강도의 차이 분석 문제
• 한 공법에 여러 명의 작업자를 할당하거나 또는 한 작업자가 여러 번 실험을 하였을 때
관측된 자료들의 변동은 작업자의 작업능률의 변동으로 생각
• 여러 가지 공법을 사용하였을 때
각 공법에서 관측된 인장강도들의 평균값이 다르게 나타나는 것은 공법에 따른 인장강도의 변동으로 생각
• (공법에 따른 관측값들의 변동) > (공법 이외의 요인에 의한 변동) 공법에 따른 인장강도에 차이가 있다고 판단
분산분석 예
특성값에 영향을 미칠 것으로 여겨지는 인자 하나가 있고, 그 인자가 𝑘𝑘개의 수준을 가질 때,
각 수준별로 반응값의 평균이 다른지 알아보는 방법
특성값에 한 종류의 인자만의 영향을 조사할 때 사용
처리 : 인자의 수준
실험환경인 실험단위가 모두 동질적이라 가정
수준수는 3~5, 반복수는 3~10을 많이 쓰며 완전랜덤화 계획으로 실험순서 결정
•일원배치법 또는 완전확률화법이라고도 함
일원배치 분산분석
A B C
𝑎𝑎
1𝑏𝑏
1𝑐𝑐
1𝑎𝑎
2𝑏𝑏
2𝑐𝑐
2𝑎𝑎
3𝑏𝑏
3𝑐𝑐
3𝑎𝑎
4𝑏𝑏
4𝑐𝑐
4𝑎𝑎
5𝑏𝑏
5𝑐𝑐
5 𝑘𝑘개의 모집단이 독립이며 정규분포를 따른다고 가정
𝑦𝑦𝑖𝑖𝑖𝑖 ∶ 𝑖𝑖번째 처리에서 얻어진 𝑗𝑗 번째 관측값
평균이 𝜇𝜇𝑖𝑖이고 분산이 𝜎𝜎2인 정규모집단으로부터 𝑛𝑛개의 표본을 추 출하였다고 가정
일원배치법의 구조모형
처리1 처리2 ⋯ 처리𝑖𝑖 ⋯ 처리𝑘𝑘
자료
𝑦𝑦11 𝑦𝑦21 𝑦𝑦𝑖𝑖1 𝑦𝑦𝑘𝑘1
𝑦𝑦12 𝑦𝑦22 𝑦𝑦𝑖𝑖2 𝑦𝑦𝑘𝑘2
𝑦𝑦13 𝑦𝑦23 ⋯ 𝑦𝑦𝑖𝑖3 ⋯ �𝑦𝑦𝑘𝑘3�
⋮ ⋮ ⋮ ⋮
𝑦𝑦1𝑛𝑛 𝑦𝑦2𝑛𝑛 𝑦𝑦𝑖𝑖𝑛𝑛 𝑦𝑦𝑘𝑘𝑛𝑛 평균 𝑦𝑦1. 𝑦𝑦2. ⋯ 𝑦𝑦𝑖𝑖. ⋯ 𝑦𝑦𝑘𝑘.
처리 𝑖𝑖의 평균
𝑦𝑦𝑖𝑖. = 𝑦𝑦𝑖𝑖1+𝑦𝑦𝑖𝑖2𝑛𝑛+⋯+𝑦𝑦𝑖𝑖𝑛𝑛
전체 평균
𝑦𝑦.. = 𝑦𝑦1.+𝑦𝑦2.𝑘𝑘+⋯𝑦𝑦𝑘𝑘.
모형
• 인자는 모수인자. 즉, 처리별 효과는 상수
• 𝑦𝑦𝑖𝑖𝑖𝑖 = 𝜇𝜇 + 𝛼𝛼𝑖𝑖 + 𝜖𝜖𝑖𝑖𝑖𝑖 𝑖𝑖 = 1,2, ⋯ , 𝑘𝑘, 𝑗𝑗 = 1,2, ⋯ , 𝑛𝑛
𝜖𝜖𝑖𝑖𝑖𝑖~𝑁𝑁 0, 𝜎𝜎2 이고 독립, �
𝑖𝑖=1 𝑘𝑘
𝛼𝛼𝑖𝑖 = 0
• 𝜇𝜇 : 총평균 (처리 효과 전체의 모평균)
• 𝜇𝜇𝑖𝑖 = 𝜇𝜇 + 𝛼𝛼𝑖𝑖 : 𝑖𝑖 번째 모집단의 평균
• 𝛼𝛼𝑖𝑖 = 𝜇𝜇𝑖𝑖 − 𝜇𝜇 : 𝑖𝑖 번째 처리효과
• 𝜖𝜖𝑖𝑖𝑖𝑖: 오차항
일원배치법의 모형
𝒚𝒚 𝒊𝒊𝒊𝒊 = 𝝁𝝁 + 𝜶𝜶 𝒊𝒊 + 𝜺𝜺 𝒊𝒊𝒊𝒊
𝒚𝒚 𝒊𝒊𝒊𝒊 = 𝝁𝝁 + 𝜶𝜶 𝒊𝒊 + 𝜺𝜺 𝒊𝒊𝒊𝒊
𝑯𝑯 𝟏𝟏 ∶ 𝝁𝝁 𝟏𝟏 = 𝝁𝝁 𝟐𝟐 = ⋯ = 𝝁𝝁 𝒌𝒌
𝒚𝒚 𝒊𝒊𝒊𝒊 = 𝝁𝝁 + 𝜶𝜶 𝒊𝒊 + 𝜺𝜺 𝒊𝒊𝒊𝒊
𝑯𝑯 𝟏𝟏 ∶ 𝝁𝝁 𝟏𝟏 = 𝝁𝝁 𝟐𝟐 = ⋯ = 𝝁𝝁 𝒌𝒌
𝑯𝑯 𝟏𝟏 ∶ 𝜶𝜶 𝟏𝟏 = 𝜶𝜶 𝟐𝟐 = ⋯ = 𝜶𝜶 𝒌𝒌 = 𝟏𝟏
𝒚𝒚 𝒊𝒊𝒊𝒊 = 𝝁𝝁 + 𝜶𝜶 𝒊𝒊 + 𝜺𝜺 𝒊𝒊𝒊𝒊
𝑯𝑯 𝟏𝟏 ∶ 𝝁𝝁 𝟏𝟏 = 𝝁𝝁 𝟐𝟐 = ⋯ = 𝝁𝝁 𝒌𝒌
𝑯𝑯 𝟏𝟏 ∶ 𝜶𝜶 𝟏𝟏 = 𝜶𝜶 𝟐𝟐 = ⋯ = 𝜶𝜶 𝒌𝒌 = 𝟏𝟏
𝑯𝑯 𝟏𝟏 ∶ 𝑵𝑵𝒐𝒐𝒕𝒕 𝑯𝑯 𝟏𝟏
가설
𝐻𝐻0∶ 𝜇𝜇1 = 𝜇𝜇2 = ⋯ = 𝜇𝜇𝑘𝑘 (𝛼𝛼1 = 𝛼𝛼2 = ⋯ 𝛼𝛼𝑘𝑘 = 0 )
𝐻𝐻1 ∶ 적어도 두 𝜇𝜇𝑖𝑖는 같지 않다. (적어도 한 𝛼𝛼𝑖𝑖는 0이 아니다.)
검정 통계량 : 𝐹𝐹 = 𝑀𝑀𝑆𝑆𝑀𝑀𝑆𝑆𝑀𝑀𝑡𝑡𝑡𝑡 ~𝐹𝐹(𝑘𝑘 − 1, 𝑁𝑁 − 𝑘𝑘) 𝑢𝑢𝑛𝑛𝑖𝑖𝑢𝑢𝑢𝑢 𝐻𝐻0
처리효과의 유의성 검정
유의수준 𝜶𝜶 의 기각역 : 𝐹𝐹 > 𝐹𝐹𝛼𝛼(𝑘𝑘 − 1, 𝑁𝑁 − 𝑘𝑘) -귀무가설 기각 : 인자의 수준들 간에 차이가 있다
관측값을 𝒇𝒇라 할 때, 유의확률 𝒑𝒑 = 𝑃𝑃 𝐹𝐹 > 𝑓𝑓 , 𝐹𝐹~𝐹𝐹(𝑘𝑘 − 1, 𝑁𝑁 − 𝑘𝑘)
변동을 정의하기 위해 데이터의 중심 개념 및 데이터가 중심으로부터 떨어진 거리 개념 필요