제 8장 두 집단 비교

(1)

제 8장 두 집단 비교

8.1 독립된 두 집단 분산 비교 8.2 독립된 두 집단 평균차 추정 8.3 독립된 두 집단 평균차 검정

8.4 대응비교

(2)

 대응비교 또는 쌍체비교 (paired comparison)

•두 모집단의 평균을 비교할 때 실험단위를 동질적인 쌍으로 묶은 다 음, 각 쌍에 두 처리를 랜덤하게 적용하고, 각 쌍에서 모은 관측값의 차로 두 모집단의 평균의 차이에 관한 추론하는 방법

•랜덤화과정

한 쌍 내에서 처리의 순서를 랜덤하게 적용하는 방법

•대응비교 예

새로운 약의 효과를 확인하고 싶을 때

약효에 영향을 줄 수 있는 건강 상태 및 연령 등 통제 필요 환자별 약 복용 전후의 효과를 측정하여 차이 검정

 대응비교에 의한 모평균의 비교

(3)

 자료구조

관측값 : _(𝑋𝑋₁_{, 𝑌𝑌}₁_{), (𝑋𝑋}₂_{, 𝑌𝑌}₂_{), … , (𝑋𝑋}_𝑛𝑛_{, 𝑌𝑌}_𝑛𝑛₎

가정 : 𝐸𝐸 𝑋𝑋_𝑖𝑖 = 𝜇𝜇₁, 𝐸𝐸 𝑌𝑌_𝑖𝑖 = 𝜇𝜇₂, 𝜇𝜇_𝐷𝐷 = 𝜇𝜇₁ − 𝜇𝜇₂

𝐷𝐷_𝑖𝑖 = 𝑋𝑋_𝑖𝑖 − 𝑌𝑌_𝑖𝑖 ~ 𝑖𝑖𝑖𝑖𝑖𝑖 𝑁𝑁(𝜇𝜇_𝐷𝐷, 𝜎𝜎²) (𝑖𝑖 = 1,2, … , 𝑛𝑛)

�𝐷𝐷 = _𝑛𝑛¹ ∑_𝑖𝑖=1^𝑛𝑛 𝐷𝐷_𝑖𝑖 , 𝑆𝑆_𝐷𝐷²= _𝑛𝑛−1¹ ∑_𝑖𝑖=1^𝑛𝑛 𝐷𝐷_𝑖𝑖 − �𝐷𝐷 ²

 대응비교의 자료구조 및 모형 가정

쌍 처리1 처리2 처리효과의 차

𝟏𝟏 𝑿𝑿_𝟏𝟏 𝒀𝒀_𝟏𝟏 𝑫𝑫_𝟏𝟏 = 𝑿𝑿_𝟏𝟏 − 𝒀𝒀_𝟏𝟏

𝟐𝟐 𝑿𝑿_𝟐𝟐 𝒀𝒀_𝟐𝟐 𝑫𝑫_𝟐𝟐 = 𝑿𝑿_𝟐𝟐 − 𝒀𝒀_𝟐𝟐

⋮ ⋮ ⋮ ⋮

𝒏𝒏 𝑿𝑿_𝒏𝒏 𝒀𝒀_𝒏𝒏 𝑫𝑫_𝒏𝒏 = 𝑿𝑿_𝒏𝒏− 𝒀𝒀_𝒏𝒏

(4)

 대응표본의 두 모평균의 차이에 관한 추론은 𝑫𝑫_𝒊𝒊 = 𝑿𝑿_𝒊𝒊 − 𝒀𝒀_𝒊𝒊에 대한 한 모평균에 대한 추론과 동일하다.

�𝐷𝐷 = 1𝑛𝑛 �_𝑖𝑖=1

𝑛𝑛

𝐷𝐷_𝑖𝑖 , 𝑆𝑆_𝐷𝐷² = 1

𝑛𝑛 − 1 �_𝑖𝑖=1

𝑛𝑛

𝐷𝐷_𝑖𝑖 − �𝐷𝐷 ²

𝐷𝐷_𝑖𝑖 = 𝑋𝑋_𝑖𝑖 − 𝑌𝑌_𝑖𝑖 ~ 𝑖𝑖𝑖𝑖𝑖𝑖 𝑁𝑁(𝜇𝜇_𝐷𝐷, 𝜎𝜎²) _𝑆𝑆^{𝐷𝐷−𝜇𝜇}^� ^𝐷𝐷

𝐷𝐷/ 𝑛𝑛 ∼ 𝑡𝑡(𝑛𝑛 − 1)

 모평균의 차 𝝁𝝁_𝑫𝑫 = 𝝁𝝁_𝟏𝟏 − 𝝁𝝁_𝟐𝟐에 대한 𝟏𝟏𝟏𝟏𝟏𝟏 𝟏𝟏 − 𝜶𝜶 % 신뢰구간

�𝐷𝐷 − 𝑡𝑡_𝛼𝛼/2 𝑛𝑛 − 1 𝑆𝑆_𝐷𝐷

𝑛𝑛 , �𝐷𝐷 + 𝑡𝑡_𝛼𝛼/2 𝑛𝑛 − 1 𝑆𝑆_𝐷𝐷 𝑛𝑛

 모평균의 차이에 관한 추론 ^{(대응비교)}

(5)

 새로운 교육방법이 암기력을 향상시키는지 확인하기 위해 9명의 사람들 을 대상으로 교육 전 후의 암기점수를 측정하였다. 암기점수는 교육효과 뿐만 아니라 개인의 능력에 영향을 받으므로 개인 능력에 따른 효과를 제 거하기 위해서 개인별 암기점수의 차이인 𝑫𝑫_𝒊𝒊 = 𝑿𝑿_𝒊𝒊 − 𝒀𝒀_𝒊𝒊를 계산하여 추 론하기로 한다. 교육 전 암기점수의 모평균 𝝁𝝁_𝑿𝑿와 교육 후 암기점수의 모 평균 𝝁𝝁_𝒀𝒀의 차이를 신뢰수준 95%에서 추정하여라.

 예제 8.10

사람 1 2 3 4 5 6 7 8 9

𝑋𝑋_𝑖𝑖 64 89 18 62 85 69 87 63 72

𝑌𝑌_𝑖𝑖 68 82 21 75 81 75 83 56 76

(6)

 풀이

① 𝑖𝑖 = −0.89 𝑠𝑠_𝐷𝐷 = 6.79, 𝑡𝑡_0.025 8 = 2.31

② ∴ 𝜇𝜇_𝑋𝑋와 𝜇𝜇_𝑌𝑌 차이의 95% 신뢰구간(-6.12, 4.34)

 예제 8.10

(7)

• 유의수준 𝜶𝜶에서 모평균의 차에 대한 가설검정

𝑇𝑇 ∼ 𝑡𝑡 𝑛𝑛 − 1 , 𝑃𝑃 𝑇𝑇 > 𝑡𝑡_𝛼𝛼(𝑛𝑛 − 1) = 𝛼𝛼, 𝑠𝑠_𝐷𝐷²= _𝑛𝑛−1¹ ∑_𝑖𝑖=1^𝑛𝑛 𝑖𝑖_𝑖𝑖 − ̅𝑖𝑖 ²

 모평균의 차이에 대한 가설검정 ^{(대응비교)}

가설 𝑯𝑯_𝟏𝟏 ∶ 𝝁𝝁_𝑫𝑫 = 𝜹𝜹_𝟏𝟏 𝑯𝑯_𝟏𝟏 ∶ 𝝁𝝁_𝑫𝑫 ≠ 𝜹𝜹_𝟏𝟏

𝑯𝑯_𝟏𝟏 ∶ 𝝁𝝁_𝑫𝑫 = 𝜹𝜹_𝟏𝟏(𝒐𝒐𝒐𝒐 𝑯𝑯_𝟏𝟏 ∶ 𝝁𝝁_𝑫𝑫 = 𝜹𝜹_𝟏𝟏(𝒐𝒐𝒐𝒐

검정 통계량

(관측값) 𝒕𝒕 = �𝒅𝒅 − 𝜹𝜹_𝟏𝟏

𝒔𝒔_𝑫𝑫/ 𝒏𝒏 𝒕𝒕 = �𝒅𝒅 − 𝜹𝜹_𝟏𝟏

𝒔𝒔_𝑫𝑫/ 𝒏𝒏

임계값 𝒕𝒕_{𝜶𝜶/𝟐𝟐}(𝒏𝒏 − 𝟏𝟏) 𝒕𝒕_𝜶𝜶(𝒏𝒏 − 𝟏𝟏) −𝒕𝒕_𝜶𝜶(𝒏𝒏 − 𝟏𝟏)

유의

확률 2𝑷𝑷 𝑻𝑻 > 𝒕𝒕 𝑷𝑷 𝑻𝑻 > 𝒕𝒕 𝑷𝑷 𝑻𝑻 < 𝒕𝒕

𝑯𝑯_𝟏𝟏를 기각할

경우

𝒕𝒕 > 𝒕𝒕_{𝜶𝜶/𝟐𝟐}(𝒏𝒏 − 𝟏𝟏)

p-value< 𝜶𝜶 𝒕𝒕 > 𝒕𝒕_𝜶𝜶(𝒏𝒏 − 𝟏𝟏)

p-value< 𝜶𝜶 𝒕𝒕 < −𝒕𝒕_𝜶𝜶(𝒏𝒏 − 𝟏𝟏) p-value< 𝜶𝜶

(8)

 예제 8.10에서 교육 후 암기점수의 모평균 𝝁𝝁_𝑩𝑩가 교육 전 암기점수 의 모평균 𝝁𝝁_𝑨𝑨 보다 높다는 주장을 유의수준 5%에서 검정하여라.

 풀이

① 가설 𝐻𝐻₀ ∶ 𝜇𝜇_𝐴𝐴 − 𝜇𝜇_𝐵𝐵 = 0 , 𝐻𝐻₁∶ 𝜇𝜇_𝐴𝐴 − 𝜇𝜇_𝐵𝐵 < 0

② 검정통계량 𝑡𝑡 = _{6.79/ 9}^−0.89 = −0.39

③ 𝑡𝑡=-0.39 >= −𝑡𝑡_0.05 8 = −1.86 ⇒ 𝐻𝐻₀ 채택

④ ∴ 교육 후 암기점수가 교육 전 암기점수보다 높지 않다.

 예제 8.11

(9)

 A,B 두 진정제의 효과를 비교하기 위하여 12명의 환자를 건강상 태가 비슷한 환자끼리 묶어서 A와 B를 랜덤하게 적용하고 숙면시 간을 조사하였다. 두 진정제의 효과가 다르다고 할 수 있는지 유의 수준 5%하에서 검정하여라.

 예제

(10)

• 귀무가설과 대립가설의 설정

𝜇𝜇_𝐷𝐷 = 𝜇𝜇_𝐴𝐴 − 𝜇𝜇_𝐵𝐵 : 두 진정제의 효과 차이의 평균

𝐻𝐻₀ ∶ 𝜇𝜇_𝐷𝐷 = 0 𝐻𝐻₁ ∶ 𝜇𝜇_𝐷𝐷 ≠ 0

• 검정통계량 계산

̅𝑖𝑖 = −0.9, 𝑠𝑠_𝐷𝐷 = 0.7925 𝑡𝑡 = _𝑠𝑠^{�𝑑𝑑−𝛿𝛿}⁰

𝐷𝐷/ 𝑛𝑛 = _{0.7925/ 6}^−0.9 = −2.782 𝑡𝑡 > 𝑡𝑡_0.025 5 = 2.571

유의수준 5%의 기각역에 포함되므로 유의수준 5%하에서 귀무가설을 기각한다. 즉, 유의수준 5%하에서 두 진정제의 효과가 다르다고 판단할 수 있다.

 예제

^(계속)

(11)

𝜇𝜇_𝐴𝐴, 𝜇𝜇_𝐵𝐵 : A, B 진정제를 투여하였을 때의 숙면시간 𝐻𝐻₀ ∶ 𝜇𝜇_𝐴𝐴 = 𝜇𝜇_𝐵𝐵 𝐻𝐻₁ ∶ 𝜇𝜇_𝐴𝐴 ≠ 𝜇𝜇_𝐵𝐵

̅𝑥𝑥1 = 4.7, ̅𝑥𝑥₂ = 5.6, 𝑠𝑠₁² = 1.636, 𝑠𝑠₂² = 0.756 𝑠𝑠_𝑝𝑝² = 5(1.636+0.756)

10 = 1.196 𝑡𝑡 = ^̅𝑥𝑥¹^{− ̅𝑥𝑥}²

𝑠𝑠_𝑝𝑝^{2 1}_𝑛𝑛1+_𝑛𝑛2¹ = ^4.7−5.6

1.196 ¹₆+¹₆ = −1.425

 예제

(계속 – 독립표본을 가정한 경우)

(12)

̅𝑥𝑥1 = 4.7, ̅𝑥𝑥₂ = 5.6, 𝑠𝑠₁² = 1.636, 𝑠𝑠₂² = 0.756 𝑠𝑠_𝑝𝑝² = 5(1.636+0.756)

10 = 1.196 𝑡𝑡 = ^̅𝑥𝑥¹^{− ̅𝑥𝑥}²

𝑠𝑠_𝑝𝑝^{2 1}_𝑛𝑛1+_𝑛𝑛2¹ = ^4.7−5.6

1.196 ¹₆+¹₆ = −1.425

기각역 : 𝑡𝑡 > 𝑡𝑡_0.025 10 = 2.228

 예제

(13)

̅𝑥𝑥1 = 4.7, ̅𝑥𝑥₂ = 5.6, 𝑠𝑠₁² = 1.636, 𝑠𝑠₂² = 0.756 𝑠𝑠_𝑝𝑝² = 5(1.636+0.756)

10 = 1.196 𝑡𝑡 = ^̅𝑥𝑥¹^{− ̅𝑥𝑥}²

𝑠𝑠_𝑝𝑝^{2 1}_𝑛𝑛1+_𝑛𝑛2¹ = ^4.7−5.6

1.196 ¹₆+¹₆ = −1.425

기각역 : 𝑡𝑡 > 𝑡𝑡_0.025 10 = 2.228

 예제

독립표본으로 검정할 경우 진정제의 효과에 차이가 없다고 판단되어 진정제의 효과에 차이가 있다는 대응표본

결과와 다른 결론 발생

기각역에 포함되지 않으므로 효과가 다르다고 판단할 수 없다.

(14)

제 9장 여러 집단 비교

9.1 인자가 하나인 경우

9.2 수준별 모평균 비교

9.3 인자가 두 개인 경우

(15)

 비교 대상 집단이 3개 이상일 때, 집단별 특성값의 평균이 같은지 비교하는 방법

 특성값의 변동을 제곱합으로 나타내고, 제곱합을 요인(처리)별로 분해하여, 오차보다 큰 영향을 주는 요인을 찾는 분석 방법

 특성값의 변동 또는 분산을 분석하는 방법

 분산분석

(16)

 여러 공법에 의한 금속가공품의 인장강도의 차이 분석 문제

• 한 공법에 여러 명의 작업자를 할당하거나 또는 한 작업자가 여러 번 실험을 하였을 때

관측된 자료들의 변동은 작업자의 작업능률의 변동으로 생각

• 여러 가지 공법을 사용하였을 때

각 공법에서 관측된 인장강도들의 평균값이 다르게 나타나는 것은 공법에 따른 인장강도의 변동으로 생각

• (공법에 따른 관측값들의 변동) > (공법 이외의 요인에 의한 변동) 공법에 따른 인장강도에 차이가 있다고 판단

 분산분석 예

(17)

 특성값에 영향을 미칠 것으로 여겨지는 인자 하나가 있고, 그 인자가 𝑘𝑘개의 수준을 가질 때,

각 수준별로 반응값의 평균이 다른지 알아보는 방법

 특성값에 한 종류의 인자만의 영향을 조사할 때 사용

 처리 : 인자의 수준

 실험환경인 실험단위가 모두 동질적이라 가정

 수준수는 3~5, 반복수는 3~10을 많이 쓰며 완전랜덤화 계획으로 실험순서 결정

•일원배치법 또는 완전확률화법이라고도 함

 일원배치 분산분석

(18)

₅

(19)

 𝑘𝑘개의 모집단이 독립이며 정규분포를 따른다고 가정

 𝑦𝑦_{𝑖𝑖𝑖𝑖} ∶ 𝑖𝑖번째 처리에서 얻어진 𝑗𝑗 번째 관측값

 평균이 𝜇𝜇_𝑖𝑖이고 분산이 𝜎𝜎²인 정규모집단으로부터 𝑛𝑛개의 표본을 추 출하였다고 가정

 일원배치법의 구조모형

처리1 처리2 ⋯ 처리𝑖𝑖 ⋯ 처리𝑘𝑘

자료

𝑦𝑦₁₁ 𝑦𝑦₂₁ 𝑦𝑦_𝑖𝑖1 𝑦𝑦_𝑘𝑘1

𝑦𝑦₁₂ 𝑦𝑦₂₂ 𝑦𝑦_𝑖𝑖2 𝑦𝑦_𝑘𝑘2

𝑦𝑦₁₃ 𝑦𝑦₂₃ ⋯ 𝑦𝑦_𝑖𝑖3 ⋯ ^�𝑦𝑦_𝑘𝑘3�

⋮ ⋮ ⋮ ⋮

𝑦𝑦_1𝑛𝑛 𝑦𝑦_2𝑛𝑛 𝑦𝑦_{𝑖𝑖𝑛𝑛} 𝑦𝑦_{𝑘𝑘𝑛𝑛} 평균 𝑦𝑦_1. 𝑦𝑦_2. ⋯ 𝑦𝑦_𝑖𝑖. ⋯ 𝑦𝑦_𝑘𝑘.

처리 𝑖𝑖의 평균

𝑦𝑦_𝑖𝑖. = ^𝑦𝑦^𝑖𝑖1^+𝑦𝑦^𝑖𝑖2_𝑛𝑛^{+⋯+𝑦𝑦}^{𝑖𝑖𝑛𝑛}

전체 평균

𝑦𝑦_.. = ^𝑦𝑦^1.^+𝑦𝑦^2._𝑘𝑘^+⋯𝑦𝑦^𝑘𝑘.

(20)

 모형

• 인자는 모수인자. 즉, 처리별 효과는 상수

• 𝑦𝑦_{𝑖𝑖𝑖𝑖} = 𝜇𝜇 + 𝛼𝛼_𝑖𝑖 + 𝜖𝜖_{𝑖𝑖𝑖𝑖} 𝑖𝑖 = 1,2, ⋯ , 𝑘𝑘, 𝑗𝑗 = 1,2, ⋯ , 𝑛𝑛

𝜖𝜖_{𝑖𝑖𝑖𝑖}~𝑁𝑁 0, 𝜎𝜎² 이고 독립, �

𝑖𝑖=1 𝑘𝑘

𝛼𝛼_𝑖𝑖 = 0

• 𝜇𝜇 : 총평균 (처리 효과 전체의 모평균)

• 𝜇𝜇_𝑖𝑖 = 𝜇𝜇 + 𝛼𝛼_𝑖𝑖 : 𝑖𝑖 번째 모집단의 평균

• 𝛼𝛼_𝑖𝑖 = 𝜇𝜇_𝑖𝑖 − 𝜇𝜇 : 𝑖𝑖 번째 처리효과

• 𝜖𝜖_{𝑖𝑖𝑖𝑖}: 오차항

 일원배치법의 모형

(21)

𝒚𝒚 _{𝒊𝒊𝒊𝒊} = 𝝁𝝁 + 𝜶𝜶 _𝒊𝒊 + 𝜺𝜺 _{𝒊𝒊𝒊𝒊}

(22)

𝒚𝒚 _{𝒊𝒊𝒊𝒊} = 𝝁𝝁 + 𝜶𝜶 _𝒊𝒊 + 𝜺𝜺 _{𝒊𝒊𝒊𝒊}

𝑯𝑯 _𝟏𝟏 ∶ 𝝁𝝁 _𝟏𝟏 = 𝝁𝝁 _𝟐𝟐 = ⋯ = 𝝁𝝁 _𝒌𝒌

(23)

𝒚𝒚 _{𝒊𝒊𝒊𝒊} = 𝝁𝝁 + 𝜶𝜶 _𝒊𝒊 + 𝜺𝜺 _{𝒊𝒊𝒊𝒊}

𝑯𝑯 _𝟏𝟏 ∶ 𝝁𝝁 _𝟏𝟏 = 𝝁𝝁 _𝟐𝟐 = ⋯ = 𝝁𝝁 _𝒌𝒌

𝑯𝑯 _𝟏𝟏 ∶ 𝜶𝜶 _𝟏𝟏 = 𝜶𝜶 _𝟐𝟐 = ⋯ = 𝜶𝜶 _𝒌𝒌 = 𝟏𝟏

(24)

𝒚𝒚 _{𝒊𝒊𝒊𝒊} = 𝝁𝝁 + 𝜶𝜶 _𝒊𝒊 + 𝜺𝜺 _{𝒊𝒊𝒊𝒊}

𝑯𝑯 _𝟏𝟏 ∶ 𝝁𝝁 _𝟏𝟏 = 𝝁𝝁 _𝟐𝟐 = ⋯ = 𝝁𝝁 _𝒌𝒌

𝑯𝑯 _𝟏𝟏 ∶ 𝜶𝜶 _𝟏𝟏 = 𝜶𝜶 _𝟐𝟐 = ⋯ = 𝜶𝜶 _𝒌𝒌 = 𝟏𝟏

𝑯𝑯 _𝟏𝟏 ∶ 𝑵𝑵𝒐𝒐𝒕𝒕 𝑯𝑯 _𝟏𝟏

(25)

 가설

𝐻𝐻₀∶ 𝜇𝜇₁ = 𝜇𝜇₂ = ⋯ = 𝜇𝜇_𝑘𝑘 (𝛼𝛼₁ = 𝛼𝛼₂ = ⋯ 𝛼𝛼_𝑘𝑘 = 0 )

𝐻𝐻₁ ∶ 적어도 두 𝜇𝜇_𝑖𝑖는 같지 않다. (적어도 한 𝛼𝛼_𝑖𝑖는 0이 아니다.)

 검정 통계량 : 𝐹𝐹 = ^{𝑀𝑀𝑆𝑆}_{𝑀𝑀𝑆𝑆𝑀𝑀}^{𝑡𝑡𝑡𝑡} ~𝐹𝐹(𝑘𝑘 − 1, 𝑁𝑁 − 𝑘𝑘) 𝑢𝑢𝑛𝑛𝑖𝑖𝑢𝑢𝑢𝑢 𝐻𝐻₀

 처리효과의 유의성 검정

(26)

 유의수준 𝜶𝜶 의 기각역 : 𝐹𝐹 > 𝐹𝐹_𝛼𝛼(𝑘𝑘 − 1, 𝑁𝑁 − 𝑘𝑘) -귀무가설 기각 : 인자의 수준들 간에 차이가 있다

 관측값을 𝒇𝒇라 할 때, 유의확률 𝒑𝒑 = 𝑃𝑃 𝐹𝐹 > 𝑓𝑓 , 𝐹𝐹~𝐹𝐹(𝑘𝑘 − 1, 𝑁𝑁 − 𝑘𝑘)

 변동을 정의하기 위해 데이터의 중심 개념 및 데이터가 중심으로부터 떨어진 거리 개념 필요

제 8장 두 집단 비교