제 5장 표본추출과 표본분포
5.1 표본추출과 표본분포의 정의 5.2 표본평균 � 𝑿𝑿의 분포
5.3 중심극한정리
표본추출 용어정리
용어정리
•모수 (parameter) - 모집단의 특성을 결정하는 상수
•통계량 (statistic) - 표본으로부터 계산 가능한 표본의 특성값
•추정량 (estimator) - 모수의 추정을 위한 통계량 예) �𝑋𝑋, 𝑠𝑠2, ̂𝑝𝑝 , ⋯
•표본분포 (sample distribution) - 통계량의 확률분포
예제
유한모집단 {1, 2, 3, 4}에서 크기 2인 표본을 단순랜덤비복원 추출 하였을 때, 표본평균의 표본분포는?
유한모집단 {1, 2, 3, 4}에서 크기 2인 표본을 단순랜덤복원 추출하 였을 때, 표본평균의 표본분포는?
{1,1} {1,2} {1,3} {1,4}
{2,1} {2,2} {2,3} {2,4}
{3,1} {3,2} {3,3} {3,4}
{4,1} {4,2} {4,3} {4,4}
예제
표본평균
𝑋𝑋1, 𝑋𝑋2, … , 𝑋𝑋𝑛𝑛 : 평균 𝜇𝜇, 분산 𝜎𝜎2 인 랜덤표본( 𝑋𝑋𝑖𝑖~𝑖𝑖𝑖𝑖𝑖𝑖 𝜇𝜇, 𝜎𝜎2 ) 표본평균 : �𝑋𝑋 = 𝑋𝑋1 + ⋯ + 𝑋𝑋𝑛𝑛 𝑛𝑛 = 𝑛𝑛1 ∑𝑖𝑖=1𝑛𝑛 𝑋𝑋𝑖𝑖
•표본평균의 기대값
𝐸𝐸 �𝑋𝑋 = 𝐸𝐸 𝑋𝑋1 + ⋯ + 𝑋𝑋𝑛𝑛
𝑛𝑛 = 𝜇𝜇
•표본평균의 분산
𝑉𝑉𝑉𝑉𝑉𝑉 �𝑋𝑋 = 𝑉𝑉𝑉𝑉𝑉𝑉 𝑋𝑋1 + ⋯ + 𝑋𝑋𝑛𝑛 𝑛𝑛 = 𝜎𝜎𝑛𝑛2
표본평균의 기대값과 분산 (무한모집단의 경우)
𝑿𝑿𝒊𝒊 ~ 𝝁𝝁, 𝝈𝝈𝟐𝟐
𝑿𝑿𝒊𝒊 ~ 𝝁𝝁, 𝝈𝝈𝟐𝟐 𝑩𝑩 𝒏𝒏, 𝒑𝒑
𝑵𝑵 𝝁𝝁, 𝝈𝝈𝟐𝟐
𝑿𝑿𝒊𝒊 ~ 𝝁𝝁, 𝝈𝝈𝟐𝟐 𝟏𝟏 ≤ 𝒊𝒊 ≤ 𝒏𝒏 𝑩𝑩 𝒏𝒏, 𝒑𝒑
𝑵𝑵 𝝁𝝁, 𝝈𝝈𝟐𝟐
𝑿𝑿
𝒊𝒊~ 𝝁𝝁, 𝝈𝝈
iid 𝟐𝟐 𝟏𝟏 ≤ 𝒊𝒊 ≤ 𝒏𝒏Indepent and identically distributed
표본평균
𝑋𝑋1, 𝑋𝑋2, … , 𝑋𝑋𝑛𝑛 : 평균 𝜇𝜇, 분산 𝜎𝜎2 인 랜덤표본( 𝑋𝑋𝑖𝑖~𝑖𝑖𝑖𝑖𝑖𝑖 𝜇𝜇, 𝜎𝜎2 ) 표본평균 : �𝑋𝑋 = 𝑋𝑋1 + ⋯ + 𝑋𝑋𝑛𝑛 𝑛𝑛 = 𝑛𝑛1 ∑𝑖𝑖=1𝑛𝑛 𝑋𝑋𝑖𝑖
•표본평균의 기대값
𝐸𝐸 �𝑋𝑋 = 𝐸𝐸 𝑋𝑋1 + ⋯ + 𝑋𝑋𝑛𝑛
𝑛𝑛 = 𝜇𝜇
•표본평균의 분산
𝑉𝑉𝑉𝑉𝑉𝑉 �𝑋𝑋 = 𝑉𝑉𝑉𝑉𝑉𝑉 𝑋𝑋1 + ⋯ + 𝑋𝑋𝑛𝑛 𝑛𝑛 = 𝜎𝜎𝑛𝑛2
표본평균의 기대값과 분산 (무한모집단의 경우)
𝑽𝑽𝑽𝑽𝑽𝑽(𝑽𝑽𝑿𝑿 + 𝒃𝒃)
𝒊𝒊= 𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽(𝑿𝑿)
𝑽𝑽𝑽𝑽𝑽𝑽 𝑿𝑿𝟏𝟏 + ⋯ + 𝑿𝑿𝒏𝒏
𝒏𝒏 = 𝟏𝟏
𝒏𝒏𝟐𝟐 𝑽𝑽𝑽𝑽𝑽𝑽(𝑿𝑿𝟏𝟏 + ⋯ + 𝑿𝑿𝒏𝒏)
𝑽𝑽𝑽𝑽𝑽𝑽 𝑿𝑿 + 𝒀𝒀 = 𝑽𝑽𝑽𝑽𝑽𝑽 𝑿𝑿 + 𝑽𝑽𝑽𝑽𝑽𝑽(𝒀𝒀)
𝑽𝑽𝑽𝑽𝑽𝑽(𝑽𝑽𝑿𝑿 + 𝒃𝒃)
𝒊𝒊= 𝑽𝑽𝑽𝑽𝑽𝑽𝑽𝑽(𝑿𝑿)
𝑽𝑽𝑽𝑽𝑽𝑽 𝑿𝑿𝟏𝟏 + ⋯ + 𝑿𝑿𝒏𝒏
𝒏𝒏 = 𝟏𝟏
𝒏𝒏𝟐𝟐 𝑽𝑽𝑽𝑽𝑽𝑽(𝑿𝑿𝟏𝟏 + ⋯ + 𝑿𝑿𝒏𝒏)
= 𝟏𝟏
𝒏𝒏𝟐𝟐 (𝝈𝝈𝟐𝟐 + 𝝈𝝈𝟐𝟐 + ⋯ + 𝝈𝝈𝟐𝟐)
= 𝝈𝝈𝟐𝟐/n
표본평균
𝑋𝑋1, 𝑋𝑋2, … , 𝑋𝑋𝑛𝑛 : 평균 𝜇𝜇, 분산 𝜎𝜎2 인 랜덤표본( 𝑋𝑋𝑖𝑖~𝑖𝑖𝑖𝑖𝑖𝑖 𝜇𝜇, 𝜎𝜎2 ) 표본평균 : �𝑋𝑋 = 𝑋𝑋1 + ⋯ + 𝑋𝑋𝑛𝑛 𝑛𝑛 = 𝑛𝑛1 ∑𝑖𝑖=1𝑛𝑛 𝑋𝑋𝑖𝑖
•표본평균의 기대값
𝐸𝐸 �𝑋𝑋 = 𝐸𝐸 𝑋𝑋1 + ⋯ + 𝑋𝑋𝑛𝑛
𝑛𝑛 = 𝜇𝜇
•표본평균의 분산
𝑉𝑉𝑉𝑉𝑉𝑉 �𝑋𝑋 = 𝑉𝑉𝑉𝑉𝑉𝑉 𝑋𝑋1 + ⋯ + 𝑋𝑋𝑛𝑛 𝑛𝑛 = 𝜎𝜎𝑛𝑛2
표본평균의 기대값과 분산 (무한모집단의 경우)
표준오차 (standard error : s.e.)
• A의 표준오차 : 추정량 A의 표준편차
• 표본평균의 표준오차 = 표본평균의 표준편차 = 표준오차
표본평균의 표준오차 : 𝑽𝑽𝑽𝑽𝑽𝑽 (�𝑿𝑿) = 𝝈𝝈𝒏𝒏𝟐𝟐 = 𝝈𝝈𝒏𝒏
표준오차
표본의 크기가 클수록 그 분산이 0에 가까워져
표본평균은 모평균 근처에 밀집
𝑿𝑿𝒊𝒊 ~ 𝝁𝝁, 𝝈𝝈𝟐𝟐 𝟏𝟏 ≤ 𝒊𝒊 ≤ 𝒏𝒏 𝒔𝒔𝒔𝒔 �𝑿𝑿 = 𝝈𝝈
𝒏𝒏 = 𝒔𝒔. 𝒆𝒆. �𝑿𝑿
표준오차 (standard error : s.e.)
• A의 표준오차 : 추정량 A의 표준편차
• 표본평균의 표준오차 = 표본평균의 표준편차 = 표준오차
표본평균의 표준오차 : 𝑽𝑽𝑽𝑽𝑽𝑽 (�𝑿𝑿) = 𝝈𝝈𝒏𝒏𝟐𝟐 = 𝝈𝝈𝒏𝒏
표준오차
표본의 크기가 클수록 그 분산이 0에 가까워져
표본평균은 모평균 근처에 밀집
표본평균
𝑋𝑋1, 𝑋𝑋2, … , 𝑋𝑋𝑛𝑛 : 평균 𝜇𝜇, 분산 𝜎𝜎2 인 랜덤표본( 𝑋𝑋𝑖𝑖~𝑖𝑖𝑖𝑖𝑖𝑖 𝜇𝜇, 𝜎𝜎2 ) 표본평균 : �𝑋𝑋 = 𝑋𝑋1 + ⋯ + 𝑋𝑋𝑛𝑛 𝑛𝑛 = 𝑛𝑛1 ∑𝑖𝑖=1𝑛𝑛 𝑋𝑋𝑖𝑖
•표본평균의 기대값
𝐸𝐸 �𝑋𝑋 = 𝐸𝐸 𝑋𝑋1 + ⋯ + 𝑋𝑋𝑛𝑛
𝑛𝑛 = 𝜇𝜇
•표본평균의 분산
𝑉𝑉𝑉𝑉𝑉𝑉 �𝑋𝑋 = 𝑉𝑉𝑉𝑉𝑉𝑉 𝑋𝑋1 + ⋯ + 𝑋𝑋𝑛𝑛 𝑛𝑛 = 𝑁𝑁−𝑛𝑛𝑁𝑁−1 × 𝜎𝜎𝑛𝑛2
표본평균의 기대값과 분산 (유한모집단 비복원추출)
모평균이 10, 모분산이 0.25인 크기 1000인 모집단에서 크기 25인 임의표본을 복원추출과 비복원추출을 할 때, 각 경우 �𝑿𝑿의 평균과 분산을 구하라.
풀이
① 추출방법에 관계없이 𝐸𝐸 𝑋𝑋 = 𝜇𝜇 이므로 𝐸𝐸 𝑋𝑋 = 10
② 비복원추출일 때 𝑋𝑋 의 분산 : V𝑉𝑉𝑉𝑉 𝑋𝑋 = N−nN−1 × σn2 = 0.00976
③ 복원추출일 때 𝑋𝑋 의 분산 : V𝑉𝑉𝑉𝑉 𝑋𝑋 = σn2 = 0.2525 = 0.01
예제 5.1
제 5장 표본추출과 표본분포
5.1 표본추출과 표본분포의 정의 5.2 표본평균 �𝑋𝑋의 분포
5.3 중심극한정리
주사위 n개를 여러 번 던질 때
평균의 분포 (히스토그램)와 정규분포(실선)의 비교
중심극한정리의 예
주사위 n개를 여러 번 던질 때
평균의 분포 (히스토그램)와 정규분포(실선)의 비교
중심극한정리의 예
정규분포의 성질
• 𝑋𝑋1, 𝑋𝑋2, … , 𝑋𝑋𝑛𝑛 ∶ 𝑋𝑋𝑖𝑖 ~𝑖𝑖𝑖𝑖𝑖𝑖 𝑁𝑁(𝜇𝜇, 𝜎𝜎2)이면 �𝑋𝑋~ 𝑁𝑁 𝜇𝜇, 𝜎𝜎𝑛𝑛2
중심극한정리(central limit theorem: CLT)
• 𝑋𝑋1, 𝑋𝑋2, … , 𝑋𝑋𝑛𝑛 ∶ 𝑋𝑋𝑖𝑖 ~𝑖𝑖𝑖𝑖𝑖𝑖(𝜇𝜇, 𝜎𝜎2)이고 𝑛𝑛이 충분히 크면 (보통 𝑛𝑛 >
30) 모집단의 분포에 관계없이 근사적으로 정규분포를 따름
�𝑋𝑋~𝑁𝑁 𝜇𝜇,𝜎𝜎𝑛𝑛2 또는 𝑍𝑍 = 𝜎𝜎 / 𝑛𝑛�𝑋𝑋−𝜇𝜇 ~𝑁𝑁(0,1)
• 동일하고 독립적인 분포를 갖는 확률변수 𝑛𝑛개의 평균은 중심 에 몰린 대칭 형태의 분포(정규분포)로 변화
중심극한정리
의사들이 참고하는 어린이 성장표에 따르면 생후 2년 된 남아의 키 는 평균이 𝟗𝟗𝟎𝟎𝒄𝒄𝒄𝒄이고 표준 편차가 𝟐𝟐𝟓𝟓 𝒄𝒄𝒄𝒄인 정규분포를 따른다.
만약 임의로 생후 2년 된 남아 𝟐𝟐𝟓𝟓명을 선택하였을 때, 표본평균이 𝟖𝟖𝟕𝟕. 𝟓𝟓𝒄𝒄𝒄𝒄에서 𝟗𝟗𝟑𝟑. 𝟐𝟐𝒄𝒄𝒄𝒄 사이일 확률은 얼마인가?
풀이
예제 5.2
의사들이 참고하는 어린이 성장표에 따르면 생후 2년 된 남아의 키는 평균이 𝟗𝟗𝟎𝟎𝒄𝒄𝒄𝒄이고 표준 편차가 𝟐𝟐𝟓𝟓 𝒄𝒄𝒄𝒄인 정규분포를 따른다.만약 임의로 생후 2년 된 남아 𝟐𝟐𝟓𝟓명을 선택하 였을 때, 표본평균이 𝟖𝟖𝟕𝟕. 𝟓𝟓𝒄𝒄𝒄𝒄에서 𝟗𝟗𝟑𝟑. 𝟐𝟐𝒄𝒄𝒄𝒄 사이일 확률은 얼마인가?
풀이
① 남아의 키 𝑋𝑋는 𝜇𝜇 = 90, 𝜎𝜎 = 25인 정규분포를 따른다.
② 25명의 표본평균 𝑋𝑋 는 정규분포를 따른다.
예제 5.2
𝑿𝑿 ∶ 남아의 키 𝑿𝑿~𝑵𝑵(𝟗𝟗𝟎𝟎, 𝟐𝟐𝟓𝟓𝟐𝟐)
𝑷𝑷(𝟖𝟖𝟕𝟕. 𝟓𝟓 ≤ �𝑿𝑿 ≤ 𝟗𝟗𝟑𝟑. 𝟐𝟐)
𝑿𝑿 ∶ 남아의 키 𝑿𝑿~𝑵𝑵(𝟗𝟗𝟎𝟎, 𝟐𝟐𝟓𝟓𝟐𝟐)
𝑷𝑷(𝟖𝟖𝟕𝟕. 𝟓𝟓 ≤ �𝑿𝑿 ≤ 𝟗𝟗𝟑𝟑. 𝟐𝟐) 𝑿𝑿𝟏𝟏, ⋯ , 𝑿𝑿𝟐𝟐𝟓𝟓 ~ 𝑵𝑵(𝟗𝟗𝟎𝟎, 𝟐𝟐𝟓𝟓𝟐𝟐)
𝑿𝑿 ∶ 남아의 키 𝑿𝑿~𝑵𝑵(𝟗𝟗𝟎𝟎, 𝟐𝟐𝟓𝟓𝟐𝟐)
𝑷𝑷(𝟖𝟖𝟕𝟕. 𝟓𝟓 ≤ �𝑿𝑿 ≤ 𝟗𝟗𝟑𝟑. 𝟐𝟐) 𝑿𝑿𝟏𝟏, ⋯ , 𝑿𝑿𝟐𝟐𝟓𝟓 ~ 𝑵𝑵(𝟗𝟗𝟎𝟎, 𝟐𝟐𝟓𝟓𝟐𝟐)
�𝑿𝑿~𝑵𝑵 (𝟗𝟗𝟎𝟎, 𝟐𝟐𝟓𝟓𝟐𝟐𝟓𝟓 )𝟐𝟐
의사들이 참고하는 어린이 성장표에 따르면 생후 2년 된 남아의 키는 평균이 𝟗𝟗𝟎𝟎𝒄𝒄𝒄𝒄이고 표준 편차가 𝟐𝟐𝟓𝟓 𝒄𝒄𝒄𝒄인 정규분포를 따른다.만약 임의로 생후 2년 된 남아 𝟐𝟐𝟓𝟓명을 선택하 였을 때, 표본평균이 𝟖𝟖𝟕𝟕. 𝟓𝟓𝒄𝒄𝒄𝒄에서 𝟗𝟗𝟑𝟑. 𝟐𝟐𝒄𝒄𝒄𝒄 사이일 확률은 얼마인가?
풀이
① 남아의 키 𝑋𝑋는 𝜇𝜇 = 90, 𝜎𝜎 = 25인 정규분포를 따른다.
② 25명의 표본평균 𝑋𝑋는 정규분포를 따른다.
③ 𝐸𝐸 𝑋𝑋 = 90 , 𝑆𝑆𝑆𝑆(𝑋𝑋) = 2525 = 5
④ P 87.5 ≤ �𝑋𝑋 ≤ 93.2 = 𝑃𝑃 87.5−905 ≤ 𝑍𝑍 ≤ 93.2−905
= 𝑃𝑃 −0.5 ≤ 𝑍𝑍 ≤ 0.64 = 𝑃𝑃 𝑍𝑍 ≤ 0.64 – 𝑃𝑃 𝑍𝑍 ≤ −0.5
= 0.7389 − 0.3085 = 0.4304
예제 5.2
컴퓨터의 부팅시간은 평균 30초이며 표준편차가 2초로 알려져 있다. (분포가정 없음). 100회 부팅하면서 시간을 기록할 때, 기 록된 시간의 평균이 29.5 이하일 확률은?
•확률변수 𝑋𝑋 : 컴퓨터 부팅 시간 ∼ (30, 22)
•표본 𝑋𝑋1, … , 𝑋𝑋100 ∼ 𝑖𝑖𝑖𝑖𝑖𝑖 (30, 22)
•표본의 크기가 100으로 충분히 크므로 중심극한정리에 의한 표본평 균의 분포 �𝑋𝑋~𝑁𝑁 30, 21002
𝑃𝑃 �𝑋𝑋 ≤ 29.5 = 𝑃𝑃 �𝑋𝑋 − 30 2/10 ≤
29.5 − 30
2/10 = 𝑃𝑃 𝑍𝑍 ≤ −2.5 = 0.0062
중심극한정리의 예
어느 회사에서 생산되는 의료용 전구의 수명 𝑿𝑿는 2,000시간, 표 준편차가 120시간으로 알려져 있다. 이 제품들로부터 임의로 추출 한 100개의 평균수명을 �𝑿𝑿라 할 때 다음을 구하여라.
1) P(1988< �X<2024) 2) P(�X ≥2010)
예제 5.3
풀이
① 모평균 µ = 2,000 , 모표준편차 σ = 120 , 표본의 크기 n = 100
② 표본의 크기가 크기 때문에 �X는 근사적으로 정규분포를 따른다.0
③ 1) P 1988 < X < 2024 = (1988−2000120 100
< �X−2000120 100
< 2024−2000120 100
)
= P −1 < Z < 2
= P Z < 2 − P Z < −1
= 0.9973 − 0.1587 = 0.8186 2) 𝑃𝑃 �𝑋𝑋 ≥ 2010 = (�𝑋𝑋−2000120
100
≥ 2010−2000120
100
)
= 𝑃𝑃 𝑍𝑍 ≥ 0.8333 = 1 − 𝑃𝑃 𝑍𝑍 ≤ 0.8333
= 1 − 0.7975 = 0.2025
예제 5.3
(계속) 𝑿𝑿𝟏𝟏, 𝑿𝑿𝟐𝟐, … , 𝑿𝑿𝒏𝒏 ~ 𝒊𝒊𝒊𝒊𝒔𝒔 𝑩𝑩 𝟏𝟏, 𝒑𝒑
𝑋𝑋 = ∑𝑖𝑖=1𝑛𝑛 𝑋𝑋𝑖𝑖 ~ 𝐵𝐵(𝑛𝑛, 𝑝𝑝)
̂𝑝𝑝 = 𝑋𝑋𝑛𝑛 : 표본비율
• 𝑛𝑛 이 충분히 클 때,
Z = 𝑛𝑛𝑛𝑛(1−𝑛𝑛)𝑋𝑋−𝑛𝑛𝑛𝑛 = 𝑛𝑛 1−𝑛𝑛 /𝑛𝑛�𝑛𝑛 −𝑛𝑛 ≈ 𝑁𝑁(0,1)
• 정규근사는 𝑛𝑛𝑝𝑝 ≥ 5 이고 𝑛𝑛 1 − 𝑝𝑝 ≥ 5 일 때 안전
이항분포의 정규근사
𝐄𝐄 𝐗𝐗𝐢𝐢 = � 𝐱𝐱𝐢𝐢 𝐩𝐩𝐢𝐢
= 𝟏𝟏 � 𝐏𝐏 𝐱𝐱 = 𝟏𝟏 + 𝟎𝟎 � 𝐏𝐏 𝐱𝐱 = 𝟎𝟎
= 𝐏𝐏
𝐄𝐄 𝐗𝐗𝐢𝐢 = � 𝐱𝐱𝐢𝐢 𝐩𝐩𝐢𝐢
= 𝟏𝟏 � 𝐏𝐏 𝐱𝐱 = 𝟏𝟏 + 𝟎𝟎 � 𝐏𝐏 𝐱𝐱 = 𝟎𝟎
= 𝐏𝐏
Var 𝐗𝐗𝐢𝐢 = 𝐄𝐄 𝑿𝑿𝒊𝒊𝟐𝟐 − (𝑬𝑬 𝑿𝑿𝒊𝒊 )𝟐𝟐
= 𝑷𝑷 − 𝑷𝑷𝟐𝟐
𝑿𝑿𝒊𝒊 ~ 𝑷𝑷, 𝑷𝑷 − 𝑷𝑷𝟐𝟐 𝟏𝟏 ≤ 𝒊𝒊 ≤ 𝒏𝒏
�𝑿𝑿~𝑵𝑵(𝑷𝑷, 𝑷𝑷 − 𝑷𝑷𝒏𝒏 )𝟐𝟐
𝑿𝑿𝒊𝒊 ~ 𝑷𝑷, 𝑷𝑷 − 𝑷𝑷𝟐𝟐 𝟏𝟏 ≤ 𝒊𝒊 ≤ 𝒏𝒏
∑ 𝑿𝑿𝒊𝒊
𝒏𝒏 = �𝑿𝑿~𝑵𝑵(𝑷𝑷, 𝑷𝑷 − 𝑷𝑷𝒏𝒏 )𝟐𝟐
𝑿𝑿𝒊𝒊 ~ 𝑷𝑷, 𝑷𝑷 − 𝑷𝑷𝟐𝟐 𝟏𝟏 ≤ 𝒊𝒊 ≤ 𝒏𝒏
∑ 𝑿𝑿𝒊𝒊
𝒏𝒏 = �𝑿𝑿~𝑵𝑵(𝑷𝑷, 𝑷𝑷 − 𝑷𝑷𝒏𝒏 )𝟐𝟐
𝑿𝑿
𝒏𝒏 ~𝑵𝑵 𝑷𝑷, 𝑷𝑷−𝑷𝑷𝒏𝒏 𝟐𝟐
= (𝑿𝑿𝒏𝒏 − 𝑷𝑷) / 𝑷𝑷−𝑷𝑷𝒏𝒏 𝟐𝟐
𝑿𝑿𝒊𝒊 ~ 𝑷𝑷, 𝑷𝑷 − 𝑷𝑷𝟐𝟐 𝟏𝟏 ≤ 𝒊𝒊 ≤ 𝒏𝒏
∑ 𝑿𝑿𝒊𝒊
𝒏𝒏 = �𝑿𝑿~𝑵𝑵(𝑷𝑷, 𝑷𝑷 − 𝑷𝑷𝒏𝒏 )𝟐𝟐
𝑿𝑿
𝒏𝒏 ~𝑵𝑵 𝑷𝑷, 𝑷𝑷−𝑷𝑷𝒏𝒏 𝟐𝟐
𝐙𝐙 = (𝑿𝑿𝒏𝒏 − 𝑷𝑷) / 𝑷𝑷−𝑷𝑷𝒏𝒏 𝟐𝟐
𝑿𝑿𝟏𝟏, 𝑿𝑿𝟐𝟐, … , 𝑿𝑿𝒏𝒏 ~ 𝒊𝒊𝒊𝒊𝒔𝒔 𝑩𝑩 𝟏𝟏, 𝒑𝒑
𝑋𝑋 = ∑𝑖𝑖=1𝑛𝑛 𝑋𝑋𝑖𝑖 ~ 𝐵𝐵(𝑛𝑛, 𝑝𝑝)
̂𝑝𝑝 = 𝑋𝑋𝑛𝑛 : 표본비율
• 𝑛𝑛 이 충분히 클 때,
Z = 𝑛𝑛𝑛𝑛(1−𝑛𝑛)𝑋𝑋−𝑛𝑛𝑛𝑛 = 𝑛𝑛 1−𝑛𝑛 /𝑛𝑛�𝑛𝑛 −𝑛𝑛 ≈ 𝑁𝑁(0,1)
• 정규근사는 𝑛𝑛𝑝𝑝 ≥ 5 이고 𝑛𝑛 1 − 𝑝𝑝 ≥ 5 일 때 안전
이항분포의 정규근사
이항분포의 정규근사
0.5 0.5
이항분포의 정규근사
0.5 0.5
이항분포의 정규근사 예시 (p= 𝟎𝟎. 𝟐𝟐)
오른쪽으로 꼬리가 긴 형태에서 대칭인 형태로 바뀜
이항분포의 정규근사
n= 5 n= 10 n= 15
n= 40 n= 20
앞면이 나올 확률이 1/2 인 동전을 100회 던졌을 때, 앞면이 나 온 횟수가 40회 이상 55회 이하일 확률은?
•확률변수 𝑋𝑋 : 100번 동전을 던졌을 때, 앞면이 나온 횟수
• 𝑋𝑋 ∼ 𝐵𝐵(100,0.5)
•구하고자 하는 확률 : 𝑃𝑃(40 ≤ 𝑋𝑋 ≤ 55)
•이항분포확률계산
𝑃𝑃 40 ≤ 𝑋𝑋 ≤ 50 = ∑𝑥𝑥=4055 𝑃𝑃(𝑋𝑋 ≤ 𝑥𝑥) = 0.8467734
•정규근사 이용 : 𝐸𝐸 𝑋𝑋 = 50, Var 𝑋𝑋 = 25
𝑃𝑃 40 ≤ 𝑋𝑋 ≤ 50 = 𝑃𝑃 40 − 50
5 ≤ 𝑋𝑋 − 50
5 ≤ 55 − 50
5 = 0.8185946
이항분포의 정규근사 예제
𝑿𝑿가 이항분포 𝑩𝑩(𝟒𝟒𝟓𝟓, 𝟑𝟑/𝟖𝟖) 일 때, 다음 확률의 근삿값을 구하라.
1) 𝑃𝑃 𝑋𝑋 < 20 2) 𝑃𝑃 𝑋𝑋 = 17
3) 𝑃𝑃(20 < 𝑋𝑋 ≤ 25)
풀이
예제 5.4
풀이
① np = 45 × 38 = 16.875 > 5, n 1 − p = 45 × 58 = 28.125>5 로 정규근사가능
② Var X = np 1 − p = 45 × 38 × 58 = 10.547
③ 1) 𝑃𝑃 𝑋𝑋 < 20 = 𝑃𝑃 𝑋𝑋 ≤ 19 ≅ 𝑃𝑃 𝑋𝑋 ≤ 19.5
= 𝑃𝑃 𝑍𝑍 ≤ 19.5−16.875)
10.547 = 𝑃𝑃 𝑍𝑍 ≤ 0.8083 = 0.7915
예제 5.4
풀이
2) 𝑃𝑃 𝑋𝑋 = 17 ≅ 𝑃𝑃 16.5 ≤ 𝑋𝑋 ≤ 17.5
= 𝑃𝑃 16.5−16.875
10.547 ≤ 𝑍𝑍 ≤ 17.5−16.875 10.547
= 𝑃𝑃 −0.12 ≤ 𝑍𝑍 ≤ 0.19 = 𝑃𝑃 𝑍𝑍 ≤ 0.19 − 𝑃𝑃(𝑍𝑍 ≤ −0.12)
= 0.5753 − 0.4522
3) 𝑃𝑃 20 < 𝑋𝑋 < 25 = 𝑃𝑃 21 < 𝑋𝑋 ≤ 25 ≅ 𝑃𝑃 20.5 ≤ 𝑋𝑋 ≤ 25.5
= 𝑃𝑃 20.5−16.875
10.547 ≤ 𝑍𝑍 ≤ 25.5−16.875 10.547
= 𝑃𝑃 1.12 ≤ 𝑍𝑍 ≤ 2.66 = 𝑃𝑃 𝑍𝑍 ≤ 2.66 − P Z ≤ 1.12
= 0.9961 − 0.8686 = 0.1275