1
제 7장. 표본분포
대개의 통계는 표본에 의해서 모집단의 특성을 파악한다. 예를 들면 시청률, 불량품 검사, 정당 지지도 등등을 예로 들 수 있으며, 모집단의 특성을 잘 대변하려면 표본추출이 가장 기본이라 할 수 있다.
7.1 표본추출법
모집단에서 좋은 표본을 추출하기 위한 방법이 표본 추출법이다. 모집단으로부터 표본을 추출할 때는 필수적으로 오차가 발생한다. 이것을 표본오차라 하며 표본오차는 표본크기의 제곱근에 반비 례하여 감소한다. 즉 표본이 크면 표본오차도 표본크기의 제곱근으로 줄어든다. 그러나 표본이 아 주 커지면 비 표본오차가 상대적으로 증가한다.
표본오차는 다음으로 기술된다.
표본오차
(참값
추정 값)
(비 표본오차)표본오차를 줄이기 위해 표본추출은 확률 표본추출법(random sampling)을 근간으로 한다.
7.1.1 단순 무작위추출법(Simple Random Sampling)
주관이 개입되지 않도록 무작위 비 복원추출법으로 모집단의 크기
N
에서 표본n
을 추출하는방법의 수는
!
!( )!
N n
N N
C n n N n
이다. 모집단이 대단히 큰 경우에는 이 방법이 부적격하다.
7.1.2 층화추출법(Stratified Sampling)
모집단의 구성 요소들을 비슷한 성질을 가진 구성 요소들끼리 몇 개의 층으로 나눈 다음 각 층에 서 표본을 단순 확률추출방법에 의해 추출하는 표본추출법이다. 층화 표본추출은 모든 층에 대하 여 층 내 변동이 같다고 판단될 경우 비례배분, 각 층의 분산과 크기를 알고 있으면 층의 분산과 크기에 비례하여 배분하는 최적배분이 있다.
(1) 비례배분(Proportional Allocation): i
N
in n
N
n
i:i
번 째 층의 표본 수,n
: 총 표본 수,N
i:i
번 째 층의 총 수,N
: 모집단의 총 수 (2) 최적배분(Optimal Allocation):1
, 1, 2, ,
i i
i h
i i i
n n N i h
N
[보기 7_1] 어느 도시의 근로자 300명을 추출하여 근무 만족도를 조사하고자 한다. 기업을 3개
구룹으로 나눈 결과는 다음과 같다.
1 62, 000
N
,N
2
30, 000,N
3
15, 0002
1 40
,
2
25,
3
20표본 크기를 (1) 비례배분과 (2) 최적배분으로 구하여라.
(풀이) (1) 비례배분: i
( N
i) n n
N
300n
,N N
1 N
2 N
3
107, 0001
62, 000
(300)( ) 174
107, 000
n
, 2 30, 000(300)( ) 84
107, 000
n
, 2 15, 000(300)( ) 42
107, 000
n
(2) 최적배분:
1 i i
i h
i i
i
n n N N
3
4 1
(62, 000)(40) (30, 000)(25) (15, 000)(20) 353 10
i i
i
N
1 4
(62, 000)(40)
(300) 210.8 211
353 10
n
2 4
(30, 000)(25)
(300) 63.7 64
353 10
n
3 4
(15, 000)(20)
(300) 25.4 25
353 10
n
1 2 3 211 64 24 300
n n n n
7.1.3 집락추출법(Cluster Sampling)
모집단의 크기가 아주 클 경우 이질성이 없는 여러 개의 부분집단으로 나눈 다음 각 집락에서 단 순확률 추출법으로 표본을 추출하는 방법이다. 이 추출법은 모 집단의 특성을 파악하는데 신뢰도 가 낮다.
7.1.4 계통추출법(Systematic Sampling)
모집단에서 먼저
k
개 원소들 중에서 임의로 하나를 뽑아 출발점을 정하여 두고, 다음부터는k
번째 마다 일정한 간격으로 원소를 추출하는 방법이다. 이것은 시간적으로 주기성이 있는 시료의 추 출에 가장 적합한 방법이다.
계통추출법의 절차
(1) 제품에
1
에서N
까지 번호를 부여한다.(2)
N
을n
으로 나눈 정수부를 간격k
로 한다.(3)
1, 2, , k
중에서 임의의 수를i
라 하면 1 i k
(4)
i i , k i , 2 , k , i ( n 1) k
에 해당하는 표본을 추출한다.(예)
1
부터10, 000
의 번호가 매겨진 부품에서 500 개를 계통추출을 하려고 한다. 이 경우10, 000 / 500 20
k
. 1 ~ 20사이에 있는 임의의 번호i
를i
17 번을 택했다면 다음 것은37, 57, 77
번호를 가진 부품이 취해지고 만일 총 취한 부품이n
1이 되면 취한 번호 중에서3 임의의 번호 하나를 버린다.
7.1.5 다단계 추출법(Multi-stage Sampling)
2
단계 추출법이 가장 보편적이며 예로M
개의 상자가 있을 때m
개의 상자를 취한 후 그m
개의 상자 속에서 무작위로
n
개를 추출하는 방법이다.7.2 표본평균의 분포 및 중심극한 정리
7.2.1 표본평균 분포
표본 평균들을 확률변수로 한 확률분포이다.
정규분포의 모집단
N
( ,
2)에서 무작위 추출한 크기n
개의 측정치x x
1, 2, ,x
n의 평균1
1
ni i
x x
n
의 기대치 E x ( )
와 분산 Var x ( )
및 표준편차 D x ( )
기대치:
1 1
1 1 1
( ) ( ) ( )
n n
i i
i i
E x E x E x n
n n n
분산:
2 2
2 2
1 1
1 1 1
( ) ( ) ( )
n n
i i
i i
Var x Var x Var x n
n n n n
표준편차:
D x
( )Var x
( )n
표본평균 분포의 성질
(1) 표본분포의 평균은 모집단의 평균과 일치한다.
즉
E x ( )
(2) 표준편차는 모집단의 표준편차를
n
으로 나눈 값이다. 즉
D x ( ) / n
(3) 모집단이
N
( ,
2)인 정규분포 일 때, 표본평균 분포는2
( , )
N n
인 정규분포이며 이것을 표준화한
( ) /
x x
z D x n
은N
(0,1 )2 의 표준 정규분포를 따른다.[보기 7_2] 정규 모집단
N
(50, 2 )2 에서 크기n
16의 표본을 무작위 추출할 때 표본평균 분포 의 평균과 표준편차를 구하여라. 또한 표본평균x
가 51이상일 때 확률을 구하여라.(풀이) 평균:
x 50
, 표준편차: 2 1( ) 16 2
D x n
51 50
( 51) ( ) ( 2.0) 1 ( 2.0)
P x P z 0.5 P z P z
4
1 0.9772
0.0228※
z
-분포:http://www.statdistributions.com/normal/2.0
z
의 확률계산 방법 (a) [z-value] box에 2.0 입력 (b) [mean] box에 0 입력 (c) [std dev:] box에 1 입력 (d) [right tail] 선택[p-value] box에 0.023을 읽을 수 있다.
모집단의 크기가
N
인 유한집단으로부터 크기n
인 확률표본을 비 복원추출의 경우 평균:E x ( )
분산:
2
( ) 1
N n Var x
n N
, 여기서1 N n
N
은 유한 모집단의 수정계수※
N n
이면1 /
lim lim 1
1 1 1/
N N
N n n N
N N
이 되어 무한 모집단의 경우의 분산이 된다.표준편차:
( )
1 N n
D x N n
(예)
N
8,n
3,
2
5.25:( ) 8 3 5.25 1.25
9 1 3
D x
[보기 7_3] 어느 학년의 학생 평균신장은
130 cm
이고, 표준편차는10 cm
라고 한다. 이 학생들 을 25명을 한 반으로 할 때, 한 반 학생의 평균 신장이135cm
이상이 되는 확률을 구하여라.(풀이) 정규분포:
N
(130,10 )2 , 표본평균에 대한 정규분포:N
(130, 10 / 25)2 135 13010 / 25 2.5
z
( 2.5) 1 ( 2.5) 1 0.9938 0.0062 P z P z
7.2.2 중심 극한정리(Central Limit Theorem)
평균
, 분산
2인 임의의 모집단으로부터 크기n
인 표본평균x
는n
이 충분히 크면 근사적으로 정규분포2
( , )
N n
을 따른다. 즉(0,1) /
z x N
n
[보기 7_4] 용접 부위의 강도는
7 kg
, 모 표준편차2 kg
인 정규분포를 따른다고 한다. 임의로 용접주위 9개를 추출하여 강도의 평균x
를 구할 때 (1) 모 평균과 차가1kg
, 즉5
| x | 1.0 kg
인 확률 (2) 용접 강도의 평균이7 ~ 9 kg
사이의 확률을 구하여라.(풀이) (1) | | 1.0
1.5 / 2.0 / 9
z x
n
( 1.5) 0.9332 P z
(2) 7 7 9 7
(7 9) ( ) (0 3)
2 / 9 2 / 9
P x P z P z ( 3) ( 0) 0.9987 0.5000 0.4987
P z P z
7.3 표본분포(
Sampling Distribution
)모집단에서 일정한 크기로 뽑을 수 있는 모든 표본의 통계량에 대한 확률분포를 표본분포라 하며 통계적 추정이나 검정의 판단 기준을 제공하는 통계량의 분포이다. 모집단의 분포는 일반적으로 정규분포에 근사하므로 표본분포는 이것을 근간으로 이루어 진다.
7.3.1 표본비율의 분포
표본비율은 불량률, 찬성률 등과 같이 동일 모 집단에서 표본을 뽑아 구한 비율:
p x n
/여기서
x
는 이항분포b n p ( , )
를 따르고n
이 크면N np npq ( , )
에 근사한다.이때 표본비율
p x n
/ 의 분포는 근사적으로N p pq n ( , / )
이다.1 1
( ) ( ) x ( )
E p E E x np p
n n n
2 2
1 1
( ) ( ) x ( ) pq
Var p Var Var x npq
n n n n
표본비율의 정규분포
확률변수
x
가 이항분포B n p ( , )
를 따를 때, 표본비율p x n
/ 의 분포는 근사적으로( , pq )
N p n
을 따르며 이것의 표준화는 (0, 1) /p p
z N
pq n
이다.[보기 7_6] 어느 도시의 기름 보일러 사용 가구는 전체의
60 %
이다. 100가구를 추출했을 때 기 름 보일러를 사용하는 가구가50 %
이하일 확률을 구하여라.(풀이)
n
100,p 0.6
표본 비율
p x n
/ 의 분포는(0.6)(0.4)
[0.6, ]
N 100
인 정규분포에 근사한다.0.5 0.6
2.042 / (0.6)(0.4) /100
p p z pq n
( 0.5) ( 2.042) 1 ( 2.042) 1 0.9795 0.0205
P p P z P z
7.3.2 카이제곱분포(Chi-square Distribution)
6
표본분산
s
2에 관련된 분포로서 정규 모집단의 분산 추정과 검정에 사용되고 통계적 자료분석에 중요한 역할을 하는 분포이다.카이제곱분포의 정의
확률변수
z z
1,
2, , z
가 서로 독립이고 표준 정규분포를 따를 때2 2 2
1 2
z z z
의 분포를 자유도
인
2분포라 한다. 여기서 자유도란 n 1
로 기술되는 값이다.확률은
p x
[
2( , )]
정규 모집단의 분포
N
( ,
2)에서 임의로n
개의 표본 편차자승 합S
분포를 구할 때는 표준화 를 다음과 같이 놓고 사용한다.2 2
2 2
( 1)
S n s
, 여기서 21 ( )
2s 1 x x
n
이때
2분포는 자유도가 n 1
인 분포를 따른다고 말한다. 요약하면표본분산의 분포
정규 모집단
N
( ,
2)에서 임의로 추출한 확률표본x x
1, 2, ,x
n의 자유도 n 1
인 표본분산은 다음의 관계가 성립한다.
2 2
2
( 1)
( )
n s
2분포의 평균:E
(
2) n
1 ( 2) 2( 1)Var n
표준편차:
D
(
2)
2(n
1)
2이란 확률표본x x
1, 2, ,x
n이 서로 독립이고 정규분포N
( ,
2)을 따르면, 표준화시킨z
의제곱의 합이다. 즉
2 2 2
2 2
2 2 2 2
1
[( ) ( )]
( ) ( )
/
n i i i
i
x x x
x S x
z n
첫 항은 자유도가
n 1
, 두 번째 항은 자유도가1
인
2분포를 따른다. 평균의 관계는( S
2) 1
E n
,( )
21 E S
n
위 수식에서
1 Var S
n
로 표시가 가능하므로( ) 2
E Var
2분포의 성질(1)
E x ( )
,Var x ( ) 2
(2) 비 대칭이나
10
이면 거의 대칭으로 변한다.7
(3)
12,
22이 서로 독립이고 자유도가 각각
1,
2라면2 2 2
1 2 1 2
( )
1
n
에 따른
2분포그림[보기 7_7] 확률변수
x
가
2분포를 따른다고 할 때 다음을 구하여라.(1)
9, 0.05
일 때
2( , )의 값.(2)
14, 0.01
일 때
2( , )의 값.(3)
9, 0.05
일 때
2( , )의 값.(풀이) (1)
2(9, 0.05) 16.92
(2)
2(14, 0.01)
29.14(3)
2(63, 0.90)
49.14[보기 7_8] 정규 모집단
N
(50, 2 )2 에서 임의로 표본크기n
16을 추출하여 편차제곱 합을 계산 한 값은S
100이었다.
02 S /
2을 계산하고
02 이상인 확률을 구하여라.(풀이) 02
2
100 25.0
2 16 1 15
이므로 수표에서2 2
(15, )
0
을 찾으면
0.057.3.3
t
분포정규 모집단
N
( ,
2)에서 임의로 추출한 확률표본x x
1, 2, ,x
n의 표본평균은2
~ ( , ) ~ (0,1) ~ (0,1)
/
x N z N x N
n n
여기서 모집단의
는 알 수 없지만 표본 표준편차s
는 알 수 있으므로z
를 다음과 같이 교정 하여 사용한다./
z x
s n
t
분포의 정의8
표준정규분포
N
(0,1 )2 을 따르는 확률변수를z
라 하고
2은 자유도
인 카이 제곱분포를 따르 는 확률변수 그리고z
와
2이 독립이라면2
/ t z
의 분포는 자유도가
n 1
인t
분포를 따른다. 이때 기호로서T ~ ( ) t
로 표시한다.여기서 자유도
는 n 1
로 계산되는 값이며
2은
2( ) ~ z12 z
22z
2분포를 따르는 값이다.
t
분포의 성질(1) 표본의 크기
n
이 작을 때, 즉n
30일 경우에 잘 맞는 분포이다.(2)
t
분포는 자유도 n 1
에 의하여 그 모양이 변한다.(3)
t
분포는 0를 중심으로 하는 좌우대칭,n
일 때 표준정규분포N (0,1)
에 근접한다.(4)
t
분포는 평균이 0이고, 분산이n n /( 2)
(여기서n
2) 이다.[보기 7_9] 정규모집단
N
(50, 2 )2 에서 표본크기n
16을 추출하였다. 표본의 평균은48.8
x
, 표본의 편차평방 합은S
100일 때t
0를 구하여 |t
0| T
( , )
인 확률
를 구하여라.
(풀이)
100
26.67 2.58 1 15
Var S
n
0
48.8 50
2.171 / 2.58 / 16
t x
s n
1 15
n
t
분포표에서 |t
0| 2.171 t
(15, )
7.3.4
F
-분포추측 통계학에 많이 사용되는 분포로서 정규분포를 이루는 두 개의 모집단에서 독립적으로 추출 된 표본
X X
1, 2, ,X
n과Y Y
1, 2, ,Y
n의 분산비율에 대한 분포이다.9
F
-분포의 정의2
1 이 자유도
1인
2분포를 따르고,
22이 자유도
2인
2분포를 따르며, 또한
12과
22이서로 독립이라면 자유도 (
1,
2)인F
-분포를 따른다.2
1 1
2
2 2
/ F /
F
-분포의 성질(1)
F
-분포는 자유도에 따라 분포가 달라지며 비 대칭분포이다.(2) 확률변수
F
가 자유도 (n
1
1,n
2
1)인F
-분포를 따를 때 다음 관계가 성립한다.1 2
2 1
( 1, 1, 1 ) 1
( 1, 1, )
F n n
F n n
여기서
는 유의 수준을 나타낸다.F
-분포는 자유도에 따라 다음과 같이 나타난다.[보기 7_10] 확률변수
X
가F
-분포를 따른다고 할 때 다음을 구하여라.(1)
1
9,
2
9,
0.05일 때,F (9,9; 0.05)
(2)
1
1,
2
,
0.01일 때,F (1, ; 0.01)
(3) (1)
1
7,
2
15,
0.95일 때,F (7,15; 0.95)
(풀이) 이들의 확률을 책의 부록에서 찾아 보면
(9,9; 0.05) 3.18
F
(1, ; 0.01) 6.63
F
1 1
(7,15; 0.95) (7,15; 1 0.05) 0.285
(7,15; 0.05) 3.51
F F
F
연습문제
1.
X X
1, 2, ,X
10 이N (
x,10 )
2 에서 추출된 확률표본이고, 또한 독립적으로Y Y
1, 2, ,Y
5 가 ( y,12 )2N
에서 추출된 확률표본일 때 다음을 만족하는 상수a
를 구하여라.10
2
1 5
2 1
( )
[ ] 0.05
( )
i i
i i
X X
P a
Y Y
10
2.
Z Z
1, 2, ,Z
6을N
(0,1 )2 에서 추출한 확률표본일 때 다음을 만족하는b
를 구하여라.2 2 2
1 2 6
[ ] 0.95
P Z Z Z b
3.어느 대리점에서 형광등을 구입한다. 구입한 제품에는 불량품이 8%라 한다. 이 형광등을 1000 개 구입하여 판매하고자 할 때 불량품이 10%이상일 확률을 구하여라.
4. 어떤 제품의 평균수명이 1000일이고 표준편차가 25일인 정규분포를 따른다고 한다. 이 제품을 임의로 40개를 추출했을 때 다음 물음에 답하라.
(1) 평균수명이 980일 미만일 확률.
(2) 평균수명이 970일에서 1050일 사이에 있을 확률.
5. 어느 고등학교 3학년 학생들의 평균신장은 170cm, 표준편차는 5cm라고 한다. 임의로 16명을 추출하여 키를 쟀을 때 평균신장이 168cm에서 172cm 사이에 있을 확률을 구하여라.
6.
2 8.25
인 모집단에서n
3인 표본을 추출하였다. 다음의 확률을 구하여라.( 1) 2
[
n s
5.99] ?P
7. 식료품 통조림을 만드는 회사에서 내용물의 평균무게는
92 g
이고 표준편차는5 g
인 정규분포를 따른다고 한다. 식료품 규격에 의하여 내용물은
90 g
이상 들어가야 한다. 제품 36개를 임의로 선택하여 내용물을 조사하였을 때 불합격할 확률은 얼마인가?
8. 모 병원의 원무과에서 직원이 환자 한 사람당 소요되는 시간은 평균
5.4
분이고 표준편차는
2.5분이라고 한다. 100명을 추출하여 조사했을 때 환자 한 명당 소요된 평균시간이 6분이상 소요될 확률을 구하여라.
9.
t
분포의 어떤 확률값을F
분포표에서 찾고자 한다. 어떤 관계로 가능한지 간략하게 설명하라.10. 확률변수
X
의 확률밀도 함수가 다음과 같을 때3 2
, 1 1
( ) 2
0 others
x x
f x
크기 64인 확률표본의 평균을
x
라 하고 다음 질문에 답하라.(1)
X
의 평균과 표준편차를 구하여라.(2)
P [ 0.1 x 0.7]
을 구하여라.(3)
P x [ d ] 0.95
가 되는d
값을 구하여라.11. 두 정규모집단
N
(1, 2 )2 ,N
(2,3 )2 으로부터 각각 크기8, 10
인 확률표본을 취하여 이것을 가 지고 표본분산을s
12,s
22이라고 할 때 다음의y
값을 구하여라.2 2
1 2