1 서론
2 모평균(μ)의 점추정 3 모비율(p)의 점추정 4 모분산의 점추정
5 모평균의 신뢰구간 6 모비율의 신뢰구간 7 모분산의 신뢰구간 8 표본크기의 결정
9 SPSS를 이용한 실습
6장 추정
통계적 추론(statistical inference) : 표본 데이터를 분석하여 모수에 관한 결론을 유추하는 과정
모수의 추정(estimation of parameter) : 모수에 가까울 것으 로 생각되는 값으로 추측하는 것
통계적 가설검정(statistical hypothesis test) 모수의 참값에 관한 주장이 옳은지 그른지를 판정
점추정(point estimation) : 모수에 관한 추정은 모수의 참값으 로 생각되는 하나의 값으로 추정
구간추정(interval estimation) : 모수의 가능한 값들을 구간으 로 추정
서론
추정량(estimator) 모수를 추정하기 위해 사용되는 통계량
추정값 or 추정치(estimate) 모수의 값으로 예측하기 위해 사용 되는 추정량의 값
표준오차(standard error; SE) : 추정량의 표준편차
X1,…,Xn을 미지의 모평균 μ를 갖는 모집단(X)에서 추 출한 확률표본이라 하자.
이 확률표본으로부터 모평균을 추정 할 때 가장 직관적 인 추정량이 잘 알려진 표본평균 이다.
모평균 ( )의 점추정 :
X n sd X
E( )
, ( )
X이므로 추정량 의 기대값이 추정하고자 하는 모수이다.
예제 6.2) 다음 데이터는 위암에 걸린 환자의 생존기간(단위: 일) 을 나타낸 것이다.
(자료출처:DASL(The Data and Story Library))
124 42 25 45 12 51 1112 46 103 876 146 340 96
23 . 13 255
3318
X
X
ˆ X
모평균 가 모평균 μ의 비편향추정량이라 하더라도 예제 6.2에서와 같이 형태로 추정값만 나타낸다면 그 추정값의 정확도를 알 수가 없으므로 별로 의미가 없다.
추정량 의 표준오차는 으로 나타낸다.
모평균 ( μ) 의 점추정
표본이 어느 정도 크다면 표본평균 는 중심극한정리
에 의해 근사적으로 정규분포를 따른다.
표본평균 와 모평균 μ의 차이가 표준오차의 2배 ( )이내일 확률은 0.954이다.
[정의] 을 로 모평균 μ 를 추정할 때의 95.4% 오차한계라 한다.
즉, 모표준편차의 추정량인 을 근사적인 95.4% 오차 한계라 할수있다.
X
x
X se(X) / n
X
X
n 2
X
n S 2
예제 6.3) 예제 6.2에서 위암환자들의 평균 생존기간(μ)의 점추정값을 구하고 점추정량인 에 대한 추정된 표준오 차 를 계산하라.
모평균의 점추정
[풀이] 13명 위암환자들의 평균 생존기간은 255.23이 므로, 점추정값은 255.23이다.
표준편차는
이므로 추정된 표준오차는 이다.
92 . 12 351
)
(
2
x xs i
X n
S /
61 . 97 13
/ 95 .
351
예제 6.4) 완숙한 체더치즈 30개의 표본에서 함유된 젖산의 농도를 측정 한 자료이다.
0.86 1.53 1.57 1.81 0.99 1.09 1.29 1.78 1.29 1.58 1.68 1.90 1.06 1.30 1.52 1.74 1.16 1.49 1.63 1.99 1.15 1.33 1.44 2.01 1.31 1.46 1.72 1.25 1.08 1.25 함유된 젖산의 평균농도의 점추정값과 근사적인 95.4% 오차한계는?
풀이]
모평균의 점추정
303 .
29 0
) 442 .
1 442 (
. 30 1
2
xi s
xix
모평균의 점추정값은 1.442이고 추정된 표준오차는
055 .
30 0 303 .
0
n s
그러므로, 근사적인 95.4% 오차한계는 11 . 0 055 . 0 2
2 n
s
추정 (복습)
모수를 추정하기 위해 사용되는 통계량을 ( )라 한다.
추정값 or 추정치(estimate): 모수의 값으로 예측하기 위 해 사용되는 추정량의 값
모평균 μ 의 점추정값 ? ( )
표준오차(standard error; SE) :
( )
[정의] ( ) 을 로 모평균 μ 를 추정할 때 μ 의 95.4% 오차한계라 한다.
모비율(p)의 점추정 ? P의 95.4% 오차한계 ? . ( ) , ( )
X
모집단에서의 특성이 비율(p)인 경우에 대한 추정을 생 각할 수 있다.
모비율 p의 추정량 단, X는 특성을 지닌 수
모비율 (p)의 점추정
n p ˆ X
X는 평균이 np이고 표준편차가 인 이항분포 를 따르기 때문에
n p p p
sd p
p
E (1 )
ˆ) ( ,
ˆ)
(
) 1
( p
np
표본비율 은 모비율 p의 비편향추정량이며 표본의 크 기 n이 큰 경우 이항분포의 정규근사에 의해 표본비율 은 평균이 p이고 표준편차가 인 정규분포를 근사적으로 따른다.
따라서 추정량 의 표준오차는 가 된다.
근사적으로 95.4% 오차한계는 이다.
pˆ
pˆ
n p p(1 )/
pˆ
np p p
se ˆ(1 ˆ) ˆ)
(
n p p ˆ ( 1 ˆ )
2
예제 6.5] 예제 6.1데이터를 이용하여 A 후보의 지지율(p)에 대 한 점추정값과 근사적인 95.4% 오차한계를 구하라.
모비율의 점추정
[풀이] 유권자 n=1000명을 조사한 결과 390명이 A후보를 지지하였으므로 지지율의 추정값은
39 . 1000 0
ˆ
390
p 0.015
1000 61 . 0 39 . 0 ˆ)
1 ˆ( ˆ)
(
n p p p
se
근사적 95.4% 오차한계는
03
이다.. 0 015
. 0 2 ˆ )
(
2 se p
[참고] 한편, 모비율 p는 0과 1 사이의 값이므로
이 성립한다.
4
) 1 1
( p p
n n n
p p p
sd 2
1 4
1 )
1 ) (
( ˆ
따라서
분산이 σ2인 모집단에서 크기가 n인 확률표본 X1,…,Xn 을 추출하고 이 표본 데이터를 이용하여 분산 σ2를 추정 하고자 한다.
모분산의 점추정
1 ) (
1
2 2
n X X S
n
i
i
모평균 μ를 알고 있다면
2 E[(Xi
)2]의 추정량은n X
n
i
i
1
)2
(
2 2
)
( S E
표준편차 σ의 추정량은 를 사용. 즉,
은 의 비편향(unbiased) 추정량이다.
S S2
예제 6.4의 자료에서 체더치즈에 함유된 젖산 농도의 분산 추정값
09 . 29 0
) 442 .
1
(
22
x
is
S
2 22
ˆ
2 S
표준오차를 알고 있더라도 점추정값의 정확도에 대해서는 알 수 없다. 따라서 실제로 모수의 참값을 포함할 것으로 기 대되는 구간을 구하여 생각하는 것이 더욱 바람직 할 때가 많이 있다.
모평균 ( )의 신뢰구간
명백히 모수의 참값을 포함하는 구간을 구할 수는 없고 그 대신에 제시한 구간이 참값을 포함할 확률, 즉 참값을 포함 하리라고 신뢰할 수 있는 수준
일반적으로, 95, 99, 혹은 90으로 주어지는 이러한 확률을 신뢰수준(level of confidence) 또는 신뢰계수
(confidence coefficient)라 하고, 그 구간을 신뢰구간 (confidence interval)이라 한다.
예) 생산 제품의 평균수명 ( ) ?
신뢰구간을 구하기 위해 소표본 대표본으로 구분해서 소개 한다.
평균이 μ이고 표준편차가 σ인 정규모집단에서추출한 확률표본의 표본평균 는 평균이 μ이고 표준편차가 인 정규분포를 따른다는 사실을 알았다.
대표본에서 의 신뢰구간 :
모분산( )을 알 때표본평균을 표준화
) 1 , 0 ( / ~
Nn Z X
1
/
/22
/
z
n z X
P
오른쪽 면적이 α/2가 되는 경계값을 zα/2로 표기.
즉 P[Z z/2]
/2 라 하면 X2
앞의 부등식을 모평균 μ에 관해 정리하면
모분산을 알 때 (대표본)
/2
/21
z n n X
z X
P
위 식은 표본추출을 반복할 경우 과
으로 이루어진 확률구간이 모수 μ를 포함 할 확률이 1-α임을 의미한다.
표준편차 σ를 알고 있기 대문에 표본이 주어지면 다음과 같은 구간을 계산 할 수 있다.
위 구간이 정규모집단에서 μ 의 100(1-α )% 신뢰구간 이다.
z n
X
/2
z n
X
/2
n z
X n z
X
/2
,
/2• μ 의 100(1-α )% 신뢰구간
[요약] 대표본 에서 의 신뢰구간 :
모분산( )을 알 때 2
z n n X
z
X
/2
,
/2) 1 , 0 (
/ ~ N
n Z X
표본평균을 표준화 => Z-검정 통계량
표준편차 σ를 알고 있기 때문에 표본이 주어지면 다음과 같은 구간 계산 할 수 있다.
위 구간이 정규모집단에서 μ 의 100(1-α )% 신뢰구간 이다
z n n X
z
X
/2
,
/2예제 6.6) 표준편차가 σ=9인 정규모집단에서 관측된 36개 의 확률표본으로부터 표본평균이 임을 알았다.
이 때 모평균 μ의 95% 신뢰구간을 구하라.
[풀이]
모분산을 알 때 (소표본)
95% 신뢰구간을 구해야하므로 α=0.05
zα/2=z0.025=1.96
모평균 μ의 95% 신뢰구간
즉, μ 의 신뢰구간은 최저 50.26 에서 최고 56.14라고 95% 확신한다.
50.26, 56.14
2 . 53 36 , 96 9
. 1 2 . 53 36 , 96 9
. 1 2 .
53
2 .
53 x
예] 평균이 60이고 표준편차가 6인 정규분포에서 컴퓨 터를 이용하여 크기가 9인 표본을 10번 반복추출.
각 표본에 대해 모평균 μ의 90% 신뢰구간을 구해보자.