• 검색 결과가 없습니다.

6장 추정

N/A
N/A
Protected

Academic year: 2022

Share "6장 추정"

Copied!
18
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

1 서론

2 모평균(μ)의 점추정 3 모비율(p)의 점추정 4 모분산의 점추정

5 모평균의 신뢰구간 6 모비율의 신뢰구간 7 모분산의 신뢰구간 8 표본크기의 결정

9 SPSS를 이용한 실습

6장 추정

(2)

 통계적 추론(statistical inference) : 표본 데이터를 분석하여 모수에 관한 결론을 유추하는 과정

 모수의 추정(estimation of parameter) : 모수에 가까울 것으 로 생각되는 값으로 추측하는 것

 통계적 가설검정(statistical hypothesis test) 모수의 참값에 관한 주장이 옳은지 그른지를 판정

 점추정(point estimation) : 모수에 관한 추정은 모수의 참값으 로 생각되는 하나의 값으로 추정

 구간추정(interval estimation) : 모수의 가능한 값들을 구간으 로 추정

서론

 추정량(estimator) 모수를 추정하기 위해 사용되는 통계량

 추정값 or 추정치(estimate) 모수의 값으로 예측하기 위해 사용 되는 추정량의 값

 표준오차(standard error; SE) : 추정량의 표준편차

(3)

 X1,…,Xn을 미지의 모평균 μ를 갖는 모집단(X)에서 추 출한 확률표본이라 하자.

이 확률표본으로부터 모평균을 추정 할 때 가장 직관적 인 추정량이 잘 알려진 표본평균 이다.

모평균 ( )의 점추정 :

X n sd X

E( ) 

, ( ) 

X

이므로 추정량 의 기대값이 추정하고자 하는 모수이다.

예제 6.2) 다음 데이터는 위암에 걸린 환자의 생존기간(단위: 일) 을 나타낸 것이다.

(자료출처:DASL(The Data and Story Library))

124 42 25 45 12 51 1112 46 103 876 146 340 96

23 . 13 255

3318 

X

X

  ˆX

(4)

 모평균 가 모평균 μ의 비편향추정량이라 하더라도 예제 6.2에서와 같이 형태로 추정값만 나타낸다면 그 추정값의 정확도를 알 수가 없으므로 별로 의미가 없다.

 추정량 의 표준오차는 으로 나타낸다.

모평균 ( μ) 의 점추정

 표본이 어느 정도 크다면 표본평균 는 중심극한정리

에 의해 근사적으로 정규분포를 따른다.

 표본평균 와 모평균 μ의 차이가 표준오차의 2배 ( )이내일 확률은 0.954이다.

 [정의] 을 로 모평균 μ 를 추정할 때의 95.4% 오차한계라 한다.

즉, 모표준편차의 추정량인 을 근사적인 95.4% 오차 한계라 할수있다.

X

x

X se(X)  / n

X

X

n 2

X

n S 2

(5)

예제 6.3) 예제 6.2에서 위암환자들의 평균 생존기간(μ)의 점추정값을 구하고 점추정량인 에 대한 추정된 표준오 차 를 계산하라.

모평균의 점추정

[풀이] 13명 위암환자들의 평균 생존기간은 255.23이 므로, 점추정값은 255.23이다.

표준편차는

이므로 추정된 표준오차는 이다.

92 . 12 351

)

(

2

 

x x

s i

X n

S /

61 . 97 13

/ 95 .

351 

(6)

예제 6.4) 완숙한 체더치즈 30개의 표본에서 함유된 젖산의 농도를 측정 한 자료이다.

0.86 1.53 1.57 1.81 0.99 1.09 1.29 1.78 1.29 1.58 1.68 1.90 1.06 1.30 1.52 1.74 1.16 1.49 1.63 1.99 1.15 1.33 1.44 2.01 1.31 1.46 1.72 1.25 1.08 1.25 함유된 젖산의 평균농도의 점추정값과 근사적인 95.4% 오차한계는?

풀이]

모평균의 점추정

303 .

29 0

) 442 .

1 442 (

. 30 1

2

 

xi s

xi

x

모평균의 점추정값은 1.442이고 추정된 표준오차는

055 .

30 0 303 .

0 

ns

그러므로, 근사적인 95.4% 오차한계는 11 . 0 055 . 0 2

2    n

s

(7)

추정 (복습)

 모수를 추정하기 위해 사용되는 통계량을 ( )라 한다.

 추정값 or 추정치(estimate): 모수의 값으로 예측하기 위 해 사용되는 추정량의 값

 모평균 μ 의 점추정값 ? ( )

 표준오차(standard error; SE) :

 ( )

 [정의] ( ) 을 로 모평균 μ 를 추정할 때 μ 의 95.4% 오차한계라 한다.

 모비율(p)의 점추정 ? P의 95.4% 오차한계 ? . ( ) , ( )

X

(8)

 모집단에서의 특성이 비율(p)인 경우에 대한 추정을 생 각할 수 있다.

 모비율 p의 추정량 단, X는 특성을 지닌 수

모비율 (p)의 점추정

n p ˆ  X

 X는 평균이 np이고 표준편차가 인 이항분포 를 따르기 때문에

n p p p

sd p

p

E (1 )

ˆ) ( ,

ˆ)

(   

) 1

( p

np

 표본비율 은 모비율 p의 비편향추정량이며 표본의 크 기 n이 큰 경우 이항분포의 정규근사에 의해 표본비율 은 평균이 p이고 표준편차가 인 정규분포를 근사적으로 따른다.

따라서 추정량 의 표준오차는 가 된다.

근사적으로 95.4% 오차한계는 이다.

n p p(1 )/

n

p p p

se ˆ(1 ˆ) ˆ)

(

n p p ˆ ( 1 ˆ )

2

(9)

예제 6.5] 예제 6.1데이터를 이용하여 A 후보의 지지율(p)에 대 한 점추정값과 근사적인 95.4% 오차한계를 구하라.

모비율의 점추정

[풀이] 유권자 n=1000명을 조사한 결과 390명이 A후보를 지지하였으므로 지지율의 추정값은

39 . 1000 0

ˆ

390

p 0.015

1000 61 . 0 39 . 0 ˆ)

1 ˆ( ˆ)

(     

n p p p

se

근사적 95.4% 오차한계는

03

이다.

. 0 015

. 0 2 ˆ )

(

2  se p   

[참고] 한편, 모비율 p는 0과 1 사이의 값이므로

이 성립한다.

4

) 1 1

(  pp

n n n

p p p

sd 2

1 4

1 )

1 ) (

( ˆ    

따라서

(10)

 분산이 σ2인 모집단에서 크기가 n인 확률표본 X1,…,Xn 을 추출하고 이 표본 데이터를 이용하여 분산 σ2를 추정 하고자 한다.

모분산의 점추정

1 ) (

1

2 2

n X X S

n

i

i

 모평균 μ를 알고 있다면

2E[(Xi

)2]의 추정량은

n X

n

i

i

1

)2

( 

2 2

)

( S   E

 표준편차 σ의 추정량은 를 사용. 즉,

 은 의 비편향(unbiased) 추정량이다.

S S2

예제 6.4의 자료에서 체더치즈에 함유된 젖산 농도의 분산 추정값

09 . 29 0

) 442 .

1

(

2

2

 

  x

i

s

S

22

2

ˆ

2

S

(11)

 표준오차를 알고 있더라도 점추정값의 정확도에 대해서는 알 수 없다. 따라서 실제로 모수의 참값을 포함할 것으로 기 대되는 구간을 구하여 생각하는 것이 더욱 바람직 할 때가 많이 있다.

모평균 ( )의 신뢰구간

 명백히 모수의 참값을 포함하는 구간을 구할 수는 없고 그 대신에 제시한 구간이 참값을 포함할 확률, 즉 참값을 포함 하리라고 신뢰할 수 있는 수준

일반적으로, 95, 99, 혹은 90으로 주어지는 이러한 확률을 신뢰수준(level of confidence) 또는 신뢰계수

(confidence coefficient)라 하고, 그 구간을 신뢰구간 (confidence interval)이라 한다.

 예) 생산 제품의 평균수명 ( ) ?

 신뢰구간을 구하기 위해 소표본 대표본으로 구분해서 소개 한다.

(12)

 평균이 μ이고 표준편차가 σ인 정규모집단에서추출한 확률표본의 표본평균 는 평균이 μ이고 표준편차가 인 정규분포를 따른다는 사실을 알았다.

대표본에서 의 신뢰구간 :

모분산( )을 알 때

표본평균을 표준화

) 1 , 0 ( / ~

N

n Z X

 

 

  

 

  

 1

/

/2

2

/

z

n z X

P

오른쪽 면적이 α/2가 되는 경계값을 zα/2로 표기.

P[Zz/2] 

/2 라 하면 X

2

(13)

 앞의 부등식을 모평균 μ에 관해 정리하면

모분산을 알 때 (대표본)

 

 

  

 

 

/2

  

/2

1

z n n X

z X

P

위 식은 표본추출을 반복할 경우 과

으로 이루어진 확률구간이 모수 μ를 포함 할 확률이 1-α임을 의미한다.

 표준편차 σ를 알고 있기 대문에 표본이 주어지면 다음과 같은 구간을 계산 할 수 있다.

 위 구간이 정규모집단에서 μ 의 100(1-α )% 신뢰구간 이다.

z n

X

/2

z n

X

/2

 

 

  

n z

X n z

X  

/2

,

/2

(14)

• μ 의 100(1-α )% 신뢰구간

[요약] 대표본 에서  의 신뢰구간 :

모분산( )을 알 때 2

 

 

  

z n n X

z

X  

/2

,

/2

) 1 , 0 (

/ ~ N

n Z X

 

표본평균을 표준화 => Z-검정 통계량

(15)

표준편차 σ를 알고 있기 때문에 표본이 주어지면 다음과 같은 구간 계산 할 수 있다.

위 구간이 정규모집단에서 μ 의 100(1-α )% 신뢰구간 이다

 

 

  

z n n X

z

X  

/2

,

/2

(16)

예제 6.6) 표준편차가 σ=9인 정규모집단에서 관측된 36개 의 확률표본으로부터 표본평균이 임을 알았다.

이 때 모평균 μ의 95% 신뢰구간을 구하라.

[풀이]

모분산을 알 때 (소표본)

 95% 신뢰구간을 구해야하므로 α=0.05

 zα/2=z0.025=1.96

 모평균 μ의 95% 신뢰구간

 즉, μ 의 신뢰구간은 최저 50.26 에서 최고 56.14라고 95% 확신한다.

50.26, 56.14

2 . 53 36 , 96 9

. 1 2 . 53 36 , 96 9

. 1 2 .

53  

 

  

2 .

 53 x

(17)

 예] 평균이 60이고 표준편차가 6인 정규분포에서 컴퓨 터를 이용하여 크기가 9인 표본을 10번 반복추출.

각 표본에 대해 모평균 μ의 90% 신뢰구간을 구해보자.

신뢰구간의 개념

3 . 29 , 3 . 29

9 645 6 .

1 9 ,

645 6 .

1    

 

xxx x

(18)

참조

관련 문서