• 검색 결과가 없습니다.

추정과 가설 검정

N/A
N/A
Protected

Academic year: 2022

Share "추정과 가설 검정"

Copied!
77
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

추정과 가설 검정

지리통계학

제5강

(2)

통계적 추론( statistical inference) : 표본으로 부터 얻은 정보 를 이용하여 미지의 모수를 과학적으로 추론하는 과정

추정과 가설검정

통계적 추론( statistical inference) : 표본으로 부터 얻은 정보 를 이용하여 미지의 모수를 과학적으로 추론하는 과정

추정과 가설검정

▶ 추정( estimate) : 표본으로 부터 얻은 통계량을 이용하여 미지의 모수를 과학적으로 추론하는 과정

추정( estimate) : 표본으로 부터 얻은 통계량을 이용하여 미지의

모수를 과학적으로 추론하는 과정

(3)

임의 추출

모 수 q

추론

추정량 q 통계적 추론 방법

추정량( estimator) : 모수 q를 추정하기 위하여 사용되는 통계량 추정량은 X

1

, X

2

, … , X

n

의 함수 q=Q(X

1

, X

2

, … , X

n

)인 확률변수

추정량( estimator) : 모수 q를 추정하기 위하여 사용되는 통계량 추정량은 X

1

, X

2

, … , X

n

의 함수 q=Q(X

1

, X

2

, … , X

n

)인 확률변수

점추정( point estimate) : 모수에 대한 추정량이 표본추출에 따라 가변적이므로 최적의 추정값을 얻어야 하며, 이러한 최적의 추정값을 구하는 과정

점추정( point estimate) : 모수에 대한 추정량이 표본추출에 따라 가변적이므로 최적의 추정값을 얻어야 하며, 이러한 최적의 추정값을 구하는 과정

(4)

점 추정(point estimate)

• 추론통계에서 모집단의 특성인 모수에 대한 추 정 및 가설 검정이 중요하다. 이 중 대표적인 모 수는 평균과 분산이다.

• 즉, 모집단에서 n개의 표본을 추출한후, 이로부 터 표본평균, 표본분산 등의 통계량을 계산하고 이를 토대로 모집단의 평균과 분산을 추정한다.

• 모수를 하나의 값으로 산출하는 것을 점 추정

(point estimation)이라 한다.

(5)

표본으로부터 표본평균 를 구한다 . xx

모집단으로부터

크기 n인 표본을 선정 미지의 평균 m인

모집단

모평균에 대한 추론 과정 예

표본평균 를 이용하여 모평균 m를 추론한다.

xx

(6)

(1) 점추정값 q가 알려지지 않은 모수 q의 정확한 값은 아니지만, 가장 좋은 점추 정값은 미지인 모수의 가장 바람직한 가상의 값으로 생각할 수 있다.

(2) 이러한 추정값은 추출된 표본에 따라 변동이 있으며, 수치적으로 약간의 차 이가 있더라도 두 개 이상의 좋은 추정값이 존재할 수도 있다.

1) 점추정량의 특성 1) 점추정량의 특성

m

모평균(미지)

미지의 모집단 분포: f(x)

표본으로부터 관측된 값 표본평균: m = x

(7)

모집단의 분포 점추정량 m2의 분포 점추정량 m1의 분포

점추정량의 선택에 따른 추정값

m

참값 추정값

x2

추정값

x1

(8)

불편의성( unbiasedness) 불편의성( unbiasedness)

모수 q에 대한 점추정량 q=Q( X1, X2, …, Xn)에 대하여 E(q) = q

를 만족할 때, 추정량 q를 q의 불편추정량(unbiased estimator)라 하고 E(q) ¹ q

일 때, q를 편의추정량(biased estimator) bias = E(q) - q

를 편의(bias)

∧ ∧

∧ ∧

불편추정량 편의추정량

(9)

E(X) = E S X1 i = S E(Xi) = S m = (nm) = m

( )

ni=1n 1n i=1n 1n i=1n 1n

표본평균의 기대값 :

E(S2) = n-11

i=1

S

n (Xi – m)2 – n(X - m)2

E

= n-11

i=1

S

n E[(Xi – m)2 ] – nE[(X - m)2 ]

= n-11

[ns2 – n Var(X)] = n-11 (ns2 – s2 )= s2 표본분산의

기대값 :

n-1

1 (Xi – X)2

i=1

S

n

S2 =

i=1 n

n-1

1

S

[(Xi – m) –(X - m)]2

=

n-1 1

i=1

S

n [(Xi – m)2 –2(X - m)(Xi – m) + (X - m)2 ]

=

n-1 1

i=1

S

n (Xi – m)2 – n(X - m)2

= 표본분산 :

(10)

(1) 표본평균 X는 모평균 m에 대한 불편추정량이다.

(2) 표본분산 S2은 모분산 s2에 대한 불편추정량이다.

(3) 표본비율 ∧p는 모비율 p에 대한 불편추정량이다.

n

1 (Xi – X)2

i=1

S

n

S2 = E(S2) =n-1

n s2 bias = - sn2 : 편의추정량 E(p) = E(X/n) = E(X)/n = p∧ 여기서, X ~ B(n, p)

표본비율의 기대값 :

(11)

모집단으로부터 크기 10인 확률표본을 다음과 같이 얻었다.

[ 2.62 2.69 2.71 2.73 2.66 2.64 2.81 2.78 2.76 2.84 ] 이 표본을 이용하여 모평균 m와 모분산 s2의 불편추정값

표본평균과 표본분산이 각각 모평균과 모분산의 불편추정량이므로

m = x

= (2.62 + 2.69 + 2.71 + 2.73 + 2.66 + 2.64 + 2.81 + 2.78 + 2.76 + 2.84 )

= 2.724

모분산의 불편추정값 :

s2 = s2 = S(xi – 2.724)2 = 0.0054

1

10

1

9

모평균의 불편추정값 :

(12)

효율성( efficiency) 효율성( efficiency)

모수 Q 에 대한 점추정량들 Q1, Q2, …,Qn에 대하여

Var(Q) = min{ Var(Q1), Var(Q2), … , Var(Qn)}

일 때, 추정량 Q를 q의 유효추정량(efficient estimator)

추정량 Q 의 표준오차(standard error): S.E(Q) = Var(Q)

모수 Q 에 대한 유효추정량 :

S.E(Q) = min{ S.E(Q1), S.E(Q2), … , S.E(Qn)}

∧ ∧ ∧

∧ ∧ ∧ ∧

∧ ∧ ∧

∧ ∧ ∧ ∧

(13)

평균 m와 분산 s2을 갖는 확률변수들 X1, X2에 대하여, m에 대한 점추정량

m= a1X1 + a2X2 , a1, a2 : 양의 실수

(1) m가 모평균 m에 대한 불편추정량이 되기 위한 a1, a2의 조건 (2) m가 최소분산을 갖기 위한 a1, a2 =?

a1 + a2 = 1

(1) ∧∧m가 모평균 m에 대한 불편추정량이므로 E(m) = m∧

E(m) = E(a1X1 + a2X2 ) = a1E(X1) + a2E(X2 ) = a1m + a2 m = (a1 + a2)m

(2) ∧∧m가 최소분산을 갖기 위하여,

Var(m )= Var(a∧ 1X1 + a2X2 ) = a1Var(X1) + a2Var(X2 ) = (a1 + a2)s2

2 2 2 2

a1 + a2 = a1 + (1 – a1 )2 = 2 a11 -

2

2 1

+ 2 : 최소 a1 = a2 =12 a1 + a2 가 최소일 때,Var(m)가 최소

∧ 2 2

2 2 2

(14)

일치성( consistency) 일치성( consistency)

모수 q를 추정하기 위한 크기 n인 표본으로부터 얻은 추정량 qn에 대하여, 크기 n이 커질수록 qn가 모수 q에 근접하는 경우, 즉 임의의 양수 e에 대하 여

lim P(|qn - q|≥ e) = 0

을 만족할 때, 추정량 qn을 모수 q에 대한 일치추정량(consistent estimator)이라 한다.

∧ n→∞

(15)

구간추정( interval estimate) : 모수 q 의 참값이 포함되리라고 믿어지는 구간을 추정하는 방법

구간추정( interval estimate) : 모수 q 의 참값이 포함되리라고 믿어지는 구간을 추정하는 방법

신뢰수준( confidence level), 신뢰도(degree of confidence) : 모수

q

의 참값이 추정한 구간 안에 포함될 것으로 믿어지는

미리 정해 놓은 확신의 정도로 일반적으로 1- α 로 나타낸다.

신뢰수준( confidence level), 신뢰도(degree of confidence) : 모수

q

의 참값이 추정한 구간 안에 포함될 것으로 믿어지는

미리 정해 놓은 확신의 정도로 일반적으로 1- α 로 나타낸다.

구간추정량( interval estimator) : 신뢰도 1- α 에서 모수 q

대한 두 통계량 L(X

1

,X

2

,…,X

n

), U(X

1

,X

2

,…,X

n

)을 적당히 취하여, P(L < q < U) = 1 – α

일 때, 구간 ( L(X

1

,X

2

,…,X

n

), U(X

1

,X

2

,…,X

n

))을 모수 q 대한

구간추정량이라 한다

구간추정량( interval estimator) : 신뢰도 1- α 에서 모수 q

대한 두 통계량 L(X

1

,X

2

,…,X

n

), U(X

1

,X

2

,…,X

n

)을 적당히 취하여, P(L < q < U) = 1 – α

일 때, 구간 ( L(X

1

,X

2

,…,X

n

), U(X

1

,X

2

,…,X

n

))을 모수 q 대한

구간추정량이라 한다

(16)

신뢰구간( confidence interval) : 표본으로부터 얻은 관찰값 X

1

= x

1

, X

2

= x

2

, …,X

n

= x

n

에 대한 통계량의 측정값이

l(x

1

, x

2

, …, x

n

), u(x

1

, x

2

, …, x

n

)

일 때, 구간 (l, u)를 모수 q 대한 신뢰도 1- α 의 신뢰구간 , l을 신뢰구간의 하한 ,u를 신뢰구간의 상한이라 한다

신뢰구간( confidence interval) : 표본으로부터 얻은 관찰값 X

1

= x

1

, X

2

= x

2

, …,X

n

= x

n

에 대한 통계량의 측정값이

l(x

1

, x

2

, …, x

n

), u(x

1

, x

2

, …, x

n

)

일 때, 구간 (l, u)를 모수 q 대한 신뢰도 1- α 의 신뢰구간 , l을 신뢰구간의 하한 ,u를 신뢰구간의 상한이라 한다

(1) 보편적으로, 신뢰수준은 α = 0.1, 0.05, 0.01 즉, 90%, 95%, 99%의 신뢰도 를 많이 사용한다.

(2) 신뢰구간은 모수 q에 대한 점추정값 q을 중심으로 갖는 구간을 선택한 다.

(3) 신뢰도 90%라 함은 10개의 표본을 임의로 추출하여 모수 q에 대한 신 뢰구간을 구할 경우, 10개 중에서 9개의 신뢰구간은 모수 q의 참값을 포함하고 나머지 1개의 신뢰구간은 모수 q의 참값을 포함하지 않음을 의미한다.

참 고

(17)

점추정값

x α / 2

X의 표본분포

[--- ---]

1- α α / 2

모분산 σ

2

을 아는 경우, 모평균 μ에 대한 신뢰도

100(1- α)%의 신뢰구간

(18)

모분산 σ

2

을 아는 경우, 모평균 μ에 대한 신뢰도 100(1-α)%의 신뢰구간의 의미

μ

[---

x

2 ---]

x

10

[--- ---]

[---

x

4 ---]

[---

x

3 ---]

x

1

[--- ---]

90%의 신뢰구간

0.90

0.05 0.05

X의 확률분포

μ를 포함하지 않는 구간 μ를 포함하는

구간

(19)

2 모평균의 구간추정 모평균의 구간추정

모분산이 알려진 경우와 모르는 경우에 대한 모평균의 구간 추정과 두 모집단의 평균의 차에 대한 구간추정하는 방법에 대하여 알아본다.

모분산이 알려진 경우와 모르는 경우에 대한 모평균의 구간

추정과 두 모집단의 평균의 차에 대한 구간추정하는 방법에

대하여 알아본다.

(20)

1) 모분산이 알려진 경우 1) 모분산이 알려진 경우

점추정량 : N(μ, σ2)

σ2 : 기지

n개를 임의추출

1 n i = 1

n

μ =X = Σ Xi x1

x2 xn

표 준 화 Z = X -μ

σ/ n ~ N(0, 1) X ~ N μ,

( )

nσ2

S.E(X) = Var(X) = σn 표본평균 :

표준오차 :

(21)

P(|Z| < zα/2) = P < zX -μ α/2 = P |X – μ| < = 1- α σ/ n

σ

n zα/2

( ) ( )

|X–μ|에 대한 100(1-α)% 오차한계

α / 2 1 - α α / 2

x

σ

n zα/2 σ

n zα/2

[--- ---]

μ에 대한 100(1-α)% 신뢰구간

x z ±

a

s n x z

/2

±

a

s n

/2

x : 표본평균 σ : 모표준편차 n : 표본의 크기

zα/2 : 표준정규분포에서 상단 꼬리확률이 α/2인 임계점

1 - α : 신뢰수준

신뢰구간의 상한•하한

(22)

z0.05 = 1.645 z0.025 = 1.96 z0.005 = 2.58

P < 1.645 = P |X – μ| < 1.645 = 0.90X -μ σ/ n

σ

( ) ( )

n

P < 1.96 = P |X – μ| < 1.96 = 0.95X -μ σ/ n

σ

( ) ( )

n

P < 2.58 = P |X – μ| < 2.58 = 0.99X -μ σ/ n

σ

( ) ( )

n

|X –μ|에 대한 오차한계

(23)

모분산을 알고 있는 경우, μ에 대한 100(1-α)% 신뢰구간

90%신뢰구간x

95%신뢰구간 99%신뢰구간

x + 1.645 σ/ n x + 1.96 σ / n x + 2.58 σ / n x - 1.645 σ/ n

x - 1.96 σ/ n x - 2.58 σ/ n

x + 2.58 σ/ n x – 2.58 σ/ n

0.99(a = 0.01)

x + 1.96 σ/ n x – 1.96 σ/ n

0.95(a = 0.05)

x + 1.645 σ/

x – 1.645 σ/ n 0.90(a = 0.1) n

상한 하한

신뢰수준 신뢰구간 (1- α)

(24)

모표준편차가 0.2인 정규모집단에서 10개의 자료를 표본으로 추출한 결과 : [0.27, 0.34, 0.34, 0.36, 0.30, 0.28, 0.41, 0.35, 0.48, 0.43]

(1) 모평균에 대한 점추정값 ?

(2) |X – μ|에 대한 95% 오차한계 ? (3) 모평균 μ에 대한 95% 신뢰구간 ?

(2) n=10, σ = 0.2이므로 μ에 대한 95% 오차한계 :

σ

1.96 n (1.96) (0.2)

= 10 = 0.124

(1)μ = x

= (0.27 + 0.34 + 0.34 + 0.36 + 0.30 + 0.28 + 0.41 + 0.35 + 0.48 + 0.43)

= 0.356

1 10

μ에 대한 95% 신뢰구간 : (0.233, 0.479)

하한 : l = x – (1.96) S.E(x) = 0.356 – 0.123 = 0.233

상한 : u = x + (1.96) S.E(x) = 0.356 + 0.123 = 0.479

(3) x = 0.356,

이므로 μ에 대한 95% 신뢰구간의 하한, 상한 :

σ

n 10

S.E(x) = = = 0.0630.2

(25)

2) 모분산이 알려져 있지 않은 경 우

2) 모분산이 알려져 있지 않은 경 우

점추정량 : N(μ, σ2)

σ2 : 미지

n개를 임의추출

1 n i = 1

n

μ =X = Σ Xi x1

x2 xn

X ~ N μ,

( )

nσ2

S.E(X) = Var(X) = s n

T = X -μ

S / n ~ t(n - 1) 표본평균 :

표준오차 :

표본분산 s2으로 대치

(26)

t(n-1)의 분포

α / 2 1 - α

α / 2

x

s

n tα/2(n-1) s

n tα/2(n-1)

[--- ---]

μ에 대한 100(1- α)% 신뢰구간

P < tX -μ α/2(n-1) = P |X – μ| < = 1- α S / n

s

n tα/2(n-1)

( ) ( )

|X – μ|에 대한 100(1-α)% 오차한계

x : 표본평균

s : 표본표준편차 n : 표본의 크기

tα/2(n-1) : t -분포에서 상단 꼬리확률이 α/2인 임계점

1 - α : 신뢰수준

x ± n s

t α/2(n-1)

신뢰구간의 상한•하한

(27)

P < tX -μ 0.05(n-1) = P |X – μ| < t0.05 (n-1) = 0.90 s / n

s

( ) ( )

n

P < tX -μ 0.025 (n-1) = P |X – μ| < t0.025 (n-1) = 0.95 s / n

s n

( )

( )

P < tX -μ 0.005 (n-1) = P |X – μ| < t0.005 (n-1) = 0.99

s / n s

n

( )

( )

|X – μ|에 대한 90% 오차한계 :

t0.025 (n-1) s n t0.05 (n-1) s

n

t0.005 (n-1) s n

|X – μ|에 대한 95% 오차한계 :

|X – μ|에 대한 99% 오차한계 :

(28)

모분산을 모르는 경우, μ에 대한 100(1-α)% 신뢰구간

x – t0.005(n-1) s / n x – t0.005(n-1) s / n

0.99(a = 0.01)

x – t0.025(n-1) s / n x – t0.025(n-1) s / n

0.95(a = 0.05)

x – t0.05(n-1) s / n x – t0.05(n-1) s / n

0.90(a = 0.1)

상한 하한

신뢰수준 신뢰구간 (1- α)

90%신뢰구간x

95%신뢰구간 99%신뢰구간 x – t0.05(n-1) s / n

x - t0.025(n-1) s/ n x - t0.005(n-1) s/ n

t(n-1)의 분포

x + t0.05(n-1) s / n x + t0.025(n-1) s / n x + t0.005(n-1) s / n

(29)

N(μ, σ2)인 정규모집단에서 크기 5인 표본을 추출한 결과 : [2.9, 2.5, 3.7, 3.0, 2.8]

(1) 모평균에 대한 점추정값 ?

(2) |X – μ|에 대한 95% 오차한계 ? (3) 모평균 μ에 대한 95% 신뢰구간 ?

(2) 표본분산 :

s

t0.025(4) n = (2.776)(0.1985) = 0.551

(1)μ = x = (2.9 + 2.5 + 3.7 + 3.0 + 2.8)

= 2.98

1

5

(3) x = 2.98, 오차한계 d = 0.551이므로 95% 신뢰구간의 하한, 상한 :

s2 = Σ (xi – 2.98)2 = 0.197 ,

1

4 s = 0.197 = 0.4438

s

S.E(x) = = = 0.1985n 5

0.4438

t0.025(4) = 2.776

오차한계 :

하한 : l = x – t0.025(4) S.E(x) = 2.98 – 0.551 = 2.429

상한 : u = x + t0.025(4) S.E(x) = 2.98 + 0.551 = 3.531

μ에 대한 95% 신뢰구간 : (2.429, 3.531)

(30)

3) 모분산을 모르는 모집단에서 대단위 표본을 추출하는 경 우

3) 모분산을 모르는 모집단에서 대단위 표본을 추출하는 경 우

z -추정에 의하여 근사적으로 모평균에 대한 신뢰구간을 구한다.

표본평균 X는 중심극한정리에 의하여 정규분포에 근사 s2 → σ2으로 수렴하므로

X -μ

s / n ~ N(0, 1)..

전국 100세 이상 노인 103명을 대상으로 2002년 10월에 조사된 자료에 의하면, 평균 혈중 콜레스테롤이 174.6/㎗로 나타났다.

만일 이 자료에서 표준편차가 12/㎗으로 나타난다 할 때, 전국 100세 이상 노인의 평균 혈당치에 대한 95% 신뢰구간

μ에 대한 95% 신뢰구간 : (172.283, 176.917)

하한 : l = x – (1.96) S.E(x) = 174.6 – 2.317 = 172.283

상한 : u = x + (1.96) S.E(x) = 174.6 + 2.317 = 176.917

x = 174.6, n = 103, s = 12이므로 S.E(x) = =

1.183 s / n

95% 신뢰구간의 하한, 상한 :

(31)

4) 단측 신뢰구간 4) 단측 신뢰구간

모평균이 어떤 값 이상 또는 이하인 경우, 신뢰도 100(1 - α)%에서 표본 평균 x0 이상 또는 이하로 나타나는 신뢰구간

(A) 모분산을 아는 경우 (A) 모분산을 아는 경우

Z = X -μ

σ/ n ~ N(0, 1)

μ에 대한 100(1-α)% 상단측신뢰구간 :

(

x - σ zn α , ∞

)

σ zα x + n

(

-∞,

)

μ에 대한 100(1-α)% 하단측신뢰구간 :

P < zX - μ α = P μ >X- =1 - α σ/ n

σn zα

( ) ( )

P > -zX - μ α = P μ <X+ = 1- α σ/ n

σn zα

( ) ( )

하한 신뢰경계

상한 신뢰경계

(32)

과거 자료에 의하면 어느 제조회사에서 생산된 mp3의 수명 ~ N(μ, 102) 51개의 mp3를 임의로 선정하여 수명을 측정한 결과 : 평균 374일

이 회사에서 생산된 mp3의 평균수명에 대한 95% 하한신뢰경계와 단측신뢰구간

μ에 대한 95% 신뢰구간 : (371.7, ∞), 즉, 평균수명이 371.7일 이상으로 추정 x = 374, n = 51, σ = 10, z0.05 = 1.645이

므로

95% 하한신뢰경계 :

σ z0.05 x - n

l = = 374 – (1.4002)(1.645) = 371.1

(33)

(B) 모분산을 모르는 경우 (B) 모분산을 모르는 경우

T = X -μ

s / n ~ t(n - 1)

P < ta(n-1) = P μ > X – ta (n-1)

= 1- a X -μ s / n

sn

P > - ta(n-1) = P μ < X + ta(n-1)

= 1- a X -μ s / n

하한 신뢰경계

상한 신뢰경계 sn

( )

μ에 대한 100(1-a)% 상단측신뢰구간 :

(

x - sn ,

)

x + sn

(

-

∞,

)

μ에 대한 100(1-a)% 하단측신뢰구간 :

ta(n-1)

ta(n-1)

(34)

예제 6에서, 이 회사에서 mp3를 처음 생산

51개의 mp3를 임의로 선정하여 수명을 측정한 결과 : 평균 374일, 표준편차 12일 이 회사에서 생산된 mp3의 평균수명에 대한 95% 하한신뢰경계와 단측신뢰구간

μ에 대한 95% 신뢰구간 : (371.18, ∞), 즉, 평균수명이 371.18일 이상으로 추정 x = 374, n = 51, s = 10, t0.05(50) = 1.676

이므로

95% 하한신뢰경계 :

s x - n

l = t0.05(50)= 374 – (1.6803)(1.676) = 371.18

(35)

5) 두 모평균의 차에 대한 신뢰구간 5) 두 모평균의 차에 대한 신뢰구간

n개

m개

표본평균 :

표본평균 :

N(μ1, σ12 ) X

N(μ2, σ22) Y

x1 x2 xn

y1 y2 ym

X ~ N μ

( )

1, nσ2

표본평균 : 1

Y ~ N μ

( )

2, mσ2

표본평균 : 2

μ1 - μ2에 대한 100(1 - α)%

신뢰구간 ? (A) 두 모분산을 아는 경우

(A) 두 모분산을 아는 경우

(36)

X – Y ~ N μ

( )

1 - μ2, n +σ12 mσ22 X – Y의 확률분포 :

(X – Y ) – (μ1 - μ2 ) σ22

m σ12

n +

~ N(0, 1)

S.E(X - Y) = Var(X - Y) =

표준오차 : σ22

m σ12

n + 표준화

(37)

(X – Y ) – (μ1 - μ2 ) σ22

m σ21

n +

< zα/2

P (X – Y ) – (μ1 - μ2 ) σ22

m σ21

< zα/2 n +

= P = 1 - α

|(X-Y) – (μ12|에 대한 오차한계

|(X-Y) – (μ-1μ2|에 대한 90% 오차한계 : σ22 m σ12

(1.645) n +

|(X-Y) – (μ12|에 대한 95% 오차한계 : σ22 m σ12

(1.96) n +

|(X-Y) – (μ12|에 대한 99% 오차한계 : σ22 m σ12

(2.58) n +

μ12에 대한 100(1-a)% 신뢰구간 :

x – y + zα/2 σ22 m σ12

x – y – zα/2 σ22 n + m σ21

n + ,

( )

(38)

신뢰구간

0.99(α = 0.01) 0.95(α = 0.05)

0.9(α = 0.1)

상한 하한

신뢰수준 (1 – α)

σ22 m σ12

n +

x – y - (1.645) σ22

m σ12

n +

x – y + (1.645)

x – y -(1.96) σ22 m σ12

n +

x – y -(2.58) σ22 m σ12

n +

x – y +(1.96) σ22 m σ12

n +

x – y +(2.58) σ22 m σ12

n +

두 모분산을 알고 있는 경우, μ1 - μ2에 대한 100(1-α)% 신뢰구간

대도시와 중소도시의 무연 휘발유 가격에 차이가 있는가 ?

대도시 표본 : [1.69, 1.79, 1.68, 1.72, 1.66, 1.73, 1.59, 1.78, 1.72, 1.63, 1.55, 1.85] 중소도시 표본 : [1.46, 1.47, 1.42, 1.51, 1.55, 1.52, 1.48, 1.47, 1.53, 1.50]

단, 중소도시와 대도시의 휘발유 가격은 각각 독립이고, 모표준편차가 각각 0.03과 0.08인 정규분포를 이룬다

(39)

(1) 대도시와 중소도시의 평균 가격의 차에 대한 점추정값 ? (2) 두 도시의 표본평균의 차에 대한 표준오차 ?

(3) 휘발유 평균가격의 차에 대한 90% 신뢰구간 ?

(1) 대도시와 중소도시의 표본평균을 각각 X와 Y라 하면, 점추정값 : x = 1.7023, y = 1.4910

μ1 - μ2의 점추정값 : x – y = 1.7023 – 1.4910 = 0.2113

(2) s12= (0.03)2, s22= (0.08)2, n = 12, m = 10이므로

σ22 m σ21

S.E(X – Y) = n + (0.03)2+

12

(0.08)2

10 0.000715

= = =

0.027

(3)

μ1 - μ2에 대한 90% 신뢰구간 : (0.1669, 0.2557)

l = x – y - (1.645)S.E(X – Y) = 0.2113 – (1.645)(0.027) = 0.1669 하한 :

u = x – y + (1.645)S.E(X – Y) = 0.2113 + (1.645)(0.027) = 0.2557 상한 :

(40)

(B) 두 모분산을 모르는 경우 (s1 = s2 = s2 : 미 지)

(B) 두 모분산을 모르는 경우 (s1 = s2 = s2 : 미 지)

22 22

n개

m개

표본평균 :

표본평균 :

N(μ1, s12) X

N(μ2, s22) Y

x1 x2 xn

y1 y2 ym

S2 = Σ (X1 i – X )2 n-1 i = 1

n 1

S2 = Σ (Yj – Y )2

j = 1 m

2 1

m-1 표본분산 :

표본분산 :

합동표본분산 : S2 = Σ(Xi – X )2 + Σ (Yj – Y )2

i = 1 n

j = 1

1 m

n+m-2

[ ]

p

= [(n-1)S1 21 + (m-1)S22] n+m-2

(41)

|X – Y – (μ1 – μ2)|에 대한 100(1-α)% 오차한계 합동표본분산 s2p으로 대치

( )

X – Y ~ N μ1 - μ2,

X – Y의 확률분포 : n +1 m1 σ2

표준오차 : S.E(X – Y) = sp n1 + m1

σ2 : 미지

( )

sp n1 + m1

=P |X – Y–(μ1 –μ2)|<tα/2(n+m-2 ) = 1 - α

< tα/2(n+m-2) m

n1 + 1 sp

X – Y – (μ1 – μ2) P

~ t(n + m - 2) m

n1 + 1 sp

X – Y – (μ1 – μ2)

(42)

두 모분산을 모르는 경우, μ1 - μ2에 대한 100(1-α)% 신뢰구간

m n1 + 1 sp

(x – y) – tα/2(n+m-2) , (x – y) + tα/2(n+m-2)sp n1 + m1

( )

남학생과 여학생의 몸무게는 각각 동일한 분산을 갖는 정규분포를 이룬다.

두 그룹에서 각각 4명씩을 임의로 추출하여 조사한 결과

(1) 두 그룹의 평균 몸무게의 차에 대한 점추정값 ? (2) X – Y의 표준오차 ?

(3) |X – Y –(μ1 – μ2)|에 대한 90% 오차한계 ?

(4) 남학생과 여학생의 평균 몸무게에 대한 90% 신뢰구간 ? 53

53 47

46 여학생

72 69

66 64

남학생

(1) 남학생과 여학생 각각의 표본평균 : x = 67.75, y = 49.75 평균 몸무게의 차에 대한 추정값 : x - y = 67.75 - 49.75 = 18

(43)

(2) 두 표본의 표본분산과 합동표본분산 : sX = Σ (xi – 67.75)2 = 12.25

i=1

1 4 2 3

sY = Σ (yi – 49.75)2 = 14.25

i=1

1 4 2 3

sp = [(n-1)s1 X2 + (m-1)sY2] n+m-2

2 3(12.25) + 3(14.25)

4 + 4 - 2

= = 13.25

sp = = 3.64 13.25

n1 + m1 S.E(X – Y) = sp

표준오차 : = (3.64) 41 + 41 = 2.574

(3) 자유도 = 6, t0.05(6) = 1.943

|X – Y –(μ1 – μ2)|에 대한 90% 오차한계 :

d = t0.05(6)S.E(x-y) = (1.943)(2.574) = 5.001

(44)

m n1 + 1

l = x – y – t0.05(6) sp = 18 – 5.001 = 12.999

m n1 + 1

u = x – y + t0.05(6) sp = 18 + 5.001 = 23.001

(4) 평균 몸무게의 차에 대한 90% 신뢰구간의 하한, 상한 : 하한 :

상한 :

90% 신뢰구간 : (12.999, 23.001)

(45)

모분산, 모비율에 대한 구간추정 방법과 두 모집단의 모비율 의 차, 모분산의 비(ratio)에 대한 구간추정 방법 등에 대하 여 알아본다.

모분산, 모비율에 대한 구간추정 방법과 두 모집단의 모비율 의 차, 모분산의 비(ratio)에 대한 구간추정 방법 등에 대하 여 알아본다.

3 모분산과 모비율의 추정 모분산과 모비율의 추정

(46)

1) 모분산에 대한 구간추정 1) 모분산에 대한 구간추정

S2: 모분산 σ2에 대한 최소분산불편추정량, 일치추정량 σ2을 추정하기 위하여 표본분산 S2을 이용

표본분산 : S2 = Σ (X1 i – X )2 n-1 i = 1

n

추정분포 : (n-1)S2

σ2 ~ c²(n-1) V =

S는 σ에 대한 편의추정량

n ≥ 10이면, 편의를 무시할 수 있음.

E(S) < σ

σ를 추정하기 위하여 표본표준편차 S를 이용 N(μ, σ2 )

x1 x2 xn

n개

(47)

c2 (n-1) , c2 (n-1)에 대하 여

1-á/2 á/2

(n-1)S2

s2 = 1 -

a

c1-2 (n-1)

a/2

a/2

c2 (n-1)

< <

( )

P

s2 = 1 -

a

< <

( )

P (n-1)S2

a/2

c2 (n-1) c1-2 (n-1)

a/2

(n-1)S2 또는

n : 표본의 크기

c2 : 카이제곱분포에

상단 꼬리확률이 α/2인 임계점

c2 : 카이제곱분포 에서 하단 꼬리확률이 α/2인 임계점

1 - α : 신뢰수준 S2 : 표본분산

신뢰구간의 상한•하한

a/2

1-a/2 (n-1)S2

a/2

c2 (n-1) c1-2 (n-1)

a/2

(n-1)S2

,

(48)

모분산 σ2에 대한 100(1-α)% 신뢰구간

(

(n-1)sX α 2 /2(n-1)2 , X 1-α/22 (n-1)

)

(n-1)s2

신뢰구간

0.99(α = 0.01) 0.95(α = 0.05)

0.9(α = 0.1)

상한 하한

신뢰수준 (1 – α)

(n-1)s2

X 0.052 (n-1) X 0.952 (n-1)

(n-1)s2 (n-1)s2

X 0.0252 (n-1) X 2 (n-1)

(n-1)s2

0.975

(n-1)s2

X 0.0052 (n-1) X 2 (n-1)

(n-1)s2

0.995

모표준편차 σ에 대한 100(1-α)% 신뢰구간

X 1- α/22 (n-1)

(n-1)s2 (n-1)s2

α /2

X 2 (n-1) ,

( )

(49)

정규모집단 N(μ, σ2)에서 크기 10인 표본을 추출한 결과 :

[2.9 2.5 3.4 3.0 2.8 2.9 3.1 2.8 2.8 2.9]

(1) 모분산의 점추정값

(2) σ2에 대한 95% 신뢰구간 (1) 표본평균 : x = 2.91

표본분산 : s2 = Σ (xi – 2.91)2 = = 0.1223

모분산에 대한 점추정값 : σ 2 = 0.1223

1 9 i=1

10 0.489

4

(2) 크기 10인 표본이므로, X 2 (9) = 19.02, X 2 (9) =

2.70 0.025 0.975

σ2에 대한 95% 신뢰구간 :

9(0.1223) 2.7

9(0.1223) 19.02 ,

(

(n-1)sX α/22 (n-1)2 , X 1-α/22 (n-1)

)

(n-1)s2 =

( )

= (0.0579, 0.4077)

(50)

2) 모비율에 대한 구간추정 2) 모비율에 대한 구간추정

표본비율 : p = x

n

성공률 : p

B(1, p) 성공의 수 : x

실패의 수 : n-x

n개

표본의 크기 n이 충분히 크다면,

np > 5, n(1-p) > 5이면 중심극한정리에 의하여

표본비율의 확률분포 : p ~ N p,.. p(1-p)

( )

n

E(p) = E(X/n) = p Var(p) = Var(X/n) =

p(1-p)

n

(51)

p - p

p(1-p)

n

Z = ~ N(0, 1)

p - p

p(1-p)

n

P(-zα/2 < Z < zα/2) = P -zα/2 < < zα/2

p(1-p)

n

p(1-p) n

< p < p + zα/2 p - zα/2

= P= 1 - α

P |p – p| < zα/2 p(1-p)

n = 1 - α

|p – p|에 대한 100(1-α)% 오차한계∧

x(n-x) n

1 n

p(1-p)

n =

참 고

(52)

α / 2 1 -

α α / 2

p

[--- ---]

p에 대한 100(1-α)% 신뢰구간

p(1-p)

zα/2 n p(1-p)

zα/2 n

p ± p(1-p) n zα/2 • ∧ ∧

n : 표본의 크기

zα/2 : 표준정규분포에서 상단 꼬리확률이 α/2인 임계점

1 - α : 신뢰수준 p : 표본비율

신뢰구간의 상한•하한

S.E(p) = p(1-p)

표준오차 :n

p : 모비율 p에 대한 불편추정량, 일치추정량 p = p

..

∧ ∧

x(n-x) n

1

= n

p로 대치함∧

(53)

P |p – p| < = 0.90

( )

P |p – p | < = 0.95

P |p – p | < = 0.99

(1.645)p(1-p)

n

(1.96)p(1-p)

n

(2.58)p(1-p)

n

( ) ( )

z0.05 = 1.645 z0.025 = 1.96 z0.005 = 2.58

|p – p|에 대한 오차한계∧

참조

관련 문서

Given these quantities, Gordon method implies that the cost of capital of a firm increases with its growth rate.. The second method is based on

영국 ○ 회사 정관이 허용한 경우에 한하여 장기주주에 대한 이익배당 인센티브 가능. 중국 ○ 회사 정관이 허용한 경우에

[r]

함수에 사칙 연산과 합성 연산을 적용하는 방법을

“변수2 입력범위”에도 데이터가 들어있는 범위를 선택한다. 가설평균차는 검정하고자 하는 모평균의

④ 비상계엄하의 군사재판은 군인∙군무원의 범죄나 군사에 관한 간첩죄의 경우와 초병∙초소∙유독음식물공급∙포로에 관한 죄중 법률이 정한 경우에 한하여

(2) 가압된 상태로 저장되어 있는 가연성 물질의 경우와 같이 폭발성이 강한 설비의 경우 폭발에 의한 주변설비의 타격과 그로 인한 연쇄사고에 대한 다음의

정규분포를 이루지만 모집단의 분산을 모르는 경우 표본의 크기 가 작을 때에는 t 검정을 이용하여 두 표본 평균간의 차에 대한 유 의성을 검정.. 서로