추정과 가설 검정

(1)

추정과 가설 검정

지리통계학

제5강

(2)

▶ ^{통계적 추론(} statistical inference) : 표본으로 부터 얻은 정보 를 이용하여 미지의 모수를 과학적으로 추론하는 과정

추정과 가설검정

통계적 추론( statistical inference) : 표본으로 부터 얻은 정보 를 이용하여 미지의 모수를 과학적으로 추론하는 과정

추정과 가설검정

▶ 추정( estimate) : 표본으로 부터 얻은 통계량을 이용하여 미지의 모수를 과학적으로 추론하는 과정

추정( estimate) : 표본으로 부터 얻은 통계량을 이용하여 미지의

모수를 과학적으로 추론하는 과정

(3)

임의 추출

모 수 q

추론

추정량 q 통계적 추론 방법

∧

▶ ^추정량( estimator) : ^모수 q를 추정하기 위하여 사용되는 통계량 추정량은 X

₁

, X

₂

, … , X

_n

의 함수 q=Q(X

₁

, X

₂

, … , X

_n

)인 확률변수

추정량( estimator) : ^모수 q를 추정하기 위하여 사용되는 통계량 추정량은 X

₁

, X

₂

, … , X

_n

의 함수 q=Q(X

₁

, X

₂

, … , X

_n

)인 확률변수

▶ ^점추정( point estimate) : 모수에 대한 추정량이 표본추출에 따라 가변적이므로 최적의 추정값을 얻어야 하며, 이러한 최적의 추정값을 구하는 과정

점추정( point estimate) : 모수에 대한 추정량이 표본추출에 따라 가변적이므로 최적의 추정값을 얻어야 하며, 이러한 최적의 추정값을 구하는 과정

∧

(4)

점 추정(point estimate)

• 추론통계에서 모집단의 특성인 모수에 대한 추 정 및 가설 검정이 중요하다. 이 중 대표적인 모 수는 평균과 분산이다.

• 즉, 모집단에서 n개의 표본을 추출한후, 이로부 터 표본평균, 표본분산 등의 통계량을 계산하고 이를 토대로 모집단의 평균과 분산을 추정한다.

• 모수를 하나의 값으로 산출하는 것을 점 추정

(point estimation)이라 한다.

(5)

표본으로부터 표본평균 를 구한다 . xx

모집단으로부터

크기 n인 표본을 선정 미지의 평균 m인

모집단

모평균에 대한 추론 과정 예

표본평균 를 이용하여 모평균 m를 추론한다.

xx

(6)

(1) 점추정값 q가 알려지지 않은 모수 q의 정확한 값은 아니지만, 가장 좋은 점추 정값은 미지인 모수의 가장 바람직한 가상의 값으로 생각할 수 있다.

(2) 이러한 추정값은 추출된 표본에 따라 변동이 있으며, 수치적으로 약간의 차 이가 있더라도 두 개 이상의 좋은 추정값이 존재할 수도 있다.

∧

1) 점추정량의 특성 1) 점추정량의 특성

☞

m

모평균(미지)

미지의 모집단 분포: f(x)

표본으로부터 관측된 값 표본평균: m = x^∧

(7)

모집단의 분포 점추정량 m∧₂의 분포 점추정량 m₁∧의 분포

점추정량의 선택에 따른 추정값

m

참값 추정값

x₂

추정값

x₁

(8)

불편의성( unbiasedness) 불편의성( unbiasedness)

☞

모수 q에 대한 점추정량 q=Q( X₁, X₂, …, X_n)에 대하여 E(q) = q

를 만족할 때, 추정량 q를 q의 불편추정량(unbiased estimator)라 하고 E(q) ¹ q

일 때, q를 편의추정량(biased estimator) bias = E(q) - q

를 편의(bias)

∧

∧ ∧

불편추정량 편의추정량

(9)

E(X) = E S X¹ _i = S E(X_i) = S m = (nm) = m

( )

n_i=1ⁿ ¹_n _i=1ⁿ ¹_n _i=1ⁿ ¹_n

표본평균의 기대값 :

E(S²) = n-11

i=1

S

n ^(Xⁱ ^{– m)}² ^{– n(X - m)}²

E

= n-11

i=1

S

n ^E[(Xi – m)² ] – nE[(X - m)²]

= n-11

[ns² – n Var(X)] = n-11 (ns² – s² )= s² 표본분산의

기대값 :

n-1

1 (X_i – X)²

i=1

S

n

S² =

i=1 n

n-1

1

S

^[(Xⁱ – m) –(X - m)]²

=

n-1 1

i=1

S

n ^[(Xⁱ ^{– m)}² –2(X - m)(X_i – m) + (X - m)²]

=

n-1 1

i=1

S

n ^(Xi – m)² – n(X - m)²

= 표본분산 :

(10)

(1) 표본평균 X는 모평균 m에 대한 불편추정량이다.

(2) 표본분산 S²은 모분산 s²에 대한 불편추정량이다.

(3) 표본비율 ∧p는 모비율 p에 대한 불편추정량이다.

n

1 (X_i – X)²

i=1

S

n

S² = E(S²) =n-1

n s² bias = - sn² : 편의추정량 E(p) = E(X/n) = E(X)/n = p∧ 여기서, X ~ B(n, p)

표본비율의 기대값 :

(11)

모집단으로부터 크기 10인 확률표본을 다음과 같이 얻었다.

[ 2.62 2.69 2.71 2.73 2.66 2.64 2.81 2.78 2.76 2.84 ] 이 표본을 이용하여 모평균 m와 모분산 s²의 불편추정값

표본평균과 표본분산이 각각 모평균과 모분산의 불편추정량이므로

m = x

= (2.62 + 2.69 + 2.71 + 2.73 + 2.66 + 2.64 + 2.81 + 2.78 + 2.76 + 2.84 )

= 2.724

모분산의 불편추정값 :

s² = s² = S(x_i – 2.724)² = 0.0054

∧

1

10

∧ ¹

9

모평균의 불편추정값 :

(12)

효율성( efficiency) 효율성( efficiency)

☞

모수 Q 에 대한 점추정량들 Q₁, Q₂, …,Q_n에 대하여

Var(Q) = min{ Var(Q₁), Var(Q₂), … , Var(Q_n)}

일 때, 추정량 Q를 q의 유효추정량(efficient estimator)

추정량 Q 의 표준오차(standard error): S.E(Q) = Var(Q)

모수 Q 에 대한 유효추정량 :

S.E(Q) = min{ S.E(Q₁), S.E(Q₂), … , S.E(Q_n)}

∧ ∧ ∧

∧ ∧ ∧ ∧

∧

∧ ∧ ∧

∧ ∧ ∧ ∧

(13)

평균 m와 분산 s²을 갖는 확률변수들 X₁, X₂에 대하여, m에 대한 점추정량

m= a₁X₁+ a₂X₂, a₁, a₂: 양의 실수

(1) m가 모평균 m에 대한 불편추정량이 되기 위한 a₁, a₂의 조건 (2) m가 최소분산을 갖기 위한 a₁, a₂ =?

∧

a₁ + a₂ = 1

(1) ∧∧m가 모평균 m에 대한 불편추정량이므로 E(m) = m∧

E(m) = E(a₁X₁+ a₂X₂) = a₁E(X₁) + a₂E(X₂) = a₁m + a₂m = (a₁ + a₂)m

∧

(2) ∧∧m가 최소분산을 갖기 위하여,

Var(m )= Var(a∧ ₁X₁+ a₂X₂) = a₁Var(X₁) + a₂Var(X₂) = (a₁ + a₂)s²

2 2 2 2

a₁ + a₂ = a₁ + (1 – a₁ )² = 2 a¹₁ -

2

2 1

+ 2 : 최소 a₁ = a₂ =¹₂ a₁ + a₂가 최소일 때,Var(m)가 최소

∧ 2 2

2 2 2

(14)

일치성( consistency) 일치성( consistency)

☞

모수 q를 추정하기 위한 크기 n인 표본으로부터 얻은 추정량 q_n에 대하여, 크기 n이 커질수록 q_n가 모수 q에 근접하는 경우, 즉 임의의 양수 e에 대하 여

lim P(|q_n- q|≥ e) = 0

을 만족할 때, 추정량 q_n을 모수 q에 대한 일치추정량(consistent estimator)이라 한다.

∧

∧ n→∞

(15)

▶ ^{구간추정(} interval estimate) : ^모수 q 의 참값이 포함되리라고 믿어지는 구간을 추정하는 방법

구간추정( interval estimate) : ^모수 q 의 참값이 포함되리라고 믿어지는 구간을 추정하는 방법

▶ ^{신뢰수준(} confidence level), 신뢰도(degree of confidence) : 모수

_q

의 참값이 추정한 구간 안에 포함될 것으로 믿어지는

미리 정해 놓은 확신의 정도로 일반적으로 1- α 로 나타낸다.

신뢰수준( confidence level), 신뢰도(degree of confidence) : 모수

_q

의 참값이 추정한 구간 안에 포함될 것으로 믿어지는

미리 정해 놓은 확신의 정도로 일반적으로 1- α 로 나타낸다.

▶ _{구간추정량(} interval estimator) : ^신뢰도 1- α 에서 모수 q ^에

대한 두 통계량 L(X

₁

,X

₂

,…,X

_n

), U(X

₁

,X

₂

,…,X

_n

)을 적당히 취하여, P(L < q < U) = 1 – α

일 때, 구간 ( L(X

₁

,X

₂

,…,X

_n

), U(X

₁

,X

₂

,…,X

_n

))을 모수 q ^에 ^대한

구간추정량이라 한다

구간추정량( interval estimator) : ^신뢰도 1- α 에서 모수 q ^에

대한 두 통계량 L(X

₁

,X

₂

,…,X

_n

), U(X

₁

,X

₂

,…,X

_n

)을 적당히 취하여, P(L < q < U) = 1 – α

일 때, 구간 ( L(X

₁

,X

₂

,…,X

_n

), U(X

₁

,X

₂

,…,X

_n

))을 모수 q ^에 ^대한

구간추정량이라 한다

(16)

▶ ^{신뢰구간(} confidence interval) : 표본으로부터 얻은 관찰값 X

₁

= x

₁

, X

₂

= x

₂

, …,X

_n

= x

_n

에 대한 통계량의 측정값이

l(x

₁

, x

₂

, …, x

_n

), u(x

₁

, x

₂

, …, x

_n

)

일 때, 구간 (l, u)를 모수 q ^에 ^대한 ^신뢰도 1- α 의 신뢰구간 , l을 신뢰구간의 하한 ,u를 신뢰구간의 상한이라 한다

신뢰구간( confidence interval) : 표본으로부터 얻은 관찰값 X

₁

= x

₁

, X

₂

= x

₂

, …,X

_n

= x

_n

에 대한 통계량의 측정값이

l(x

₁

, x

₂

, …, x

_n

), u(x

₁

, x

₂

, …, x

_n

)

일 때, 구간 (l, u)를 모수 q ^에 ^대한 ^신뢰도 1- α 의 신뢰구간 , l을 신뢰구간의 하한 ,u를 신뢰구간의 상한이라 한다

(1) 보편적으로, 신뢰수준은 α = 0.1, 0.05, 0.01 즉, 90%, 95%, 99%의 신뢰도 를 많이 사용한다.

(2) 신뢰구간은 모수 q에 대한 점추정값 q을 중심으로 갖는 구간을 선택한 다.

(3) 신뢰도 90%라 함은 10개의 표본을 임의로 추출하여 모수 q에 대한 신 뢰구간을 구할 경우, 10개 중에서 9개의 신뢰구간은 모수 q의 참값을 포함하고 나머지 1개의 신뢰구간은 모수 q의 참값을 포함하지 않음을 의미한다.

참 고

∧

(17)

점추정값

x α / 2

X의 표본분포

[--- ---]

1- α _α _{/ 2}

예

모분산 σ

²

을 아는 경우, 모평균 μ에 대한 신뢰도

100(1- α)%의 신뢰구간

(18)

예

모분산 σ

²

을 아는 경우, 모평균 μ에 대한 신뢰도 100(1-α)%의 신뢰구간의 의미

μ

[---

x

₂ ---]

x

₁₀

[--- ---]

[---

x

₄ ---]

[---

x

₃ ---]

x

₁

[--- ---]

…

90%의 신뢰구간

0.90 0.05 0.05

X의 확률분포

μ를 포함하지 않는 구간 μ를 포함하는

구간

(19)

2 모평균의 구간추정 모평균의 구간추정

모분산이 알려진 경우와 모르는 경우에 대한 모평균의 구간 추정과 두 모집단의 평균의 차에 대한 구간추정하는 방법에 대하여 알아본다.

모분산이 알려진 경우와 모르는 경우에 대한 모평균의 구간

추정과 두 모집단의 평균의 차에 대한 구간추정하는 방법에

대하여 알아본다.

(20)

1) 모분산이 알려진 경우 1) 모분산이 알려진 경우

☞

점추정량 : N(μ, σ²)

σ² : 기지

n개를 임의추출

1 n i = 1

∧ n

μ =X = Σ X_i x₁

x₂ x_n

표 준 화 Z = X -μ

σ/ n ~ N(0, 1) X ~ N μ,

( )

_n^σ²

S.E(X) = Var(X) = σn 표본평균 :

표준오차 :

(21)

P(|Z| < z^α_/2) = P < zX -μ ^α_/2 = P |X – μ| < = 1- α σ/ n

σ

n z^α_/2

( ) ( )

|X–μ|에 대한 100(1-α)% 오차한계

α / 2 1 - α _α _{/ 2}

x

σ

n z^α_/2 σ

n z^α_/2

[--- ---]

μ에 대한 100(1-α)% 신뢰구간

x z ±

_a

s n x z

/2

±

_a

s n

/2

x : 표본평균 σ : 모표준편차 n : 표본의 크기

z^α_/2 : 표준정규분포에서 상단 꼬리확률이 α/2인 임계점

1 - α : 신뢰수준

신뢰구간의 상한•하한

(22)

z_0.05 = 1.645 z_0.025 = 1.96 z_0.005 = 2.58

P < 1.645 = P |X – μ| < 1.645 = 0.90X -μ σ/ n

σ

( ) ( )

n

P < 1.96 = P |X – μ| < 1.96 = 0.95X -μ σ/ n

σ

( ) ( )

n

P < 2.58 = P |X – μ| < 2.58 = 0.99X -μ σ/ n

σ

( ) ( )

n

|X –μ|에 대한 오차한계

(23)

모분산을 알고 있는 경우, μ에 대한 100(1-α)% 신뢰구간

90%신뢰구간x

95%신뢰구간 99%신뢰구간

x + 1.645 σ/ n x + 1.96 σ / n x + 2.58 σ / n x - 1.645 σ/ n

x - 1.96 σ/ n x - 2.58 σ/ n

x + 2.58 σ/ n x – 2.58 σ/ n

0.99(a = 0.01)

x + 1.96 σ/ n x – 1.96 σ/ n

0.95(a = 0.05)

x + 1.645 σ/

x – 1.645 σ/ n 0.90(a = 0.1) n

상한 하한

신뢰수준 신뢰구간 (1- α)

(24)

모표준편차가 0.2인 정규모집단에서 10개의 자료를 표본으로 추출한 결과 : [0.27, 0.34, 0.34, 0.36, 0.30, 0.28, 0.41, 0.35, 0.48, 0.43]

(1) 모평균에 대한 점추정값 ?

(2) |X – μ|에 대한 95% 오차한계 ? (3) 모평균 μ에 대한 95% 신뢰구간 ?

(2) n=10, σ = 0.2이므로 μ에 대한 95% 오차한계 :

σ

1.96 n (1.96) ^•(0.2)

= 10 = 0.124

(1)μ = x

= (0.27 + 0.34 + 0.34 + 0.36 + 0.30 + 0.28 + 0.41 + 0.35 + 0.48 + 0.43)

= 0.356

1 10

∧

μ에 대한 95% 신뢰구간 : (0.233, 0.479)

하한 : l = x – (1.96) ^•S.E(x) = 0.356 – 0.123 = 0.233

상한 : u = x + (1.96) •S.E(x) = 0.356 + 0.123 = 0.479

(3) x = 0.356,

이므로 μ에 대한 95% 신뢰구간의 하한, 상한 :

σ

n 10

S.E(x) = = = 0.0630.2

(25)

2) 모분산이 알려져 있지 않은 경 우

☞

점추정량 : N(μ, σ²)

σ² : 미지

n개를 임의추출

1 n i = 1

∧ n

μ =X = Σ X_i x₁

x₂ x_n

X ~ N μ,

( )

_n^σ²

S.E(X) = Var(X) = s n

T = X -μ

S / n ~ t(n - 1) 표본평균 :

표준오차 :

표본분산 s²으로 대치

(26)

t(n-1)의 분포

α / 2 1 - α

α / 2

x

s

n t^α_/2(n-1) s

n t^α_/2(n-1)

[--- ---]

μ에 대한 100(1- α)% 신뢰구간

P < tX -μ ^α_/2(n-1) = P |X – μ| < = 1- α S / n

s

n t^α^/2(n-1)

( ) ( )

|X – μ|에 대한 100(1-α)% 오차한계

x : 표본평균

s : 표본표준편차 n : 표본의 크기

t^α_/2(n-1) : t -분포에서 상단 꼬리확률이 α/2인 임계점

1 - α : 신뢰수준

x ± n s

t ^α_/2(n-1)

(27)

P < tX -μ _0.05(n-1) = P |X – μ| < t_0.05(n-1) = 0.90 s / n

s

( ) ( )

n

P < tX -μ _0.025(n-1) = P |X – μ| < t_0.025(n-1) = 0.95 s / n

s n

( )

P < tX -μ _0.005(n-1) = P |X – μ| < t_0.005(n-1) = 0.99

s / n s

n

( )

|X – μ|에 대한 90% 오차한계 :

t_0.025(n-1) s n t_0.05(n-1) s

n

t_0.005(n-1) s n

(28)

모분산을 모르는 경우, μ에 대한 100(1-α)% 신뢰구간

x – t_0.005(n-1) s / n x – t_0.005(n-1) s / n

0.99(a = 0.01)

x – t_0.025(n-1) s / n x – t_0.025(n-1) s / n

0.95(a = 0.05)

x – t_0.05(n-1) s / n x – t_0.05(n-1) s / n

0.90(a = 0.1)

상한 하한

신뢰수준 신뢰구간 (1- α)

90%신뢰구간x

95%신뢰구간 99%신뢰구간 x – t_0.05(n-1) s / n

x - t_0.025(n-1) s/ n x - t_0.005(n-1) s/ n

t(n-1)의 분포

x + t_0.05(n-1) s / n x + t_0.025(n-1) s / n x + t_0.005(n-1) s / n

(29)

N(μ, σ²)인 정규모집단에서 크기 5인 표본을 추출한 결과 : [2.9, 2.5, 3.7, 3.0, 2.8]

(1) 모평균에 대한 점추정값 ?

(2) |X – μ|에 대한 95% 오차한계 ? (3) 모평균 μ에 대한 95% 신뢰구간 ?

(2) 표본분산 :

s

t_0.025(4) n = (2.776)^•(0.1985) = 0.551

(1)μ = x = (2.9 + 2.5 + 3.7 + 3.0 + 2.8)

= 2.98

1

∧ 5

(3) x = 2.98, 오차한계 d = 0.551이므로 95% 신뢰구간의 하한, 상한 :

s² = Σ (x_i – 2.98)² = 0.197 ,

1

4 s = 0.197 = 0.4438

s

S.E(x) = = = 0.1985n 5

0.4438

t_0.025(4) = 2.776

오차한계 :

하한 : ^{l = x – t}0.025(4) •S.E(x) = 2.98 – 0.551 = 2.429

상한 : u = x + t_0.025(4) ^• S.E(x) = 2.98 + 0.551 = 3.531

μ에 대한 95% 신뢰구간 : (2.429, 3.531)

(30)

3) 모분산을 모르는 모집단에서 대단위 표본을 추출하는 경 우

☞

z -추정에 의하여 근사적으로 모평균에 대한 신뢰구간을 구한다.

표본평균 X는 중심극한정리에 의하여 정규분포에 근사 s² → σ²으로 수렴하므로

X -μ

s / n ~ N(0, 1)..

전국 100세 이상 노인 103명을 대상으로 2002년 10월에 조사된 자료에 의하면, 평균 혈중 콜레스테롤이 174.6^㎎^/㎗로 나타났다.

만일 이 자료에서 표준편차가 12^㎎^/㎗으로 나타난다 할 때, 전국 100세 이상 노인의 평균 혈당치에 대한 95% 신뢰구간

μ에 대한 95% 신뢰구간 : (172.283, 176.917)

하한 : l = x – (1.96) ^•S.E(x) = 174.6 – 2.317 = 172.283

상한 : u = x + (1.96) ^• S.E(x) = 174.6 + 2.317 = 176.917

x = 174.6, n = 103, s = 12이므로 S.E(x) = =

1.183 s / n

95% 신뢰구간의 하한, 상한 :

(31)

4) 단측 신뢰구간 4) 단측 신뢰구간

☞

모평균이 어떤 값 이상 또는 이하인 경우, 신뢰도 100(1 - α)%에서 표본 평균 x₀ 이상 또는 이하로 나타나는 신뢰구간

(A) 모분산을 아는 경우 (A) 모분산을 아는 경우

Z = X -μ

σ/ n ~ N(0, 1)

μ에 대한 100(1-α)% 상단측신뢰구간 :

(

^{x -} ^{σ z}_n ^α ^{, ∞}

)

σ z^α x + n

(

-∞,

)

μ에 대한 100(1-α)% 하단측신뢰구간 :

P < zX - μ ^α = P μ >X- =1 - α σ/ n

σn z^α

( ) ( )

P > -zX - μ ^α = P μ <X+ = 1- α σ/ n

σn z^α

( ) ( )

하한 신뢰경계

상한 신뢰경계

(32)

과거 자료에 의하면 어느 제조회사에서 생산된 mp3의 수명 ~ N(μ, 10²) 51개의 mp3를 임의로 선정하여 수명을 측정한 결과 : 평균 374일

이 회사에서 생산된 mp3의 평균수명에 대한 95% 하한신뢰경계와 단측신뢰구간

μ에 대한 95% 신뢰구간 : (371.7, ∞), 즉, 평균수명이 371.7일 이상으로 추정 x = 374, n = 51, σ = 10, z_0.05 = 1.645이

므로

95% 하한신뢰경계 :

σ z_0.05 x - n

l = = 374 – (1.4002)•(1.645) = 371.1

(33)

(B) 모분산을 모르는 경우 (B) 모분산을 모르는 경우

T = X -μ

s / n ~ t(n - 1)

P < t_a(n-1) = P μ > X – t_a(n-1)

= 1- a X -μ s / n

sn

P > - t_a(n-1) = P μ < X + t_a(n-1)

= 1- a X -μ s / n

하한 신뢰경계

상한 신뢰경계 sn

( )

μ에 대한 100(1-a)% 상단측신뢰구간 :

(

^{x -} ^s_n ^,

∞

)

^{x +} ^s_n

(

^-

∞,

)

μ에 대한 100(1-a)% 하단측신뢰구간 :

t_a(n-1)

(34)

예제 6에서, 이 회사에서 mp3를 처음 생산

51개의 mp3를 임의로 선정하여 수명을 측정한 결과 : 평균 374일, 표준편차 12일 이 회사에서 생산된 mp3의 평균수명에 대한 95% 하한신뢰경계와 단측신뢰구간

μ에 대한 95% 신뢰구간 : (371.18, ∞), 즉, 평균수명이 371.18일 이상으로 추정 x = 374, n = 51, s = 10, t_0.05(50) = 1.676

이므로

95% 하한신뢰경계 :

s x - n

l = t_0.05(50)= 374 – (1.6803)•(1.676) = 371.18

(35)

5) 두 모평균의 차에 대한 신뢰구간 5) 두 모평균의 차에 대한 신뢰구간

☞

n개

m개

표본평균 :

N(μ₁, σ₁² ) X

N(μ₂, σ₂²) Y

x₁ x₂ x_n

y₁ y₂ y_m

X ~ N μ

( )

₁, _n^σ²

표본평균 : ¹

Y ~ N μ

( )

₂, _m^σ²

표본평균 : ²

μ₁- μ₂에 대한 100(1 - α)%

신뢰구간 ? (A) 두 모분산을 아는 경우

(A) 두 모분산을 아는 경우

(36)

X – Y ~ N μ

( )

₁ - μ₂, _{n +}^σ¹² _m^σ²² X – Y의 확률분포 :

(X – Y ) – (μ₁ - μ₂ ) σ₂²

m σ₁²

n +

~ N(0, 1)

S.E(X - Y) = Var(X - Y) =

표준오차 : σ₂²

m σ₁²

n + 표준화

(37)

(X – Y ) – (μ₁ - μ₂ ) σ₂²

m σ²₁

n +

< z^α_/2

P (X – Y ) – (μ₁ - μ₂ ) σ₂²

m σ²₁

< z^α_/2 n +

= P = 1 - α

|(X-Y) – (μ₁-μ₂|에 대한 오차한계

|(X-Y) – (μ-₁μ₂|에 대한 90% 오차한계 : σ₂² m σ₁²

(1.645)^• n +

|(X-Y) – (μ₁-μ₂|에 대한 95% 오차한계 : σ₂² m σ₁²

(1.96)^• n +

|(X-Y) – (μ₁-μ₂|에 대한 99% 오차한계 : σ₂² m σ₁²

(2.58)^• n +

μ₁-μ₂에 대한 100(1-a)% 신뢰구간 :

x – y + z^α_/2 σ₂² m σ₁²

x – y – z^α_/2 σ₂² n + m σ²₁

n + ,

( )

(38)

신뢰구간

0.99(α = 0.01) 0.95(α = 0.05)

0.9(α = 0.1)

상한 하한

신뢰수준 (1 – α)

σ₂² m σ₁²

n +

x – y - (1.645)^• σ₂²

m σ₁²

n +

x – y + (1.645)^•

x – y -(1.96)^• σ₂² m σ₁²

n +

x – y -(2.58)^• σ₂² m σ₁²

n +

x – y +(1.96)^• σ₂² m σ₁²

n +

x – y +(2.58)^• σ₂² m σ₁²

n +

두 모분산을 알고 있는 경우, μ₁ - μ₂에 대한 100(1-α)% 신뢰구간

대도시와 중소도시의 무연 휘발유 가격에 차이가 있는가 ?

대도시 표본 : [1.69, 1.79, 1.68, 1.72, 1.66, 1.73, 1.59, 1.78, 1.72, 1.63, 1.55, 1.85] 중소도시 표본 : [1.46, 1.47, 1.42, 1.51, 1.55, 1.52, 1.48, 1.47, 1.53, 1.50]

단, 중소도시와 대도시의 휘발유 가격은 각각 독립이고, 모표준편차가 각각 0.03과 0.08인 정규분포를 이룬다

(39)

(1) 대도시와 중소도시의 평균 가격의 차에 대한 점추정값 ? (2) 두 도시의 표본평균의 차에 대한 표준오차 ?

(3) 휘발유 평균가격의 차에 대한 90% 신뢰구간 ?

(1) 대도시와 중소도시의 표본평균을 각각 X와 Y라 하면, 점추정값 : x = 1.7023, y = 1.4910

μ₁ - μ₂의 점추정값 : x – y = 1.7023 – 1.4910 = 0.2113

(2) _s₁²_{= (0.03)}²_{, s}₂²_{= (0.08)}², n = 12, m = 10이므로

σ₂² m σ²₁

S.E(X – Y) = n + ^(0.03)²+

12

(0.08)²

10 0.000715

= = ⁼

0.027

(3)

μ₁ - μ₂에 대한 _90% 신뢰구간 : (0.1669, 0.2557)

l = x – y - (1.645)• S.E(X – Y) = 0.2113 – (1.645)•(0.027) = 0.1669 하한 :

u = x – y + (1.645)• S.E(X – Y) = 0.2113 + (1.645)•(0.027) = 0.2557 상한 :

(40)

(B) 두 모분산을 모르는 경우 (s₁ = s₂ = s² : 미 지)

22 22

n개

m개

표본평균 :

N(μ₁, s₁²) X

N(μ₂, s₂²) Y

x₁ x₂ x_n

y₁ y₂ y_m

S² = Σ (X1 _i – X )² n-1 ^{i = 1}

n 1

S² = Σ (Y_j – Y )²

j = 1 m

2 1

m-1 표본분산 :

표본분산 :

합동표본분산 : S² = Σ(X_i – X )² + Σ (Y_j – Y )²

i = 1 n

j = 1

1 m

n+m-2

[ ]

p

= [(n-1)S1 ²₁ + (m-1)S₂²] n+m-2

(41)

|X – Y – (μ₁ – μ₂)|에 대한 100(1-α)% 오차한계 합동표본분산 s²_p으로 대치

( )

X – Y ~ N μ₁ - μ₂,

X – Y의 확률분포 : n +¹ m¹ σ²

표준오차 : S.E(X – Y) = s_p^• n¹ + m¹

σ² : 미지

( )

^s^p^• _n¹ ⁺ _m¹

=P |X – Y–(μ₁ –μ₂)|<tα_/2(n+m-2 ) = 1 - α

< t^α_/2(n+m-2) m

n¹ + ¹ s_p^•

X – Y – (μ₁ – μ₂) P

~ t(n + m - 2) m

n¹ + ¹ s_p^•

X – Y – (μ₁ – μ₂)

(42)

두 모분산을 모르는 경우, μ₁ - μ₂에 대한 100(1-α)% 신뢰구간

m n¹ + ¹ s_p^•

(x – y) – t^α_/2(n+m-2) , (x – y) + t^α_/2(n+m-2)s_p^• n¹ + m¹

( )

남학생과 여학생의 몸무게는 각각 동일한 분산을 갖는 정규분포를 이룬다.

두 그룹에서 각각 4명씩을 임의로 추출하여 조사한 결과

(1) 두 그룹의 평균 몸무게의 차에 대한 점추정값 ? (2) X – Y의 표준오차 ?

(3) |X – Y –(μ₁ – μ₂)|에 대한 90% 오차한계 ?

(4) 남학생과 여학생의 평균 몸무게에 대한 90% 신뢰구간 ? 53

53 47

46 여학생

72 69

66 64

남학생

(1) 남학생과 여학생 각각의 표본평균 : x = 67.75, y = 49.75 평균 몸무게의 차에 대한 추정값 : x - y = 67.75 - 49.75 = 18

(43)

(2) 두 표본의 표본분산과 합동표본분산 : s_X = Σ (x_i – 67.75)² = 12.25

i=1

1 4 2 3

s_Y = Σ (y_i – 49.75)² = 14.25

i=1

1 4 2 3

s_p = [(n-1)s1 _X² + (m-1)s_Y²] n+m-2

2 3^•(12.25) + 3^•(14.25)

4 + 4 - 2

= = 13.25

s_p = = 3.64 13.25

n¹ + m¹ S.E(X – Y) = s_p^•

표준오차 : = (3.64)^• 4¹ + 4¹ = 2.574

(3) 자유도 = 6, t_0.05(6) = 1.943

|X – Y –(μ₁ – μ₂)|에 대한 90% 오차한계 :

d = t_0.05(6)^•S.E(x-y) = (1.943)^•(2.574) = 5.001

(44)

m n¹ + ¹

l = x – y – t_0.05(6) s_p^• = 18 – 5.001 = 12.999

m n¹ + ¹

u = x – y + t_0.05(6) s_p^• = 18 + 5.001 = 23.001

(4) 평균 몸무게의 차에 대한 90% 신뢰구간의 하한, 상한 : 하한 :

상한 :

90% 신뢰구간 : (12.999, 23.001)

(45)

모분산, 모비율에 대한 구간추정 방법과 두 모집단의 모비율 의 차, 모분산의 비(ratio)에 대한 구간추정 방법 등에 대하 여 알아본다.

3 모분산과 모비율의 추정 모분산과 모비율의 추정

(46)

1) 모분산에 대한 구간추정 1) 모분산에 대한 구간추정

☞

S²: 모분산 σ²에 대한 최소분산불편추정량, 일치추정량 σ²을 추정하기 위하여 표본분산 S²을 이용

표본분산 : S² = Σ (X1 _i – X )² n-1 ^{i = 1}

n

추정분포 : (n-1)S²

σ² ~ c²(n-1) V =

S는 σ에 대한 편의추정량

n ≥ 10이면, 편의를 무시할 수 있음.

E(S) < σ

σ를 추정하기 위하여 표본표준편차 S를 이용 N(μ, σ²)

x₁ x₂ x_n

n개

(47)

c² (n-1) , c² (n-1)에 대하 여

1-á/2 á/2

(n-1)S²

s² = 1 -

a

c_1-2 (n-1)

a/2

c²(n-1)

< <

( )

P

s² = 1 -

a

< <

( )

P (n-1)S²

a/2

c²(n-1) c_1-2 (n-1)

a/2

(n-1)S² 또는

n : 표본의 크기

c² : 카이제곱분포에 서

상단 꼬리확률이 α/2인 임계점

c² : 카이제곱분포 에서 하단 꼬리확률이 α/2인 임계점

1 - α : 신뢰수준 S² : 표본분산

a/2

1-a/2 (n-1)S²

a/2

c²(n-1) c_1-2 (n-1)

a/2

(n-1)S²

,

(48)

모분산 σ²에 대한 100(1-α)% 신뢰구간

(

^(n-1)s_X_α²_/2_(n-1)² , _X_1-α/22 (n-1)

)

(n-1)s²

신뢰구간

0.99(α = 0.01) 0.95(α = 0.05)

0.9(α = 0.1)

상한 하한

신뢰수준 (1 – α)

(n-1)s²

X 0.05²(n-1) X _0.952 (n-1)

(n-1)s² (n-1)s²

X _0.025²(n-1) X 2 (n-1)

(n-1)s²

0.975

(n-1)s²

X _0.005²(n-1) X 2 (n-1)

(n-1)s²

0.995

모표준편차 σ에 대한 100(1-α)% 신뢰구간

X _{1- α/2}2 (n-1)

(n-1)s² (n-1)s²

α /2

X ²(n-1) ,

( )

(49)

정규모집단 N(μ, σ²)에서 크기 10인 표본을 추출한 결과 :

[2.9 2.5 3.4 3.0 2.8 2.9 3.1 2.8 2.8 2.9]

(1) 모분산의 점추정값

(2) σ²에 대한 95% 신뢰구간 (1) 표본평균 : x = 2.91

표본분산 : s² = Σ (x_i – 2.91)²= = 0.1223

모분산에 대한 점추정값 : σ ² = 0.1223

1 9 ⁱ⁼¹

10 0.489

4

∧

(2) 크기 10인 표본이므로, X ²(9) = 19.02, X ²(9) =

2.70 ^0.025 ^0.975

σ²에 대한 95% 신뢰구간 :

9•(0.1223) 2.7

9•(0.1223) 19.02 ,

(

^(n-1)s_X_α_/2²_(n-1)² , _X_1-α/22 (n-1)

)

(n-1)s² ⁼

( )

= (0.0579, 0.4077)

(50)

2) 모비율에 대한 구간추정 2) 모비율에 대한 구간추정

☞

표본비율 : p = x

∧ n

성공률 : p

B(1, p) ^{성공의 수 :}^x

실패의 수 : n-x

n개

표본의 크기 n이 충분히 크다면,

np > 5, n(1-p) > 5이면 중심극한정리에 의하여

표본비율의 확률분포 : p ~ N p,.. p(1-p)

∧

( )

n

E(p) = E(X/n) = p Var(p) = Var(X/n) =

∧

∧ p(1-p)

n

(51)

p - p

∧ p(1-p)

n

Z = ~ N(0, 1)

p - p

∧ p(1-p)

n

P(-z^α_/2 < Z < z^α_/2) = P -z^α_/2 < < z^α_/2

∧ p(1-p)

n

p(1-p) n

< p < p + z^α_/2^• p - z^α_/2^•

= P ∧ = 1 - α

P |p – p| < ∧ z^α_/2 ^• p(1-p)

n ^{= 1 - α}

|p – p|에 대한 100(1-α)% 오차한계∧

x(n-x) n

1 n

p(1-p)

n ⁼

참 고

(52)

α / 2 1 -

α ^α ^{/ 2}

p

[--- ---]

p에 대한 100(1-α)% 신뢰구간

p(1-p)

z^α_/2 • n p(1-p)

z^α_/2 • n

∧

∧ ∧ ∧ ∧

∧p ± p(1-p) n z^α_/2 • ∧ ∧

n : 표본의 크기

z^α_/2 : 표준정규분포에서 상단 꼬리확률이 α/2인 임계점

1 - α : 신뢰수준 p : 표본비율

∧

S.E(p) = p(1-p)

표준오차 : ∧ n

p : 모비율 p에 대한 불편추정량, 일치추정량 p = p

..

∧ ∧

x(n-x) n

1

= n

p로 대치함∧

(53)

P |p – p| < = 0.90

( )

P |p – p | < = 0.95

P |p – p | < = 0.99

(1.645)• ^p(1-p)

n

∧ ∧

(1.96)• ^p(1-p)

n

∧ ∧

(2.58)• ^p(1-p)

n

∧ ∧

( ) ( )

z_0.05 = 1.645 z_0.025 = 1.96 z_0.005 = 2.58

|p – p|에 대한 오차한계∧

∧

추정과 가설 검정

추정과 가설 검정

지리통계학

제5강

▶ 통계적 추론( statistical inference) : 표본으로 부터 얻은 정보 를 이용하여 미지의 모수를 과학적으로 추론하는 과정

추정과 가설검정

통계적 추론( statistical inference) : 표본으로 부터 얻은 정보 를 이용하여 미지의 모수를 과학적으로 추론하는 과정

추정과 가설검정

▶ 추정( estimate) : 표본으로 부터 얻은 통계량을 이용하여 미지의 모수를 과학적으로 추론하는 과정

추정( estimate) : 표본으로 부터 얻은 통계량을 이용하여 미지의

모수를 과학적으로 추론하는 과정

▶ 추정량( estimator) : 모수 q를 추정하기 위하여 사용되는 통계량 추정량은 X

, X

, … , X

의 함수 q=Q(X

, X

, … , X

)인 확률변수

추정량( estimator) : 모수 q를 추정하기 위하여 사용되는 통계량 추정량은 X

, X

, … , X

의 함수 q=Q(X

, X

, … , X

)인 확률변수

▶ 점추정( point estimate) : 모수에 대한 추정량이 표본추출에 따라 가변적이므로 최적의 추정값을 얻어야 하며, 이러한 최적의 추정값을 구하는 과정

점추정( point estimate) : 모수에 대한 추정량이 표본추출에 따라 가변적이므로 최적의 추정값을 얻어야 하며, 이러한 최적의 추정값을 구하는 과정

점 추정(point estimate)

• 추론통계에서 모집단의 특성인 모수에 대한 추 정 및 가설 검정이 중요하다. 이 중 대표적인 모 수는 평균과 분산이다.

• 즉, 모집단에서 n개의 표본을 추출한후, 이로부 터 표본평균, 표본분산 등의 통계량을 계산하고 이를 토대로 모집단의 평균과 분산을 추정한다.

• 모수를 하나의 값으로 산출하는 것을 점 추정

(point estimation)이라 한다.

표본으로부터 표본평균 를 구한다 . xx

모집단으로부터

크기 n인 표본을 선정 미지의 평균 m인

모집단

표본평균 를 이용하여 모평균 m를 추론한다.

xx

1) 점추정량의 특성 1) 점추정량의 특성

☞

불편의성( unbiasedness) 불편의성( unbiasedness)

☞

( )

S

S

S

S

S

S

S

효율성( efficiency) 효율성( efficiency)

☞

일치성( consistency) 일치성( consistency)

☞

▶ 구간추정( interval estimate) : 모수 q 의 참값이 포함되리라고 믿어지는 구간을 추정하는 방법

구간추정( interval estimate) : 모수 q 의 참값이 포함되리라고 믿어지는 구간을 추정하는 방법

▶ 신뢰수준( confidence level), 신뢰도(degree of confidence) : 모수

의 참값이 추정한 구간 안에 포함될 것으로 믿어지는

미리 정해 놓은 확신의 정도로 일반적으로 1- α 로 나타낸다.

신뢰수준( confidence level), 신뢰도(degree of confidence) : 모수

의 참값이 추정한 구간 안에 포함될 것으로 믿어지는

미리 정해 놓은 확신의 정도로 일반적으로 1- α 로 나타낸다.

▶ 구간추정량( interval estimator) : 신뢰도 1- α 에서 모수 q 에

대한 두 통계량 L(X

,X

,…,X

), U(X

,X

,…,X

)을 적당히 취하여, P(L < q < U) = 1 – α

일 때, 구간 ( L(X

,X

,…,X

), U(X

,X

,…,X

))을 모수 q 에 대한

구간추정량이라 한다

구간추정량( interval estimator) : 신뢰도 1- α 에서 모수 q 에

대한 두 통계량 L(X

▶ ^{통계적 추론(} statistical inference) : 표본으로 부터 얻은 정보 를 이용하여 미지의 모수를 과학적으로 추론하는 과정

▶ ^추정량( estimator) : ^모수 q를 추정하기 위하여 사용되는 통계량 추정량은 X

추정량( estimator) : ^모수 q를 추정하기 위하여 사용되는 통계량 추정량은 X

▶ ^점추정( point estimate) : 모수에 대한 추정량이 표본추출에 따라 가변적이므로 최적의 추정값을 얻어야 하며, 이러한 최적의 추정값을 구하는 과정

▶ ^{구간추정(} interval estimate) : ^모수 q 의 참값이 포함되리라고 믿어지는 구간을 추정하는 방법

구간추정( interval estimate) : ^모수 q 의 참값이 포함되리라고 믿어지는 구간을 추정하는 방법

▶ ^{신뢰수준(} confidence level), 신뢰도(degree of confidence) : 모수

▶ _{구간추정량(} interval estimator) : ^신뢰도 1- α 에서 모수 q ^에

))을 모수 q ^에 ^대한

구간추정량( interval estimator) : ^신뢰도 1- α 에서 모수 q ^에

))을 모수 q ^에 ^대한

▶ ^{신뢰구간(} confidence interval) : 표본으로부터 얻은 관찰값 X

일 때, 구간 (l, u)를 모수 q ^에 ^대한 ^신뢰도 1- α 의 신뢰구간 , l을 신뢰구간의 하한 ,u를 신뢰구간의 상한이라 한다

일 때, 구간 (l, u)를 모수 q ^에 ^대한 ^신뢰도 1- α 의 신뢰구간 , l을 신뢰구간의 하한 ,u를 신뢰구간의 상한이라 한다

1- α _α _{/ 2}