추정과 가설 검정
지리통계학
제5강
▶ 통계적 추론( statistical inference) : 표본으로 부터 얻은 정보 를 이용하여 미지의 모수를 과학적으로 추론하는 과정
추정과 가설검정
통계적 추론( statistical inference) : 표본으로 부터 얻은 정보 를 이용하여 미지의 모수를 과학적으로 추론하는 과정
추정과 가설검정
▶ 추정( estimate) : 표본으로 부터 얻은 통계량을 이용하여 미지의 모수를 과학적으로 추론하는 과정
추정( estimate) : 표본으로 부터 얻은 통계량을 이용하여 미지의
모수를 과학적으로 추론하는 과정
임의 추출
모 수 q
추론
추정량 q 통계적 추론 방법
∧
▶ 추정량( estimator) : 모수 q를 추정하기 위하여 사용되는 통계량 추정량은 X1, X
2, … , X
n의 함수 q=Q(X
1, X
2, … , X
n)인 확률변수
추정량( estimator) : 모수 q를 추정하기 위하여 사용되는 통계량 추정량은 X
1, X
2, … , X
n의 함수 q=Q(X
1, X
2, … , X
n)인 확률변수
▶ 점추정( point estimate) : 모수에 대한 추정량이 표본추출에 따라 가변적이므로 최적의 추정값을 얻어야 하며, 이러한 최적의 추정값을 구하는 과정
점추정( point estimate) : 모수에 대한 추정량이 표본추출에 따라 가변적이므로 최적의 추정값을 얻어야 하며, 이러한 최적의 추정값을 구하는 과정
∧
점 추정(point estimate)
• 추론통계에서 모집단의 특성인 모수에 대한 추 정 및 가설 검정이 중요하다. 이 중 대표적인 모 수는 평균과 분산이다.
• 즉, 모집단에서 n개의 표본을 추출한후, 이로부 터 표본평균, 표본분산 등의 통계량을 계산하고 이를 토대로 모집단의 평균과 분산을 추정한다.
• 모수를 하나의 값으로 산출하는 것을 점 추정
(point estimation)이라 한다.
표본으로부터 표본평균 를 구한다 . xx
모집단으로부터
크기 n인 표본을 선정 미지의 평균 m인
모집단
모평균에 대한 추론 과정 예
표본평균 를 이용하여 모평균 m를 추론한다.
xx
(1) 점추정값 q가 알려지지 않은 모수 q의 정확한 값은 아니지만, 가장 좋은 점추 정값은 미지인 모수의 가장 바람직한 가상의 값으로 생각할 수 있다.
(2) 이러한 추정값은 추출된 표본에 따라 변동이 있으며, 수치적으로 약간의 차 이가 있더라도 두 개 이상의 좋은 추정값이 존재할 수도 있다.
∧
1) 점추정량의 특성 1) 점추정량의 특성
☞
m
모평균(미지)
미지의 모집단 분포: f(x)
표본으로부터 관측된 값 표본평균: m = x∧
모집단의 분포 점추정량 m∧2의 분포 점추정량 m1∧의 분포
점추정량의 선택에 따른 추정값
m
참값 추정값
x2
추정값
x1
불편의성( unbiasedness) 불편의성( unbiasedness)
☞
모수 q에 대한 점추정량 q=Q( X1, X2, …, Xn)에 대하여 E(q) = q
를 만족할 때, 추정량 q를 q의 불편추정량(unbiased estimator)라 하고 E(q) ¹ q
일 때, q를 편의추정량(biased estimator) bias = E(q) - q
를 편의(bias)
∧
∧
∧ ∧
∧ ∧
불편추정량 편의추정량
E(X) = E S X1 i = S E(Xi) = S m = (nm) = m
( )
ni=1n 1n i=1n 1n i=1n 1n표본평균의 기대값 :
E(S2) = n-11
i=1
S
n (Xi – m)2 – n(X - m)2E
= n-11
i=1
S
n E[(Xi – m)2 ] – nE[(X - m)2 ]= n-11
[ns2 – n Var(X)] = n-11 (ns2 – s2 )= s2 표본분산의
기대값 :
n-1
1 (Xi – X)2
i=1
S
nS2 =
i=1 n
n-1
1
S
[(Xi – m) –(X - m)]2=
n-1 1
i=1
S
n [(Xi – m)2 –2(X - m)(Xi – m) + (X - m)2 ]=
n-1 1
i=1
S
n (Xi – m)2 – n(X - m)2= 표본분산 :
(1) 표본평균 X는 모평균 m에 대한 불편추정량이다.
(2) 표본분산 S2은 모분산 s2에 대한 불편추정량이다.
(3) 표본비율 ∧p는 모비율 p에 대한 불편추정량이다.
n
1 (Xi – X)2
i=1
S
nS2 = E(S2) =n-1
n s2 bias = - sn2 : 편의추정량 E(p) = E(X/n) = E(X)/n = p∧ 여기서, X ~ B(n, p)
표본비율의 기대값 :
모집단으로부터 크기 10인 확률표본을 다음과 같이 얻었다.
[ 2.62 2.69 2.71 2.73 2.66 2.64 2.81 2.78 2.76 2.84 ] 이 표본을 이용하여 모평균 m와 모분산 s2의 불편추정값
표본평균과 표본분산이 각각 모평균과 모분산의 불편추정량이므로
m = x
= (2.62 + 2.69 + 2.71 + 2.73 + 2.66 + 2.64 + 2.81 + 2.78 + 2.76 + 2.84 )
= 2.724
모분산의 불편추정값 :
s2 = s2 = S(xi – 2.724)2 = 0.0054
∧
1
10
∧ 1
9
모평균의 불편추정값 :
효율성( efficiency) 효율성( efficiency)
☞
모수 Q 에 대한 점추정량들 Q1, Q2, …,Qn에 대하여
Var(Q) = min{ Var(Q1), Var(Q2), … , Var(Qn)}
일 때, 추정량 Q를 q의 유효추정량(efficient estimator)
추정량 Q 의 표준오차(standard error): S.E(Q) = Var(Q)
모수 Q 에 대한 유효추정량 :
S.E(Q) = min{ S.E(Q1), S.E(Q2), … , S.E(Qn)}
∧ ∧ ∧
∧ ∧ ∧ ∧
∧
∧ ∧ ∧
∧ ∧ ∧ ∧
평균 m와 분산 s2을 갖는 확률변수들 X1, X2에 대하여, m에 대한 점추정량
m= a1X1 + a2X2 , a1, a2 : 양의 실수
(1) m가 모평균 m에 대한 불편추정량이 되기 위한 a1, a2의 조건 (2) m가 최소분산을 갖기 위한 a1, a2 =?
∧
∧
∧
a1 + a2 = 1
(1) ∧∧m가 모평균 m에 대한 불편추정량이므로 E(m) = m∧
E(m) = E(a1X1 + a2X2 ) = a1E(X1) + a2E(X2 ) = a1m + a2 m = (a1 + a2)m
∧
(2) ∧∧m가 최소분산을 갖기 위하여,
Var(m )= Var(a∧ 1X1 + a2X2 ) = a1Var(X1) + a2Var(X2 ) = (a1 + a2)s2
2 2 2 2
a1 + a2 = a1 + (1 – a1 )2 = 2 a11 -
2
2 1
+ 2 : 최소 a1 = a2 =12 a1 + a2 가 최소일 때,Var(m)가 최소
∧ 2 2
2 2 2
일치성( consistency) 일치성( consistency)
☞
모수 q를 추정하기 위한 크기 n인 표본으로부터 얻은 추정량 qn에 대하여, 크기 n이 커질수록 qn가 모수 q에 근접하는 경우, 즉 임의의 양수 e에 대하 여
lim P(|qn - q|≥ e) = 0
을 만족할 때, 추정량 qn을 모수 q에 대한 일치추정량(consistent estimator)이라 한다.
∧
∧
∧
∧ n→∞
▶ 구간추정( interval estimate) : 모수 q 의 참값이 포함되리라고 믿어지는 구간을 추정하는 방법
구간추정( interval estimate) : 모수 q 의 참값이 포함되리라고 믿어지는 구간을 추정하는 방법
▶ 신뢰수준( confidence level), 신뢰도(degree of confidence) : 모수 q의 참값이 추정한 구간 안에 포함될 것으로 믿어지는
미리 정해 놓은 확신의 정도로 일반적으로 1- α 로 나타낸다.
신뢰수준( confidence level), 신뢰도(degree of confidence) : 모수
q의 참값이 추정한 구간 안에 포함될 것으로 믿어지는
미리 정해 놓은 확신의 정도로 일반적으로 1- α 로 나타낸다.
▶ 구간추정량( interval estimator) : 신뢰도 1- α 에서 모수 q 에
대한 두 통계량 L(X
1,X
2,…,X
n), U(X
1,X
2,…,X
n)을 적당히 취하여, P(L < q < U) = 1 – α
일 때, 구간 ( L(X
1,X
2,…,X
n), U(X
1,X
2,…,X
n))을 모수 q 에 대한
구간추정량이라 한다
구간추정량( interval estimator) : 신뢰도 1- α 에서 모수 q 에
대한 두 통계량 L(X
1,X
2,…,X
n), U(X
1,X
2,…,X
n)을 적당히 취하여, P(L < q < U) = 1 – α
일 때, 구간 ( L(X
1,X
2,…,X
n), U(X
1,X
2,…,X
n))을 모수 q 에 대한
구간추정량이라 한다
▶ 신뢰구간( confidence interval) : 표본으로부터 얻은 관찰값 X1 = x
1, X
2 = x
2, …,X
n = x
n에 대한 통계량의 측정값이
l(x
1, x
2, …, x
n), u(x
1, x
2, …, x
n)
일 때, 구간 (l, u)를 모수 q 에 대한 신뢰도 1- α 의 신뢰구간 , l을 신뢰구간의 하한 ,u를 신뢰구간의 상한이라 한다
신뢰구간( confidence interval) : 표본으로부터 얻은 관찰값 X
1= x
1, X
2= x
2, …,X
n= x
n에 대한 통계량의 측정값이
l(x
1, x
2, …, x
n), u(x
1, x
2, …, x
n)
일 때, 구간 (l, u)를 모수 q 에 대한 신뢰도 1- α 의 신뢰구간 , l을 신뢰구간의 하한 ,u를 신뢰구간의 상한이라 한다
(1) 보편적으로, 신뢰수준은 α = 0.1, 0.05, 0.01 즉, 90%, 95%, 99%의 신뢰도 를 많이 사용한다.
(2) 신뢰구간은 모수 q에 대한 점추정값 q을 중심으로 갖는 구간을 선택한 다.
(3) 신뢰도 90%라 함은 10개의 표본을 임의로 추출하여 모수 q에 대한 신 뢰구간을 구할 경우, 10개 중에서 9개의 신뢰구간은 모수 q의 참값을 포함하고 나머지 1개의 신뢰구간은 모수 q의 참값을 포함하지 않음을 의미한다.
참 고
∧
점추정값
x α / 2
X의 표본분포
[--- ---]
1- α α / 2
예
모분산 σ
2을 아는 경우, 모평균 μ에 대한 신뢰도
100(1- α)%의 신뢰구간
예
모분산 σ
2을 아는 경우, 모평균 μ에 대한 신뢰도 100(1-α)%의 신뢰구간의 의미
μ
[---
x
2 ---]x
10[--- ---]
[---
x
4 ---][---
x
3 ---]x
1[--- ---]
…
90%의 신뢰구간
0.90
0.05 0.05
X의 확률분포
μ를 포함하지 않는 구간 μ를 포함하는
구간
2 모평균의 구간추정 모평균의 구간추정
모분산이 알려진 경우와 모르는 경우에 대한 모평균의 구간 추정과 두 모집단의 평균의 차에 대한 구간추정하는 방법에 대하여 알아본다.
모분산이 알려진 경우와 모르는 경우에 대한 모평균의 구간
추정과 두 모집단의 평균의 차에 대한 구간추정하는 방법에
대하여 알아본다.
1) 모분산이 알려진 경우 1) 모분산이 알려진 경우
☞
점추정량 : N(μ, σ2)
σ2 : 기지
n개를 임의추출
1 n i = 1
∧ n
μ =X = Σ Xi x1
x2 xn
표 준 화 Z = X -μ
σ/ n ~ N(0, 1) X ~ N μ,
( )
nσ2S.E(X) = Var(X) = σn 표본평균 :
표준오차 :
P(|Z| < zα/2) = P < zX -μ α/2 = P |X – μ| < = 1- α σ/ n
σ
n zα/2
( ) ( )
|X–μ|에 대한 100(1-α)% 오차한계
α / 2 1 - α α / 2
x
σ
n zα/2 σ
n zα/2
[--- ---]
μ에 대한 100(1-α)% 신뢰구간
x z ±
as n x z
/2±
as n
/2
x : 표본평균 σ : 모표준편차 n : 표본의 크기
zα/2 : 표준정규분포에서 상단 꼬리확률이 α/2인 임계점
1 - α : 신뢰수준
신뢰구간의 상한•하한
z0.05 = 1.645 z0.025 = 1.96 z0.005 = 2.58
P < 1.645 = P |X – μ| < 1.645 = 0.90X -μ σ/ n
σ
( ) ( )
nP < 1.96 = P |X – μ| < 1.96 = 0.95X -μ σ/ n
σ
( ) ( )
nP < 2.58 = P |X – μ| < 2.58 = 0.99X -μ σ/ n
σ
( ) ( )
n|X –μ|에 대한 오차한계
모분산을 알고 있는 경우, μ에 대한 100(1-α)% 신뢰구간
90%신뢰구간x
95%신뢰구간 99%신뢰구간
x + 1.645 σ/ n x + 1.96 σ / n x + 2.58 σ / n x - 1.645 σ/ n
x - 1.96 σ/ n x - 2.58 σ/ n
x + 2.58 σ/ n x – 2.58 σ/ n
0.99(a = 0.01)
x + 1.96 σ/ n x – 1.96 σ/ n
0.95(a = 0.05)
x + 1.645 σ/
x – 1.645 σ/ n 0.90(a = 0.1) n
상한 하한
신뢰수준 신뢰구간 (1- α)
모표준편차가 0.2인 정규모집단에서 10개의 자료를 표본으로 추출한 결과 : [0.27, 0.34, 0.34, 0.36, 0.30, 0.28, 0.41, 0.35, 0.48, 0.43]
(1) 모평균에 대한 점추정값 ?
(2) |X – μ|에 대한 95% 오차한계 ? (3) 모평균 μ에 대한 95% 신뢰구간 ?
(2) n=10, σ = 0.2이므로 μ에 대한 95% 오차한계 :
σ
1.96 n (1.96) •(0.2)
= 10 = 0.124
(1)μ = x
= (0.27 + 0.34 + 0.34 + 0.36 + 0.30 + 0.28 + 0.41 + 0.35 + 0.48 + 0.43)
= 0.356
1 10
∧
μ에 대한 95% 신뢰구간 : (0.233, 0.479)
하한 : l = x – (1.96) •S.E(x) = 0.356 – 0.123 = 0.233
상한 : u = x + (1.96) •S.E(x) = 0.356 + 0.123 = 0.479
(3) x = 0.356,
이므로 μ에 대한 95% 신뢰구간의 하한, 상한 :
σ
n 10
S.E(x) = = = 0.0630.2
2) 모분산이 알려져 있지 않은 경 우
2) 모분산이 알려져 있지 않은 경 우
☞
점추정량 : N(μ, σ2)
σ2 : 미지
n개를 임의추출
1 n i = 1
∧ n
μ =X = Σ Xi x1
x2 xn
X ~ N μ,
( )
nσ2S.E(X) = Var(X) = s n
T = X -μ
S / n ~ t(n - 1) 표본평균 :
표준오차 :
표본분산 s2으로 대치
t(n-1)의 분포
α / 2 1 - α
α / 2
x
s
n tα/2(n-1) s
n tα/2(n-1)
[--- ---]
μ에 대한 100(1- α)% 신뢰구간
P < tX -μ α/2(n-1) = P |X – μ| < = 1- α S / n
s
n tα/2(n-1)
( ) ( )
|X – μ|에 대한 100(1-α)% 오차한계
x : 표본평균
s : 표본표준편차 n : 표본의 크기
tα/2(n-1) : t -분포에서 상단 꼬리확률이 α/2인 임계점
1 - α : 신뢰수준
x ± n s
t α/2(n-1)
신뢰구간의 상한•하한
P < tX -μ 0.05(n-1) = P |X – μ| < t0.05 (n-1) = 0.90 s / n
s
( ) ( )
nP < tX -μ 0.025 (n-1) = P |X – μ| < t0.025 (n-1) = 0.95 s / n
s n
( )
( )
P < tX -μ 0.005 (n-1) = P |X – μ| < t0.005 (n-1) = 0.99
s / n s
n
( )
( )
|X – μ|에 대한 90% 오차한계 :
t0.025 (n-1) s n t0.05 (n-1) s
n
t0.005 (n-1) s n
|X – μ|에 대한 95% 오차한계 :
|X – μ|에 대한 99% 오차한계 :
모분산을 모르는 경우, μ에 대한 100(1-α)% 신뢰구간
x – t0.005(n-1) s / n x – t0.005(n-1) s / n
0.99(a = 0.01)
x – t0.025(n-1) s / n x – t0.025(n-1) s / n
0.95(a = 0.05)
x – t0.05(n-1) s / n x – t0.05(n-1) s / n
0.90(a = 0.1)
상한 하한
신뢰수준 신뢰구간 (1- α)
90%신뢰구간x
95%신뢰구간 99%신뢰구간 x – t0.05(n-1) s / n
x - t0.025(n-1) s/ n x - t0.005(n-1) s/ n
t(n-1)의 분포
x + t0.05(n-1) s / n x + t0.025(n-1) s / n x + t0.005(n-1) s / n
N(μ, σ2)인 정규모집단에서 크기 5인 표본을 추출한 결과 : [2.9, 2.5, 3.7, 3.0, 2.8]
(1) 모평균에 대한 점추정값 ?
(2) |X – μ|에 대한 95% 오차한계 ? (3) 모평균 μ에 대한 95% 신뢰구간 ?
(2) 표본분산 :
s
t0.025(4) n = (2.776)•(0.1985) = 0.551
(1)μ = x = (2.9 + 2.5 + 3.7 + 3.0 + 2.8)
= 2.98
1
∧ 5
(3) x = 2.98, 오차한계 d = 0.551이므로 95% 신뢰구간의 하한, 상한 :
s2 = Σ (xi – 2.98)2 = 0.197 ,
1
4 s = 0.197 = 0.4438
s
S.E(x) = = = 0.1985n 5
0.4438
t0.025(4) = 2.776
오차한계 :
하한 : l = x – t0.025(4) •S.E(x) = 2.98 – 0.551 = 2.429
상한 : u = x + t0.025(4) • S.E(x) = 2.98 + 0.551 = 3.531
μ에 대한 95% 신뢰구간 : (2.429, 3.531)
3) 모분산을 모르는 모집단에서 대단위 표본을 추출하는 경 우
3) 모분산을 모르는 모집단에서 대단위 표본을 추출하는 경 우
☞
z -추정에 의하여 근사적으로 모평균에 대한 신뢰구간을 구한다.
표본평균 X는 중심극한정리에 의하여 정규분포에 근사 s2 → σ2으로 수렴하므로
X -μ
s / n ~ N(0, 1)..
전국 100세 이상 노인 103명을 대상으로 2002년 10월에 조사된 자료에 의하면, 평균 혈중 콜레스테롤이 174.6㎎/㎗로 나타났다.
만일 이 자료에서 표준편차가 12㎎/㎗으로 나타난다 할 때, 전국 100세 이상 노인의 평균 혈당치에 대한 95% 신뢰구간
μ에 대한 95% 신뢰구간 : (172.283, 176.917)
하한 : l = x – (1.96) •S.E(x) = 174.6 – 2.317 = 172.283
상한 : u = x + (1.96) • S.E(x) = 174.6 + 2.317 = 176.917
x = 174.6, n = 103, s = 12이므로 S.E(x) = =
1.183 s / n
95% 신뢰구간의 하한, 상한 :
4) 단측 신뢰구간 4) 단측 신뢰구간
☞
모평균이 어떤 값 이상 또는 이하인 경우, 신뢰도 100(1 - α)%에서 표본 평균 x0 이상 또는 이하로 나타나는 신뢰구간
(A) 모분산을 아는 경우 (A) 모분산을 아는 경우
Z = X -μ
σ/ n ~ N(0, 1)
μ에 대한 100(1-α)% 상단측신뢰구간 :
(
x - σ zn α , ∞)
σ zα x + n
(
-∞,)
μ에 대한 100(1-α)% 하단측신뢰구간 :
P < zX - μ α = P μ >X- =1 - α σ/ n
σn zα
( ) ( )
P > -zX - μ α = P μ <X+ = 1- α σ/ n
σn zα
( ) ( )
하한 신뢰경계
상한 신뢰경계
과거 자료에 의하면 어느 제조회사에서 생산된 mp3의 수명 ~ N(μ, 102) 51개의 mp3를 임의로 선정하여 수명을 측정한 결과 : 평균 374일
이 회사에서 생산된 mp3의 평균수명에 대한 95% 하한신뢰경계와 단측신뢰구간
μ에 대한 95% 신뢰구간 : (371.7, ∞), 즉, 평균수명이 371.7일 이상으로 추정 x = 374, n = 51, σ = 10, z0.05 = 1.645이
므로
95% 하한신뢰경계 :
σ z0.05 x - n
l = = 374 – (1.4002)•(1.645) = 371.1
(B) 모분산을 모르는 경우 (B) 모분산을 모르는 경우
T = X -μ
s / n ~ t(n - 1)
P < ta(n-1) = P μ > X – ta (n-1)
= 1- a X -μ s / n
sn
P > - ta(n-1) = P μ < X + ta(n-1)
= 1- a X -μ s / n
하한 신뢰경계
상한 신뢰경계 sn
( )
μ에 대한 100(1-a)% 상단측신뢰구간 :
(
x - sn ,∞
)
x + sn(
-∞,
)
μ에 대한 100(1-a)% 하단측신뢰구간 :
ta(n-1)
ta(n-1)
예제 6에서, 이 회사에서 mp3를 처음 생산
51개의 mp3를 임의로 선정하여 수명을 측정한 결과 : 평균 374일, 표준편차 12일 이 회사에서 생산된 mp3의 평균수명에 대한 95% 하한신뢰경계와 단측신뢰구간
μ에 대한 95% 신뢰구간 : (371.18, ∞), 즉, 평균수명이 371.18일 이상으로 추정 x = 374, n = 51, s = 10, t0.05(50) = 1.676
이므로
95% 하한신뢰경계 :
s x - n
l = t0.05(50)= 374 – (1.6803)•(1.676) = 371.18
5) 두 모평균의 차에 대한 신뢰구간 5) 두 모평균의 차에 대한 신뢰구간
☞
n개
m개
표본평균 :
표본평균 :
N(μ1, σ12 ) X
N(μ2, σ22) Y
x1 x2 xn
y1 y2 ym
X ~ N μ
( )
1, nσ2표본평균 : 1
Y ~ N μ
( )
2, mσ2표본평균 : 2
μ1 - μ2에 대한 100(1 - α)%
신뢰구간 ? (A) 두 모분산을 아는 경우
(A) 두 모분산을 아는 경우
X – Y ~ N μ
( )
1 - μ2, n +σ12 mσ22 X – Y의 확률분포 :(X – Y ) – (μ1 - μ2 ) σ22
m σ12
n +
~ N(0, 1)
S.E(X - Y) = Var(X - Y) =
표준오차 : σ22
m σ12
n + 표준화
(X – Y ) – (μ1 - μ2 ) σ22
m σ21
n +
< zα/2
P (X – Y ) – (μ1 - μ2 ) σ22
m σ21
< zα/2 n +
= P = 1 - α
|(X-Y) – (μ1-μ2|에 대한 오차한계
|(X-Y) – (μ-1μ2|에 대한 90% 오차한계 : σ22 m σ12
(1.645)• n +
|(X-Y) – (μ1-μ2|에 대한 95% 오차한계 : σ22 m σ12
(1.96)• n +
|(X-Y) – (μ1-μ2|에 대한 99% 오차한계 : σ22 m σ12
(2.58)• n +
μ1-μ2에 대한 100(1-a)% 신뢰구간 :
x – y + zα/2 σ22 m σ12
x – y – zα/2 σ22 n + m σ21
n + ,
( )
신뢰구간
0.99(α = 0.01) 0.95(α = 0.05)
0.9(α = 0.1)
상한 하한
신뢰수준 (1 – α)
σ22 m σ12
n +
x – y - (1.645)• σ22
m σ12
n +
x – y + (1.645)•
x – y -(1.96)• σ22 m σ12
n +
x – y -(2.58)• σ22 m σ12
n +
x – y +(1.96)• σ22 m σ12
n +
x – y +(2.58)• σ22 m σ12
n +
두 모분산을 알고 있는 경우, μ1 - μ2에 대한 100(1-α)% 신뢰구간
대도시와 중소도시의 무연 휘발유 가격에 차이가 있는가 ?
대도시 표본 : [1.69, 1.79, 1.68, 1.72, 1.66, 1.73, 1.59, 1.78, 1.72, 1.63, 1.55, 1.85] 중소도시 표본 : [1.46, 1.47, 1.42, 1.51, 1.55, 1.52, 1.48, 1.47, 1.53, 1.50]
단, 중소도시와 대도시의 휘발유 가격은 각각 독립이고, 모표준편차가 각각 0.03과 0.08인 정규분포를 이룬다
(1) 대도시와 중소도시의 평균 가격의 차에 대한 점추정값 ? (2) 두 도시의 표본평균의 차에 대한 표준오차 ?
(3) 휘발유 평균가격의 차에 대한 90% 신뢰구간 ?
(1) 대도시와 중소도시의 표본평균을 각각 X와 Y라 하면, 점추정값 : x = 1.7023, y = 1.4910
μ1 - μ2의 점추정값 : x – y = 1.7023 – 1.4910 = 0.2113
(2) s12= (0.03)2, s22= (0.08)2, n = 12, m = 10이므로
σ22 m σ21
S.E(X – Y) = n + (0.03)2+
12
(0.08)2
10 0.000715
= = =
0.027
(3)
μ1 - μ2에 대한 90% 신뢰구간 : (0.1669, 0.2557)
l = x – y - (1.645)• S.E(X – Y) = 0.2113 – (1.645)•(0.027) = 0.1669 하한 :
u = x – y + (1.645)• S.E(X – Y) = 0.2113 + (1.645)•(0.027) = 0.2557 상한 :
(B) 두 모분산을 모르는 경우 (s1 = s2 = s2 : 미 지)
(B) 두 모분산을 모르는 경우 (s1 = s2 = s2 : 미 지)
22 22
n개
m개
표본평균 :
표본평균 :
N(μ1, s12) X
N(μ2, s22) Y
x1 x2 xn
y1 y2 ym
S2 = Σ (X1 i – X )2 n-1 i = 1
n 1
S2 = Σ (Yj – Y )2
j = 1 m
2 1
m-1 표본분산 :
표본분산 :
합동표본분산 : S2 = Σ(Xi – X )2 + Σ (Yj – Y )2
i = 1 n
j = 1
1 m
n+m-2
[ ]
p
= [(n-1)S1 21 + (m-1)S22] n+m-2
|X – Y – (μ1 – μ2)|에 대한 100(1-α)% 오차한계 합동표본분산 s2p으로 대치
( )
X – Y ~ N μ1 - μ2,
X – Y의 확률분포 : n +1 m1 σ2
표준오차 : S.E(X – Y) = sp• n1 + m1
σ2 : 미지
( )
sp• n1 + m1=P |X – Y–(μ1 –μ2)|<tα/2(n+m-2 ) = 1 - α
< tα/2(n+m-2) m
n1 + 1 sp•
X – Y – (μ1 – μ2) P
~ t(n + m - 2) m
n1 + 1 sp•
X – Y – (μ1 – μ2)
두 모분산을 모르는 경우, μ1 - μ2에 대한 100(1-α)% 신뢰구간
m n1 + 1 sp•
(x – y) – tα/2(n+m-2) , (x – y) + tα/2(n+m-2)sp• n1 + m1
( )
남학생과 여학생의 몸무게는 각각 동일한 분산을 갖는 정규분포를 이룬다.
두 그룹에서 각각 4명씩을 임의로 추출하여 조사한 결과
(1) 두 그룹의 평균 몸무게의 차에 대한 점추정값 ? (2) X – Y의 표준오차 ?
(3) |X – Y –(μ1 – μ2)|에 대한 90% 오차한계 ?
(4) 남학생과 여학생의 평균 몸무게에 대한 90% 신뢰구간 ? 53
53 47
46 여학생
72 69
66 64
남학생
(1) 남학생과 여학생 각각의 표본평균 : x = 67.75, y = 49.75 평균 몸무게의 차에 대한 추정값 : x - y = 67.75 - 49.75 = 18
(2) 두 표본의 표본분산과 합동표본분산 : sX = Σ (xi – 67.75)2 = 12.25
i=1
1 4 2 3
sY = Σ (yi – 49.75)2 = 14.25
i=1
1 4 2 3
sp = [(n-1)s1 X2 + (m-1)sY2] n+m-2
2 3•(12.25) + 3•(14.25)
4 + 4 - 2
= = 13.25
sp = = 3.64 13.25
n1 + m1 S.E(X – Y) = sp•
표준오차 : = (3.64)• 41 + 41 = 2.574
(3) 자유도 = 6, t0.05(6) = 1.943
|X – Y –(μ1 – μ2)|에 대한 90% 오차한계 :
d = t0.05(6)•S.E(x-y) = (1.943)•(2.574) = 5.001
m n1 + 1
l = x – y – t0.05(6) sp• = 18 – 5.001 = 12.999
m n1 + 1
u = x – y + t0.05(6) sp• = 18 + 5.001 = 23.001
(4) 평균 몸무게의 차에 대한 90% 신뢰구간의 하한, 상한 : 하한 :
상한 :
90% 신뢰구간 : (12.999, 23.001)
모분산, 모비율에 대한 구간추정 방법과 두 모집단의 모비율 의 차, 모분산의 비(ratio)에 대한 구간추정 방법 등에 대하 여 알아본다.
모분산, 모비율에 대한 구간추정 방법과 두 모집단의 모비율 의 차, 모분산의 비(ratio)에 대한 구간추정 방법 등에 대하 여 알아본다.
3 모분산과 모비율의 추정 모분산과 모비율의 추정
1) 모분산에 대한 구간추정 1) 모분산에 대한 구간추정
☞
S2: 모분산 σ2에 대한 최소분산불편추정량, 일치추정량 σ2을 추정하기 위하여 표본분산 S2을 이용
표본분산 : S2 = Σ (X1 i – X )2 n-1 i = 1
n
추정분포 : (n-1)S2
σ2 ~ c²(n-1) V =
S는 σ에 대한 편의추정량
n ≥ 10이면, 편의를 무시할 수 있음.
E(S) < σ
σ를 추정하기 위하여 표본표준편차 S를 이용 N(μ, σ2 )
x1 x2 xn
n개
c2 (n-1) , c2 (n-1)에 대하 여
1-á/2 á/2
(n-1)S2
s2 = 1 -
a
c1-2 (n-1)
a/2
a/2
c2 (n-1)
< <
( )
P
s2 = 1 -
a
< <
( )
P (n-1)S2
a/2
c2 (n-1) c1-2 (n-1)
a/2
(n-1)S2 또는
n : 표본의 크기
c2 : 카이제곱분포에 서
상단 꼬리확률이 α/2인 임계점
c2 : 카이제곱분포 에서 하단 꼬리확률이 α/2인 임계점
1 - α : 신뢰수준 S2 : 표본분산
신뢰구간의 상한•하한
a/2
1-a/2 (n-1)S2
a/2
c2 (n-1) c1-2 (n-1)
a/2
(n-1)S2
,
모분산 σ2에 대한 100(1-α)% 신뢰구간
(
(n-1)sX α 2 /2(n-1)2 , X 1-α/22 (n-1))
(n-1)s2
신뢰구간
0.99(α = 0.01) 0.95(α = 0.05)
0.9(α = 0.1)
상한 하한
신뢰수준 (1 – α)
(n-1)s2
X 0.052 (n-1) X 0.952 (n-1)
(n-1)s2 (n-1)s2
X 0.0252 (n-1) X 2 (n-1)
(n-1)s2
0.975
(n-1)s2
X 0.0052 (n-1) X 2 (n-1)
(n-1)s2
0.995
모표준편차 σ에 대한 100(1-α)% 신뢰구간
X 1- α/22 (n-1)
(n-1)s2 (n-1)s2
α /2
X 2 (n-1) ,
( )
정규모집단 N(μ, σ2)에서 크기 10인 표본을 추출한 결과 :
[2.9 2.5 3.4 3.0 2.8 2.9 3.1 2.8 2.8 2.9]
(1) 모분산의 점추정값
(2) σ2에 대한 95% 신뢰구간 (1) 표본평균 : x = 2.91
표본분산 : s2 = Σ (xi – 2.91)2 = = 0.1223
모분산에 대한 점추정값 : σ 2 = 0.1223
1 9 i=1
10 0.489
4
∧
(2) 크기 10인 표본이므로, X 2 (9) = 19.02, X 2 (9) =
2.70 0.025 0.975
σ2에 대한 95% 신뢰구간 :
9•(0.1223) 2.7
9•(0.1223) 19.02 ,
(
(n-1)sX α/22 (n-1)2 , X 1-α/22 (n-1))
(n-1)s2 =
( )
= (0.0579, 0.4077)2) 모비율에 대한 구간추정 2) 모비율에 대한 구간추정
☞
표본비율 : p = x
∧ n
성공률 : p
B(1, p) 성공의 수 : x
실패의 수 : n-x
n개
표본의 크기 n이 충분히 크다면,
np > 5, n(1-p) > 5이면 중심극한정리에 의하여
표본비율의 확률분포 : p ~ N p,.. p(1-p)
∧
( )
nE(p) = E(X/n) = p Var(p) = Var(X/n) =
∧
∧ p(1-p)
n
p - p
∧ p(1-p)
n
Z = ~ N(0, 1)
p - p
∧ p(1-p)
n
P(-zα/2 < Z < zα/2) = P -zα/2 < < zα/2
∧ p(1-p)
n
p(1-p) n
< p < p + zα/2 • p - zα/2 •
= P ∧ = 1 - α
P |p – p| < ∧ zα/2 • p(1-p)
n = 1 - α
|p – p|에 대한 100(1-α)% 오차한계∧
x(n-x) n
1 n
p(1-p)
n =
참 고
α / 2 1 -
α α / 2
p
[--- ---]
p에 대한 100(1-α)% 신뢰구간
p(1-p)
zα/2 • n p(1-p)
zα/2 • n
∧
∧ ∧ ∧ ∧
∧p ± p(1-p) n zα/2 • ∧ ∧
n : 표본의 크기
zα/2 : 표준정규분포에서 상단 꼬리확률이 α/2인 임계점
1 - α : 신뢰수준 p : 표본비율
∧
신뢰구간의 상한•하한
S.E(p) = p(1-p)
표준오차 : ∧ n
p : 모비율 p에 대한 불편추정량, 일치추정량 p = p
..
∧ ∧
x(n-x) n
1
= n
p로 대치함∧
P |p – p| < = 0.90
( )
P |p – p | < = 0.95
P |p – p | < = 0.99
(1.645)• p(1-p)
n
∧ ∧
(1.96)• p(1-p)
n
∧ ∧
(2.58)• p(1-p)
n
∧ ∧
( ) ( )
z0.05 = 1.645 z0.025 = 1.96 z0.005 = 2.58
|p – p|에 대한 오차한계∧
∧
∧
∧