• 검색 결과가 없습니다.

8.1 통계적 추정의 기본 개념

N/A
N/A
Protected

Academic year: 2022

Share "8.1 통계적 추정의 기본 개념 "

Copied!
52
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

수리정보과학과

제 8장 추정(estimation)

기초통계학 - 김대학 1 8.1 통계적 추정의 기본 개념

8.2 점추정

8.2.1 모평균(𝜇)의 추정 8.2.2 모분산(𝜎2)의 추정 8.2.3 모비율(𝑝)의 추정 8.2.4 엑셀을 이용한 점추정 8.3 구간추정

8.3.1 모평균 𝜇의 신뢰구간 8.3.2 모비율 𝑝의 신뢰구간

8.3.3 독립표본을 이용한 두 모평균의 𝜇1− 𝜇2 대한 신뢰구간 8.3.4 짝 지워진 표본을 이용한 두 모 평균의 차 𝜇1− 𝜇2에 대한 신뢰구간

(2)

 통계적 추론(statistical inference)

① 추정(estimation)

모수에 가까울 값으로 찾는 방법

② 가설검정(hypothesis testing)

모수의 참값에 관한 주장이 옳은지

통계적 추론은 표본으로부터 얻은 정보를 이용하여 과학적으로 미

지의 모수를 추론하는 과정으로 추정과 검정의 두 방법이 있다.

(3)

수리정보과학과

8.1 통계적 추정의 기본 개념

 추정(estimation)

이란 표본의 특성치인 통계량(statistic)을 이용하여 모집단의 특

성치인 모수(parameter)를 추측하는 것

 가장 기본적인 추측의 대상

기초통계학 - 김대학 3

모집단의 평균, 표준편차,

비율 등과 같은 모집단의 특성치

(4)

 추정량(estimator) : 모수를 측정하기 위해 사용되는 통계량

 추정치(estimate) : 자료를 이용하여 계산한 통계량의 값

 점추정(point estimation) : 모집단의 특성치를 하나의 수치로 추정하는 것

 구간추정(interval estimation) : 모수의 참 값에 속하게 되는 범위를 구하여 추정 하는 것

(5)

수리정보과학과

 점추정

은 하나의 값만을 선택하게 되므로 모수와 일치하는 값을 갖게 될 확률 은 극히 작다.

 구간추정에 있어서는

신뢰도와 모수의 범위를 동시에 고려하여 나타냄

기초통계학 - 김대학 5

(6)

 모수(parameter)

: 모집단의 특성을 나타내는 수치

(예:모평균,모분산,모비율)

 통계량(estimatior)

: 표본의 특성을 나타내는 수치

(예:표본평균,표본분산,표본비율)

(7)

수리정보과학과

예제 8.1

 한 소비자 단체는 어떤 고급 볼펜의 수명을 추정하기를 원한다. 이 단체는 10개 의 볼펜을 사서 잉크가 모두 닳을 때까지 걸리는 시간을 기계를 이용하여 측정 하였다. 측정된 수명은 다음과 같다.

이 고급 볼펜의 수명의 평균과 분산은 얼마로 추정할 수 있을까?

기초통계학 - 김대학 7

26.3 35.1 23.0 28.4 31.6 30.9 25.2 28.0 27.3 29.2

(8)

예제 8.2

 한 자동차 회사는 자동차의 앞 범퍼를 새로 개발했다. 새로운 범퍼는 기존의 범퍼보다 충격을 더 잘 흡수하고 차의 손상도 더 작게 한다고 한다. 이를 확인 하기 위해 시속 15km로 달려서 벽에 부딪히는 자동차 충동실험을 25회 실시하 였다. 이 충동실험에서 15회는 앞 범퍼에 눈에 보이는 손상이 전혀 없었다. 이 범퍼를 갖춘 자동차들 중에서 실제 충돌 시에 손상을 입는 차량은 어느 정도일 까?

(9)

수리정보과학과

8.2 점추정

 표본의 특성치인 통계량을 이용하여 모수의 참값이라고 추정되는 하나의 수치 를 결정하는 것

 모집단으로부터 표본을 추출하는 방법은 표본추출 개수와 추출 방법에 따라

무수히 많으며 그 때마다 통계량 또한 달라진다.

– 많은 통계량 중에서 어느 것을 선택하여 모수를 추정하는 것이 바람직할 것인가 하는 문제점 발생.

기초통계학 - 김대학 9

(10)

점추정량의 성질

① 불편추정량(unbiased estimator)

: 모든 가능한 통계량의 값의 평균이 모수와 같게 되는 것

② 일치추정량(consistent estimator) : 표본의 크기가 커질수록 통계량의 값과 모 수가 점점 더 가까워지는 것

③ 효율추정량(efficient estimator) : 한 모수를 추정하는 통계량들 중에서 불편추 정량이 여러 개 있을 때 그 중에서 통계량의 분산이 가장 적은 성질을 갖는 통 계량

④ 충분추정량(sufficient estimator) : 모수에 대한 모든 정보를 포함

(11)

수리정보과학과

8.2.1 모평균 (𝜇)의 추정

 평균이

𝜇

, 분산이

𝜎

2인 모집단으로부터 표본𝑋1, 𝑋2, ⋯ , 𝑋𝑛을 추출하였을 때 모 평균에 대한 추정량으로 표본평균을 사용

기초통계학 - 김대학 11

추정량 : 𝜇� = 𝑋�

표준오차 : 𝑆𝑆 𝜇� = 𝑆𝑆 𝑋� =

𝜎𝑛

표준오차의 추정량 : 𝑆𝑆 � 𝜇� = 𝑆/ 𝑛

(여기서 𝑆는 표본표준편차)

(12)

 모평균 𝜇을 추정할 때 추정량 표본평균 𝑋�의 성질

𝑆 𝑋� = 𝜇, 𝑠 𝑋� = 𝜎

𝑛

 추정량 𝜃̂의 기대값 𝑆 𝜃̂ 이 𝜃와 같으면 추정량 𝜃̂ 은 모수 𝜃 의 불편추정량이다.

(13)

수리정보과학과

[모평균의 점추정 예]

다음 데이터는 위암에 걸린 환자들의 생존기간이다. 표본평균을 이용하여 평균 생존기간을 점추정 하라

.

위암 환자 생존기간 데이터(단위:일)

124 42 25 45 12 51 1112 46 103 876 146 340 396 (풀이)

13𝑖=1

𝑥

𝑖

= 3318 , 𝑥̅ =

331813

= 255.23

.

(평균 255일 정도 생존하는 것으로 추정할 수 있음)

기초통계학 - 김대학 13

(14)

8.2.2 모분산 (𝜎

2

)의 추정

 표본분산 및 표본표준편차의 계산에 분모 𝑛대신 𝑛 − 1을 사용하는 이유는 추정량이 불편성을 만족하도록 하기 위해서이다

모분산의 추정량 𝜎 � = 𝑆

2 2

=

∑(𝑋𝑛−1𝑖−𝑋�)2

𝜎� = 𝑠 =

∑(𝑋𝑛−1𝑖−𝑋�)2

(15)

수리정보과학과

8.2.2 모분산 (𝜎

2

)의 추정

 모분산 𝜎

2

의 추정량은 표본분산.

𝑆

2

= 1

𝑛 − 1 �(𝑋

𝑖

− 𝑋�)

2

𝑛

𝑖=1

 만약 모평균 𝜇 를 알고 있다면, 모분산 𝜎

2

= 𝑆[ 𝑋 − 𝜇)

2

의 추정은

𝑛𝑖=1(𝑋𝑖−𝜇)2

𝑛

를 이용

 추정량 𝑆

2

는 𝜎

2

의 불편추정량 : 𝑆 𝑆

2

= 𝜎

2

표준편차 𝜎 의 추정량은 𝑆

2

= 𝑆 를 사용

기초통계학 - 김대학 15

(16)

8.2.3 모비율 (𝑝)의 추정

 표본의 크기가 𝑛 인 데이터에서 관심 있는 속성을 가진 표본의 크기가 𝑋개일 때, 모비율에 대한 추정치로 표본비율을 사용하여 추정.

모비율의 추정량 : 𝑝̂ = 𝑋/𝑛

추정량의 표준오차 : 𝑆𝑆 𝑝̂ = 𝑝(1 − 𝑝)/𝑛

표준오차의 추정량 : 𝑆𝑆 � 𝑝̂ = 𝑝̂ 1 − 𝑝̂ /𝑛

(17)

수리정보과학과

8.2.3 모비율 (𝑝)의 추정

 모비율 𝑝의 추정량

𝑝̂ = 𝑋 𝑛

 𝑋~𝐵(𝑛, 𝑝) 이므로 평균은 𝑛𝑝이고 표준편차는 𝑛𝑝(1 − 𝑝).

𝑆 𝑝̂ = 𝑝, 𝑠𝑠 𝑝̂ = 𝑝(1−𝑝)𝑛

(표본비율 𝑝̂ 은 모비율 𝑝 의 불편추정량)

기초통계학 - 김대학 17

(18)

8.2.3 모비율 (𝑝)의 추정

 N이 클 경우 이항분포의 정규근사에 의해 𝑝̂ ≈ 𝑁 𝑝,𝑝 1−𝑝𝑛

추정량 𝑝̂ 의 표준오차 : 𝑆𝑆 𝑝̂ =

𝑝(1−𝑝)𝑛

추정된 표준오차 : 𝑆𝑆 � 𝑝̂ =

𝑝�(1−𝑝�)𝑛

95.4% 오차한계 : 2

𝑝�(1−𝑝�)𝑛

(19)

수리정보과학과

8.2.4 엑셀을 이용한 점추정

 엑셀에서

데이터분석 기능을 이용

① 첫 번째 열에 데이터를 입력한다.

② [도구]메뉴에서 [데이터분석]을 선택한다. 대화상자가 나타나면 “기술통계법”

을 선택한다.

③ 입력범위를 드래그하고 옵션 중에서 “요약통계량”을 선택한다. 나중에 신 뢰구간을 구하기 위해서 필요하기 때문에 “평균에 대한 신뢰수준”도 선택 한다.

④ 평균, 분산, 표준편차는 물론 평균의 오차도 출력된다.

기초통계학 - 김대학 19

(20)

8.3 구간추정

(21)

수리정보과학과

8.3 구간추정

 점추정량은 언제나 표본오차를 수반하므로 전적으로 신뢰할 수 없음

 구간추정은 점추정과 달리 모수가 빈번히 포함되는 범위를 제공하여 연구의 목적에 따라 원하는 만큼의 신뢰성을 가지고 모수를 추정할 수 있음.

 구간추정은 신뢰도를 고려하여 모수의 참값이 속하게 될 범위를 추정하는 것

 신뢰구간(confidence interval) : 구간추정으로 설정된 구간

 유의 수준

(siginificance level) 또는 오차률,

𝛼

: 추정한 구간 내에 모수의 참값이 존재하지 않을 수도 있으며, 이러한 확률

 신뢰도

(confidence level),

1 − 𝛼

: 추정된 구간 내에 모수의 참값이 들어간 확률 (보통 𝛼는 0.01 또는 0.05를 사용)

기초통계학 - 김대학 21

(22)

구간추정의 용어

 추정량의 표본분포를 이용하여 신뢰구간을 설정하고 구간에 모수가 포함될 확률을 결정하는 것

𝑃 𝐿 ≤ 𝜃 ≤ 𝑈 = 1 − 𝛼 𝐿, 𝑈 ∶ 통계량 𝜃: 모수

 구간 [𝐿, 𝑈]는 100 1 − 𝛼 % 신뢰구간(confidence interval)

 신뢰수준 : 신뢰구간에 부여된 확률. 모든 가능한 표본 중 오차한계를 만족시키는 표본의 비율. 1 − 𝛼 는 신뢰수준(신뢰도, confidence level)

(23)

수리정보과학과

구간추정의 성질

1) 𝜎 가 커질수록 주어진 𝛼 에 대한 구간이 넓어진다.

2) 𝑛이 커질수록 구간이 좁아진다.

3) 주어진 𝑛, 𝜎 에 대해서, 1 − 𝛼 가 커지거나 또는 𝛼가 작아질수록 더 넓은 신뢰 구간을 갖는다.

기초통계학 - 김대학 23

(24)

8.3.1 모평균 𝜇의 신뢰구간

 신뢰수준 95%의 의미 : 표본추출을 20번 반복하여 각각의 신뢰구간을 구하면 그 중 95%인 19개의 신뢰구간은 모평균을 포함하게 되며, 5%인 1개의 신뢰구 간은 모평균을 포함하지 않을 수 도 있다는 의미

 100(1 − 𝛼)% 신뢰구간의 의미

한 번의 표본추출을 통해 추정된 모수에 대한 구간.

동일한 표집방법을 이용하여 구한 신뢰구간 중 100(1 − 𝛼)%는

모수를 포함함을 의미함.

(25)

수리정보과학과

(1) 모분산 𝜎

2

을 알고 있는 경우

 모분산 𝜎

2인 정규분포를 따르는 모집단에서 추출한 𝑛개의 표본 𝑋1, 𝑋2, ⋯ , 𝑋𝑛의 표본평균 𝑋�의 분포는 평균이 𝜇이고 분산이 𝜎2/𝑛인 정규분포를 따른다.

𝑋�~𝑁 𝜇,𝜎𝑛2 , 𝑍 = 𝜎/ 𝑛𝑋�−𝜇 ~𝑁 0,1 .

 따라서 𝛼가 주어졌을 때 𝑧𝛼와 표준정규분포의 성질로부터 𝑃 −𝑍𝛼

2 ≤ 𝑍 ≤ 𝑍𝛼

2 = 1 − 𝛼, 𝑃 −𝑍𝛼

2𝜎/ 𝑛𝑋�−𝜇 ≤ 𝑍𝛼

2 = 1 − 𝛼, 𝑃 𝑋� − 𝑍𝛼

2

𝜎

𝑛 ≤ 𝜇 ≤ 𝑋� + 𝑍𝛼

2

𝜎

𝑛 = 1 − 𝛼.

 모평균 𝜇의 100 1 − 𝛼 %의 신뢰구간

기초통계학 - 김대학 25

𝑋� − 𝑍

𝛼

2

𝜎

𝑛 , 𝑋� + 𝑍

𝛼

2

𝜎

𝑛

(26)
(27)

수리정보과학과

예제 8.3

 [예제 8.1]에서 𝜎 = 3으로 알고 있을 경우 90%신뢰구간을 구하여라 (풀이) 위의 식을 이용하여

𝑥̅ − 𝑧0.05 𝜎

𝑛, 𝑥̅ + 𝑧0.05 𝜎 𝑛

= 28.5 − 1.645 3

10, 28.5 − 1.645 3

= 28.5 − 1.5606, 28.5 + 1.5606 10

= (26.9394, 30.0606).

 한편 엑셀의 함수마법사의 통계함수 NORMINV를 선택하여 표준정규분포의 𝑧𝛼 값을 계산할 수도 있다.

기초통계학 - 김대학 27

(28)

엑셀을 이용하여 신뢰구간의 너비를 구하는 방법

 표준도구모음줄에서 “함수마법사”단추를 누른다.

 대화상자가 나타나면 함수 종류 중에서 “통계”를 클릭한다. 함수이름에서는 오른쪽의 이동막대를 조정하여 𝐶𝐶𝑁𝐶𝐶𝐶𝑆𝑁𝐶𝑆를 클릭한다.

 선택이 끝나면 <확인>단추를 누른다.

(29)

수리정보과학과

(2) 모분산의 𝜎

2

의 값을 모르고 소표본인 경우

 𝑡 −분포

평균이

𝜇

, 분산이

𝜎

2인 모집단으로부터 랜덤 표본 𝑋1, 𝑋2, ⋯ , 𝑋𝑛을 추출할 때 모집단의 분산을 모르고 표본의 크기가 충분히 크지 않을 때에는 통계량

𝑡 =

𝑆 𝑛𝑋�−𝜇

의 표본분포는 자유도 𝑛 − 1의 𝑡 −분포(𝑡 −distribution) 를 따른다.

기초통계학 - 김대학 29

(30)

(2) 모분산의 𝜎

2

을 모르고 소표본인 경우

 모집단이 정규분포를 따르고 표본의 크기 𝑛이 30미만인 소표본의 경우에 통계량 𝑡 = 𝑆/ 𝑛𝑋�−𝜇는 자유도가 𝑛 − 1𝑡 − 분포를 따름을 이용하여

𝛼 값이 주어질 때, 𝑃 −𝑡𝛼

2,𝑛−1 ≤ 𝑡 ≤ 𝑡𝛼

2,𝑛−1 = 1 − 𝛼가 성립한다.

따라서 𝑃 −𝑡𝛼

2,𝑛−1𝑆/ 𝑛𝑋�−𝜇 ≤ 𝑡𝛼

2,𝑛−1 = 1 − 𝛼가 성립되며, 𝜇에 대해 정리하면 𝑃 𝑋� − 𝑡𝛼

2,𝑛−1 𝑆

𝑛 ≤ 𝜇 ≤ 𝑋� + 𝑡𝛼

2,𝑛−1 𝑆

𝑛 = 1 − 𝛼이다.

 모평균 𝜇의 100 1 − 𝛼 %의 신뢰구간

(31)

수리정보과학과

 𝑃 −𝑡 𝑛−1,𝛼 2 < 𝑡 𝑛−1 < 𝑡 𝑛−1,𝛼 2 = 1 − 𝛼

기초통계학 - 김대학 31

(32)

예제 8.4

 [예제 8.1]에서 𝜎를 모른다고 할때 모평균의 신뢰구간을 구하여라.

(풀이) 𝑡

𝛼

2,𝑛−1 𝑆

𝑛

는 신뢰수준 95.0%에서 8.2.4절의 엑셀 결과를 참조하면 2.4677이다. 따라서 모평균의 95% 신뢰구간은

28.5 − 2.4677, 28.5 + 2.4677 = (26.0323, 30.9677).

 한편, 엑셀 함수마법사의 통계함수 TINV를 선택하여 구할 수도 있다. 이렇게 구 한 값은 𝑡0.025,9이다. 이 값에 표준오차(=표본표준편차 / 𝑛)을 곱하여 주면 마찬 가지로

(33)

수리정보과학과

(3) 모분산 𝜎

2

을 모르고 대표본인 경우

 표본의 크기가 30이상인 대표본의 경우 중심극한정리에 의해 𝑡 분포 대신 정규 분포를 사용하여 모평균 𝜇의 신뢰구간을 구할 수 있다. 즉, 𝑎의 값이 주어졌을 때

𝑃 −𝑧𝛼

2 ≤ 𝑋� − 𝜇

𝑆/ 𝑛 ≤ 𝑧𝛼

2 = 1 − 𝛼 가 성립되며, 이를 𝜇에 대해 정리하면

𝑃 𝑋� − 𝑧𝛼

2

𝑆

𝑛 ≤ 𝜇 ≤ 𝑋� + 𝑧𝛼

2

𝑆

𝑛 = 1 − 𝛼.

 모평균 𝜇의 100(1 − 𝛼)%의 신뢰구간

기초통계학 - 김대학 33

𝑋� − 𝑧

𝛼

2

𝑆

𝑛 , 𝑋� + 𝑧

𝛼

2

𝑆

𝑛

(34)

8.3.2 모비율 𝑝의 신뢰구간

 모비율 𝑝인 모집단으로부터 𝑛개의 랜덤표본 𝑋

1

, 𝑋

2

, ⋯ , 𝑋

𝑛

을 추출할 때 이들 중 특정한 속성을 갖는 개수를 𝑋라고 하면 𝑋의 분포는 이항분포 𝐵 𝑛, 𝑝 이다.

 𝑝̂의 평균 : 𝑆 𝑝̂ = 𝑆

𝑋𝑛

=

𝑛1

× 𝑛𝑝 = 𝑝

확률변수 𝑋의 기댓값 : 𝑆 𝑋 = 𝑛𝑝

확률변수 𝑋의 분산 : 𝑉𝑎𝑉 𝑋 = 𝑛𝑝 1 − 𝑝 모비율 𝑝의 추정량 𝑝̂ : 𝑝̂ = 𝑋𝑛

(35)

수리정보과학과

 일반적으로 모비율 𝑝를 알 수 없기 때문에 표본비율 𝑝̂ 을 대신 사용

 표본의 크기 𝑛이 충분히 큰 경우에 중심극한정리에 의하여 𝑝̂의 분포는 근사적 으로 정규분포 𝑁 𝑝̂, 1−𝑝�𝑛 를 따른다.

 표본비율의 표준화와 주어진 𝛼 값을 이용하여 𝑃 −𝑧𝛼

2 ≤ 𝑝̂ − 𝑝 𝑝̂(1 − 𝑝̂)

𝑛

≤ 𝑧𝛼

2 = 1 − 𝛼.

모비율 𝑝의 100 1 − 𝛼 %의 신뢰구간

기초통계학 - 김대학 35

𝑝̂ − 𝑧𝛼

2 × 𝑝̂ 1 − 𝑝̂

𝑛 , 𝑝̂ + 𝑧𝛼

2 × 𝑝̂ 1 − 𝑝̂

𝑛

(36)

예제 8.5

 어떤 정치 법안에 대해 국민의 찬반을 조사하기 위해 임의로 뽑은 100명에게 찬반 을 물었다. 그 중 60명이 찬성하였는데 전체 국민의 찬성률은 대략 어느 정도라고 할 수 있을지 95% 신뢰도로 구간추정 하시오.

(풀이) 100명 중 찬성자수 𝑋는 이항분포 𝐵(100, 𝑝)를 따른다. 여기서 𝑝는 찬성률이다.

한편 𝑝� = 60/100 = 0.6이므로 95% 신뢰구간은 다음과 같다.

𝑝� − 𝑧𝛼

2 × 𝑝� 1 − 𝑝�

𝑛 , 𝑝� + 𝑧𝛼

2 × 𝑝� 1 − 𝑝�

𝑛

= 0.6 − 1.96 0.6 × 0.4 0.6 × 0.4

(37)

수리정보과학과

카이제곱분포의 소개

기초통계학 - 김대학 37

카이제곱분포의 모양은 자유도에 따라 변하며,

자유도가 커지면 분포의 모양도 좌우대칭에 가까워짐

(38)

8.3.3 독립표본을 이용한 두 모평균의 𝜇

1

− 𝜇

2

에 대한 신뢰구간

 두 모집단의 모평균의 차 𝜇1 − 𝜇2에 대한 신뢰구간을 구하기 위해

– 독립인 두 확률표본을 이용하는 경우

– 짝 지워진 표본(paired sample)을 이용하는 경우

로 구분하여 추정

 독립표본의 경우는 서로 다른 두 독립모집단을 비교하고자 할 때 가장 손쉽게 생각할 수 있는 방법으로서, 각각의 모집단에서 표본을 랜덤추출하여 추정.

(39)

수리정보과학과

(1) 두 모분산 𝜎

12

과 𝜎

22

을 알때의 두 정규모집단의 경우

 두 모집단이 각각 𝑁 𝜇1, 𝜎12 , 𝑁 𝜇2, 𝜎22 을 따를 때 크기가 각각 𝑛1과 𝑛2인 독 립적인 두 랜덤표본 𝑋1, 𝑋2, ⋯ , 𝑋𝑛1 과 𝑋1, 𝑋2, ⋯ , 𝑋𝑛2 를 얻고 이들의 표본평균을 각각 𝑋�와 𝑌�라 두자

 모분산 𝜎12과 𝜎22이 알려져 있는 경우 표본평균 𝑋�와 𝑌�의 분포는 정규분포의 특 성에 의해서 각각 𝑋�~𝑁 𝜇1,𝜎𝑛12

1 , 𝑌�~𝑁 𝜇2,𝜎𝑛22

2 이 성립한다. 따라서 두 표본평 균의 차 𝑋� − 𝑌�의 분포는 정규분포의 특성과 표본의 독립성에 의해서

𝑋� − 𝑌�~𝑁(𝜇1 − 𝜇2,𝜎𝑛12

1 + 𝜎𝑛22

2)로 된다.

기초통계학 - 김대학 39

(40)

 𝑋� − 𝑌�~𝑁(𝜇1 − 𝜇2,𝜎𝑛12

1 + 𝜎𝑛22

2) 를 표준화하여 𝑍 = 𝑋�−𝑌� −(𝜇1−𝜇2)

𝜎12𝑛1 +𝜎22𝑛2 ~𝑁 0,1 로 된다.

따라서 𝑝 −𝑧𝛼

2𝑋�−𝑌� − 𝜇1−𝜇2

𝜎12𝑛1+𝜎22𝑛2 ≤ 𝑧𝛼

2 = 1 − α .

 𝜇

1

− 𝜇

2

에 대해 정리하면 두 모평균의 차 𝜇

1

− 𝜇

2

의 100(1 − 𝛼)%의 신뢰구간

𝑋� − 𝑌� − 𝑧 ×

𝜎12

+

𝜎22

, 𝑋� − 𝑌� + 𝑧 ×

𝜎12

+

𝜎22

.

(41)

수리정보과학과

예제

 금년에 기업체에 취업한 대졸 사원들의 초임을 남녀별로 조사하였다. 랜덤으로 추 출한 15명의 남자 대졸사원의 월별 초임의 평균은 752,000원 14명의 여자 대졸 사원 의 초임평균은 695,000원이었다. 모집단은 표준편차가 각각 22,000원과 31,000원인 정규분포를 따른다고 할 때 두 모평균의 차에 대해 95% 신뢰도로 구간추정 하시오.

(풀이) 𝑋� − 𝑌� − 𝑧𝛼

2 × 𝜎𝑛12

1 +𝜎𝑛22

2 , 𝑋� − 𝑌� + 𝑧𝛼

2 × 𝜎𝑛12

1 + 𝜎𝑛22

2

= 57,000 − 1.96 × 22,00015 2 + 31,00014 2, 57,000 + 1.96 × 22,00015 2 + 31,00014 2 = 57,000 − 19,689, 57,000 + 19,689 = (37,311, 76,689).

기초통계학 - 김대학 41

(42)

(2) 두 모분산이 미지이고 𝜎

12

= 𝜎

22

인 두 정규모집단의 경우

 표본크기가 𝑛1과 𝑛2 인 두 독립표본들의 표본평균을 𝑋�와 𝑌�, 표본분산을 𝑆12 = 𝑛1

1−1∑ (𝑋𝑛𝑖=11 𝑖 − 𝑋�)2, 𝑆22 = 𝑛 1

2−1∑ (𝑌𝑛𝑖=12 𝑖 − 𝑌�)2 으로 두면 통계량 𝑇 = 𝑋�−𝑌� − 𝜇1−𝜇2

𝑆𝑝2 1𝑛1+𝑛21

의 표본분포는 자유도가

𝑛

1

+ 𝑛

2

− 2

𝑡 − 분포

를 따른다.

 두 공통분산(

𝜎12 = 𝜎22)

의 추정치로 합동분산(pooled sample variance)

𝑆𝑝2

사용한다.

(43)

수리정보과학과

 이 표본분포를 이용하여 두 모평균의 차이에 대한 신뢰구간을 추정.

 두 모평균의 차 𝜇

1

− 𝜇

2

에 대한 100(1 − 𝛼)% 신뢰구간

기초통계학 - 김대학 43

𝑋� − 𝑌� − 𝑡𝛼

2,𝑛1+𝑛2−2× 𝑆𝑝2 1𝑛

1 + 𝑛1

2 , 𝑋� − 𝑌� + 𝑡𝛼

2,𝑛1+𝑛2−2× 𝑆𝑝2(𝑛1

1 + 𝑛1

2) .

(44)

예제 8.7

어떤 두 정규모집단에서 어린 아이가 혼자 걷기 시작하는 나이에 차이가 있는지를 알아보기 위하여 다음과 같은 자료를 수집하였다. (단위 : 개월)

(풀이) 모분산이 같다고 가정할 때, 모평균의 차에 대해 95% 신뢰도로 구간추정 하시오.

(풀이) 미지의 동일한 두 모분산과 정규모집단의 경우이므로 95% 신뢰구간은 다음과 같다.

𝑋� − 𝑌� − 𝑡𝛼

2,𝑛1+𝑛2−2× 𝑆𝑝2 1 𝑛1 + 1

𝑛2 , 𝑋� − 𝑌� + 𝑡𝛼

2,𝑛1+𝑛2−2× 𝑆𝑝2( 1 𝑛1 + 1

𝑛2) A집단 9.5, 10.5, 9.0, 9.75, 10.0, 13.0, 10.0, 13.5, 10.0, 9.5, 10.0, 9.75 B집단 12.5, 9.5, 13.5, 13.75, 12.0, 13.75, 12.5, 9.5, 12.0, 13.5, 12.0, 12.0

(45)

수리정보과학과

(3) 모분산 𝜎

12

과 𝜎

22

을 알고 𝜎

12

≠ 𝜎

22

인 두 정규모집단의 경우

 두 정규모집단 𝑁(𝜇1, 𝜎12)과 𝑁 𝜇2, 𝜎22 으로부터 크기가 각각 𝑛1과 𝑛2이고 독립 인 두 확률표본들의 각 표본평균을 𝑋�와 𝑌�라고 하고 표본분산을 𝑆12, 𝑆22으로

두면

𝑇 =

𝑋�−𝑌� − 𝜇1−𝜇2

𝑆12𝑛1 +𝑆22𝑛2

( 자유도

𝑣 =

𝑠14(𝑠12𝑛1 +𝑠22𝑛2 )2

𝑛12 𝑛1−1 + 𝑠24

𝑛22 𝑛2−1

)

의 표본분포는 자유도가

𝑣

𝑡 − 분포

를 따른다.

기초통계학 - 김대학 45

(46)

 이 경우

두 모평균의 차 𝜇

1

− 𝜇

2

의 100(1 − 𝛼)% 신뢰구간

𝑋� − 𝑌� − 𝑡𝛼

2,𝑣× 𝑆12

𝑛1 + 𝑆22

𝑛2 , 𝑋� − 𝑌� + 𝑡𝛼

2,𝑣× 𝑆12

𝑛1 + 𝑆22 𝑛2

(47)

수리정보과학과

(4) 두 모분산 𝜎

12

과 𝜎

22

이 알려져 있지 않고 대표본인 경우

 두 모평균의 차 𝜇

1

− 𝜇

2

의 100(1 − 𝛼)% 신뢰구간 (정규분포를 이용하여 계산)

기초통계학 - 김대학 47

𝑋� − 𝑌� − 𝑧𝛼

2× 𝑆12

𝑛1 + 𝑆22

𝑛2 , 𝑋� − 𝑌� + 𝑧𝛼

2× 𝑆12

𝑛1 + 𝑆22 𝑛2

(48)

8.3.4 짝진 표본을 이용한 모평균의 차 𝜇

1

− 𝜇

2

에 대한 신뢰구간

 한 집단으로부터 랜덤하게 추출한 𝑛개의 개체들을 대상으로 관심이 있는 바를 서로 다른 두 시점에서 각각 측정하여 얻은 크기가 𝑛인

짝 지워진 특정 표본을

이용하여 각 시점에서 생각할 수 있는 두 모평균의 차에 대한 신뢰구간을 구하 는 경우가 있다.

(49)

수리정보과학과

 짝 지워진 표본의 경우, 관찰된 𝑛쌍의 차 𝐶𝑖를 계산해서 평균 𝐶�와 표준편차 𝑆𝐷 를 구한다.

기초통계학 - 김대학 49

모집단 1의 표본(𝑋𝑖)

모집단 2의

표본(𝑌𝑖) 차이 𝐶𝑖 = 𝑋𝑖 −𝑌𝑖

𝑋1 𝑌1 𝐶1 = 𝑋1 −𝑌1

𝑋2 𝑌2 𝐶2 = 𝑋2 −𝑌2

𝑋𝑛 𝑌𝑛 𝐶𝑛 = 𝑋𝑛 −𝑌𝑛

𝐶𝑖의 평균 𝐶𝑖의 분산

𝐶� = � 𝐶𝑖/𝑛 𝑆𝐷2 = �(𝐶𝑖 − 𝐶�)2/𝑛

(50)

 𝐶1, 𝐶2, ⋯ , 𝐶𝑛 은 모평균이 𝜇𝐷 = 𝜇1 − 𝜇2이고 모분산이 𝜎𝐷2인 모집단으로부터 얻은 크기가 𝑛인 확률표본으로 간주

 짝 지워진 표본을 이용하여 모평균 𝜇𝐷 = 𝜇1 − 𝜇2에 대한 100 1 − 𝛼 %인 신뢰 구간을 추정하는 경우

– 모분산 𝜎𝐷2 이 알려져 있는 정규모집단인 경우

– 모분산 𝜎

𝐷2

이 알려져 있지 않은 정규모집단인 경우

– 표본이 큰 임의 모집단인 경우

로 구분하여 추정.

(51)

수리정보과학과

모분산 𝜎

𝐷2

이 알려져 있지 않은 경우 모집단의 모평균 𝜇

𝐷

에 대한 신뢰구간

 통계량 𝑇 = (𝐶� − 𝜇𝐷)/(𝑆𝐷/ 𝑛)는

자유도가 𝑛 − 1인 𝑡 − 분포

를 이용하여 추정

기초통계학 - 김대학 51

(𝐶� − 𝑡

𝛼

2,𝑛−1

𝑆

𝐷

𝑛 , 𝐶� + 𝑡

𝛼

2,𝑛−1

𝑆

𝐷

𝑛 )

(52)

모평균 𝜇

𝐷

= 𝜇

1

− 𝜇

2

에 대한 100 1 − 𝛼 % 근사 신뢰구간

 표본크기가 𝑛 ≥ 30이면, 모집단이 정규분포를 따르지 않더라도 흔히 이 모집 단의 모평균 𝜇𝐷 = 𝜇1 − 𝜇2에 대한 100 1 − 𝛼 % 근사 신뢰구간으로 다음구간을 이용한다.

(𝐶� − 𝑧

𝛼

2,𝑛−1

𝑆

𝐷

𝑛 , 𝐶� + 𝑧

𝛼

2,𝑛−1

𝑆

𝐷

𝑛 )

참조

관련 문서

그는 학교에 가는 것을 포기했다.. 그의 어머니는 그에게 기본 적인

l 암호문의 통계적 특성과 암호 키 값과의 관계를 가능한 복잡하게 하는 l 암호문의 통계적 특성과 암호 키 값과의 관계를

방추사 미세소관이 염색체에 붙으면 (많은 미세소관이 각각의 방추사부착점에 붙는다) 두 개의 방추사부착점 중 어느 쪽에 얼마나 많은 미세소관이 붙었는가에 따라

• 표본의 크기가 커지면 모든

1.인재활용의 조직내 문제점 2.명령계통의 혼란..  개개인이 개인으로서가 아니라 회사의 조직으로서 어떻게 처리할 것인가 명령계통 및 책임을 어떻게 결정해

언어상대주의는 Sapir와 Whorf가 주장핚 가 설로 인갂의 사고와 언어와 문화 사이에는 밀접핚 관계가 있다는 주장이다... 언어와 문화의

② 아는 것이 많거나 어느 부분에 능통한 사람을

우리나라의 경우에도 경 찰의 중립화와 민주화를 보장하기 위해서는 합의제 형태인 시ㆍ도 경찰위원회제도를 채택하는 것이