표집분포와 중심극한정리

전체 글

(1)

표집분포와 중심극한정리

부산가톨릭대학교 배화숙

(2)

추론 과정에서 표본이 얼마나 정확하게 모집단 특성을 반영하는가가 가장 중요

모집단의 특성 왜곡시키지 않으려는 노력

무작위표집(확률표집)

그러나

모집단의 모수와는 오차를 가질 수 밖에 없음

즉, 완벽하게 추론할 수는 없음

그러므로

어느 정도의 오차를 인정할 수 밖에 없음 어느 정도의 오차를 허용할 수 있는가?

1.표본조사를 통한 추론

(3)

표본을 통한 통계치가 얼마나 정확한지 판단하는 기준을 제공 하는 것  표집분포

통계이론 모형의 하나

표집분포

규정된 모집단에서 동일한 크기의 표본을 반복적으로 추출하여 그 표 본들의 특정한 통계치가 분포하는 모양을 제시한 것

동일크기(N)의 무작위 표집의 무수한 반복을 통해 얻은 통계치의 분포는 정상분 포를 이루어 감

평균의 표집분포

표집분포의 표준편차= 표준오차 (standard error)

※표집분포 sampling distribution

(4)

중심극한정리

▣기초개념

모집단 표본

1

표본 2

표본 n 추출/표본

복원

평균계산

X1n

X2n

Xnn

표집분포:

표본 추출된 집단의 평균 값들로 구성된 분포

(5)

 현대통계학의 기본 이론, 중요한 확률 이론

 정리 1. 표집분포의 평균 ≒모집단의 평균

 집단으로부터 일정한 사례 수 n의 표본들을 무작위로 추출하면 n이 커짐에 따라

표본평균의 분포(표집분포)는 정규분포에 가까운 분포가 됨

표본평균은 모집단 평균에 가까워짐

2. 중심극한정리 central limit theorem

X

nm

(6)

정리 2. 표집분포의 분산 ≒ 모분산 /n

표집분포의 분산은 모분산을 n으로 나눈 값과 근사하게 일치

※ 표집분포의 표준편차 = 표준오차

표본 평균들의 표준편차( standard error of the mean)

모집단에서 선정한 표본의 평균이 모집단 평균에서 얼마나 떨어져 있는가를 나타내는 지표

2. 중심극한정리 central limit theorem

s

Xn m

n

2

2

평균들의 분산 = 모분산/n(표집의 수)

(7)

중심극한정리의 중요성

표본평균의 확률분포에 대한 유용한 이론적 정보 제공

모집단 확률 분포에 관한 정보가 없어도 가설검정 및 통계적 추론 가능하게 하는 이론

실제 조사에서는 표본을 한번만 추출

한 표본으로 표준오차를 추정할 수 밖에 없음

중심극한정리를 이용하여 유효케이스를 확보, 데이터분석을 할 수 있음 2. 중심극한정리 central limit theorem

(8)

2. 중심극한정리 central limit theorem

 추출한 확률표본의 크기가 n≥30 이라면

•표본분포는 정규분포를 따른다

•즉, 유효사례 수가 30 이상이면 정규성 검정 없이 모수적 통계적용 가능

•유효 사례 수가 30 이하라면 정규성 검정을 거쳐야 함

•예1) 남녀 비교를 하기 위해서는 남녀 각각의 범주에 해당되는 사례 수가 30개 이상이어야 함

•예2)네 개 학년을 비교한다면?

(9)

신뢰수준 confidence level

미지의 모수가 신뢰구간에 속할 확률에 대한 하한으로 지정되는 확률

반복된 조사수행 시에 비슷한 결과를 얻을 수 있는가를 나타냄

표본오차=최대허용 오차

모집단 평균과 표본 평균과의 차이

실제 결과치가 오차의 폭 만큼 변경될 수 있다는 의미

오차(ε)를 어떻게 최소화할 것인가가 과제

3. 최대허용오차

p

P ˆ

(10)

예) 신뢰수준 95%에 오차 + 3%p

조사 결과가 모집단 실제 값의 3%p이상을 벗어나는 경우가

100번 조사였을 때 5번 정도 나오는 것을 의미

최대허용오차=오차한계 =그 이상의 오차를 허용하지 않겠다

표본크기 ↑⇒ 오차한계↓

오차한계 미리 설정  표본크기 결정

최대허용오차  표본 크기에 중요 역할 최대 허용오차

(11)

4. 표본크기 결정

95% 신뢰 수준에서 최대허용오차 3% p  1,067 케이스

2 2 2

e n z

z n e

 

) )(

1 ) (

1 (

) 1

(

2 2 2

2

e p z

e p

p p

n z

n p z p

e

 

 

ε=오차

Z = Z분포 값 p=기대값 (1/2) n=표본 수

(12)

표본 결정시 고려할 사항

표본 크기 클수록 좋음

연구의 심도에 따라 표본 크기 결정

표본 크기는 계산된 수치보다 더 크게 하는 것이 좋음

통계분석의 성격을 고려하여 표본 크기 결정

•표본 크기 클수록 보다 정확한 모수 추정 가능

•대부분 연구에서 + 3% 만족을 요구하는데 

적절한 표본 수는 약 1,070

•표본 크기가 너무 커지면  비 표본 오차 커짐

수치

Updating...

참조

Updating...

관련 주제 :