기초통계분석 chapter 5

(1)

기초통계분석

chapter 5

(2)

 추정 (estimation)



점추정 (point estimation)



구간추정 (interval estimation)

 표본 크기가 작을 경우



t점수

수업개요

(3)



우리가 추정하고 싶은 것은 우리가 알지 못하는 모집단 의 평균



임의 표본을 사용해서 표본 평균은 알 수 있다 (점추정 point estimation)



하지만 한 표본의 평균이 모집단의 평균과 일치한다고 생각할 수는 없다



그래서 표본 평균이라는 하나의 숫자로 표현하는 대신, 모집단의 평균을 담고 있을 가능한 숫자들의 범위를 구 하는 것이 나을 수 있다 (구간추정 interval estimation)

모집단 평균의 추정

(4)



중심극한정리에 따르면 모든 가능한 표본평균들의 분포는 정 규분포이다



표본의 크기가 크면 표본평균들의 평균은 모집단 평균에 가까 워 진다



표본평균들의 평균을 중심으로 양쪽으로 대칭인 구간이 모집 단의 평균을 품고 있다고 가정하자



이 구간이 모집단 평균을 품고 있을 확률이 신뢰수준(confidence level)이다



α(유의도 수준 significance level) 는 우리가 받아들일 수 있는 오류 의 가능성을 의미한다

모집단 평균의 추정

(5)

신뢰구간, 신뢰수준, α

 0 ≤ α ≤ 1



α = .1 (10%의 오류를 받아들임)



α = .05 (5%의 오류를 받아들임)



α = .01 (1%의 오류를 받아들임)

(6)

 신뢰구간은 다음의 형태를 띤다



표본평균들의 평균 ±(z score)*(표준오차)



(z score)*(표준오차)를 오차한계(margin of error) 라고 부른다

 표준 오차(standard error): 표본 분포의 표준 편차

신뢰구간 (confidence interval)

(7)

 KYPS 청소년패널데이터 (1차년도)

 현재학생에 처해있는 전반적인 상황에 대한질 문(q10a04w1): “부모의 가정불화, 이혼 등으로 가정에 대한 불만이 높다”



5- point Likert scale (1=전혀 그렇지 않다, 2=그렇지 않은 편이다, 3=보통이다, 4=그런 편이다, 5=매우 그 렇다)

 응답자 수=3,395(결측 =54); 평균=1.53; 표준편차

=0.94

 표준오차 (0.94/√3395)=.011



90% 신뢰구간: 1.53±1.65*.011=[1.512, 1.548]



95% 신뢰구간: 1.53±1.96*.011=[1.508, 1.552]

예

(8)

 신뢰구간의 폭은 다음에 따라 결정된다



표본의 크기(sample size): 표본의 크기가 커지 면 표준 오차가 줄고, 따라서 신뢰구간의 폭도 줄어든다



신뢰수준(confidence level): 신뢰수준이 커짐에 따라 (즉, α가 작아짐에 따라) 신뢰구간도 커진 다

신뢰구간

(9)

 우리가 모르는 모집단의 평균은 정해진 숫자 이다

 특정 표본에서 얻은 신뢰구간은 모집단의 평 균을 품을 수도 있고 그렇지 않을 수도 있다

 만약 우리가 같은 크기의 임의 표본을 반복적 으로 취하고 매번 95% 신뢰구간을 구하면 장 기적으로 우리가 구한 신뢰구간의 95%정도가 모집단의 평균을 품는다 (즉, 우리의 추론은 100번 중에 95번 정도 맞다)

신뢰구간의 해석

(10)

 모집단 평균의 신뢰구간은 보통 z score를 이용 해 구할 수 있다



중심극한정리에 따르면 표본의 크기가 클 때 (n ≥ 30) 표본평균의 표집분포는 모집단의 분포모양과 상관없이 정규분포이다

 그런데 중심극한정리는 표본의 크기가 작을 때에는 적용이 안 된다

 중요한 건! 우리는 모집단의 분포 모양을 모른 다

표본의 크기가 작을 때 신뢰구간

(11)

 표본 크기가 작을 때 신뢰구간은 다음과 같 이 구한다



모집단의 분포가 정규분포라고 가정한다



이러한 가정에도 불구하고 표본의 크기가 작으면 표 본 평균이 가외치(outlier)에 민감하게 반응하기 마 련



즉, 표본 표준편차가 모집단의 표준편차와 다를 가 능성이 커진다



그래서 z-값을 그보다 조금 더 큰 값, t-값으로 교체해서 신뢰구간을 구한다

z-값, t-값

(12)

z 분포 vs. t 분포

(13)

 t-분포 (t-distribution = student’s t distribution)

W.S. Gosset (1876~1937)

(14)

(15)

 평균값 0을 중심으로 대칭

 이 분포의 표준편차는 z score 의 1보다 크다 (즉 표준정규분포보다 양쪽 꼬리가 더 통통함)

 실제 t-분포의 모양은 표본 크기(sample size), 정확히 말해 자유도(degrees of freedom) 에 따 라 달라진다



자유도 = n – 1



자유도가 크면 (30가량) t-분포는 표준정규분포에 수렴한다

t-분포

(16)

t-분포

(17)

 위에서 언급된 예에서 우리는 2005 청소년 패널데이터 청소년 응답자들의 가정불화에 대한 불만 평균이 1.53, 표준편차 0.94라고 했다

 만약 이 결과가 20명만 면접을 해서 얻은 것 이라면 95% 신뢰구간은 무엇인가?



신뢰구간: 표본평균 ±(t score)*(표준오차)

예

(18)

t-표

(19)

 95% 신뢰구간은



1.53 ± 2.093*(0.94/√20) = [1.09 ~ 1.97]

 z-값을 이용할 때와 비교해 볼 때 신뢰구간 의 폭이 넓어졌다



표본의 크기가 작아서 표준오차가 커졌기 때문



같은 신뢰구간을 구할 때 t-값이 z-값보다 크기 때문

예

(20)

예시



청소년패널데이터 (2차년도) “자살생각”



변수명(r48c15w2): 1=매우 그렇지 않다 ~5=매우 그렇다

(21)

SPSS 결과 (1)

 T-TEST /TESTVAL=0

/MISSING=ANALYSIS

/VARIABLES=sucide_ideation_w2 /CRITERIA=CI(.95).

 T-TEST /TESTVAL=0

/MISSING=ANALYSIS

/VARIABLES=sucide_ideation_w2 /CRITERIA=CI(.90).

(22)

SPSS 결과 (2)

 남자일 경우(95% 신뢰구간)

 여자일 경우(95% 신뢰구간)

(23)

 청소년패널데이터 자료를 SPSS에서 읽어 다음의 작업을 수행하시오



한 양적 변수 (혹은 순서형 변수)의 평균의 신뢰 구간 구하기



한 양적 변수 (혹은 순서형 변수)를 놓고 두 개 이상의 집단을 정의해서 각 집단의 평균의 신 뢰구간을 구하고 해석하기

실습