기초통계분석
chapter 5
추정 (estimation)
점추정 (point estimation)
구간추정 (interval estimation) 표본 크기가 작을 경우
t점수수업개요
우리가 추정하고 싶은 것은 우리가 알지 못하는 모집단 의 평균
임의 표본을 사용해서 표본 평균은 알 수 있다 (점추정 point estimation)
하지만 한 표본의 평균이 모집단의 평균과 일치한다고 생각할 수는 없다
그래서 표본 평균이라는 하나의 숫자로 표현하는 대신, 모집단의 평균을 담고 있을 가능한 숫자들의 범위를 구 하는 것이 나을 수 있다 (구간추정 interval estimation)모집단 평균의 추정
중심극한정리에 따르면 모든 가능한 표본평균들의 분포는 정 규분포이다
표본의 크기가 크면 표본평균들의 평균은 모집단 평균에 가까 워 진다
표본평균들의 평균을 중심으로 양쪽으로 대칭인 구간이 모집 단의 평균을 품고 있다고 가정하자
이 구간이 모집단 평균을 품고 있을 확률이 신뢰수준(confidence level)이다
α(유의도 수준 significance level) 는 우리가 받아들일 수 있는 오류 의 가능성을 의미한다모집단 평균의 추정
신뢰구간, 신뢰수준, α
0 ≤ α ≤ 1
α = .1 (10%의 오류를 받아들임)
α = .05 (5%의 오류를 받아들임)
α = .01 (1%의 오류를 받아들임) 신뢰구간은 다음의 형태를 띤다
표본평균들의 평균 ±(z score)*(표준오차)
(z score)*(표준오차)를 오차한계(margin of error) 라고 부른다 표준 오차(standard error): 표본 분포의 표준 편차
신뢰구간 (confidence interval)
KYPS 청소년패널데이터 (1차년도)
현재학생에 처해있는 전반적인 상황에 대한질 문(q10a04w1): “부모의 가정불화, 이혼 등으로 가정에 대한 불만이 높다”
5- point Likert scale (1=전혀 그렇지 않다, 2=그렇지 않은 편이다, 3=보통이다, 4=그런 편이다, 5=매우 그 렇다) 응답자 수=3,395(결측 =54); 평균=1.53; 표준편차
=0.94
표준오차 (0.94/√3395)=.011
90% 신뢰구간: 1.53±1.65*.011=[1.512, 1.548]
95% 신뢰구간: 1.53±1.96*.011=[1.508, 1.552]예
신뢰구간의 폭은 다음에 따라 결정된다
표본의 크기(sample size): 표본의 크기가 커지 면 표준 오차가 줄고, 따라서 신뢰구간의 폭도 줄어든다
신뢰수준(confidence level): 신뢰수준이 커짐에 따라 (즉, α가 작아짐에 따라) 신뢰구간도 커진 다신뢰구간
우리가 모르는 모집단의 평균은 정해진 숫자 이다
특정 표본에서 얻은 신뢰구간은 모집단의 평 균을 품을 수도 있고 그렇지 않을 수도 있다
만약 우리가 같은 크기의 임의 표본을 반복적 으로 취하고 매번 95% 신뢰구간을 구하면 장 기적으로 우리가 구한 신뢰구간의 95%정도가 모집단의 평균을 품는다 (즉, 우리의 추론은 100번 중에 95번 정도 맞다)
신뢰구간의 해석
모집단 평균의 신뢰구간은 보통 z score를 이용 해 구할 수 있다
중심극한정리에 따르면 표본의 크기가 클 때 (n ≥ 30) 표본평균의 표집분포는 모집단의 분포모양과 상관없이 정규분포이다 그런데 중심극한정리는 표본의 크기가 작을 때에는 적용이 안 된다
중요한 건! 우리는 모집단의 분포 모양을 모른 다
표본의 크기가 작을 때 신뢰구간
표본 크기가 작을 때 신뢰구간은 다음과 같 이 구한다
모집단의 분포가 정규분포라고 가정한다
이러한 가정에도 불구하고 표본의 크기가 작으면 표 본 평균이 가외치(outlier)에 민감하게 반응하기 마 련
즉, 표본 표준편차가 모집단의 표준편차와 다를 가 능성이 커진다
그래서 z-값을 그보다 조금 더 큰 값, t-값으로 교체해서 신뢰구간을 구한다z-값, t-값
z 분포 vs. t 분포
t-분포 (t-distribution = student’s t distribution)
W.S. Gosset (1876~1937)
평균값 0을 중심으로 대칭
이 분포의 표준편차는 z score 의 1보다 크다 (즉 표준정규분포보다 양쪽 꼬리가 더 통통함)
실제 t-분포의 모양은 표본 크기(sample size), 정확히 말해 자유도(degrees of freedom) 에 따 라 달라진다
자유도 = n – 1
자유도가 크면 (30가량) t-분포는 표준정규분포에 수렴한다t-분포
t-분포
위에서 언급된 예에서 우리는 2005 청소년 패널데이터 청소년 응답자들의 가정불화에 대한 불만 평균이 1.53, 표준편차 0.94라고 했다
만약 이 결과가 20명만 면접을 해서 얻은 것 이라면 95% 신뢰구간은 무엇인가?
신뢰구간: 표본평균 ±(t score)*(표준오차)예
t-표
95% 신뢰구간은
1.53 ± 2.093*(0.94/√20) = [1.09 ~ 1.97] z-값을 이용할 때와 비교해 볼 때 신뢰구간 의 폭이 넓어졌다
표본의 크기가 작아서 표준오차가 커졌기 때문
같은 신뢰구간을 구할 때 t-값이 z-값보다 크기 때문예
예시
청소년패널데이터 (2차년도) “자살생각”
변수명(r48c15w2): 1=매우 그렇지 않다 ~5=매우 그렇다SPSS 결과 (1)
T-TEST /TESTVAL=0
/MISSING=ANALYSIS
/VARIABLES=sucide_ideation_w2 /CRITERIA=CI(.95).
T-TEST /TESTVAL=0
/MISSING=ANALYSIS
/VARIABLES=sucide_ideation_w2 /CRITERIA=CI(.90).