• 검색 결과가 없습니다.

기초통계분석 chapter 5

N/A
N/A
Protected

Academic year: 2022

Share "기초통계분석 chapter 5"

Copied!
23
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

기초통계분석

chapter 5

(2)

 추정 (estimation)

점추정 (point estimation)

구간추정 (interval estimation)

 표본 크기가 작을 경우

t점수

수업개요

(3)

우리가 추정하고 싶은 것은 우리가 알지 못하는 모집단 의 평균

임의 표본을 사용해서 표본 평균은 알 수 있다 (점추정 point estimation)

하지만 한 표본의 평균이 모집단의 평균과 일치한다고 생각할 수는 없다

그래서 표본 평균이라는 하나의 숫자로 표현하는 대신, 모집단의 평균을 담고 있을 가능한 숫자들의 범위를 구 하는 것이 나을 수 있다 (구간추정 interval estimation)

모집단 평균의 추정

(4)

중심극한정리에 따르면 모든 가능한 표본평균들의 분포는 정 규분포이다

표본의 크기가 크면 표본평균들의 평균은 모집단 평균에 가까 워 진다

표본평균들의 평균을 중심으로 양쪽으로 대칭인 구간이 모집 단의 평균을 품고 있다고 가정하자

이 구간이 모집단 평균을 품고 있을 확률이 신뢰수준(confidence level)이다

α(유의도 수준 significance level) 는 우리가 받아들일 수 있는 오류 의 가능성을 의미한다

모집단 평균의 추정

(5)

신뢰구간, 신뢰수준, α

 0 ≤ α ≤ 1

α = .1 (10%의 오류를 받아들임)

α = .05 (5%의 오류를 받아들임)

α = .01 (1%의 오류를 받아들임)

(6)

 신뢰구간은 다음의 형태를 띤다

표본평균들의 평균 ±(z score)*(표준오차)

(z score)*(표준오차)를 오차한계(margin of error) 라고 부른다

 표준 오차(standard error): 표본 분포의 표준 편차

신뢰구간 (confidence interval)

(7)

 KYPS 청소년패널데이터 (1차년도)

 현재학생에 처해있는 전반적인 상황에 대한질 문(q10a04w1): “부모의 가정불화, 이혼 등으로 가정에 대한 불만이 높다”

5- point Likert scale (1=전혀 그렇지 않다, 2=그렇지 않은 편이다, 3=보통이다, 4=그런 편이다, 5=매우 그 렇다)

 응답자 수=3,395(결측 =54); 평균=1.53; 표준편차

=0.94

 표준오차 (0.94/√3395)=.011

90% 신뢰구간: 1.53±1.65*.011=[1.512, 1.548]

95% 신뢰구간: 1.53±1.96*.011=[1.508, 1.552]

(8)

 신뢰구간의 폭은 다음에 따라 결정된다

표본의 크기(sample size): 표본의 크기가 커지 면 표준 오차가 줄고, 따라서 신뢰구간의 폭도 줄어든다

신뢰수준(confidence level): 신뢰수준이 커짐에 따라 (즉, α가 작아짐에 따라) 신뢰구간도 커진 다

신뢰구간

(9)

 우리가 모르는 모집단의 평균은 정해진 숫자 이다

 특정 표본에서 얻은 신뢰구간은 모집단의 평 균을 품을 수도 있고 그렇지 않을 수도 있다

 만약 우리가 같은 크기의 임의 표본을 반복적 으로 취하고 매번 95% 신뢰구간을 구하면 장 기적으로 우리가 구한 신뢰구간의 95%정도가 모집단의 평균을 품는다 (즉, 우리의 추론은 100번 중에 95번 정도 맞다)

신뢰구간의 해석

(10)

 모집단 평균의 신뢰구간은 보통 z score를 이용 해 구할 수 있다

중심극한정리에 따르면 표본의 크기가 클 때 (n ≥ 30) 표본평균의 표집분포는 모집단의 분포모양과 상관없이 정규분포이다

 그런데 중심극한정리는 표본의 크기가 작을 때에는 적용이 안 된다

 중요한 건! 우리는 모집단의 분포 모양을 모른 다

표본의 크기가 작을 때 신뢰구간

(11)

 표본 크기가 작을 때 신뢰구간은 다음과 같 이 구한다

모집단의 분포가 정규분포라고 가정한다

이러한 가정에도 불구하고 표본의 크기가 작으면 표 본 평균이 가외치(outlier)에 민감하게 반응하기 마

즉, 표본 표준편차가 모집단의 표준편차와 다를 가 능성이 커진다

그래서 z-값을 그보다 조금 더 큰 값, t-값으로 교체해서 신뢰구간을 구한다

z-값, t-값

(12)

z 분포 vs. t 분포

(13)

 t-분포 (t-distribution = student’s t distribution)

W.S. Gosset (1876~1937)

(14)
(15)

 평균값 0을 중심으로 대칭

 이 분포의 표준편차는 z score 의 1보다 크다 (즉 표준정규분포보다 양쪽 꼬리가 더 통통함)

 실제 t-분포의 모양은 표본 크기(sample size), 정확히 말해 자유도(degrees of freedom) 에 따 라 달라진다

자유도 = n – 1

자유도가 크면 (30가량) t-분포는 표준정규분포에 수렴한다

t-분포

(16)

t-분포

(17)

 위에서 언급된 예에서 우리는 2005 청소년 패널데이터 청소년 응답자들의 가정불화에 대한 불만 평균이 1.53, 표준편차 0.94라고 했다

 만약 이 결과가 20명만 면접을 해서 얻은 것 이라면 95% 신뢰구간은 무엇인가?

신뢰구간: 표본평균 ±(t score)*(표준오차)

(18)

t-표

(19)

 95% 신뢰구간은

1.53 ± 2.093*(0.94/√20) = [1.09 ~ 1.97]

 z-값을 이용할 때와 비교해 볼 때 신뢰구간 의 폭이 넓어졌다

표본의 크기가 작아서 표준오차가 커졌기 때문

같은 신뢰구간을 구할 때 t-값이 z-값보다 크기 때문

(20)

예시

청소년패널데이터 (2차년도) “자살생각”

변수명(r48c15w2): 1=매우 그렇지 않다 ~5=매우 그렇다

(21)

SPSS 결과 (1)

T-TEST /TESTVAL=0

/MISSING=ANALYSIS

/VARIABLES=sucide_ideation_w2 /CRITERIA=CI(.95).

T-TEST /TESTVAL=0

/MISSING=ANALYSIS

/VARIABLES=sucide_ideation_w2 /CRITERIA=CI(.90).

(22)

SPSS 결과 (2)

 남자일 경우(95% 신뢰구간)

 여자일 경우(95% 신뢰구간)

(23)

 청소년패널데이터 자료를 SPSS에서 읽어 다음의 작업을 수행하시오

한 양적 변수 (혹은 순서형 변수)의 평균의 신뢰 구간 구하기

한 양적 변수 (혹은 순서형 변수)를 놓고 두 개 이상의 집단을 정의해서 각 집단의 평균의 신 뢰구간을 구하고 해석하기

실습

참조

관련 문서

 산포도(散布度)가 작으면 자료들이 평균 주위에 모이기 때문에 평균을 신뢰할 수 있다.  자료의 특성을 이해하기

• 분자는 자기장 내에서 빠른 속도로 운동하 므로 NMR은 모든 움직임의 평균을 스펙트 럼으로 보여줌. • 사이클로헥세인의 Axial

이 연구문제의 해결방법은 2가지 즉 하나는 모집단 모두를 측정하여 평균을 구하는 방법, 다른 하나는 모집단을 대표할 학생을 뽑아서 평균을 구한

 평균 이상의 학생 수와 평균 이하의 학생수를 얻 어내어 출력한다..  학생들의

말더듬아동 집단과 일반아동 집단 간 학교적응 총 점수 평균을 비교한 결과, 말더듬 아동 집단이 일반아동 집단보다 낮은 학교적응 점수를 보이는

95kg로 통계적으로 유의한 차이가 나타나지 않았다.집단의 평균을 비교한 결과 사전검사에서는 유의한 차이가 나타나지 않았으며,사후검사에서 통계적으로 유의한

32mg/ dL로 감소하였지만 통계적으로 유 의한 차이가 없는 것으로 나타났다.집단의 평균을 비교한 결과 사전검사에서 통 계적으로 유의한 차이가

모든 시기에서 지지대를 사용하여 가슴을 압박한 경우에 깊이가 높았으며, 통계적으로 유의한 차이가 있었다.영아 심폐소생술에 대한 지지대 사용 전‧. 후 전체적인