• 검색 결과가 없습니다.

6. 추정 및 가설검정

N/A
N/A
Protected

Academic year: 2022

Share "6. 추정 및 가설검정"

Copied!
33
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

6. 추정 및 가설검정

(2)

통계적 추측

• 통계적 추정(statistical estimation)

: 표본으로부터 통계량의 값(표본평균, 표본비율)을 구하여 그 값을 근거로 모수의 값(모평균, 모비율)이 얼마가 될 것이라고 추정하는 것

- 점추정(point estimation)

- 구간추정(interval estimation)

• 가설검정(hypothesis test)

:

모수에 대하여 어떤 값을 가정하고 표본정보를 이용하 여 그 가정이 합당한가 합당하지 않은가를 결정하는 것

(3)

• 점추정(point estimation)

모수를 표본평균과 같이 하나의 수치로 추정하는 것

• 구간추정(interval estimation)

표본평균주위에 범위를 정해 모수를 추정하는 것

※ 점추정값은 모수를 정확하게 예측할 가능성이 없는 반면에

(4)

점추정

2

p

점추정량 모수

n

i

X

i

X n

1

1

n X p ˆ  1

2 1

2

( )

1

1 X X

S n

n i

i

  

2 1

) 1 (

1 X X

S n

n i

i

  

(5)

구간추정

• 모수가 있을 것이라고 생각되는 범위를 추정

• 범위가 클수록 틀릴 가능성이 적어지나, 범위가

너무 크면 정보로서의 가치가 없어 의사결정에

아무런 도움이 되지 못한다.

(6)

구간추정

• 모수가 있을 것으로 생각되는 구간을 정하게 되면 표본오차(sampling error)에 의해 틀릴 가능성(모수 가 그 범위 내에 존재하지 않을 가능성)은 항상 있 게 된다.

• 그러므로 구간추정에서는 범위와 함께 그 범위 안 에 모수가 포함될 확률인 신뢰수준(level of

confidence)을 함께 고려해야 한다.

(7)

구간추정

• 모집단 평균 의 구간추정량

(8)

95% 신뢰수준이란

‘‘ 크기가 n 인 모든 가능한 표본을 모집단으로부터 추출하여 ‘평균+1.96표준오차, 평균-1.96표준오차

’의 구간들을 만들면 그 중 95 %는 모집단 평균을 포함하고 5 %는 모집단 평균을 포함하지 않는다

’’는 것이다.

(9)

구간추정

(10)

신뢰구간

신뢰구간은 모수를 실제적으로 추정하므로 검정보다 더 많은 정보를 가지면 쉽게 해석할 수 있다.

(구할 수 있을 때마다 신뢰구간을 구한다는 것은 좋은 습관)

1000번과 4040번 던지는 실험에 대해 신뢰구간은 0.5를 포 함하고 있어 동전이 공정하지 않다는 확신을 주지 못한다.

그러나 100.000번 던지는 실험에서 참값 p는 0.504와 0.510사이에 존재하는 것이 입증되었으므로

p

가 0.5가 아 님을 확신한다.

(11)

가설검정의 개념

1. 가설설정

2. 검정방법 선정

3. 참인 H

0

를 기각하는 확률(유의수준) 4. 검정통계량 값 계산

5. 통계적 결정

(12)

가설검정의 개념 : 가설 종류

• 귀무가설 또는 영가설(null hypothesis) : H 0 -

현재의 상태 또는 현재의 생각

• 대립가설(alternative hypothesis) : H A

- 대립가설은 연구가설로서 새로운 주장을 의미  검정의 대상

단측검정(one-side test) 양측검정(two-side test)

(13)

가설검정의 개념 : 가설검정의 오류

검정결과 Ho true Ho false Ho reject Type Ⅰ error(α) Power(1-β)

can not reject Ho Type Ⅱ error(β)

(14)

가설검정의 개념 : 가설검정의 오류

(15)
(16)

가설검정의 오류

• 제1종 오류란 확증적 임상시험에서는 약효가 없는 약을 약효가 있다고 잘못 결정을 내리는 오류

• 제2종 오류란 약효가 있는 약을 약효가 없다고 잘못 결정 내리는 오류

• 확증적 임상시험결과를 최종평가하는 심사기관은 엉터리 약으로부터 국민건강을 보호, 그러므로 심사기관 입장에 서는 제1종 오류를 5%이하로 통제하는 것이 중요

• 반면, 제약회사 입장에서는 제2종 오류가 더 치명적일수 있지만, 신규 의약품 허가를 목적으로 시험약의 효과를 입증하고자 하는 경우 제1종 오류를 가장 심각한 오류로 규정

(17)

가설검정의 개념 : 유의수준

 = 0.01, 0.05, 0.10

(18)

가설검정의 개념 : 검정방법 선정

 연구의 목적

 변수의 종류

- 척도 및 연속성(연속변수/이산변수) - 방향성(독립변수/종속변수)

t 검정, ANOVA 등(parametric)을 적용 전제조건 - 자료의 특성이 몇 가지

가정(assumptions)을 충족해야….

이를 충족하지 못하는 경우는?

다른 검정법, 즉 비모수적 검정방법(non-parametric test)을 적용해야 한다.

(19)

• 변수종류에 따른 통계분석법

가설검정의 개념 : 검정통계량 계산

종속변수 독립변수 통계분석법

연속변수 (혈압) 명목척도(2개 category) T 검정, paired T검정 연속변수 (혈압) 범주형 (3개 이상) 분산분석(ANOVA)

범주형 (병 발생 여부)

범주형 (투약여부) 

2-test (하나의 독립변수) Logistic reg. (둘 이상의 ″) 연속형 (아기의 체중) 연속형 (재태 임신기간) 회귀분석(simple or

multiple) 연속형 + 범주형

(20)

가설검정의 개념 : 통계적 결정

• P-값(또는 관측 유의 수준)

관측치

(21)

가설검정 정리

1. 가설을 세운다. (귀무가설, 영가설 vs 대립가설)

2. 검정방법을 선정한다.(연구목적, 가설 및 자료의 특성에 따라) 3. 참인 H

0

를 기각하는 확률(유의수준)을 정한다.(0.05)

4. 확률표본을 골라 검정통계량의 값을 계산한다.(t, F, X

2

등) 5. 통계적 결정을 내린다.(기각역과 채택역)

(22)

유의성검정 이란 ?

유의성검정은 귀무가설에 반(反)하고 대립가설에 부합하는 증거를 찾는 것이다.

귀무가설이 사실이라는 가정 하에서 귀무가설을

기각하는 사건이 더 많이 일어날 확률을 P-값이라

한다. P-값이 작을수록 관측된 값이 귀무가설을

기각하는 강한 증거가 된다.

(23)

Count Buffon의 동전

France의 박물학자 Count Buffon(1707-1799)은 동전을 4040번 던져 2048번의 앞면을 얻었다.

앞면의 표본비율은

이 값은 0.5보다 약간 큰데, 이것이 Buffon의 동전이

바르지 못하다는 증거가 되는가?

(24)

Count Buffon의 동전

가설)

귀무가설은 “동전이 공정하다”는 것(p=0.5)이며, 대립가설은 “동전이 공정하지 않다”는 것이다.

H 0 : p=0.5 H a : p≠0.5

표본분포)

만약 귀무가설이 사실이면, 앞면의 표본비율은 아래의

값을 평균과 분산으로 갖는 정규분포에 근사한다.

(25)

Count Buffon의 동전

P값)

여기서 P값은 0.37이다.

대립가설로 볼 때 0.5의 근처에 p가 존재할 수 있으므로 0.5로부터 양쪽 방향으로 떨어진 p값이 H0에 반대되고

(26)

Count Buffon의 동전

결론)

균형이 잘 잡힌 동전을 이용하여 Buffon의 실험을 무한히 반복 시행하는 경우, 전체 시행의 37%에서

0.5로부터 0.507만큼 멀리 떨어진 결과를 얻는다 따라서 Buffon의 실험을 통해볼 때 그의 동전이

(27)

용어정리①

단측대립가설(one-sided alternative hypothesis)

대립가설 H a : p >0.5은 모비율이 0.5보다 더 크다고 말할 수 있는 증거를 찾는 가설

양측대립가설(two-sided alternative bypothesis)

H a : p ≠0.5은 동전이 공정한가의 여부만 알고자

하는 가설

(28)

용어정리②

유의수준

H

0

에 반하는 증거가 얼마나 많이 있는가를 미리 알 수 있는데, 우리가 필요로 하는 P값의 크기와 관계 있다

이와 같이 결정된 P값을 유의수준이라고 하며, 그리스 문자인 α로 표기

만약 P값이 α이거나, α보다 작으면, 자료는

유의수준 α에서 통계적으로 유의하다고 말한다 만약 우연에 의한 결과가 반복 추출된 표본에서 시행횟수의 5%를 넘지 않는다면 표본결과는

(29)

3) 통계적 추론의 이용과 남용

추론 문제를 해결하는 방안

① 자료가 가진 문제(내용)들을 설계하자

② 신뢰구간의 성질을 알자

③ 통계적 유의성이 무엇을 의미하는지 알자

④ 어떤 방법이 필요한가를 알자 각각 하나씩

알아봅시다!

(30)

추론문제를 해결하는 방안 ①

[자료가 가진 문제(내용)들을 설계하자]

• 자료는 모집단으로부터 단순임의추출 하여야 함 (실제로 완벽한 단순임의추출하기란 불가능)

• 이 방법은 층화표본과 같은 훨씬 더 복잡한 표본 설계에 대해서는 옳지 않으므로 다른 방법 사용

• 알 수 없는 크기의 편의(bias)를 가지고 우연하게 추출된 자료에 대한 올바른 추론 방법은 없음

(어떤 공식을 사용해도 잘못 생성된 자료를 극복할 수 없음)

• 결측값이나 무응답과 같은 이유로 발생하는 오차는

(31)

추론문제를 해결하는 방안 ②

[신뢰구간의 성질을 알자]

• 동일한 모집단에서 여러 번 표본 추출하여 신뢰구간을 추정하였을 때 모수의 참값이 얼마나 자주 포함되는가 의 여부를 알려주는 값

• 신뢰수준을 아무렇게나 늘일 수 없음

• 표본이 클수록 구간의 폭은 짧아짐

(32)

추론문제를 해결하는 방안 ③

[통계적 유의성이 무엇을 의미하는지 알자]

• 유의성검정의 목적은 주어진 자료를 이용하여 어떤 주장을 받아들일 수 있는지 평가하는 것

• “귀무가설이 참이 아닐 증거의 강도는 얼마인가?”

이 물의 답은 P값을 이용함

• P값은 만약 귀무가설이 참이라면 우리가 가진 자료가 얼마나 믿기 어려운가의 정도를 나타냄

• “이와 같은 자료에서 만약 가설이 참이라면 시행의

(33)

추론문제를 해결하는 방안 ④

[어떤 방법이 필요한가를 알자]

• 모비율 p에 대한 검정과 구간추정을 실시하기 위해 표본보다 더 큰 모집단이 필요

• 층화표본을 이용하여 추론하려면, 통계 전문가와 통계전문가와 의논하는 것이 현명

참조

관련 문서

아래 오브제를

영상의 흐름을 상상하며

[r]

오케스트라의 음량은 대개 30~110dB 사이의 소리를

[r]

다른 모둠이 발표했을 때 자신의 모둠에서 미처 생 각하지 못했거나 잘못 그리고 설명한 내용을 정정한다 .... 소화기관

활동 살고 있는 집의 재료 문제를 살펴봅시다.. 새집증후군과 헌집증후군의

에너지란 일할 수 있는 능력을 말하는데 전기제품이나 우주에 로켓을 쏘아 올리기 위해서는 반드시 에너지가 필요하다..