모수 검정과 비모수 검정

(1)

모수 검정과 비모수 검정

제6강

지리통계학

(2)

통계적 추정의 목적

• 연구자가 주장하는 연구가설을 입증하기 위한 것

① 연구목적에 맞는 연구가설을 설정

② 연구목적과 수집된 자료에 부합되는 적절한 통계적 검정 방법을 선택

③ 귀무가설과 연구가설(대립가설)을 진술

④ 유의수준을 결정한 후 각 분포유형에 따라 분포표를 이용 하여 임계치를 구하고 기각역을 설정

⑤ 통계적 검정유형에 필요한 통계량을 각 검정유형의 공식 을 이용하여 계산

⑥ 임계치와 통계량을 비교하여 귀무가설의 기각과 수용 결

⑦ 연구결과를 검정 결과에 따라 밝힘. 정

(3)

모수적 통계의 전제조건

① 표본의 모집단이 정규분포를 이루어야 한다.

② 집단내의 분산은 같아야 한다.

③ 변인은 등간척도나 비율척도로 측정되어야 한 다.

• à 이 조건이 충족되지 않으면 비모수 통계를 사 용

(4)

모수 검정방법의 사용 예

• 모평균과 표본평균과의 차이 -> z분포, t분포

• 표본평균간의 차이-> z분포, t분포

• 모분산과 표본분산과의 차의 -> F분포, 카이제곱 분포

• 표본분산간의 차이 -> F분포, 카이제곱분포

(5)

1. 모집단의 평균에 대한 검정

• 표본집단이 클 경우 N(μ, δ²), 이 경우 표본 평균 라고 하 면 귀무가설과 모집단 평균과 표본평균이 같은 것이 된다.

• 표본집단 크기가 n>30 이면 정규분포로 간주하여 Z 분포를 이용한다.

• 표본집단이 작거나 모집단의 표준편차를 모를 경우 표본 통계량의 평균과 표분편차(s)를 이용하여 통계량을 산출.

• 표본이 30이하면 t 분포 사용, 이때 자유도를 고려함.

n s

t X

/ -

m

=

X

s m

=

X

-

Z

(6)

2.두 모집단의 평균의 차에 대한 검정

1) 표본집단이 클 경우

(7)

2) 표본집단이 작을 경우

정규분포를 이루지만 모집단의 분산을 모르는 경우 표본의 크기 가 작을 때에는 t 검정을 이용하여 두 표본 평균간의 차에 대한 유 의성을 검정

서로 독립적인 두 모집단의 표준편차가 동일하다고 가정하고, 이 들이 정규분포를 이룬다는 전제에서 t 값을 도출

(8)

• 3) 동일표본집단의 시계열 평균에 대한 비교

한 모집단에서 시간 간격을 두고 표본을 추출한 후 기간 동안에 나타 난 평균의 유의적인 차이를 검정하는 경우

(9)

9

두 집단의 평균비교

Two-sample t-test vs. Paired t-test

(10)

10

질문 : 왜 평균을 비교할까?

Þ 대표값

질문 : 평균은 항상 자료들을 대표하는 값일까?

Þ 정규분포일 때에만

예. 정규분포가 아닌 경우 70, 74, 94, 112, 500.

평균 850/5=170. 평균은 이상점의 영향을 받기 때문에 적절한 대표값이 될 수 없다. 중앙값

(11)

11

정규분포를 하는 자료 Þ 모수적 검정

정규분포를 하지 않는 자료 Þ 비모수적 검정

모수적 검정 비모수적 검정

Two-sample t-test Þ Wilcoxon rank sum test (Mann-Whitney U test) Paired t-test Þ Wilcoxon signed rank test

(12)

12

Two-sample t-test

독립인 두 집단의 평균 비교

가정 : 정규분포, 두 집단의 분산 동일

비모수적 검정(Wilcoxon rank sum test), 변수변환

Smith-Satterthwaite test, 비모수적 검정, 변수변환

(13)

13

t 검정(t-test)

하나 또는 두 집단의 평균비교

(14)

14

t ^검정

하나 또는 두 개 집단의 평균을 비교하는 모수적 검정법 (parametric test)

평균을 비교 : 측정값들이 정규분포를 하 여 , 평균이 그 집단의 대표값으로서의 역 할을 하고 있다는 것을 의미

이상점 (outlier)이 있는 비정규분포 자료는

t 검정의 대상이 아니다 .

(15)

15

연속변수 : 구간척도 또는 비척도로 측정된 값

t

^검정과 Wilcoxon 검정

측정값들이 정규분포를 하는지 여부에 따라 구분

t

^분포

William Gosset(1876-1937),

Student라는 필명(익명)으로 논문을 발표 Student

t

^분포

(16)

16

• t ^분포는 0을 중심으로 좌우대칭

• 표준정규분포(N(0, 1))보다 두터운 꼬리

• 분포의 모양은 자유도(d.f., degree of freedom)에 따라 달라지므로, 자유도가 t ^{분포의 모수}(parameter)

• 표준정규분포와 자유도 5인 t ^분포

자유도가 커질수록 꼬리가 얇아지고 중심부분이 높아져, 자유도가 무한대(∞)가 되면, 표준정규분포와 동일한 모양

(17)

17

T 분포: 두 집단의 평균에 대한 비교

한 집단의 평균과 다른 기준값을 비교

다른 기준값 - 다른 연구결과에서 나온 값 또는 지금까지 알려져 온 값

귀무가설 (모집단의 평균이 μ

₀

이다 )이 옳을

때 , 자유도 n -1인 t ^분포

(18)

3. 모집단의 분산에 대한 검정

• 100년 동안 평균기온의 표준편차와 15년간 측정 한 기온의 표준편차가 유의있게 감소하였는지 등을 조사.

• 분산에 대한 가설 검정방법에는 두가지 방법이 존재

① 모집단의 분산과 표본분산을 비교하여 모집단의 분 산에 대한 가설을 검정하는 경우

② 두 표본집단간의 분산의 차를 통해 두 모집단간의 분산의 차가 유의성이 있는지 검정하는 경우

(19)

1)모집단 분산과 표본분산을 비교하는 경우

• 분산의 표본분포는 언제나 오른쪽 꼬리가 긴 형태를 보 이며, 표본의 크기가 커질수록 정규분포에 가까운 형태 를 이루는 X²카이자승(chi square) 분포를 나타낸다.

• 카이자승 분포는 자유도에 따라 분포의 형태가 바뀐다.

(20)

2) 두 표본집단의 분산의 차에 대한 검정

• 두 표본집단의 분산의 유의성을 검정할 경우 F 분포를 사용.

분산이 같고 정규분포를 이루는 두 모집단에서 n₁과 n₂의 크 기의 표본을 추출하여, 두 표본으로부터 계산한 분산을 각각 S₁², S₂²라고 할때 이 두 통계량의 비를 F 통계량이라고 한다.

• F분포는 S₁²,의 자유도 (n₁-1)과 S₂²의 자유도 (n₂-1)에 따라 그 모양이 달라진다.

• 두 개의 분산값이 비슷하면 1에 가까와진다.

(21)

비모수검정

• 모집단이 정규분포한다는 가정을 할 수 없는 경 우 à 모집단의 분포 유형에 관계없이 적용할 수 있는 방법

• 변수가 명목척도나 서열척도로 측정하는 경우 à 분류기준과 분류방법의 독립성 검정 가능

• 모집단의 특성을 나타내는 모수에 대한 검정의 목적이 아닐 경우 à 이론분포와 경험분포간의 적합도(goodness of fit test)를 검정 가능

(22)

비모수 검정의 종류

(23)

검정

• 기대빈도와 관찰빈도와의 부합 정도, 차이를 측 정하며, 관찰빈도와 기대빈도 사이에 차이가 많 이 날수록 값이 커지며 귀무가설을 기각.

• 카이자승 분포의 자유도는 표본의 크기(n)이 아 니라 범주의 크기(k)에 따라 달라짐

(24)

분할표(contingency table)

• 단일표본 카이자승 검정은 모집단의 분포와 표본분포를 비교하는데 비해, 두 표본간의 카이자승 검정은 범주화된 두 표본집단간의 분포 의 차이가 표본오차에 의한 우연인지 여부를 통계적으로 검정하는 것.

• 기대빈도와 자유도는 표본집단이 2개 이상일 경우 분할표를 이용.

• 분할표는 자료를 변수별 속성별로 구분하여 그에 대응하는 관찰빈 도를 각 칸에 기록하여 작성

• 자유도는 각 행과 열의 범주수에서 1을 뺀것을 곱한 값.

(25)

카이자승 검정의 제한점

• 자료 변수가 이산적이고 독립적이며 상호배타적이어야 한다.

• 관찰빈도는 절대적 수치로만 관찰되어야 하며 비율이나 비례로 나타나는 상대적 도수자료는 적용 할 수 없다.

• 관찰빈도 분할수의 칸수가 5미만이거나, 각 칸의 기대빈 도 가운데 어느 하나라도 5이상이 아니면 안된다.(계급수 가 5이상, 기대빈도 최소값 5 이상에만 적합도 검정이 가 능)

• 이 조건을 충족시키기 위해 변수를 조정하여 집단을 합 하는 등의 조정이 필요

(26)

콜모고로프-스미르노프(Kolomogorov-Smirnov) D 검정

• 단일표본 검정

• 각 셀의 기대빈도 5미만의 경우에도 사용가능하며, 연속 적 변수의 확률분포에도 적용

• 통계량 D는 표본의 누적확률분포와 가설로 설정된 누적 확률분포와의 최대 차이를 의미. D가 클수록 귀무가설을 기각

(27)

맨-휘트니(Mann-Whitney) U검정

• 두 개의 표본집단간의 차이 검정

• 정규분포의 전제가 불필요한 비모수검정

• 표본의 관측치가 무작위로 추출되고, 측정값을 순위화 하여야 함.

• 등간척도 자료를 쉽게 순위화할 수 있으므로 t-검정의 대안으로 이 용

• 소규모 표본의 경우에도 이용할 수 있는 장점

(28)

U 검정 계속

• U검정의 가장 큰 특징은 U의 통계치가 U의 임계치보다 작아야 귀무가설을 기각할 수 있다는 점.

(29)

크루스칼-월리스 검정 (Kruskal- Wallis) H 검정

3개의 표본집단 이상 k (k≥2)에서 그 차이점에 대한 유의성을 검정하는데 이용

등간척도나 비율척도로 측정한 자료 검정에도 서열척도로 바꾸어 적용 가능.

검정방법은 각 표본집단의 측정값을 집단이나 표본크기에 관계없이 배열 후 크기 순으로 순위를 정한다.

각 변량에 대한 순위가 정해지면 각 집단별로 순위의 평균치를 구하고 서로 비교 한다.

H 검정은 K-1의 자유도를 가지며, 카이자승 확률분포를 이용하여 유의수준과 자유도에 따른 임계치를 구한다. 사례수가 5 이하일 경우 H 검정표를 이용한다.

(30)

<예제 14.11> 통계수업이 3개 반으로 나뉘어 진행

각 반에서 10명 씩 뽑아 시험을 치른 점수

각 반에 속한 학생들의 학업성취도가 같은가?

1 2 3 10, 30

n n n n

× = = = =

분반 1 분반 2 분반 3

점수 순위 점수 순위 점수 순위

83 19 73 13.5 88 24

97 30 66 8 55 1

68 9.5 85 21 73 13.5

95 29 64 7 79 16

86 22 73 13.5 62 6

70 11 80 17 82 18

87 23 60 4 59 3

94 28 61 5 73 13.5

84 20 93 27 89 25

90 26 58 2 68 9.5

1 217.5

r = r₂ =118 r₃ =129.5

- 75 -

(31)

2

0.05 0

5 7.65 5.991

. n

i

h H

c c

³

= > = Þ

Þ

모든 이므로 분포를 이용하면

를 기각 세반의 학업성취도가 같지 않다고 판단

( ) ( )

( ) ( ) ( )

2 2 2

3

1 2

1 2 3

2 2 2

12 3 1

1 217.5 118 129.5

12 3 31 7.65

30 31 10 10 10

r r r

h n

n n n n n

æ ö

= ç + + ÷ - +

+ è ø

ì ü

ï ï

= ´ í ï î + + ý ï þ - ´ =

H의 값:

- 76 -

모수 검정과 비모수 검정