모수 검정과 비모수 검정
제6강
지리통계학
통계적 추정의 목적
• 연구자가 주장하는 연구가설을 입증하기 위한 것
① 연구목적에 맞는 연구가설을 설정
② 연구목적과 수집된 자료에 부합되는 적절한 통계적 검정 방법을 선택
③ 귀무가설과 연구가설(대립가설)을 진술
④ 유의수준을 결정한 후 각 분포유형에 따라 분포표를 이용 하여 임계치를 구하고 기각역을 설정
⑤ 통계적 검정유형에 필요한 통계량을 각 검정유형의 공식 을 이용하여 계산
⑥ 임계치와 통계량을 비교하여 귀무가설의 기각과 수용 결
⑦ 연구결과를 검정 결과에 따라 밝힘. 정
모수적 통계의 전제조건
① 표본의 모집단이 정규분포를 이루어야 한다.
② 집단내의 분산은 같아야 한다.
③ 변인은 등간척도나 비율척도로 측정되어야 한 다.
• à 이 조건이 충족되지 않으면 비모수 통계를 사 용
모수 검정방법의 사용 예
• 모평균과 표본평균과의 차이 -> z분포, t분포
• 표본평균간의 차이-> z분포, t분포
• 모분산과 표본분산과의 차의 -> F분포, 카이제곱 분포
• 표본분산간의 차이 -> F분포, 카이제곱분포
1. 모집단의 평균에 대한 검정
• 표본집단이 클 경우 N(μ, δ2), 이 경우 표본 평균 라고 하 면 귀무가설과 모집단 평균과 표본평균이 같은 것이 된다.
• 표본집단 크기가 n>30 이면 정규분포로 간주하여 Z 분포를 이용한다.
• 표본집단이 작거나 모집단의 표준편차를 모를 경우 표본 통계량의 평균과 표분편차(s)를 이용하여 통계량을 산출.
• 표본이 30이하면 t 분포 사용, 이때 자유도를 고려함.
n s
t X
/ -
m=
X
s m
=
X
-Z
2.두 모집단의 평균의 차에 대한 검정
1) 표본집단이 클 경우
2) 표본집단이 작을 경우
정규분포를 이루지만 모집단의 분산을 모르는 경우 표본의 크기 가 작을 때에는 t 검정을 이용하여 두 표본 평균간의 차에 대한 유 의성을 검정
서로 독립적인 두 모집단의 표준편차가 동일하다고 가정하고, 이 들이 정규분포를 이룬다는 전제에서 t 값을 도출
• 3) 동일표본집단의 시계열 평균에 대한 비교
한 모집단에서 시간 간격을 두고 표본을 추출한 후 기간 동안에 나타 난 평균의 유의적인 차이를 검정하는 경우
9
두 집단의 평균비교
Two-sample t-test vs. Paired t-test
10
질문 : 왜 평균을 비교할까?
Þ 대표값
질문 : 평균은 항상 자료들을 대표하는 값일까?
Þ 정규분포일 때에만
예. 정규분포가 아닌 경우 70, 74, 94, 112, 500.
평균 850/5=170. 평균은 이상점의 영향을 받기 때문에 적절한 대표값이 될 수 없다. 중앙값
11
정규분포를 하는 자료 Þ 모수적 검정
정규분포를 하지 않는 자료 Þ 비모수적 검정
모수적 검정 비모수적 검정
Two-sample t-test Þ Wilcoxon rank sum test (Mann-Whitney U test) Paired t-test Þ Wilcoxon signed rank test
12
Two-sample t-test
독립인 두 집단의 평균 비교
가정 : 정규분포, 두 집단의 분산 동일
비모수적 검정(Wilcoxon rank sum test), 변수변환
Smith-Satterthwaite test, 비모수적 검정, 변수변환
13
t 검정(t-test)
하나 또는 두 집단의 평균비교
14
t 검정
하나 또는 두 개 집단의 평균을 비교하는 모수적 검정법 (parametric test)
평균을 비교 : 측정값들이 정규분포를 하 여 , 평균이 그 집단의 대표값으로서의 역 할을 하고 있다는 것을 의미
이상점 (outlier)이 있는 비정규분포 자료는
t 검정의 대상이 아니다 .
15
연속변수 : 구간척도 또는 비척도로 측정된 값
t
검정과 Wilcoxon 검정측정값들이 정규분포를 하는지 여부에 따라 구분
t
분포William Gosset(1876-1937),
Student라는 필명(익명)으로 논문을 발표 Student
t
분포16
• t 분포는 0을 중심으로 좌우대칭
• 표준정규분포(N(0, 1))보다 두터운 꼬리
• 분포의 모양은 자유도(d.f., degree of freedom)에 따라 달라지므로, 자유도가 t 분포의 모수(parameter)
• 표준정규분포와 자유도 5인 t 분포
자유도가 커질수록 꼬리가 얇아지고 중심부분이 높아져, 자유도가 무한대(∞)가 되면, 표준정규분포와 동일한 모양
17
T 분포: 두 집단의 평균에 대한 비교
한 집단의 평균과 다른 기준값을 비교
다른 기준값 - 다른 연구결과에서 나온 값 또는 지금까지 알려져 온 값
귀무가설 (모집단의 평균이 μ
0이다 )이 옳을
때 , 자유도 n -1인 t 분포
3. 모집단의 분산에 대한 검정
• 100년 동안 평균기온의 표준편차와 15년간 측정 한 기온의 표준편차가 유의있게 감소하였는지 등을 조사.
• 분산에 대한 가설 검정방법에는 두가지 방법이 존재
① 모집단의 분산과 표본분산을 비교하여 모집단의 분 산에 대한 가설을 검정하는 경우
② 두 표본집단간의 분산의 차를 통해 두 모집단간의 분산의 차가 유의성이 있는지 검정하는 경우
1)모집단 분산과 표본분산을 비교하는 경우
• 분산의 표본분포는 언제나 오른쪽 꼬리가 긴 형태를 보 이며, 표본의 크기가 커질수록 정규분포에 가까운 형태 를 이루는 X2카이자승(chi square) 분포를 나타낸다.
• 카이자승 분포는 자유도에 따라 분포의 형태가 바뀐다.
2) 두 표본집단의 분산의 차에 대한 검정
• 두 표본집단의 분산의 유의성을 검정할 경우 F 분포를 사용.
분산이 같고 정규분포를 이루는 두 모집단에서 n1과 n2의 크 기의 표본을 추출하여, 두 표본으로부터 계산한 분산을 각각 S12, S22라고 할때 이 두 통계량의 비를 F 통계량이라고 한다.
• F분포는 S12,의 자유도 (n1-1)과 S22 의 자유도 (n2-1)에 따라 그 모양이 달라진다.
• 두 개의 분산값이 비슷하면 1에 가까와진다.
비모수검정
• 모집단이 정규분포한다는 가정을 할 수 없는 경 우 à 모집단의 분포 유형에 관계없이 적용할 수 있는 방법
• 변수가 명목척도나 서열척도로 측정하는 경우 à 분류기준과 분류방법의 독립성 검정 가능
• 모집단의 특성을 나타내는 모수에 대한 검정의 목적이 아닐 경우 à 이론분포와 경험분포간의 적합도(goodness of fit test)를 검정 가능
비모수 검정의 종류
검정
• 기대빈도와 관찰빈도와의 부합 정도, 차이를 측 정하며, 관찰빈도와 기대빈도 사이에 차이가 많 이 날수록 값이 커지며 귀무가설을 기각.
• 카이자승 분포의 자유도는 표본의 크기(n)이 아 니라 범주의 크기(k)에 따라 달라짐
분할표(contingency table)
• 단일표본 카이자승 검정은 모집단의 분포와 표본분포를 비교하는데 비해, 두 표본간의 카이자승 검정은 범주화된 두 표본집단간의 분포 의 차이가 표본오차에 의한 우연인지 여부를 통계적으로 검정하는 것.
• 기대빈도와 자유도는 표본집단이 2개 이상일 경우 분할표를 이용.
• 분할표는 자료를 변수별 속성별로 구분하여 그에 대응하는 관찰빈 도를 각 칸에 기록하여 작성
• 자유도는 각 행과 열의 범주수에서 1을 뺀것을 곱한 값.
카이자승 검정의 제한점
• 자료 변수가 이산적이고 독립적이며 상호배타적이어야 한다.
• 관찰빈도는 절대적 수치로만 관찰되어야 하며 비율이나 비례로 나타나는 상대적 도수자료는 적용 할 수 없다.
• 관찰빈도 분할수의 칸수가 5미만이거나, 각 칸의 기대빈 도 가운데 어느 하나라도 5이상이 아니면 안된다.(계급수 가 5이상, 기대빈도 최소값 5 이상에만 적합도 검정이 가 능)
• 이 조건을 충족시키기 위해 변수를 조정하여 집단을 합 하는 등의 조정이 필요
콜모고로프-스미르노프(Kolomogorov-Smirnov) D 검정
• 단일표본 검정
• 각 셀의 기대빈도 5미만의 경우에도 사용가능하며, 연속 적 변수의 확률분포에도 적용
• 통계량 D는 표본의 누적확률분포와 가설로 설정된 누적 확률분포와의 최대 차이를 의미. D가 클수록 귀무가설을 기각
맨-휘트니(Mann-Whitney) U검정
• 두 개의 표본집단간의 차이 검정
• 정규분포의 전제가 불필요한 비모수검정
• 표본의 관측치가 무작위로 추출되고, 측정값을 순위화 하여야 함.
• 등간척도 자료를 쉽게 순위화할 수 있으므로 t-검정의 대안으로 이 용
• 소규모 표본의 경우에도 이용할 수 있는 장점
U 검정 계속
• U검정의 가장 큰 특징은 U의 통계치가 U의 임계치보다 작아야 귀무가설을 기각할 수 있다는 점.
크루스칼-월리스 검정 (Kruskal- Wallis) H 검정
3개의 표본집단 이상 k (k≥2)에서 그 차이점에 대한 유의성을 검정하는데 이용
등간척도나 비율척도로 측정한 자료 검정에도 서열척도로 바꾸어 적용 가능.
검정방법은 각 표본집단의 측정값을 집단이나 표본크기에 관계없이 배열 후 크기 순으로 순위를 정한다.
각 변량에 대한 순위가 정해지면 각 집단별로 순위의 평균치를 구하고 서로 비교 한다.
H 검정은 K-1의 자유도를 가지며, 카이자승 확률분포를 이용하여 유의수준과 자유도에 따른 임계치를 구한다. 사례수가 5 이하일 경우 H 검정표를 이용한다.
<예제 14.11> 통계수업이 3개 반으로 나뉘어 진행
각 반에서 10명 씩 뽑아 시험을 치른 점수
각 반에 속한 학생들의 학업성취도가 같은가?
1 2 3 10, 30
n n n n
× = = = =
분반 1 분반 2 분반 3
점수 순위 점수 순위 점수 순위
83 19 73 13.5 88 24
97 30 66 8 55 1
68 9.5 85 21 73 13.5
95 29 64 7 79 16
86 22 73 13.5 62 6
70 11 80 17 82 18
87 23 60 4 59 3
94 28 61 5 73 13.5
84 20 93 27 89 25
90 26 58 2 68 9.5
1 217.5
r = r2 =118 r3 =129.5
- 75 -
2
2
0.05 0
5
7.65 5.991
. n
ih H
c c
³
= > = Þ
Þ
모든 이므로 분포를 이용하면
를 기각 세반의 학업성취도가 같지 않다고 판단
( ) ( )
( ) ( ) ( )
2 2 2
3
1 2
1 2 3
2 2 2
12 3 1
1
217.5 118 129.5
12 3 31 7.65
30 31 10 10 10
r r r
h n
n n n n n
æ ö
= ç + + ÷ - +
+ è ø
ì ü
ï ï
= ´ í ï î + + ý ï þ - ´ =
H의 값:
- 76 -