8장: 교차분석:
X 2 (카이제곱)테스트
**카이제곱(
X
2) 테스트***목적 : 두 변수간 관계 유무(有無) 파악
**주요 개념 1) 관측도수
- 실제 여론조사에서 조사된 응답자수 2) 기대도수
-예를 들면, 성별에 따라 차이가 없다는 가정 하에서 계산되는 값
3) 자유도(df; degree of freedom)
- 일정한 조건하에서 자유롭게 변화 가능한 수
ex1) 부산에서 서울로 갈 수 있는 길은 예를 들면 기차로
가는 길, 비행기로 가는 길, 자동차로 가는 길 3개가 있다.
이 때의 자유도는 3이다.
ex2) 남학생 3명(A, B, C)과 여학생 3명이 미팅을 한다.
이 때 A가 먼저 여학생을 고른다면 A의 자유도는 3이고, B는 2(3-1)이며, C는 1(3-2)이다.
ex3) (A) + (B) + (C) = 10일 때, 이 식을 만족하는 정답은 무궁무진하다. 이 때 A를 3으로, B를 5로 고정시키면 정답을 구할 수 있다.
그리고 A, B, C 3개가 사례수(N)가 되고,
A와 B, 2개의 항은 제한조건의 수(k)가 된다.
그리고 이 때 자유도는 1이 된다.
- 이 경우 자유도의 일반공식은
df = N(사례수) - k(제한조건의수)이다.
그래서 df = N - k로 공식화되어, 이 경우의 자유도는 3-2=1이 된다.
- 그리고 다음 페이지 표에서의 자유도는
df = [가로칸수(r)-1] * [세로칸수(c)-1]로 구함
4) 가설
-어떤 현상(두 변수간의 관계)에 대한 연구자의 잠정적인 주장
ex1) 지구는 태양 둘레를 돈다.
니콜라우스 코페르니쿠스(1473~1543) - 폴란드 천문학자
- 태양중심설(지구가 태양주의를 돈다) 주장
ex2) 최근에 온도상승은 탄소배출량과 관계 있다.
ex3) 한류현상은 한국 드라마 인기도와 관계 있다.
ex4) 미국사회에서 남성들은 공화당지지가 더 많고, 여성들은 민주당 지지가 더 많다.
5) 가설검증
-어떤 가설에 대한 주장은 모집단에 대한 주장인데, 실제 검증은 샘플을 통해 이루어지며,
샘플을 통해 나온 결과를 모집단에 추정한다.
-위에서 ex4)를 검증하기 위해 2012년 미국 어느 대학 정치학과 학생 총 38명의 남녀 유권자들을 대상으로
여론조사를 실시하였으며 결과는 다음과 같다.
6) X
2공식
= ∑(관측값-기대값)
2/기대값
= ∑(Fo - Fe)
2/Fe 7) 실제적용
* 여 기 서 최 종 계 산 한 값 2.66 을
우 리 의 값이라고 하자!정당지지 남 여 계
공화당 20
민주당 18
계 18 20 38
셀
관측 도수 (Fo)
기대도수(Fe)
= 가로합계/총합계*세로합계/총합계*총합계
관측도수 - 기대도수 (Fo-Fe)
(Fo-Fe)2 (Fo-Fe)2/Fe
a 12 20/38*18/38*38 = 9.5 12-9.5=
2.5 6.25 0.66
b 8 20/38*20/38*38 = 10.5 8-10.5=
-2.5 6.25 0.60
c 6 18/38*18/38*38 = 8.5 6-8.5=
-2.5 6.25 0.74
d 12 18/38*20/38*38 = 9.5 12-9.5=
2.5 6.25 0.66
총합
(우리의 값) 2.66
8) X
2신뢰도
-측정하고자 하는 대상을 오차 없이 얼마나 정확하게 측정하느냐?
- 신뢰도는 주로 90%, 95%, 99% 세가지를 적용 -여기서 95%의 의미는 특정한 조사
(예: 2012년 1월 1일 MB지지도 조사에서
45% 지지도 나옴)와 유사한 조사를 100회
실시했을 때, MB지지도가 45%가 되지 않을 가능성이
5% 정도이고 이와 유사할 가능성이 95%라는 의미
9) X
2분포표
자유도 0.10(=90%) 0.05(=95%) 0.01(=99%)
1 2.71 3.84 6.63
2 4.61 5.99 9.21
3 6.25 7.81 11.3
4 7.78 9.49 13.3
10) X
2분포표
- 변수간 연관성을 측정하기 위해 X
2분포표를 이용함 - 보통 통계학책 뒷면에 부록으로 나와 있음
- 자유도와 신뢰도가 만나는 수치(기준값)를 읽는다!
ex) df=1이고 신뢰도 95%인 경우, 이 때의 기준값은 3.84
10) 결 론
- X
2= 2.66 < 3.84
--> 두 변수간에 상관관계는 없다
미국사회에서 남녀간 정당(공화당, 민주당)
지지도에 차이가 없다
● SPSS 이용한 카이제곱 데스트
▲ 「1991gss」 데이터 이용
▲ 분석 --> 기술통계량 --> 교차분석
--> 왼쪽창에서 행복도를 상단 빈칸으로 이동 --> 왼쪽창에서 성별을 하단 빈칸으로 이동 --> 「통계량」에서 상단에 「카이제곱」클릭
계속
확인
행복도 * 성별 교차표
성별 전체
남자 여자
행복도
매우행복 206 261 467
32.5% 30.0% 31.1%
보통 374 498 872
59.1% 57.2% 58.0%
불행한편 53 112 165
8.4% 12.9% 11.0%
전체 633 871 1504
100.0% 100.0% 100.0%
==> 이 표는 성별간에 행복도가 얼마나 차이가 나는지를
%로 잘 보여주고 있다.
==> 그런데 이 %를 보고 판단하는 것은 우리 눈으로
판단하는데, 대부분 잘 맞기도 하지만, 사람이 판단하는 것이기 때문에 틀릴 수도 있다.
==> 100미터 달리기에도 우승자를 눈으로 판단할 수도 있지만, 보다 정확한 판단을 위해 기계를 사용한다.
- 2008년 베이징 올림픽 육상 남자 100m 결승 골인 순간의 사진판독 장면.
-1위 우사인 볼트(9초69)가 압도적인 우승을 한 반면 2위 리처드 톰슨(트리니다드토바고·9초89)과 3위 월더 딕스 (미국·9초91)는 0.02초 차로 메달 색깔이 결정됐다.
카이제곱 검정
값 자유도 점근 유의확률 (양 측검정)
Pearson 카이제곱 7.739a 2 .021
우도비 7.936 2 .019
선형 대 선형결합 4.812 1 .028
유효 케이스 수 1504
==> 교차분석에서 우리 눈보다 보다 정확하게 판단하는 기계가 바로 「카이제곱(X2)검증」기계이다.
==> 위 표에서
Pearson이 만든 카이제곱을 이용한다.
==> 따라서 위 표의 첫 번째 가로줄만 살펴본다.
==> SPSS에 나오는 모든 수치는 소수점 세자리에서 반올림하여 소수점 두자리까지만 읽는다.
==> 우리의 카이제곱값 X2 = 7.74이며, 자유도는 2이다.
==> 이것을 카이제곱 분포표에 신뢰도 95%, 자유도 2일 때 기준값(5.99)과 비교하면 우리가 조사한 값
7.74 > 5.99이다.
==> 따라서 성별과 행복도간에는 상관관계가 있다라고 할 수 있다.
==> 그런데 카이제곱 검증을 할 때마다 카이제곱분포 표를 이용하면 매우 불편하다.
==> 그래서 SPSS는 「유의확률」이라는 도구를
이용하여 카이제곱 검증을 쉽게 도와준다.
● (교차분석, 회귀분석 등에서 제기되는) 「유의확률」
해석요령
1) 유의확률은 “100발의 총알을 쏘았을 때, 오발이 몇 발”
인지 나타냄
2) 그래서 모든 유의확률은 소수점 셋째자리에서 반올림한다.
3) 항상 소수점 두자리까지만 읽는다.
반올림하여 0.02가 되어 100발 중 2발이 오발이라는 뜻
4-1) 또 다른 예를 들면, 유의확률이 0.034이면 -->
4-2) “ 0.067이면 -->
4-3) “ 0.0001이면 -->
5) 이 때 성공한 98발을 통계적으로 표현하면, 98% 신뢰도를 가진다라고 한다.
6) 그런데 통계학에서는 98%라는 표현은 사용하지 않고, 약간 성공률을 낮추어(잘했다라고 하기 보다는) 95%
성공했다라고 한다.
7) 성공한 총알수가 99발일 때는 신뢰도를 99%이라 한다.
8) 성공한 총알수가 90-94발까지는 신뢰도가 90%라고 한다.
9) 그래서 통계학에서는 오로지 3가지 신뢰도
[99%(A급), 95%(B급), 90%(C급)]만 인정한다.
10) 즉 명중한 총알수가 89발 이하는 명사수로 취급하지 않는다는 의미
11) 통계적인 기준은 사실