• 검색 결과가 없습니다.

8장: 교차분석: (카이제곱)테스트

N/A
N/A
Protected

Academic year: 2022

Share "8장: 교차분석: (카이제곱)테스트"

Copied!
23
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

8장: 교차분석:

X 2 (카이제곱)테스트

(2)

**카이제곱(

X

2) 테스트**

*목적 : 두 변수간 관계 유무(有無) 파악

**주요 개념 1) 관측도수

- 실제 여론조사에서 조사된 응답자수 2) 기대도수

-예를 들면, 성별에 따라 차이가 없다는 가정 하에서 계산되는 값

3) 자유도(df; degree of freedom)

- 일정한 조건하에서 자유롭게 변화 가능한 수

(3)

ex1) 부산에서 서울로 갈 수 있는 길은 예를 들면 기차로

가는 길, 비행기로 가는 길, 자동차로 가는 길 3개가 있다.

이 때의 자유도는 3이다.

ex2) 남학생 3명(A, B, C)과 여학생 3명이 미팅을 한다.

이 때 A가 먼저 여학생을 고른다면 A의 자유도는 3이고, B는 2(3-1)이며, C는 1(3-2)이다.

ex3) (A) + (B) + (C) = 10일 때, 이 식을 만족하는 정답은 무궁무진하다. 이 때 A를 3으로, B를 5로 고정시키면 정답을 구할 수 있다.

그리고 A, B, C 3개가 사례수(N)가 되고,

A와 B, 2개의 항은 제한조건의 수(k)가 된다.

그리고 이 때 자유도는 1이 된다.

(4)

- 이 경우 자유도의 일반공식은

df = N(사례수) - k(제한조건의수)이다.

그래서 df = N - k로 공식화되어, 이 경우의 자유도는 3-2=1이 된다.

- 그리고 다음 페이지 표에서의 자유도는

df = [가로칸수(r)-1] * [세로칸수(c)-1]로 구함

(5)

4) 가설

-어떤 현상(두 변수간의 관계)에 대한 연구자의 잠정적인 주장

ex1) 지구는 태양 둘레를 돈다.

니콜라우스 코페르니쿠스(1473~1543) - 폴란드 천문학자

- 태양중심설(지구가 태양주의를 돈다) 주장

(6)

ex2) 최근에 온도상승은 탄소배출량과 관계 있다.

ex3) 한류현상은 한국 드라마 인기도와 관계 있다.

ex4) 미국사회에서 남성들은 공화당지지가 더 많고, 여성들은 민주당 지지가 더 많다.

5) 가설검증

-어떤 가설에 대한 주장은 모집단에 대한 주장인데, 실제 검증은 샘플을 통해 이루어지며,

샘플을 통해 나온 결과를 모집단에 추정한다.

-위에서 ex4)를 검증하기 위해 2012년 미국 어느 대학 정치학과 학생 총 38명의 남녀 유권자들을 대상으로

여론조사를 실시하였으며 결과는 다음과 같다.

(7)

6) X

2

공식

= ∑(관측값-기대값)

2

/기대값

= ∑(Fo - Fe)

2

/Fe 7) 실제적용

* 여 기 서 최 종 계 산 한 값 2.66 을

우 리 의 값이라고 하자!

(8)

정당지지

공화당 20

민주당 18

18 20 38

(9)

관측 도수 (Fo)

기대도수(Fe)

= 가로합계/총합계*세로합계/총합계*총합계

관측도수 - 기대도수 (Fo-Fe)

(Fo-Fe)2 (Fo-Fe)2/Fe

a 12 20/38*18/38*38 = 9.5 12-9.5=

2.5 6.25 0.66

b 8 20/38*20/38*38 = 10.5 8-10.5=

-2.5 6.25 0.60

c 6 18/38*18/38*38 = 8.5 6-8.5=

-2.5 6.25 0.74

d 12 18/38*20/38*38 = 9.5 12-9.5=

2.5 6.25 0.66

총합

(우리의 값) 2.66

(10)

8) X

2

신뢰도

-측정하고자 하는 대상을 오차 없이 얼마나 정확하게 측정하느냐?

- 신뢰도는 주로 90%, 95%, 99% 세가지를 적용 -여기서 95%의 의미는 특정한 조사

(예: 2012년 1월 1일 MB지지도 조사에서

45% 지지도 나옴)와 유사한 조사를 100회

실시했을 때, MB지지도가 45%가 되지 않을 가능성이

5% 정도이고 이와 유사할 가능성이 95%라는 의미

(11)

9) X

2

분포표

자유도 0.10(=90%) 0.05(=95%) 0.01(=99%)

1 2.71 3.84 6.63

2 4.61 5.99 9.21

3 6.25 7.81 11.3

4 7.78 9.49 13.3

(12)

10) X

2

분포표

- 변수간 연관성을 측정하기 위해 X

2

분포표를 이용함 - 보통 통계학책 뒷면에 부록으로 나와 있음

- 자유도와 신뢰도가 만나는 수치(기준값)를 읽는다!

ex) df=1이고 신뢰도 95%인 경우, 이 때의 기준값은 3.84

10) 결 론

- X

2

= 2.66 < 3.84

--> 두 변수간에 상관관계는 없다

 미국사회에서 남녀간 정당(공화당, 민주당)

지지도에 차이가 없다

(13)

● SPSS 이용한 카이제곱 데스트

▲ 「1991gss」 데이터 이용

▲ 분석 --> 기술통계량 --> 교차분석

--> 왼쪽창에서 행복도를 상단 빈칸으로 이동 --> 왼쪽창에서 성별을 하단 빈칸으로 이동 --> 「통계량」에서 상단에 「카이제곱」클릭

계속

 확인

(14)

행복도 * 성별 교차표

성별 전체

남자 여자

행복도

매우행복 206 261 467

32.5% 30.0% 31.1%

보통 374 498 872

59.1% 57.2% 58.0%

불행한편 53 112 165

8.4% 12.9% 11.0%

전체 633 871 1504

100.0% 100.0% 100.0%

(15)

==> 이 표는 성별간에 행복도가 얼마나 차이가 나는지를

%로 잘 보여주고 있다.

==> 그런데 이 %를 보고 판단하는 것은 우리 눈으로

판단하는데, 대부분 잘 맞기도 하지만, 사람이 판단하는 것이기 때문에 틀릴 수도 있다.

==> 100미터 달리기에도 우승자를 눈으로 판단할 수도 있지만, 보다 정확한 판단을 위해 기계를 사용한다.

(16)
(17)

- 2008년 베이징 올림픽 육상 남자 100m 결승 골인 순간의 사진판독 장면.

-1위 우사인 볼트(9초69)가 압도적인 우승을 한 반면 2위 리처드 톰슨(트리니다드토바고·9초89)과 3위 월더 딕스 (미국·9초91)는 0.02초 차로 메달 색깔이 결정됐다.

(18)

카이제곱 검정

자유도 점근 유의확률 (양 측검정)

Pearson 카이제곱 7.739a 2 .021

우도비 7.936 2 .019

선형 대 선형결합 4.812 1 .028

유효 케이스 수 1504

(19)

==> 교차분석에서 우리 눈보다 보다 정확하게 판단하는 기계가 바로 「카이제곱(X2)검증」기계이다.

==> 위 표에서

Pearson이 만든 카이제곱을 이용한다.

==> 따라서 위 표의 첫 번째 가로줄만 살펴본다.

==> SPSS에 나오는 모든 수치는 소수점 세자리에서 반올림하여 소수점 두자리까지만 읽는다.

==> 우리의 카이제곱값 X2 = 7.74이며, 자유도는 2이다.

==> 이것을 카이제곱 분포표에 신뢰도 95%, 자유도 2일 때 기준값(5.99)과 비교하면 우리가 조사한 값

7.74 > 5.99이다.

==> 따라서 성별과 행복도간에는 상관관계가 있다라고 할 수 있다.

(20)

==> 그런데 카이제곱 검증을 할 때마다 카이제곱분포 표를 이용하면 매우 불편하다.

==> 그래서 SPSS는 「유의확률」이라는 도구를

이용하여 카이제곱 검증을 쉽게 도와준다.

(21)

● (교차분석, 회귀분석 등에서 제기되는) 「유의확률」

해석요령

1) 유의확률은 “100발의 총알을 쏘았을 때, 오발이 몇 발”

인지 나타냄

2) 그래서 모든 유의확률은 소수점 셋째자리에서 반올림한다.

3) 항상 소수점 두자리까지만 읽는다.

(22)

반올림하여 0.02가 되어 100발 중 2발이 오발이라는 뜻

4-1) 또 다른 예를 들면, 유의확률이 0.034이면 -->

4-2) “ 0.067이면 -->

4-3) “ 0.0001이면 -->

5) 이 때 성공한 98발을 통계적으로 표현하면, 98% 신뢰도를 가진다라고 한다.

6) 그런데 통계학에서는 98%라는 표현은 사용하지 않고, 약간 성공률을 낮추어(잘했다라고 하기 보다는) 95%

성공했다라고 한다.

(23)

7) 성공한 총알수가 99발일 때는 신뢰도를 99%이라 한다.

8) 성공한 총알수가 90-94발까지는 신뢰도가 90%라고 한다.

9) 그래서 통계학에서는 오로지 3가지 신뢰도

[99%(A급), 95%(B급), 90%(C급)]만 인정한다.

10) 즉 명중한 총알수가 89발 이하는 명사수로 취급하지 않는다는 의미

11) 통계적인 기준은 사실

매우 엄격하다고 할 수 있다.

참조

관련 문서

손실이 아주 크면, 이득과 손실은 나누어라

아파치Ⅲ 도구와 중환자 중증도분류 도구와의 상호 관련성 결과... 통계방법을

• 장애아동의 자의대로 내버려두면 즉 너무 아 동의 뜻대로 방관하면 자연적인 성숙만을 기 대할 수밖에 없으므로, 지나친 간섭이 아닌 아 동의 자발적이고 적극적인

신장의 구조와 생리.. 피질과 수질로 구성.. 1) 신증후군, 신증..

[r]

현행, 초/중등학생 체력장 제도를 전면적으로 개정한 체력평가 시스팀으로 학생의 건강 체력과 비만, 그리고 선택적으로 심폐지구력 정밀평가와 심리검사인

인자분석시 여러 방법으로 인자분석 수행 후 출력결과 중 특히 인자패턴을 비교하며 인자의 의미를 파악하도록

무동기.. - 부모나 교사가 제공하는 외적 보상을 얻거나 벌을 피하기 위하 여 과제를 수행한다.. 다) 부과된 조절 (Introjected regulation;