• 검색 결과가 없습니다.

제 10장 범주형 자료(카이제곱 검정)

N/A
N/A
Protected

Academic year: 2022

Share "제 10장 범주형 자료(카이제곱 검정) "

Copied!
16
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

제 10장 범주형 자료(카이제곱 검정)

개요: 지금까지분석방법은 양적자료를 분석하는 데 적합하였다. 조사하려는 자료가 질적 또는 어 떤 속성에 따라 분류시켜 범주에 속하는 도수로 주어질 수 있다. 이와 같이 자료가 어떤 질적인 속성에 따라 몇 개의 범주로 분류되어 있는 자료를 범주형 자료(

categorical data

)라 한다.

[범주형 자료의 예]

1. 완두콩의

2

대 잡종은 외형으로 구분하여

9 : 3: 3:1

로 나타난다.

2. 우리나라 성인 남성의 체중은

60 kg

이고 분산이

10 kg

인 정규분포를 따른다고 할 때, 각 구 간으로 분류.

3. 학벌을 중졸이하, 중졸, 고졸, 대졸, 대졸이상으로 구분하는 데이터

4. 월 소득을 100만원미만, 100만원 이상, 150만원 미만, 150만원 이상, 200만원 미만, 200만원 이상으로 정리된 자료.

적합도 검정(

Goodness of fit test

): 위의 예 1과 2처럼 관측 값들이 어떤 이론이나 이론적 분포를 따르고 있는지를 검정하는 것

독립성 검정(

Test of independence

): 위의 예 3과 4처럼 관측값들이 다수의 인자들에 의해 분할 되어 있는 경우 그 인자들의 관찰 값에 영향을 주고 있는지 아닌지를 검정하는 방법.

10.1 적합도 검정

도수분포의 각 구간에 있는 도수를

f f

1

,

2

, , f

k라 하고, 가정한 확률분포에서 계산된 이론도수를

1

,

2

, ,

k

E E E

라 한다.

귀무가설

H

o: 구해진 도수분포의 도수와 이론도수가 동일하다.

검정통계량:

2 2

1

( )

k

i i

o

i i

f E

E

  

(

k

는 계급의 수)

유의수준

인 기각역:

o2

 

2

( k  1, ) 

[보기 10_1] 어느회사에서 3교대 근무를 한다. 각 교대조마다 1일의 결점수를 조사한 바에 의하 면 다음과 같은 결과를 얻었다. 결점수가 발생하는 것은 조에 의해서 차이가 있다고 말할 수 있는 가? 유의수준

  0.05

로 검정하라.

결점수 1조

2조 3조

23 18 37

(2)

(풀이) 실제 구해진 도수

f

i:

f

1

 23

,

f

2

 18

,

f

3

 37

이론도수는 귀무가설

H

o가 “교대조에 의해서 결점수가 발생하는 것은 차이가 없다”라는 조건하 에서 결점의 합계

f

i

 78

3

으로 나눈것으로

1 2 3

78 26 EEE  3 

검정통계량:

2 2

1

( )

k

i i

t

i i

f E

E

   (23 26) 26

2

(18 26) 26

2

(37 26) 26

2

7.462

2 2

( k 1, ) (2, 0.05) 5.994

     

2 2

7.462 (2, 0.05) 5.994

t

   

이므로 유의수준

0.05

에서 교대조에 의한 결점수는 차이가 있 다. 따라서 조에 의한 작업방법 등을 검토하여 개선할 필요가 있다.

2-분포:

http://www.statdistributions.com/chisquare/

2 2

( , ) (2, 0.05)

    

의 값.

(a)

[p-value] box

에 0.05 (b)

[d.f.] box

에 2 입력 (c)

right tail

선택

[ 

2

value] box

에서

5.994

를 얻을 것이다.

10.2 동일성 검정

동일성 검정은 속성

A B ,

를 가진 부모집단(

subpopulation

) 각각으로부터 정해진 표본의 크기만 큼 자료를 추출하는 경우에 분할표에서 부모집단의 비율이 동일한가하는 검정이다.

n

개의 모집단에서 각각에 속하는 개체의 특성이

r

개의 급으로 나누어질 때에

i

번째 급에 속하

는 특성을 가질 확률

p

i j에 대해

H

o:

( p

i1

, , p

im

)   ( p

11

, , p

im

)

( i  1, 2, , ) r H

1:

H

o가 아니다.

를 검정하는 것을 동일성 검정이라 한다.

귀무가설

H

o하에서는 한 실험대상이 범주

B

에 속할 확률은 어느 부 모집단에 대해서도 동일하 다.

n

개의 모집단

A

1

~ A

r로부터 각각 크기가

f f

1

,

2

, , f

r의 시료를 임의로 취하여 그 특성이

r

개의 급

A A

1

,

2

, , A

r의 어느 것에 속하는 가를 조사한다. 이때 동일성 검정의 자료구조는 아 래 표 [10-1]과 같다.

부 모집단

A

i에서 범주

B

1

, , B

m의 기대도수는 각각

( | )

11

, , ( | )

i j il o i i m i m o i l m

EE N Hf pEE N Hf p

실제관측 도수

f

i j와 이론도수

E

i j의 관계:

2 2

2 1

1 1 1

( ) ( )

r m

i j i j i j i j

t

i j i j i j

f E N f p

E f p

 

   

(3)

자유도:

  r m (   1)

(추정되는 모수의 개수)

r c (      1) ( c 1) ( r 1)( c  1)

표 [10-1] 동일성 검정의 자료구조

범주

B

B

1

B

2

B

j

B

m

A

1

A

2

A

i

A

r

f

11

f

12

f

1 j

f

1m

f

21

f

22

f

2 j

f

2m

1

f

i

f

i2

f

ij

f

im

1

f

r

f

r2

f

rj

f

rm

f

1

f

2

f

m

f

r

n

1

n

2

n

j

n

m

동일성 검정의 요약

귀무가설

H

o:

( p

i1

, , p

im

)   ( p

11

, , p

im

)

( i  1, 2, , ) r

대립가설

H

1:

H

o가 아니다.

검정통계량:

2 2

2 1

1 1 1 1 1

( ) ( )

r m r m

i j i j i j i j

t

i j i j i j i j

N f p f E

f p E

 

   

자유도:

   ( r 1)( m  1)

유의수준

의 기각역:

t2

   

2

( , )

동일성 검정의 예

[보기 10_2] 남자와 여자의 성별에 따른 자동차모델에 대한 선호도를 조사하고자 한다. 남녀 각 각

500

명을 임의로 추출하여 좋아하는 모델을 선택하게 하고 얻은 자료는 다음과 같다. 남녀 성 별에 따라 선호도가 다르다고 할 수 있는지 유의수준

  0.05

에서 점검하라.

[표 10-2] 남녀 성별에 따른 자동차 모델의 선호도 모 델

성 별

모델

A B C D

남자 여자

120 124

89 155

173 147

118 74 (풀이) 다음과 같이 확률과 가설을 놓자.

남자가 각 모델을 좋아하는 확률:

p

11,

p

12,

p

13,

p

14

여자가 각 모델을 좋아하는 확률:

p

21,

p

22,

p

23,

p

24

H

o: (

p

11,

p

12,

p

13,

p

14)

(

p

21,

p

22,

p

23,

p

24)

H

1:

H

o가 아니다.

(4)

기대돗수는 남녀가 선택한 모델마다의 평균이다. 이것을 관측돗수와 함께 나타내면 [표 10-3] 남녀 성별에 따른 자동차 모델의 선호도와 기대돗수

모 델 성별

모델 표본크기

A B C D

남자 여자

120(122) 124(122)

89(122) 155(122)

173(160) 147(160)

118(96) 74(96)

500 500

합계 244 244 320 192 1000

추정기대 돗수

1 1 11

(500)(244) 1000 122 E f n

f

 

, 12 1 2

(500)(244)

1000 122 E f n

f

 

,

1 3 13

(500)(320) 1000 160 E f n

f

 

, 14 1 4

(500)(192) 1000 96 E f n

f

 

2 2 21

(500)(244) 1000 122 E f n

f

 

, 22 2 2

(500)(244)

1000 122 E f n

f

 

,

2 3 23

(500)(320) 1000 160 E f n

f

 

, 24 2 4

(500)(192)

1000 96 E f n

f

 

검정통계량:

2 2

1 1

( )

r m

i j i j

t

i j i j

f E

E

  

2 2 2 2

2

(120 122) (89 122) (173 160) (118 96)

122 122 160 96

t

2 2 2 2

(124 122) (155 122) (147 160) (74 96)

122 122 160 96

   

   

2

(0.033 8.9262 1.056 5.042) (0.033 8.926 1.056 5.042) 30.114

t

        

자유도:

  (2 1)(4 1)    3

2 2

( , ) (3, 0.05) 7.815

     

검정결과:

t2

 30.114  

2

(3, 0.05)  7.815

이므로

H

o가 기각된다. 즉 남녀에 따라 자동차 모 델의 선호도가 다르다.

2-분포:

http://www.statdistributions.com/chisquare/

2 2

( , ) (3, 0.05)

    

의 값.

(a)

[p-value] box

에 0.05

(b)

[d.f.] box

에 3 입력 (c)

right tail

선택

[ 

2

value] box

에서

7.815

를 얻을 것이다.

(5)

10.3 카이제곱검정: 교차분석

두 범주형 변수가 서로 상관이 있는지 독립인지를 판단하는 통계적 검정방법을 카이제곱 검정 (

Chi-Square Test

)이라 한다. 예를 들면 성별에 따라 종교의 차이가 유의미한가 또는 종교에 따 라 취미의 분포 차이가 있는지 또는 야당과 여당에 따라 정치에 대한 긍정, 부정의 시각차가 있는 가 등을 보는 것이다.

2-검정의 조건

(1) 자유도가

1

인경우 전체 사례수가

30

보다 크면서 각 셀의 빈도가

5

이상일 때 적용가능.

(2) 사례수가

30

보다 크면서

5

미만의 기대빈도(

Expected frequency

)의 셀이 전체 칸의

20%

다 적고, 모든 셀에

1.0

이상의 기대빈도가 있다면 척도에 관계없이

2 검정법을 사용.

(3) 각 셀의 기대빈도가

5

미만인 경우 변수들의 범주를 묶거나, 묶을 수 없는 경우 이항검정법 (

Binomial test

)를 사용.

(4) 연령 같은 경우 20대 30대 40대 등등으로 연령을 연령대별로 코딩 변경한 후 분석.

(5) 해석시 주의:

2검정은 독립성을 검증하는 것이기 때문에 만일 연령대별 학력분포를 볼 경우 처럼 낮은 연령대에서 높은 연령대모다 고학력이 나왔다고 해서 연령대가 낮을수록 학력이 증가 하는 경향이 있다는 해석은 잘못된 것이다. 즉 상관성을 반영하지 않는다. 이 경우는 상관간계를 선택하여 분석해야 한다.

교차분석

2검정 예: 이론을 좀더 이해하기 위하여 다음의 간단한 구조로부터 점검해 보자

[표 10-4] 남녀의 학력을 조사한 결과표

남자 여자 합계

중학교 20(20%) 100(50%) 120(40%) 고등학교 40(40%) 50(25%) 90(30%) 대학교 40(40%) 50(25%) 90(30%) 합계 100(33.3%) 200(66.7%) 300(100%)

[표 10-5] 기대빈도

E

i j=[(행의 합계)

(열의합계)]/(전체 합계)

남자 여자

중학교 (120x100)/300=40 (120x200)/300=80 고등학교 (90x100)/300=30 (90x200)/300=60 대학교 (90x100)/300=30 (90x200)/300=60

(6)

[표 10-6] 관찰빈도에서 기대빈도를 뺀 값(

f

i j

E

i j)

남자 여자

중학교 20-40=-20 100-80=20 고등학교 40-30=10 50-60=-10 대학교 40-30=10 50-60=-10

[표 10-7]

( f

i j

E

i j

) /

2

E

i j

남자 여자 합계

중학교 400/40=10.0 400/80=5.00 15.0 고등학교 100/30=3.33 100/60=4.99 4.99 대학교 100/30=3.33 100/60=4.99 4.99

합계 16.66 8.32 24.98

자유도

: 남녀(2), 학교(3),

   ( r 1)( c    1) (3 1)(2 1)   2 r

은 행의 수(범주의 수),

c

는 열의 수(범주의 수)

검정 결론: 유의수준

  0.05

일 때

  

2

( , )  

2

(2, 0.05)  5.994

2 2

24.98 (2, 0.05) 5.994

t

   

이므로

o2은 기각역에 속한다. 따라서 남녀에 따라 학력이 동 등하지 않다. 즉 학력에 차이가 있다.

SPSS 카이제곱 검정(교차분석) 1[

교과서 예제(

p

274)

]

SPSS 통계처리 1 [지역조사 .sav ]

성별에 따른 학력분포의 동일성 검정(

2-검정)

분석>기술통계량>교차분석 교차분석 보조창이 뜨면

변수 [학력]을 행으로, [성별]을 열로 이동(행과 열에 72개까지 변수를 이동시켜 동시분석 가능).

정확 단추를 누르고 점근적 검정을 선택 통계량 단추를 눌러 카이제곱을 선택

두 변수형 변수가 서로 관련성이 존재할 경우 결합정도를 확인하기 위하여 명목 데이터의 경우 람다와 순서 데이터의 경우 감마 그리고

Somers

D

를 선택

계속>확인

교차분석 결과

(7)

케이스 처리 요약

604 99.2% 5 .8% 609 100.0%

학력 * 성

N 퍼센트 N 퍼센트 N 퍼센트

유효 결측 전체

케이스

학력 * 성 교차표 빈도

7 27 34

14 54 68

74 202 276

78 134 212

10 4 14

183 421 604

초등학교이하 중학교 고등학교 대학교 대학원이상 학력

전체

남자 여자

전체

카이제곱 검정

21.591a 4 .000

20.629 4 .000

15.423 1 .000

604 Pearson 카이제곱

우도비

선형 대 선형결합 유효 케이스 수

값 자유도

점근 유의확률 (양측검정)

1 셀 (10.0%)은(는) 5보다 작은 기대 빈도를 가지는 셀 입니다. 최소 기대빈도는 4.24입니다.

a.

방향성 측도

.020 .025 .777 .437 .012 .037 .324 .746 .033 .020 1.607 .108 .007 .005 .001c .036 .015 .000c -.149 .037 -4.007 .000 -.189 .047 -4.007 .000 -.123 .030 -4.007 .000 대칭적

학력 종속 성 종속 학력 종속 성 종속 대칭적 학력 종속 성 종속 람다

Goodman과 Kruskal 타우 명목척도 대

명목척도

Somers의 d 순서척도 대

순서척도

점근 표 준오차a

근사 T 값b

근사 유 의확률

영가설을 가정하지 않음.

a.

영가설을 가정하는 점근 표준오차 사용 b.

카이제곱 근사법을 기준으로 c.

대칭적 측도

-.288 .070 -4.007 .000

604 감마

순서척도 대 순서척도 유효 케이스 수

값 점근 표준오차a 근사 T 값b 근사 유의확률

영가설을 가정하지 않음.

a.

영가설을 가정하는 점근 표준오차 사용 b.

(8)

※ 일반적으로 결합도(

Measures of association

)는두 변수가 명목 데이터일 경우

0 

결합도

1

결합도

 0

: 두 변수가 통계적으로 독립, 결합도

 1

: 두 변수가 통계적으로 완전 의존

두 개의 변수가 순서 데이터일 경우:

  1

결합도

1

결합도

 0

: 두 변수가 통계적으로 독립, 결합도

 1

: 두 변수가 같은 방향으로 완전 의존, 결합도

  1

: 두 변수가 반대 방향으로 완전 의존

분석

:

Pearson

카이제곱

o2

 21.591

로 점근유으확률이

0.00

이므로 유의수준

  0.05

보다 작기 때문에 가설인

H

o가 기각된다. 즉 남녀간에 학력은 차이가 있다.

자유도

: 남녀(2), 학교 5(초등, 중, 고등, 대학, 대학원)

 

(2-1)(5-1)=4

방형성 측도: 두 변수 모두 명목 데이터이고 성종속이 0.033으로 남녀는 통계적으로 관련이 없음.

다른 것도 위에 기술한 것을 참조하여 해석이 가능

SPSS 카이제곱 검정(교차분석) 2[

교과서 예제(

p

274)

]

SPSS 통계처리2 [지역조사. sav ]

연령에따른 학력분포의 동일성 검정(

2-검정): 연령에 따른 카이제곱 검정을 하려면 우선 빈도수 가

5

이하인 20대 이하와 70대 이상을 제외키고 연령을 20대, 30대, 40대, 50대 60로 변수변환을 하여야 한다.

<검정절차>

(1) 20대 이하와70대 이상을 분석에서 제외 [지역조사.sav]를

open

데이타>케이스 선택

케이스 선택 보조창이 뜨면 조건을 만족하는 케이스 선택

조건을 누르고 변수 [연령]을 우측창으로 이동 후 다음의 조건식을 쳐 넣음.

(연령 > 19) & (연령<70) 계속>확인

이것을 하고 나면 데이터보기에 filter_$ 변수가 생기면서 조건에서 제외된 통제집단이 사선으로 쳐져있음을 알 수 있다. 모두 쓰려면 filter_$ 변수를 제거시키거나 데이타>케이스 선택 후 전체케 이스를 선택하면 된다.

(2) 변수변환: 연령을 20대, 30대, 40대, 50대, 60대의 범주자료로 전환 변환>코딩변경>새로운변수로

보조창이 뜨면 숫자변수->출력변수 창으로 변수 [연령]을 이동

출력변수 이름에 연령대를 쳐 넣고 바꾸기단추를 누르면 연령->연령대로 나타남

(9)

기존값 및 새로운 값의 단추를 눌러 보조창이 뜨면 범위를 선택하고 다음과 같이 추가를 계속

기존 값 새로운 값

20에서 29 2 추가

30에서 39 3 추가

40에서 49 4 추가

50에서 59 5 추가

60에서 69 6 추가

계속>확인

[지역조사.sav]의 변수 끝에 [연령대]의 새로운 변수가 생긴 것을 확인할 수 있다.

변수보기로 전환하여 연령대의 소수점이하자리를 0으로 하고 저장

(3)연령과 종교에 따른 학력분포의 동일성 검정(

2-검정)

분석>기술통계량>교차분석

교차분석 보조창이 뜨면 변수 [학력]과 [종교]를행으로, [연령대]를 열로 이동(행과 열에는 72개 까지의 변수를 이동시켜 동시 분석이 가능)

정확 단추를 누르고 점근적 검정을 선택 통계량 단추를 눌러 카이제곱을 선택

두 변수형 변수가 서로 관련성이 존재할 경우 결합정도를 확인하기 위하여 명목 데이터의 경우 람다와 순서 데이터의 경우 감마 그리고 Somers의 D를 선택

계속>확인

1차 분석결과

아래 교차분석의 학력*연령대 교차표와 카이제곱 검정을 보면 빈도수가 5이하인 셀이 8개가 되어 32%가되므로 이러한 셀들을 제외시키고 카이제곱 분석을 다시 하여야 한다.

또한 종교*연령대를 보면 기타의 빈도가

5

이하인 셀이

6

개가 되므로 이것도 제외시켜야 한다.

교차분석 결과

학력 * 연령대

카이제곱 검정

150.169a 16 .000

129.555 16 .000

89.252 1 .000

589 Pearson 카이제곱

우도비

선형 대 선형결합 유효 케이스 수

값 자유도

점근 유의확률 (양측검정)

8 셀 (32.0%)은(는) 5보다 작은 기대 빈도를 가지는 셀 입니다. 최소 기대빈도는 .92입니다.

a.

(10)

종교 * 연령대

(4) 연령 20세미만과 70세 이상, 학력에서 초등이하와 대학원이상, 동시에 종교에서 기타를 제외 데이타>케이스 선택

케이스 선택 보조창이 뜨면 조건을 만족하는 케이스 선택 조건을 누르고 우측창에 다음의 조건식을 쳐 넣음.

(20<= 연령 & 연령<70) & (종교 >= 1 & 종교<5) & (1< 학력 & 학력<5) 계속>확인

(5) 재분석

분석>기술통계량>교차분석 교차분석 보조창이 뜨면

변수 [학력]과 [종교]를 행으로, [연령대]를 열로 이동 정확 단추를 누르고 점근적 검정을 선택

교차표 빈도

1 3 5 6 10 25

2 12 27 19 7 67

41 101 86 30 15 273

80 72 32 22 3 209

2 8 3 1 1 15

126 196 153 78 36 589

초등학교이하 중학교 고등학교 대학교 대학원이상 학력

전체

2 3 4 5 6

연령대

전체

교차표 빈도

14 25 19 10 5 73

56 66 52 22 8 204

19 36 44 33 10 142

36 65 36 13 15 165

1 2 0 0 0 3

126 194 151 78 38 587

천주교 기독교 불교 없다 기타 종교

전체

2 3 4 5 6

연령대

전체

카이제곱 검정

36.708a 16 .002

37.161 16 .002

.271 1 .603

587 Pearson 카이제곱

우도비

선형 대 선형결합 유효 케이스 수

값 자유도

점근 유의확률 (양측검정)

6 셀 (24.0%)은(는) 5보다 작은 기대 빈도를 가지는 셀 입니다. 최소 기대빈도는 .19입니다.

a.

(11)

통계량 단추를 눌러 카이제곱을 선택

두 변수형 변수가 서로 관련성이 존재할 경우 결합정도를 확인하기 위하여 명목 데이터의 경우 람다와 순서 데이터의 경우 감마 그리고 Somers의 D를 선택 후 계속.

셀 단추를 눌러 다음을 선택 빈도: 관측과 기대빈도 모두 석택 퍼센트: 행, 열, 전체를 모두 선택 계속>확인

교차분석 결과

종교 * 연령대

케이스 처리 요약

542 100.0% 0 .0% 542 100.0%

542 100.0% 0 .0% 542 100.0%

종교 * 연령대 학력 * 연령대

N 퍼센트 N 퍼센트 N 퍼센트

유효 결측 전체

케이스

교차표

13 24 19 9 5 70

15.8 23.5 18.3 9.2 3.2 70.0 18.6% 34.3% 27.1% 12.9% 7.1% 100.0%

10.7% 13.2% 13.4% 12.7% 20.0% 12.9%

2.4% 4.4% 3.5% 1.7% .9% 12.9%

56 61 48 20 3 188

42.3 63.1 49.3 24.6 8.7 188.0 29.8% 32.4% 25.5% 10.6% 1.6% 100.0%

45.9% 33.5% 33.8% 28.2% 12.0% 34.7%

10.3% 11.3% 8.9% 3.7% .6% 34.7%

18 36 42 30 7 133

29.9 44.7 34.8 17.4 6.1 133.0 13.5% 27.1% 31.6% 22.6% 5.3% 100.0%

14.8% 19.8% 29.6% 42.3% 28.0% 24.5%

3.3% 6.6% 7.7% 5.5% 1.3% 24.5%

35 61 33 12 10 151

34.0 50.7 39.6 19.8 7.0 151.0 23.2% 40.4% 21.9% 7.9% 6.6% 100.0%

28.7% 33.5% 23.2% 16.9% 40.0% 27.9%

6.5% 11.3% 6.1% 2.2% 1.8% 27.9%

122 182 142 71 25 542

122.0 182.0 142.0 71.0 25.0 542.0 22.5% 33.6% 26.2% 13.1% 4.6% 100.0%

100.0% 100.0% 100.0% 100.0% 100.0% 100.0%

22.5% 33.6% 26.2% 13.1% 4.6% 100.0%

빈도 기대빈도 종교의 % 연령대의 % 전체 % 빈도 기대빈도 종교의 % 연령대의 % 전체 % 빈도 기대빈도 종교의 % 연령대의 % 전체 % 빈도 기대빈도 종교의 % 연령대의 % 전체 % 빈도 기대빈도 종교의 % 연령대의 % 전체 % 천주교

기독교

불교

없다 종교

전체

2 3 4 5 6

연령대

전체

(12)

학력 * 연령대

카이제곱 검정

35.300a 12 .000

35.583 12 .000

.156 1 .693

542 Pearson 카이제곱

우도비

선형 대 선형결합 유효 케이스 수

값 자유도

점근 유의확률 (양측검정)

1 셀 (5.0%)은(는) 5보다 작은 기대 빈도를 가지는 셀입 니다. 최소 기대빈도는 3.23입니다.

a.

방향성 측도

.032 .016 1.944 .052 .048 .022 2.151 .031 .017 .024 .680 .497

.025 .008 .000c

.015 .006 .001c

대칭적 종교 종속 연령대 종속 종교 종속 연령대 종속 람다

Goodman과 Kruskal 타우 명목척도 대

명목척도

점근 표

준오차a 근사 T 값b

근사 유 의확률

영가설을 가정하지 않음.

a.

영가설을 가정하는 점근 표준오차 사용 b.

카이제곱 근사법을 기준으로 c.

교차표

2 12 26 19 7 66

14.9 22.2 17.3 8.6 3.0 66.0 3.0% 18.2% 39.4% 28.8% 10.6% 100.0%

1.6% 6.6% 18.3% 26.8% 28.0% 12.2%

.4% 2.2% 4.8% 3.5% 1.3% 12.2%

41 98 85 30 15 269

60.5 90.3 70.5 35.2 12.4 269.0 15.2% 36.4% 31.6% 11.2% 5.6% 100.0%

33.6% 53.8% 59.9% 42.3% 60.0% 49.6%

7.6% 18.1% 15.7% 5.5% 2.8% 49.6%

79 72 31 22 3 207

46.6 69.5 54.2 27.1 9.5 207.0 38.2% 34.8% 15.0% 10.6% 1.4% 100.0%

64.8% 39.6% 21.8% 31.0% 12.0% 38.2%

14.6% 13.3% 5.7% 4.1% .6% 38.2%

122 182 142 71 25 542

122.0 182.0 142.0 71.0 25.0 542.0 22.5% 33.6% 26.2% 13.1% 4.6% 100.0%

100.0% 100.0% 100.0% 100.0% 100.0% 100.0%

22.5% 33.6% 26.2% 13.1% 4.6% 100.0%

빈도 기대빈도 학력의 % 연령대의 % 전체 % 빈도 기대빈도 학력의 % 연령대의 % 전체 % 빈도 기대빈도 학력의 % 연령대의 % 전체 % 빈도 기대빈도 학력의 % 연령대의 % 전체 % 중학교

고등학교

대학교 학력

전체

2 3 4 5 6

연령대

전체

(13)

※ 자유도

: 학력(3), 연령대(5)

(3 1)(5 1) 8

    

※ 카이제곱의 유의확률이

0

이므로

H

o기각

10.3 독립성 검정

두 속성간에 독립관계를 판단하는 검정이다. 예를 들면 기계고장이나 불량품이 나오는 것을 기계 별, 작업조별, 작업방법별 등으로 분류하여 두 가지 속성에 의한 이원표(

contingency table

)로 정 리할 수 있다. 이러한 표를 분할표라 한다. 일반적으로 속성이 각각

l m ,

의 층이나 조로 나누어진 다음과 같은 이원표의 형식이 된다. 이러한 표를

l m

분할표라 한다.

표[10-]

l m

분할표

A

1

A

2

A

j

A

m 합계

B

1

B

2

B

i

B

l

f

11

f

12

f

1 j

f

1m

f

21

f

22

f

2 j

f

2m

1

f

i

f

i2

f

i j

f

i m

1

f

l

f

l2

f

li

f

lm

T

1 r

T

1 r

T

i r

T

l r

합계

T T T T T

카이제곱 검정

87.024a 8 .000

89.606 8 .000

66.703 1 .000

542 Pearson 카이제곱

우도비

선형 대 선형결합 유효 케이스 수

값 자유도

점근 유의확률 (양측검정)

1 셀 (6.7%)은(는) 5보다 작은 기대 빈도를 가지는 셀입 니다. 최소 기대빈도는 3.04입니다.

a.

방향성 측도

.093 .033 2.749 .006 .139 .037 3.508 .000 .058 .037 1.531 .126 .077 .017 .000c .044 .009 .000c 대칭적

학력 종속 연령대 종속 학력 종속 연령대 종속 람다

Goodman과 Kruskal 타우 명목척도 대

명목척도

점근 표 준오차a

근사 T 값b

근사 유 의확률

영가설을 가정하지 않음.

a.

영가설을 가정하는 점근 표준오차 사용 b.

카이제곱 근사법을 기준으로 c.

(14)

이원표에서 기계고장이 작업조와 기계호기간에 서로 독립이라면

i

행과

j

열의 확률

p

i j

i r c j

i j i r c j

T T

p p p

T T

   

i

행과

j

열의 도수의 기대치(이론 도수)

i r c j

i j i j

T T

E T p

T

   

실제 관측도수

f

i j와 이론도수

E

i j의 관계

2 2

1 1

( )

l m

i j i j

o

i j i j

f E

E

  

근사적으로 자유도

   ( l 1)( m  1)

2분포를 따른다.

독립성 검정

귀무(영)가설

H

o:

p

i j

p

i r

p

c j

( i  1, 2, , l j  1, 2, , ) m

검정통계량:

2 2

1 1

( )

l m

i j i j

t

i j i j

f E

E

  

유의수준

인 기각역:

t2

 

2

[( l  1)( m  1), ] 

[보기 10_5] 다음과 같이

3 4 

분할표(관찰빈도 표)에서 작업조에 의해서 기계호기별로 고장 횟수가 발생하는 것이 다른지 유의수준

  0.05

로 검정하라.

기계별

작업조 1호기 2호기 3호기 4호기 작업조의 계

제 1 작업조 제 2 작업조 제 3 작업조

6 12 10

13 21 18

10 10 13

12 19 13

41 62 54

28 52 33 44 157

(풀이) 귀무가설

H

o: 작업조와 기계호기 간에는 고장 횟수의 발생에 관계가 없다(서로 독립이다).

기대빈도(또는 이론돗수)

E

i j공식: [(행의 합계)

(열의합계)]/(전체 합계) 기계별

작업조 1호기 2호기 3호기 4호기 작업조의 계

제 1 작업조 제 2 작업조 제 3 작업조

7.31 11.06

9.63

13.58 20.53 17.89

8.62 13.03 11.35

11.49 17.38 15.13

41 62 54

28 52 33 44 157

(15)

관찰빈도에서 기대빈도를 뺀 값(

f

i j

E

i j)

기계별

작업조 1호기 2호기 3호기 4호기

제 1 작업조 제 2 작업조 제 3 작업조

-1.31 -0.94 -0.37

0.58 -0.47 -0.11

-1.38 3.03 -1.65

-0.51 -1.62 2.13

( f

i j

E

i j

) /

2

E

i j

기계별

작업조 1호기 2호기 3호기 4호기 작업조의 계

제 1 작업조 제 2 작업조 제 3 작업조

0.235 0.080 0.014

0.025 0.011 0.001

0.221 0.705 0.240

0.023 0.151 0.300

0.504 0.947 0.555 0.329 0.037 1.166 0.474 2.006

자유도

:

   (3 1)(4 1)   6

2 2

( , ) (6, 0.05) 12.59

     

검정통계량

o2

 2.006  

2

(6, 0.05)

이므로

H

o가 채택된다. 즉 작업조는 기계호기 고장의 발생 에 영향이 없다. 다시말하면 작업조와 기계호기간에는 서로 독립이다.

연습문제

1. 1급, 2급, 3급품의 생산비율

P P P

1

,

2

,

3가 종전에는 각각

0.5, 0.3, 0.2

였다. 공정개량 후에 이 생산비율이 달라졌는지를 알아보기 위해 개량 후 만든 제품 중에서

200

개를 임의로 취하여 분류 하니 1, 2, 3급품이 각각 140개, 40개, 20개 이었다. 공정개량 후 생산비율이 종전과 같은가를 유 의수준

  0.05

로 검정하라.

2. 두 집단에서 각각 50명씩 독립적으로 임의 추출하여 일정기간 강의한 후 성적평가 자료가 다음과 같다. 두 지반의 성적분포가 동일한지 유의수준

  0.05

에서 검정하라.

성적 A B C D F 합계

집단 1 집단 2

7 5

12 9

16 14

10 17

5 5

50 50

3. 어느 유리공장에서

A A

1

,

2

, A A

3

,

4의 네가지 방법으로 각각

100

개씩의 꽂병을 만들어 이것을 검사하였더니 다음의 데이터를 얻었다. 제조방법에 따라 모불량이 다르다고 할 수 있는지 유의수

(16)

  0.05

에서 검정하라.

등급

부차집단 양품 불량품 합계

A

1

A

2

A

3

A

4

90 10

86 14

96 4

88 12

100 100 100 100 합계 360 40 400

4. 다음의 표본 데이터로부터 기계에 따라 등급품의 비율에 차이가 없는지 있는지를 유의수준

  0.05

에서 검정하라. 기계 등급 기계1 기계2 기계3 합계 1급품 2급품 3급품 78 65 68

22 8 30

20 2 7

211 60 29 합계 120 75 100 300

5. 한 질병에 대한 특정한 치료법을 적용할 때, 성별에 따라 병세가 다른가를 조사하고자 한다. 이 질병에 걸린 환자 중에서 남자환자 100명, 여자환자 100명을 임의로 추출하여 이 치료법을 적 용한 후 병세를 관측한 결과가 다음과 같다. 이 자료에 의하면 성별에 따라 병세가 다르다고 할 수 있은지 유의수준

  0.05

에서 검증하라. 병세 등급 악화 현상유지 호전 합계 남자 여자 10 25 65

15 33 52

100 100 합계 25 58 117 200

6. 52장의 카드로부터 3장을 복원추출하는 실험을 120회 실시한 결과가 다음과 같다. 3장 중의 다이아몬드 수 (X)가 이항분포를 따르는지 유의수준 5%에서 검정하라.

X 0 1 2 3 합계

관측돗수 50 55 13 2 120

참조

관련 문서

이들은 특히 재난 대응 및 긴급 상황에서 웨어러블 기기를 활용해 구조대원의 상태 및 위치를 파악하는 기술 [7]에 주목했는데, 몇몇 연구들은 재난 대응 및

Dexibuprofen에 대한 자료는 없지만, Dexibuprofen과 저용량 Aspirin 사이에 Ibuprofen과 유 사한 상호작용이 있다고 가정하는 것이 타당하다.’는 내용을 추가하였다.. ▣ 일회용

요즈음에 항우울제로서 가장 많이 사용되는 선택적 세로토닌재흡수억제제(Selective Serotonin Reuptake Inhibitors: SSRI)는 우울증이 동반된 불면에 쓸 수 있지만 사용

늑척추각 압통 백혈구증가 등의 염증 소견은 없어 감염에 의한 , 원인도 배제하였다 만성 세뇨간질성 신질환으로 나타날 수 있는. B 른 감염이나 다른 장기의 이상 자가면역 질환의 증거가

URL을 원하는 곳에

또한 카데킨 성분이 담배의 발암물질을 억제하는 작용을 하는 것으로 연구결과가 밝혀지 고 있다. 급격한 혈당치

html 사용 이 불가능한 학교홈페이지라면 홈페이지 담당자 선

운영계획서는 실습생에게 제공되는 정보이므로 직무나 부서를 간단하게 작성하여 주세요. 실습기간, 필요인원, 면접여부 등을