범주형 데이터의 분석

(1)

범주형 데이터의 분석

1. 상대위험률과 오즈비 1.1 상대위험률(relative risk)

상대위험률(relative risk)은 이와는 달리 플라시보를 복용한 그룹의 위험률과 아스 피린을 복용한 그룹의 위험률의 비를 계산한 것이다. 즉, 일반적으로 상대위험률은

RR

= 실험군에서의 위험률 대조군에서의 위험률

로 정의된다.

이러한 상대위험률은 코호트 연구(cohort study)나, 위험인자를 가진 그룹(실험 군 또는 위험군)과 그렇지 않은 그룹(대조군)이 사전에 정해지고 난 후 그 결과를 관찰하게 되는 임상시험연구에서만 계산될 수 있다.

(2)

결과 1 결과 2 합

그룹 1 n₁₁ n₁₂ n_{1 +}

그룹 2 n₂₁ n₂₂ n_{2 +}

합 n_{+ 1} n_{+ 2} n

1.2 오즈비(odds ratio)

사례-대조 연구(case-control study)에서는 상대위험률이 계산될 수 없기 때문 에 연관성을 나타내기 위한 다른 측도가 필요하다. 이는 위험요인이 없을 때의 결과 에 대한 오즈(odds)와 위험요인이 있을 때의 결과에 대한 오즈의 비율로 정의된다.

어떤 사건에 대한 오즈라는 것은 그 사건이 발생하지 않은 확률에 대한 그 사건이 발생한 확률의 비율로 정의된다. 오즈비가 1에 가까우면 위험요인과 결과사이에 연 관성이 없다는 것을 의미한다.

일반적으로 아래와 같은 2차원 분할표가 있다고 하자. 예를 들어 그룹1이 실험군, 그룹2가 대조군이고, 결과1이 발병한 경우, 결과2가 발병하지 않은 경우라고 하자.

(3)

오즈비 OR = [n ₁₁/n _{+ 1}] / [n ₂₁/n _{+ 1}] [n ₁₂/n _{+ 2}] / [n ₂₂/n _{+ 2}]

= n ₁₁/n ₂₁ n ₁₂/n ₂₂

= n ₁₁n ₂₂ n ₁₂n ₂₁ 상대위험률과 오즈비는 각각

상대위험률 RR= n ₁₁/n _{1 +} n ₂₁/n _{2 +}

로 계산된다.

1.3 상대위험률과 오즈비의 신뢰구간

대부분의 경우 연구자들은 이렇게 구한 상대위험률 또는 오즈비가 통계적으로 유 의한가(즉, 1과 유의하게 다른가)를 알아보고자 한다. 유의성을 결정하기 위해서는

(4)

여러 가지 방법이 있을 수 있는데, 가장 흔히 쓰이는 것은 이들의 신뢰구간을 구하 는 방법이다.

상대위험률이나 오즈비는 정규분포를 따르지 않기 때문에 이들의 신뢰구간을 구 하기 위해서는 상대위험률 또는 오즈비에 자연로그를 취한 다음 이들이 정규분포를 따른다는 것을 이용하여 신뢰구간을 유도하고, 지수를 취하여 역치환하는 과정을 거 치게 된다. 여기서는 이들을 유도하기보다는 간단히 결과를 정리하여 보이겠다.

먼저 상대위험률의 신뢰구간은 다음과 같은 형태로 주어진다.

(RR× exp { -z_α/2 v₁}, RR× exp {z_α/2 v₁})

여기서 ^z^α/2는 정규분포의 상위 ^α^/2에 해당하는 임계치를 의미하며, ^v¹은 ^ln⁽^RR⁾의 분 산추정치로서

v_{1 =} ^1-n₁₁/n_{1 +}

n₁₁ ⁺ ^{1 -}n₂₁/n_{2 +} n₂₁

로 주어진다.

오즈비에 대한 신뢰구간도 비슷한 형태로 다음과 같이 구할 수 있다.

(OR× exp { -z_α/2 v₂}, OR× exp {z_α/2 v₂})

(5)

단, 여기서 ^v²은 ^ln⁽^OR⁾의 분산추정치로서 ^v²^{= 1}_n

11 + 1n₁₂^{+ 1}n₂₁ ^{+ 1}n₂₂ 이다.

1.4 엑셀을 이용한 상대위험률과 오즈비의 계산

연관성의 측도는 엑셀의 데이터 분석기능에는 포함되어 있지 않으나 엑셀의 함수 기능을 이용하여 간단히 계산할 수 있다.

2. 카이제곱검정 ( ^χ² -test )

2.1 적합도 검정(goodness-of-fit test)

데이터가 다음과 같이 몇 개의 범주에 대한 관측도수형태로 주어졌다고 하자. 각 범주에 대응되는 모집단의 비율을

p

₁,

p

₂,...,

p

_k라고 하고, 이에 대한 귀무가설을

H

₀:

p

₁=

p

₁₀,

p

₂=

p

₂₀, ...,

p

_k=

p

_k₀

라고 하자. 각 범주의 관측비율이 귀무가설에서 제시한 비율에 부합하는지 알아보고 자 한다.

(6)

χ ² =

∑

^k

i= 1

(O _i-E _i) ²

E _i ⁼

∑

^k

i= 1

(n _i- np _i₀) ² np _i₀

범주 1 2 ... k 합계

관측도수 n₁ n₂ ... n_k n

모집단 비율 p₁ p₂ ... p_k 1

귀무가설이 참일 때 i번째 범주의 기대도수

E

_i=

n

×

p

_i₀ 가 된다. 귀무가설이 맞다 면 실제 관측된 도수(observed frequency, ^Oi)가 기대도수(expected frequency,

E_i)와 비슷하게 나타날 것이므로, 이들의 차이가 충분히 크면 귀무가설에 대한 반증 이 된다. 이에 근거하여 카이제곱통계량(chi-square statistic)은 으로 정의된다. 이

값이 클 때 귀무가설을 기각하면 된다. 귀무가설이 참일때 이 통계량이 근사적으로 자유도 k-1인 카이제곱분포를 따른다는 것을 이용하여 검정한다. 즉, 유의수준이 α 일 때 계산된 카이제곱통계량이 자유도 k-1인 카이제곱분포의 상위 α의 확률에 해 당하는 임계치 χ²α(k-1)보다 크면 귀무가설을 기각한다. 이러한 형태의 가설검정

(7)

을 적합도 검정(goodness-of-fit test)이라고 한다.

2.2 엑셀을 이용한 적합도 검정

적합도 검정은 엑셀의 데이터분석기능에는 포함되어 있지 않으나 간단한 함수를 이용하여 계산할 수 있다.

2.3 동질성 검정(homogeneity test)

자료가 2차원 분할표로 주어졌을 때 그들간의 연관성을 기술하는 측도로 상대위 험률과 오즈비에 대해서 알아보았다. 이번에는 이러한 2차원 분할표 자료에서 유의 성을 검정하는 문제를 생각하여 보자. 분할표의 분석방법으로 가장 흔히 쓰이는 방 법인 동질성 검정을 위한 카이제곱검정(^χ²-검정: chi-square test)을 설명하기로 한 다.

(8)

결과 1 결과 2 합

그룹 1 n₁₁ n₁₂ n_{1 +}

그룹 2 n₂₁ n₂₂ n_{2 +}

합 n_{+ 1} n_{+ 2} n

이 때 p _ij를 i번째 그룹에서 j번째 결과가 될 확률이라고 하면, 동질성에 대한 귀무 가설은

H ₀ : p ₁_j= p ₂_j= p _j (j= 1,2)

로 표현될 수 있다. 두 그룹이 동질적이라면(이 가설이 옳다면), ^pj의 추정치는 전체 그룹에서 ^j번째 결과를 보이는 비율로 구할 수 있다. 즉,

p _j

ˆ

⁼ ⁿ_n⁺^j

가 된다. 따라서 귀무가설이 옳다면 i번째 그룹이면서 j번째 결과를 나타내는 도수는

(9)

χ ² =

∑

²

i= 1

∑

²

j= 1

(n _ij-E _ij) ² E _ij

=

∑

²

i= 1

∑

²

j= 1

(n _ij -n _i₊n ₊_j/n) ² n _i₊n ₊_j/n

E _ij= n _i₊

ˆ

p _j= n _i₊n ₊_j/n

로 기대될 수 있을 것이다. 이 값을 기대도수라고 한다. 기대도수를 계산하는 식은

“ 행합×열합/전체합”의 형태가 된다는 것을 기억하자.

귀무가설이 맞다면 실제 관측된 도수( n _ij)가 기대도수( E _ij)와 비슷하게 나타날 것 이고, 이들의 차이가 크다면 귀무가설에 대한 반증이 될 것이다. 이에 근거하여 카 이제곱통계량(chi-square statistic)으로 정의되는데 이 값이 클 때 귀무가설을 기각

하면 된다. 귀무가설 하에서 이 통계량이 자유도 1인 카이제곱분포를 따른다는 것을 이용하여, 계산된 통계량과 자유도 1인 카이제곱분포의 임계치와 비교하여 검정하게 된다.

(10)

3 진단법의 평가 3.1 민감도와 특이도

진 단 질 병

양성 D+ 음성 D-

양성 T+ TP FP

음성 T- FN TN

민감도 = _TP^TP₊_FN 특이도 = _FP^TN₊_TN 3.2 양성예측도와 음성예측도의 추정

양성예측도(predicted value of positive test)

P(D+|T+) = P(T+|D+)P(D+)

P(T+|D+)P(D+)+P(T+|D-)P(D-)

(11)

양성예측도= 민감도×유병률

[민감도×유병률]+[ (1-특이도)×(1-유병률)]

음성예측도(predicted value of negative test)

P(D-|T-) = P(T-|D-)P(D-)

P(T-|D-)P(D-)+P(T-|D+)P(D+)

음성예측도= 특이도×(1-유병률)

특이도×(1-유병률)+(1-민감도)×유병률