범주형 데이터의 분석
1. 상대위험률과 오즈비 1.1 상대위험률(relative risk)
상대위험률(relative risk)은 이와는 달리 플라시보를 복용한 그룹의 위험률과 아스 피린을 복용한 그룹의 위험률의 비를 계산한 것이다. 즉, 일반적으로 상대위험률은
RR
= 실험군에서의 위험률 대조군에서의 위험률로 정의된다.
이러한 상대위험률은 코호트 연구(cohort study)나, 위험인자를 가진 그룹(실험 군 또는 위험군)과 그렇지 않은 그룹(대조군)이 사전에 정해지고 난 후 그 결과를 관찰하게 되는 임상시험연구에서만 계산될 수 있다.
결과 1 결과 2 합
그룹 1 n11 n12 n1 +
그룹 2 n21 n22 n2 +
합 n+ 1 n+ 2 n
1.2 오즈비(odds ratio)
사례-대조 연구(case-control study)에서는 상대위험률이 계산될 수 없기 때문 에 연관성을 나타내기 위한 다른 측도가 필요하다. 이는 위험요인이 없을 때의 결과 에 대한 오즈(odds)와 위험요인이 있을 때의 결과에 대한 오즈의 비율로 정의된다.
어떤 사건에 대한 오즈라는 것은 그 사건이 발생하지 않은 확률에 대한 그 사건이 발생한 확률의 비율로 정의된다. 오즈비가 1에 가까우면 위험요인과 결과사이에 연 관성이 없다는 것을 의미한다.
일반적으로 아래와 같은 2차원 분할표가 있다고 하자. 예를 들어 그룹1이 실험군, 그룹2가 대조군이고, 결과1이 발병한 경우, 결과2가 발병하지 않은 경우라고 하자.
오즈비 OR = [n 11/n + 1] / [n 21/n + 1] [n 12/n + 2] / [n 22/n + 2]
= n 11/n 21 n 12/n 22
= n 11n 22 n 12n 21 상대위험률과 오즈비는 각각
상대위험률 RR= n 11/n 1 + n 21/n 2 +
로 계산된다.
1.3 상대위험률과 오즈비의 신뢰구간
대부분의 경우 연구자들은 이렇게 구한 상대위험률 또는 오즈비가 통계적으로 유 의한가(즉, 1과 유의하게 다른가)를 알아보고자 한다. 유의성을 결정하기 위해서는
여러 가지 방법이 있을 수 있는데, 가장 흔히 쓰이는 것은 이들의 신뢰구간을 구하 는 방법이다.
상대위험률이나 오즈비는 정규분포를 따르지 않기 때문에 이들의 신뢰구간을 구 하기 위해서는 상대위험률 또는 오즈비에 자연로그를 취한 다음 이들이 정규분포를 따른다는 것을 이용하여 신뢰구간을 유도하고, 지수를 취하여 역치환하는 과정을 거 치게 된다. 여기서는 이들을 유도하기보다는 간단히 결과를 정리하여 보이겠다.
먼저 상대위험률의 신뢰구간은 다음과 같은 형태로 주어진다.
(RR× exp { -zα/2 v1}, RR× exp {zα/2 v1})
여기서 zα/2는 정규분포의 상위 α/2에 해당하는 임계치를 의미하며, v1은 ln(RR)의 분 산추정치로서
v1 = 1-n11/n1 +
n11 + 1 -n21/n2 + n21
로 주어진다.
오즈비에 대한 신뢰구간도 비슷한 형태로 다음과 같이 구할 수 있다.
(OR× exp { -zα/2 v2}, OR× exp {zα/2 v2})
단, 여기서 v2은 ln(OR)의 분산추정치로서 v2= 1n
11 + 1n12+ 1n21 + 1n22 이다.
1.4 엑셀을 이용한 상대위험률과 오즈비의 계산
연관성의 측도는 엑셀의 데이터 분석기능에는 포함되어 있지 않으나 엑셀의 함수 기능을 이용하여 간단히 계산할 수 있다.
2. 카이제곱검정 ( χ2 -test )
2.1 적합도 검정(goodness-of-fit test)
데이터가 다음과 같이 몇 개의 범주에 대한 관측도수형태로 주어졌다고 하자. 각 범주에 대응되는 모집단의 비율을
p
1,p
2,...,p
k라고 하고, 이에 대한 귀무가설을H
0:p
1=p
10,p
2=p
20, ...,p
k=p
k0라고 하자. 각 범주의 관측비율이 귀무가설에서 제시한 비율에 부합하는지 알아보고 자 한다.
χ 2 =
∑
ki= 1
(O i-E i) 2
E i =
∑
ki= 1
(n i- np i0) 2 np i0
범주 1 2 ... k 합계
관측도수 n1 n2 ... nk n
모집단 비율 p1 p2 ... pk 1
귀무가설이 참일 때 i번째 범주의 기대도수
E
i=n
×p
i0 가 된다. 귀무가설이 맞다 면 실제 관측된 도수(observed frequency, Oi)가 기대도수(expected frequency,Ei)와 비슷하게 나타날 것이므로, 이들의 차이가 충분히 크면 귀무가설에 대한 반증 이 된다. 이에 근거하여 카이제곱통계량(chi-square statistic)은 으로 정의된다. 이
값이 클 때 귀무가설을 기각하면 된다. 귀무가설이 참일때 이 통계량이 근사적으로 자유도 k-1인 카이제곱분포를 따른다는 것을 이용하여 검정한다. 즉, 유의수준이 α 일 때 계산된 카이제곱통계량이 자유도 k-1인 카이제곱분포의 상위 α의 확률에 해 당하는 임계치 χ2α(k-1)보다 크면 귀무가설을 기각한다. 이러한 형태의 가설검정
을 적합도 검정(goodness-of-fit test)이라고 한다.
2.2 엑셀을 이용한 적합도 검정
적합도 검정은 엑셀의 데이터분석기능에는 포함되어 있지 않으나 간단한 함수를 이용하여 계산할 수 있다.
2.3 동질성 검정(homogeneity test)
자료가 2차원 분할표로 주어졌을 때 그들간의 연관성을 기술하는 측도로 상대위 험률과 오즈비에 대해서 알아보았다. 이번에는 이러한 2차원 분할표 자료에서 유의 성을 검정하는 문제를 생각하여 보자. 분할표의 분석방법으로 가장 흔히 쓰이는 방 법인 동질성 검정을 위한 카이제곱검정(χ2-검정: chi-square test)을 설명하기로 한 다.
결과 1 결과 2 합
그룹 1 n11 n12 n1 +
그룹 2 n21 n22 n2 +
합 n+ 1 n+ 2 n
이 때 p ij를 i번째 그룹에서 j번째 결과가 될 확률이라고 하면, 동질성에 대한 귀무 가설은
H 0 : p 1j= p 2j= p j (j= 1,2)
로 표현될 수 있다. 두 그룹이 동질적이라면(이 가설이 옳다면), pj의 추정치는 전체 그룹에서 j번째 결과를 보이는 비율로 구할 수 있다. 즉,
p j
ˆ
= nn+j가 된다. 따라서 귀무가설이 옳다면 i번째 그룹이면서 j번째 결과를 나타내는 도수는
χ 2 =
∑
2i= 1
∑
2j= 1
(n ij-E ij) 2 E ij
=
∑
2i= 1
∑
2j= 1
(n ij -n i+n +j/n) 2 n i+n +j/n
E ij= n i+
ˆ
p j= n i+n +j/n로 기대될 수 있을 것이다. 이 값을 기대도수라고 한다. 기대도수를 계산하는 식은
“ 행합×열합/전체합”의 형태가 된다는 것을 기억하자.
귀무가설이 맞다면 실제 관측된 도수( n ij)가 기대도수( E ij)와 비슷하게 나타날 것 이고, 이들의 차이가 크다면 귀무가설에 대한 반증이 될 것이다. 이에 근거하여 카 이제곱통계량(chi-square statistic)으로 정의되는데 이 값이 클 때 귀무가설을 기각
하면 된다. 귀무가설 하에서 이 통계량이 자유도 1인 카이제곱분포를 따른다는 것을 이용하여, 계산된 통계량과 자유도 1인 카이제곱분포의 임계치와 비교하여 검정하게 된다.
3 진단법의 평가 3.1 민감도와 특이도
진 단 질 병
양성 D+ 음성 D-
양성 T+ TP FP
음성 T- FN TN
민감도 = TPTP+FN 특이도 = FPTN+TN 3.2 양성예측도와 음성예측도의 추정
양성예측도(predicted value of positive test)
P(D+|T+) = P(T+|D+)P(D+)
P(T+|D+)P(D+)+P(T+|D-)P(D-)
양성예측도= 민감도×유병률
[민감도×유병률]+[ (1-특이도)×(1-유병률)]
음성예측도(predicted value of negative test)
P(D-|T-) = P(T-|D-)P(D-)
P(T-|D-)P(D-)+P(T-|D+)P(D+)
음성예측도= 특이도×(1-유병률)
특이도×(1-유병률)+(1-민감도)×유병률