중증도 보정 모형 개발 - 연구내용 및 방법 - 급성기 뇌졸중 평가지표 확대 연구

Ⅱ. 연구내용 및 방법

2) 중증도 보정 모형 개발

(1) 후보 모형 선정

Stroke scale 유의성 검증을 위한 모의실험 결과를 토대로, 병원 내 사망에 대한 중증도 보정모형을 개발하였다. 후보모형은 선정된 빈도가 일정수준 이 상인 요인으로 구성된 모형과 일정한 수준이상 선정되면서 병원 내 사망과 양의관계(positive relationship)가 있는 요인으로 구성된 모형을 우선적으로 후보모형으로 선정하였다. 그리고 최종적으로 두 후보모형에 stroke scale 포 함여부로 구분하여 출혈성과 허혈성 뇌졸중 각각 4개의 후보모형을 선정하 였다.

Ⅱ. 연구내용 및 방법 • 13

(2) 모형 타당도 평가 방법론

일반적으로 중증도 보정 모형에 대한 타당도는 예측타당도(predictive validity)로 평가된다. 예측타당도는 모형이 개발 자료가 아닌 다른 자료에서 도 결과를 잘 예측하는지를 평가하는 것으로 내적타당도(internal validity), 외적타당도(external validity)로 구분된다.

내적타당도 평가는 원자료(original data)를 사용하며, 모형을 개발한 전체 자료로 타당도를 평가하는 명백한 내적타당도 평가(apparent internal validation), 무작위로 개발자료(development set)와 검정자료(test set)로 분리 하여 타당도를 검정하는 방법(split-sample), 원자료를 반복적으로 재추출 (resampling)하는 leave-one-out cross validation, K-fold cross validation 방 법 등이 있다(Harrell, 2001; Efron 등, 1993). 명백한 내적타당도 평가 방법은 원자료를 100% 다시 사용하는 방법으로 개발된 모형의 모수는 주어진 자료 내에서 가장 잘 추정되기 때문에 편향된 평가 결과를 산출하게 되지만, 반면 에 안정된 추정량이 얻어진다는 장점이 있다(Steyerberg 등, 2009). 자료를 개 발자료와 검정자료로 분리(split)하는 방법은 자료를 분리함으로써 자료의 수 가 줄어들고, 분리 기준(예를 들어, 개발자료와 검정자료는 무작위로 50%씩 할당 혹은 개발자료 70%, 검정자료 30%)에 따라 다른 결과가 도출될 가능성 이 있다.

Harrell(2001)은 전체 자료를 사용하여 모형을 개발하고, 붓스트랩과 같은 방법으로 타당도 검정을 하는 것을 추천하였다. 붓스트랩을 사용한 내적 타 당도 평가 방법은 먼저 각 붓스트랩 표본별로 모형을 개발하고, 개발된 모형 은 붓스트랩 표본(명백한 내적타당도 평가)과 원래의 표본(새로운 그룹에서 의 타당도 평가) 양쪽 모두에서 평가된다. 이 두 가지 타당도 평가 결과의 모형 수행력 값의 차이가 optimism이며, 원래 표본에서 개발된 모형의 명백 한 내적타당도 평가에서 산출된 모형 수행력에서 이 optimism을 뺀 것이 optimism이 교정된 모형 수행력이 된다(Harrell, 2001; Steyerberg 등, 2001).

모형 수행력(performance)은 교정력과 판별력으로 구분된다. 교정력은 실 제 결과 발생과 예측 발생확률의 일치도를 평가하는 것으로 이를 평가하는

14 • 급성기 뇌졸중 평가지표 확대연구

척도로 교정그림(calibration plot), 교정 기울기(calibration plot), 오차제곱합 (unweighted sum-of-square) 그리고 모형의 적합도 검정(Hosmer-Lemeshow 검정) 등이 있다. 이 중에서 교정그림은 ^축에 예측확률을, 축에는 실제 결 과를 표시한 것으로, 이 교정그림이 45° 대각선에 가까울수록 모형의 예측력 이 높음을 의미한다. 그러나, 이분형 결과변수의 경우 교정그림의 축은 0과 1의 값만을 가지고 확률 ^  은 직접적으로 관찰되지 않으므로 평활기 법(smoothing technique)을 사용해 실제 결과의 관찰확률을 추정할 수 있다.

만일 예측확률을 10 그룹으로 구분하여 예측결과와 실제 결과를 교정그림으 로 나타내면 이는 Hosmer-Lemeshow 적합도 검정의 결과를 그래프로 나타 낸 것이다.

판별력은 결과가 발생한 집단과 결과가 발생하지 않은 집단으로 얼마나 잘 구분하는지를 측정하는 것으로, 일반적으로 C-통계량이 많이 사용된다.

C-통계량은 ROC 곡선(area under the Receiver Operating Characteristic Curve)의 아래 면적에 해당되며, 1에 가까울수록 예측력이 높다고 할 수 있 다. 그러나 ROC 곡선은 전체적인 판별능력을 나타내는 것이 아니라, 평균적 인 판별력을 나타내며, 또한 실제 값이 아닌 예측 값의 순위로 결정되므로 민감하지 않다(Ash 등, 1994).

타당도 평가는 모형의 개발 목적을 고려해야 한다. 만약 모형이 의료제공 자 혹은 의사의 성과평가를 목적으로 사용된다면, 판별력이 높은 것만으로 충분하지 않고, 교정력이 낮은 경우 극단적인 결과발생률을 산출하므로 교정 력도 높아야 한다. 또한 모형이 치료방법 비교 혹은 환자관리(patient management) 목적으로 사용된다면 판별력과 교정력 모두 높아야 한다.

내적타당도 평가에서 개발된 모형이 재현가능성이 있다고 평가되더라도 다른 국가, 의료기관에서 수집된 새로운 자료에 대해서는 모형이 맞지 않은 경우가 발생할 수 있다. 따라서 외적타당도 평가는 모형 개발에서 중요한 단 계이지만, 적절한 자료를 얻기에는 어려움이 있다는 제한점이 있다.

Ⅱ. 연구내용 및 방법 • 15

(3) 최종 모형 선정 방법

이 연구에서는 후보모형에 대한 타당도 평가결과를 토대로 최종 모형을 선정하였다. 외적 타당도 평가를 위한 기준을 만족하는 자료를 구득할 수 없 어, 내적타당도 결과만을 고려하였다. 내적타당도는 붓스트랩 방법을 적용하 여 평가하였고, 평가기준으로는, 교정력은 optimism을 보정한 교정절편, 교 정기울기, 교정그림을 사용하고, 판별력은 optimism을 보정한 C-통계량을 사 용하였다.

문서에서 급성기 뇌졸중 평가지표 확대 연구 (페이지 30-35)