• 검색 결과가 없습니다.

GRADE의 근거수준

문서에서 진단 검사 체계적 문헌고찰 (페이지 142-147)

진단 검사의 체계적 문헌고찰

C- EBLM (Committee on

1.9. 근거수준 평가와 결론 도출

1.9.3. GRADE의 근거수준

119 답이다(그림 1-19). 그러나 임상적 유용성을 직접적으로 목적하여 수행된 연구문헌의

희소성 때문에 진단정확성을 대체표지자로 사용하여 임상적 유용성에 대한 결론을 도출 하게 된다. 때문에 진단의학검사의 문헌 결과의 합성에서는 개별 연구문헌에 대한 비뚤 림 위험 평가에 더하여 일관성(consistency), 직접연관성(directness), 신뢰구간 폭 (precision) 등 다른 요인들을 복합적으로 고려하여 판단해야 한다. GRADE 실행그룹이 최근에 발표한 문헌에서는 출판 비뚤림(publication bias)을 또 하나의 판단기준으로 추 가하였다. 더불어 미국의 AHRQ에서는 추가적으로 용량-반응 연관성(dose-response association)과 잠재적 혼란요인의 존재, 연관의 강도(strength of association(i.e., magnitude of effect))와 관련한 사항들을 추가적으로 평가하도록 제안하고 있다.

GRADE 실행그룹에서는 근거수준을 체계적 문헌고찰과 진료지침의 권고안 제정의 경우를 다르게 정의하고 있다. 체계적 문헌고찰의 경우 추정된 효과에 대한 신뢰성을 의미하지만, 진료지침의 경우에는 추정된 효과의 크기가 권고안 결론 도출을 지지하기 에 적절한지에 대한 신뢰성의 크기라고 정의하고 있다.

1.9.3. GRADE의 근거수준

GRADE 근거수준(Balshem, 2011)은 높음(high), 중등(moderate), 낮음(low), 매우 낮음(very low)으로 평가한다(표 1-32).

표 1-33 GRADE 근거수준

근거수준 정의

높음 결과 합성을 통해 추정된 효과의 크기가 실제 임상에서의 효과와 유사할 것으로 매우 확 신하는 경우

중등 추정된 효과와 실제 효과가 유사할 것으로 보이나 상당한 정도 다를 가능성이 존재하는 경우

낮음 추정된 효과에 대한 확신이 제한적임을 뜻하는 것으로 추정된 효과와 실제 효과는 상당한 차이가 있을 가능성이 있는 경우

매우낮음 추정된 효과의 크기와 실제 효과 사이에는 상당한 차이가 있을 것으로 보이는 경우

GRADE 근거수준의 평가는 연구 디자인에 따라 시작하는 점이 달라진다. 진단의학 검사와 관련한 연구문헌 중 진단정확성을 다루는 문헌들은 대부분 관찰연구의 형태를 갖기 때문에 대개의 경우 근거수준 “낮음”에서부터 시작하게 된다(표 1-33)

120

표 1-34 GRADE 근거수준 산정 요약표

연구디자인 시작 근거수준 판정

무작위연구 높음 해당 사항이 있을 때 마다 수준을 하향조정 높음 ⊕⊕⊕⊕

1. 비뚤림 위험있음.

2. 일관성 없음. 중간 ⊕⊕⊕○

3. 직접적 근거가 아님.

4. 신뢰구간이 넓음. 낮음 ⊕⊕○○

5. 출판편향 있음.

관찰연구 낮음 해당 사항이 있을 때 마다 수준을 상향조정 매우 낮음 ⊕○○○

1. 효과크기가 큼.

2. 용량-반응 연관성 있음.

3. 잠재적 혼란변수가 추정치의 신뢰도를 높일 가능성 있음.

1.9.3.1. 비뚤림 위험 평가

비뚤림 위험이라 함은 근거의 합성을 위해 포함된 연구들이 비뚤림을 얼마나 방지하 였는지에 대한 것으로 연구디자인(예, 무작위연구 또는 관찰연구)에 대한 평가와 포함 된 개별연구문헌에 대한 질 평가 혹은 비뚤림 위험 평가 결과를 복합하여 결정한다.

진단의학검사의 진단정확성 연구가 유효하려면, 검사법이 실제 임상에서 의사들이 검 사를 처방할 대상군, 즉 대표성이 있고 선별되지 않은 일련의 대상자들을 대상으로 연 구가 진행되어야 한다. 만약 대상군으로 정상인군과 질환군을 포함하여 진단정확성을 산출하는 경우 효과의 크기가 과하게 측정될 가능성이 매우 높아진다.

1.9.3.2. 출판 비뚤림 평가

진단검사 체계적 문헌고찰에서는 핵심질문과 관련있는 연구보고들을 모아 결과를 합 성하게 된다. 그러나 경험적으로 통계적 유의성이 없는 연구(negative studies)는 출판 되지 않거나 혹은 유의미한 결과의 보고서에 비하여 상당히 늦은 시기에 발표되는 경향 을 보인다. 출판비뚤림은 퉁계적으로 무의미한 결과의 연구보고들이 상대적으로 출판되 지 않음으로 인해 주로 발생하며, 또한 체계적 문헌고찰이 일차연구가 충분히 이루어지

121 고 출판되기 전에 너무 빨리 일어나는 경우 상대적으로 유의미한 연구문헌들이 많이 포

함될 수 있으므로 결과의 편향을 유발할 개연성이 있다. 그러나 출판비뚤림이 존재하는 지 여부를 판단하기란 그리 쉬운 것은 아니다. 일반적으로 funnel plots 등의 결과의 분포 패턴을 통해 관찰하지만 판단에 주의를 요한다.

1.9.3.3. 비정밀성 평가

영문 그대로를 번역한다면 비정밀도 혹은 비정밀성으로 정밀성(precision)에 반대되 는 개념이라 할 수 있다. 검사의 진단정확성 평가시 통상적으로 한 연구내에서 검사법 을 반복 수행하였을 때 그 결과값이 측정목표치(measurement target)로부터 얼마 정 도의 범위내에 분포하는 가를 관찰하는 수치로서 정밀성을 측정한다. 지금 이 단원에서 표현하는 정밀성(precision)은 위의 경우와 동일한 용어를 사용하지만, 여기에서 지칭하 는 정밀성은 요약통계량(summary statistics)을 둘러싼 확실성 정도를 표현하는 것이 기 때문에 한글 번역을 신뢰구간 폭 평가라 하였다. 즉 메타분석을 한 경우라면 이 확 실성 정도는 신뢰구간으로 표현되기 때문이다. 진단검사법의 진단정확성 측정에서 신뢰 구간의 폭은 연구에 포함되는 대상의 개수에 의해 결정되며, 추정된 의료결과의 확실성 정도(degree of certainty)라 할 수 있다. 근거수준의 강등 여부를 결정하기 전에 체계 적 문헌고찰을 수행하는 연구자는 임상적으로 의미있는 의료결과에 어느 정도 수준까지 의 신뢰구간 폭이 수용 가능할 것인가에 대한 선행 결정을 하여야 한다. 만약 신뢰구간 의 폭이 임상적 의료결과에 주는 영향을 무시할 수 있는 정도라면, 근거수준의 하향조 정을 고려하지 않아도 된다.

1.9.3.4. 일관성 평가

일관성은 근거 합성에 포함된 연구 결과들의 효과의 크기와 방향에 균질성이 있는가 에 대한 고려이다. 중재법 연구들의 합성인 경우 이러한 일관성은 숲그림이나 ROC 그 래프 분석을 통해 시각적으로 측정할 수 있다. 그러나 진단검사의 진단능 평가의 경우 가장 흔히 사용되는 결과제시 형태는 여러 연구문헌으로부터 얻은 민감도와 특이도 결 과를 summary receiver operating characteristic (ROC) curve의 형태로 합성하는 것이다. 진양성 대 위양성률에 대한 bubble plot을 통해 ROC space에서 산포된 정도 를 표현하여 진단정확성 문헌의 일관성을 보여주는 방법으로 사용할 수 있다.

122

1.9.3.5. 직접연결성 평가

체계적 문헌고찰 혹은 진료지침의 시작점은 주요임상질문의 PICO 혹은 PIPOH 요소 들에 대해 명확하게 정의하는 것으로 부터이다. 근거의 합성에 포함되는 연구들의 대상 군, 중재법, 비교법 그리고 의료결과가 우리의 주요임상질문의 그것과 같다면 이러한 경우를 ʻʻ직접연결성이 있다ʼʼ라고 할 수 있다. 만약 그렇지 않은 경우라면 간접연결성인 경우로 판단하여 근거수준을 내려야 한다.

대상군과 중재법은 연구의 실제 적용성 측면의 주요 고려사항이므로, GRADE에서는 이 부분에서 적용성을 평가하도록 하고 있다.

진단의학검사의 경우 이를 실제 환자에게 적용한 의료결과는 환자의 사망률 감소 등, 건강상 이득이 있는지를 알아보고자 하는 것이다. 그러나 현실적 상황은 진단정확성라 는 중간의료결과를 측정한 연구가 대부분이고 이것이 현실적으로 가능한 범위의 진단검 사 연구의 전형이라 할 수 있다. 이러한 경우를 의료결과 측면에서의 간접연결성이 있 다라고 판단할 수 있다. 하지만 문제는 진단정확성과 최종의료결과 사이에는 항상 직접 적인 연관이 있지 않다라는 것이다. 그러므로 진단검사에 대한 체계적 문헌고찰에서는 진단검사이 최종의료결과까지의 연결고리를 분석한 ʻʻ진단-의료결과 경로ʼʼ를 잘 구축하 는 것이 각 단계별 의료결과에 대한 근거의 합성과 판단이 도움이 될 수 있다. 만약 합 성하고 결정하고자 하는 의료결과가 진단정확성과 같은 중간의료결과라면 근거수준의 평가 과정에서 수준강등(downgrade)은 필요하지 않다. 그러나 환자의 건강상 이득이나 손해와 같은 최종의료결과라면 근거수준은 강등되어야 할 것이다. 진단정확성에서 얻는 진양성(TP)이나 위양성(FP), 진음성(TN), 위음성(FN)이 환자의 치료 등 의료에서 초래 하는 예상되는 결과를 정리하여 진단정확성이라는 중간의료결과와 최종의료결과를 연결 하는 결정수형모형을 이용하는 것도 도움이 될 수 있다. GRADE에서는 이 내용을 표로 정리하여 최종권고안 도출 합의 과정에서 패널들에게 제시하는 방법을 사용하고 있다.

1.9.3.6. 근거수준의 상향 조정

진단검사의 근거수준을 결정하고자 하는 경우 부가적으로 효과의 크기, 잠재적 혼란 요인의 영향에 대한 고려, 용량-반응 연관성 등의 요소를 고려하여 근거수준을 조정한 다. 효과의 크기에 대한 고려는 두 가지의 진단검사를 비교한 경우라면 한 가지의 정확 성이 다른 것에 비하여 유의미하게 큰 경우 근거수준을 상향 조정하도록 한다. 이 때

123 잠재적 혼란요인에 기인하는 비뚤림의 영향은 아니어야 한다. 진단검사의 관찰연구에서

는 때로 잠재적 혼란요인에 의해 효과가 반대의 방향으로 측정될 수 있다. 이러한 혼란 요인이 관찰되지 않으면서 효과의 크기가 큰 경우 근거수준을 한 단계 상향 조정하도록 한다. 이러한 관찰연구의 혼란요인으로 스펙트럼 효과로 인해 낮은 진단정확성이 높게 측정되는 비뚤림이 발생하는 것을 들 수 있다. 용량-반응 연관성은 검사의 결과와 그 효과 사이에 연관성이 일관되게 관찰되는 경우를 말하며, 이 경우 근거수준을 상향 조 정한다. 이러한 용량-반응 연관성을 보이는 대표적인 검사의 예로 PSA 혹은 유전자발

는 때로 잠재적 혼란요인에 의해 효과가 반대의 방향으로 측정될 수 있다. 이러한 혼란 요인이 관찰되지 않으면서 효과의 크기가 큰 경우 근거수준을 한 단계 상향 조정하도록 한다. 이러한 관찰연구의 혼란요인으로 스펙트럼 효과로 인해 낮은 진단정확성이 높게 측정되는 비뚤림이 발생하는 것을 들 수 있다. 용량-반응 연관성은 검사의 결과와 그 효과 사이에 연관성이 일관되게 관찰되는 경우를 말하며, 이 경우 근거수준을 상향 조 정한다. 이러한 용량-반응 연관성을 보이는 대표적인 검사의 예로 PSA 혹은 유전자발

문서에서 진단 검사 체계적 문헌고찰 (페이지 142-147)