진단 검사 체계적 문헌고찰

(1)

Systematic Review of Diagnostic Tests

Version 1.0

진단 검사 체계적 문헌고찰

(2)

(3)

또한, 본 책자의 내용을 인용할 때에는 반드시

한국보건의료연구원에서 수행한 연구사업의 결과임을 밝혀야 합니다.

NECA 연구방법 시리즈 9 진단 검사 체계적 문헌고찰

인 쇄: 2014년 1월 20일 초판 1쇄 발행 발행인: 임태환

발행처: 한국보건의료연구원

서울시 중구 퇴계로 173(충무로 3가) 남산스퀘어빌딩 7층 Tel. 02-2174-2700

Homepage: www.neca.re.kr ISBN 978-89-6834-080-2 (세트)

(4)

Copyright@ National Evidence-based Healthcare Collaborating Agency, 2014.

First edition

Published by NECA January 2014

All rights reserved. Reproduction of this book by photocopying or electronic means for non-commercial purposes is permitted except those copyrighted materials noted for which further reproduction is prohibited without the specific permission of copyright holders. Otherwise, no transmitted by any means, electronic, mechanical, photocopying or otherwise without the prior written permission of NECA.

Comments and suggestions on the contents of this book can be made at www.neca.re.kr

(5)

본 매뉴얼은 다음과 같이 인용될 수 있습니다.

박동아, 황진섭, 이선희, 최원정, 설아람, 오성희, 이자연, 이유경, 이동효, 최슬기.

진단 검사 체계적 문헌고찰. 한국보건의료연구원. 2014.

Suggested citation:

DA Park, JS Hwang, SH Lee, AR Sul, WJ Choi, SH Oh, JY Lee, YK Lee, DH Lee, SG Choi.

Systematic review of diagnostic tests. National Evidence-based Healthcare Collaborating Agency. 2014.

(6)

박동아 부연구위원

한국보건의료연구원 보건의료근거연구본부 황진섭 부연구위원

한국보건의료연구원 보건의료근거연구본부 이선희 선임연구위원

한국보건의료연구원 보건의료근거연구본부 설아람 부연구위원

한국보건의료연구원 신의료기술평가사업본부 최원정 부연구위원

한국보건의료연구원 신의료기술평가사업본부 오성희 주임연구원

한국보건의료연구원 보건의료근거연구본부 이자연 연구원

한국보건의료연구원 보건의료근거연구본부 이유경 순천향대학교 의과대학 교수

이동효 우석대학교 한의과대학 교수 최슬기 연구사

한국보건의료연구원 보건의료근거연구본부

(7)

국민에게 양질의 의료를 제공하고 의료자원을 적절하게 활용하는 것은 대다수 국가들이 주요 의 료정책 과제로 추구하고 있는 현안이며, 우리나라에서도 지속적인 정책과제가 되어 왔습니다. 특 히 최근에는 국제적으로 한정된 의료자원을 효과적으로 투입하여 국민 건강을 향상시키기 위한 전략으로서 과학적 ‧ 합리적인 근거를 기반으로 한 정책의사결정에 대하 관심이 높아지고 있습니 다. 국내에서도 이에 대한 필요성과 공감대가 높아지고는 있으나 근거중심 보건의학을 위한 체계 적이고 통일된 방법은 수립되지 못하고 있고 연구수준도 걸음마 단계에 놓여있는 실정입니다.

한국보건의료연구원에서는 개원 이래 지금까지 보건의료분야의 현안들에 대한 의료기술평가연구 들을 진행하여 연구 결과를 실제 보건의료 정책 의사결정에 활발하게 적용할 수 있도록 노력을 지속해 왔습니다. 또한 국내에서 우리 현실에 적합한 접근방안을 고민할 필요가 있다는 판단 하 에 의료기술평가연구를 진행하는데 있어 여러 필수적인 연구방법론들의 표준화에 노력하는 한편, 활용을 촉진시키기 위한 기관 차원의 다양한 노력을 지속해 왔습니다.

그리고 그간 축적된 연구경험을 바탕으로 국내 연구자들에게 더 분명하고 일반화 가능한 연구 결 과를 도출하기 위해 필요하다고 여겨지는 연구방법론들을 정리한 「체계적 문헌고찰 매뉴얼」,

「임상진료지침 개발 매뉴얼」, 「신의료기술평가 체계적 문헌고찰 지침」, 「베이지안 메타분석 법」, 「보건의료분야에서 비용산출방법」, 「국내 보건의료 이차자료원 활용」, 「측정된 교란 요인을 고려한 성과분석 방법」, 「한국적 상황을 고려한 비교효과연구 방법」의 NECA 연구방 법 시리즈를 발간한 바 있습니다.

이를 필두로 베이지안 메타분석의 단계별 적용방법의 국제적 확산을 위해 「베이지안 메타분석 법」의 영문버전인 ‘Bayesian meta-analysis method’와 진단 검사에 대한 체계적 문헌고찰 연구방법론을 정리한 ‘진단 검사의 체계적 문헌고찰’ NECA 연구방법 시리즈를 발간하게 되었 습니다.

(8)

NECA 연구방법론 시리즈가 연구결과를 일반화하고 비뚤림없이 적용가능한 정보를 제공하는데 밑바탕이 되어 과학적 ‧ 합리적인 근거를 제시하는데 도움이 되기를 바랍니다. 아울러 이번 연구 방법론 시리즈 출간을 계기로 국내 연구여건에 부합된 방법론 정립과 활성화를 위한 많은 논의와 시도가 이루어지기를 기대하며, 이로 인해 보건의료정책의 합리성을 높일 수 있는 근거창출 연구 기반이 더욱 공고해지기를 바랍니다.

2014년 1월 한국보건의료연구원장 임 태 환

(9)

한국보건의료연구원의 사명은 과학적 근거제시를 통한 국가의료자원의 효율적 이용과 국민건 강 향상에 기여하는 것입니다. 체계적 문헌고찰은 우리의 사명을 이루기 위한 가장 중요한 기 능인 과학적 근거제시를 위해 활용하는 핵심적인 연구방법론 중 하나입니다. 체계적 문헌고찰 은 현재 신의료기술평가사업을 통한 의료기술의 안전성‧유효성 평가뿐 아니라 한국보건의료연 구원의 의료기술평가 연구수행의 주요 방법론으로 활용되고 있으며 이에 대한 국내 근거중심 보건의료에 관심있는 연구자 및 관계자들을 위하여 그간 중재법에 기초한 ‘NECA 체계적 문 헌고찰 매뉴얼’과 ‘신의료기술평가 체계적 문헌고찰 지침’을 발간하여 제공하고 있습니다.

최근들어 진단 의료기술의 발전이 두드러지면서 이에 대한 의료기술평가의 중요성도 커지고 있으며 진단 검사의 체계적 문헌고찰을 수행할 때 참고할 만한 지침을 유수의 국외 의료기술 평가 관련 기관에서 발간하고 있습니다. 대표적으로 영국 CRD (Centre for Reviews and Dissemination)에서 2009년 진단 및 예후 검사에 대해 한 챕터로 구성되어 있는 전체 영역을 아우르는 체계적 문헌고찰의 방법에 대해 기술한 ‘Systematic Reviews'를 출간하였으며, 미 국의 AHRQ (The Agency for Healthcare Research and Quality)에서는 2012년 ’Methods Guide for Medical Test Reviews'를 발간하여 의학 검사법 평가시 수행되는 방법과 함께 이론 적 내용을 기술하고 있습니다. 또한 체계적 문헌고찰의 교과서로 간주되는 코크란 핸드북은 중재법 위주의 방법론 가이드로, 진단 검사에 대해서는 아직 완성본으로 출판되지 못한

‘Cochrane Diagnostic Test Accuracy Handbook’의 일부 챕터(문헌선택기준 선정, 문헌검 색, 방법론적인 질 평가, 결과분석 및 제시)가 최근 공개되었습니다.

그러나 위 지침들은 개괄적으로 이론적인 내용을 중심으로 기술되어 있거나 진단 검사 체계적 문헌고찰의 전 단계를 아우르지 못하거나 실제로 쉽게 이해할 수 있고 활용가능한 정보가 산 발적으로 제공되고 있는 단점을 지닙니다. 따라서 한국보건의료연구원에서는 체계적 문헌고찰 을 통해 진단 검사뿐 아니라 의료기술평가를 주도적으로 수행하는 연구기관으로서 위의 지침 들을 고찰하고 NECA에서 수행하는 진단검사 체계적 문헌고찰에 대한 매뉴얼을 만들어 출판 함으로써 내부 연구진은 물론 국내 관련 연구자들에게 도움을 주고자 합니다. 이는 NECA가 의료기술평가를 수행하는 국내 유일의 기관으로서 근거기반 연구방법론을 확산하기위한 사명 을 가지고 있으며 이와 관련한 실행 방안으로서 중요하게 수행하고 있는 연구사업입니다.

체계적 문헌고찰(systematic review, SR)은 특정 연구질문을 설정하여 체계적인 방법에 따라 일차 문헌들을 수집 및 선정하여 비평적으로 평가한 후 종합적인 결론을 도출하는 이차 연구 방법입니다. 체계적 문헌고찰이 수행되는 영역은 중재, 진단, 예후, 원인, 예방 및 경제적 영향 등 다양합니다. 체계적 문헌고찰은 일차연구문헌을 연구 재료로 활용하기 때문에 일차연구의

(10)

질(quality)이 상당히 중요하게 영향을 미칩니다. 따라서 영역들 중 가장 true를 답할 수 있는 RCT(randomized controlled trials)가 잘 수행될 수 있는 분야일수록 SR 방법론이 빠르고 견고 하게 정립되어 대표적으로 중재법에 대해서는 의견합일된 SR 가이드라인이 존재합니다. 반면, 진단 검사 SR의 가이드라인이 최근에 들어서야 활발히 출판되는 이유에는 진단검사가 가지는, 진단 검사 연구문헌이 가지는, 진단 검사 연구방법이 가지는 많은 제한점으로 인해 실제 SR 수행 시 고려해야 할 점이 상당히 다양하고 많으며, 수행 자체가 어렵고, 관련한 경험적 근거 의 축적에 시간이 오래 소비된 것이 원인이라 할 수 있습니다. 특히, 진단 검사의 평가 범주 는 안전성 및 진단 정확성, 임상적 타당성, 임상적 유용성, 사회·윤리적 영향에 이르기 까지 중재에 비해 넓고 복잡하면서 방법론상 명확성이 떨어지는 한계가 있습니다.

본 매뉴얼은 진단검사 SR을 수행함에 있어 중재법의 수행과 유사한 경우는 이전 NECA 매뉴 얼을 참고하도록 하였으며, 진단 검사 SR 수행에 있어 특수한 부분이나 유의할 점이 있는 경 우에 이를 중점으로 기술하였습니다. 따라서 진단 검사 SR의 평가범주 중 안전성, 치료에 미 치는 영향 및 환자 의료결과에 미치는 영향과 같은 범주를 평가하는 방법들은 중재법에서의 기본 개념을 따르는 것이 일반적이므로(NECA SR 매뉴얼 참고) 진단 검사가 가지는 특성인

‘진단 정확성’에 초점을 두었습니다. 다만, 진단 검사의 영역이 병리학, 영상의학, 일반화학 검사 등 전문 영역별로 진단검사에 대한 접근 방법이 다를 수 있고 연구문헌을 고려하거나 체계적 문헌고찰의 방법론을 적용할 때 중요하게 다루어야 하는 부분이 상이할 수 있습니다.

본 매뉴얼에서는 실제 예시와 함께 상세한 설명을 제공하여 독자의 이해를 높이고자 하였으나 부족한 부분이 있을 수 있음을 알려드리며 이는 앞으로 매뉴얼을 보완하는 과정에서 대표 사 례를 검토하여 표준적으로 제시할 수 있는 내용을 차후 추가하도록 하겠습니다.

끝으로 이 책을 만드는데 많은 수고를 아끼지 않은 이선희 선임연구위원, 설아람 부연구위원, 최원정 부연구위원, 오성희 주임연구원, 이자연 연구원, 최슬기 연구사와 순천향대학교 의과대 학 이유경 교수님과 우석대학교 한의학대학 이동효 교수님께 감사드리며, 매뉴얼 개발에 아낌 없는 자문을 주신 고려대학교 의과대학 이준영 교수님, 한림대학교 의과대학 김수영 교수님, 성균관대학교 의과대학 기창석 교수님과 순천향대학교 의과대학 전병렬 교수님께도 감사드립 니다. 매뉴얼 내용을 꼼꼼히 검독하고 의견을 개진해주신 서울대학교 의과대학 한서경 교수님, 연세대학교 보건대학원 남정모 교수님과 아주대학교 의과대학 신승수 교수님께도 진심으로 감 사를 드립니다. 아울러 매뉴얼 발행에 많은 관심과 지원을 아끼지 않으신 임태환 원장님과 안 윤옥 본부장님께도 감사인사를 올립니다.

2014년 1월 박 동 아 · 황 진 섭

(11)

(12)

1. ｢진단 검사 체계적 문헌고찰｣은 한국보건의료연구원에서 진단 검사 체계적 문헌고 찰 연구 수행 시의 방법론을 정리한 한국보건의료연구원의 공식 책자입니다.

2. 본 매뉴얼은 ｢진단 검사｣에 대한 체계적 문헌고찰에 한하여 적용할 수 있도록 개발 된 매뉴얼이며 부가적으로 유전자 검사와 예후 검사의 체계적 문헌고찰 수행 시 활 용 가능한 방법 및 고려사항 등을 추가하였으니 참고하기기 바랍니다.

3. 본 매뉴얼은 한국보건의료연구원에서 수행하는 진단 검사 체계적 문헌고찰 연구 시 이를 따르도록 권장되지만 연구 주제에 따라 사유를 밝히면서 수정 적용하여 사용 할 것을 권합니다.

4. 본 매뉴얼은 한국보건의료연구원을 제외한 다른 기관이나 단체, 연구진이 체계적 문 헌고찰 연구를 수행할 경우 활용될 수 있으며 연구 상황에 따라 수정 적용하여 사 용하되, 본 매뉴얼에 대한 출처를 밝히도록 합니다.

5. 본 매뉴얼은 한국보건의료원 홈페이지에서 PDF 파일로 다운로드가 가능합니다.

(한국보건의료연구원 홈페이지 http://www.neca.re.kr)

6. 본 매뉴얼은 정기적으로 개정될 예정이며 관련된 문의 및 건의사항은 한국보건의료 연구원(neca@neca.re.kr)으로 해주시기 바랍니다.

(13)

PART 1. 진단 검사

의 체계적 문헌고찰

1.1. 개요 2

1.2. 진단 검사 체계적 문헌고찰 주제 및 핵심질문 선정 18

1.3. 연구 프로토콜 작성 22

1.4. 문헌검색 45

1.5. 문헌선택 및 분류 69

1.6. 문헌의 질 평가 78

1.7. 자료추출 95

1.8. 자료분석 및 결과제시 104

1.9. 근거수준 평가와 결론 도출 117

1.10. 보고서 작성 128

PART 2. 진단 검사

의 메타분석

2.1. 개요 138

2.2. 진단 검사 메타분석 모형 148

2.3. 진단 검사 메타분석의 이질성 검토 166

2.4. 프로그램 173

PART 3.

Special topics

3.1. 예후 검사에 대한 체계적 문헌고찰 190 3.2 유전자 검사에 대한 체계적 문헌고찰 206

(14)

부록

부록 1. DB목록 232

부록 2. QUADAS-2 평가도구 236

부록 3. Revman 5.2를 활용한 QUADAS-2 질 평가 240

부록 4. 통계 프로그램 245

용어정리 284

색인 287

(15)

Part 1. 진단검사의 체계적 문헌고찰

1. 주제 및 핵심질문 선정

∙ 진단검사의 체계적 문헌고찰을 수행할 때 진단 검사 연구의 특성뿐 아니라 진단 검사가 임상 현장에서 어떠한 맥락에 위치하고 역할하는지를 규명하는 것이 필요하다.

∙ 진단검사 SR의 주제를 선정하고 핵심질문을 확정하는데 있어 진단 검사의 ‘causal pathway' 를 고려해야 하며 이를 효율적으로 수행하기 위하여 분석적 틀(analytic framework)을 활용하는 것이 추천된다.

2. 연구 프로토콜 작성

∙ 체계적 문헌고찰의 기획단계에서 연구진 및 자문진 구성, 핵심질문 작성 및 기존 연구 검토의 과정을 수행한다. 핵심질문은 P(P)IC(R)O 양식을 활용하여 명확하고 구체적으로 작성한다.

∙ 프로토콜은 연구 시작 전에 작성하며, 연구제목 ,연구배경, 연구목적 및 핵심질문, 연구방법의 순서로 구성된다. 연구방법에는 문헌검색 전략, 문헌 선택기준, 문헌의 질 평가 방법, 자료추출 방법, 자료분석 방법, 근거수준 평가 방법 등이 기술된다.

∙ 프로토콜은 관련 전문가들로부터 자문을 받아 완성하게 되며, 연구 진행 중에 개정할 경우에는 해당 내용을 기록한다.

3. 문헌검색

∙ 연구주제와 관련된 임상문헌을 찾기 위해 MEDLINE, EMBASE, The Cochrane library와 같은 주 요 국외 데이터베이스와 국내 데이터베이스인 KoreaMed, 한국의학논문데이터베이스(KMbase), 학술데이터베이스검색(kstudy), 한국교육학술정보원(riss), 국회도서관(nanet), 국립중앙도서관, 국 가자료공동목록시스템(kolisnet), 과학기술학회마을(kisti)를 검색한다.

(16)

∙ 진단 검사와 관련된 문헌을 검색하기 위한 기본 검색전략은 중재검사(index test) 영역의 용어 들과 대상 질환상태(target population) 영역의 용어들을 조합하는 것이다.

∙ 검색전략은 정밀도가 낮아지더라도 민감도를 최대화하는 방향으로 구축해야 한다.

∙ 진단 검사와 관련된 문헌은 놓치기 쉬우므로 해당 전문분야 학회지나 제조회사, 식약처 등 데 이터베이스 이외의 다양한 출처 및 수기검색 등을 시도해볼 수 있다.

∙ 문헌검색은 반복적인 작업을 통해 수행되는 과정이며 진단 검사의 특성과 해당 체계적 문헌고 찰의 평가 범위를 고려할 때 검색필터 사용에 제한이 있을 수 있다.

4. 문헌선택 및 분류

∙ 문헌선택 및 배제기준은 PICO를 근간으로 프로토콜에 정의되어야 한다.

∙ 문헌선택 및 분류는 명료해야 하며, 최소한 두 명의 연구자가 독립적으로 수행하여야 하며, 의 견불일치가 있을 경우 연구자간 합의하거나 제 3자의 개입을 통해 해소하도록 한다.

∙ 문헌선택의 과정은 중복문헌 배제, 문헌선택기준에 따라 제목 및 초록 확인 후 1차 배제, 전문 확인 후 2차 배제의 과정을 거친다.

∙ 배제된 문헌은 배제사유와 함께 목록으로 남겨야 하며, 흐름도를 이용해 문헌선택 과정을 보고 하도록 한다.

∙ 진단검사 연구는 결과지표에 따라 임상적 효과 연구, 진단정확성 연구로 분류되며, 그에 따라 연구설계 및 문헌분류가 구분되어진다.

(17)

∙ 진단정확성 연구의 질 평가 시 일차 연구에 대한 개별 항목의 질을 평가하는 점검목록 (checklist) 사용이 적합하며, 평가도구로서 Quality Assessment of Diagnostic Accuracy Studies-2 (QUADAS-2)의 사용을 권고한다.

∙ QUADAS-2를 사용하는 질 평가는 다음의 4 단계로 이루어진다. 첫째, 연구 질문(review question)을 보고한다. 둘째, 평가문항 적용을 위한 가이드라인(review-specific guidance)을 개 발한다. 셋째, 일차 연구에 대하여 발표된 흐름도(flow diagram)를 고찰하거나 보고된 것이 없 을 경우 흐름도를 구축한다. 넷째, 비뚤림과 적용성을 판단한다.

∙ QUADAS-2는 환자선택(patient selection), 중재검사(index test), 참고표준 검사(reference standard), 연구진행과 시점(flow and timing)의 4가지 주요 영역으로 구성되며, 영역별 핵심 질 문들(signaling questions)은 연구의 특성에 따라 추가하거나 생략할 수 있고, 비뚤림 위험 및 적용성에 대한 우려(concerns about applicability)에 대하여 평가한다.

∙ 질 평가의 결과 제시는 도표화하여 표현할 수 있으며, 메타회귀분석이나 하위그룹 분석, 민감 도 분석에 활용된다.

6. 자료추출

∙ 자료추출은 진단검사 연구에 보고된 정보 중 평가목적에 따라 필요한 것을 계획된 형식에 따 라 추출하는 과정을 말한다.

∙ 자료추출 형식은 체계적 문헌고찰의 목적을 달성할 수 있도록 주의깊게 결정해야 한다. 연구설 계에 따라 동일한 표본으로 여러 평가자의 시험 평가(pilot test)를 통해 개발되어야 한다.

∙ 자료는 다양한 형식으로 보고되었을 수 있으므로, 필요 시 자료변환(conversion)도 고려해야 한다.

∙ 진단검사 연구에서 메타분석을 위한 자료추출은 진단정확성을 계산할 수 있는 2×2표로 추출 하여야 하며, 진단정확성 관련 용어의 개념과 산출공식을 숙지하는 것이 필수적이다.

(18)

7. 자료분석 및 결과제시

∙ 진단 검사 체계적 문헌고찰에서의 자료분석 방법에는 정성적 방법과 정량적 방법이 있으며 정 량적 합성의 경우 흔히‘메타분석’으로 표현된다.

∙ 진단 검사 체계적 문헌고찰에서 임상적 유용성까지 고찰하는 경우는 중재 SR과 유사한 분석 방법이 수행될 수 있지만, 진단 정확성 부분에서는 진단 정확성 지표 분석, Coupled forest plot, SROC 곡선, 이변량 메타분석, HSROC 등 진단 검사에 특징적인 분석 방법이 다양하게 활용될 수 있다.

∙ 진단 정확성 영역의 결과 제시는 선택문헌의 특성표, 개별연구들의 진단 정확성 지표들에 대한 자료 제시표, 이변량 모형 등을 이용한 정량적 결과 제시표 및 SROC나 HSROC 등과 같은 그 래프가 제시될 수 있다.

8. 근거수준 평가와 결론 도출

∙ 근거수준의 평가는 근거자료의 비뚤림 위험, 비일관성, 비직접성, 비정밀성, 출판비뚤림, 효과의 크기와 용량-반응 연관성, 혼란변수의 영향 평가를 통해 이루어진다.

∙ 근거수준은 높음, 중간, 낮음, 매우 낮음의 4단계로 구분한다.

∙ 종합적 근거수준을 평가하는데 있어 중요한 것은 진단-의료결과 경로 분석에서 관련성이 있는 주요 임상질문 또는 주요 의료결과에 대하여 무엇이 우선적으로 고려되어야 하는지에 대한 결 정이 필요하다.

∙ 진단검사에 대한 연구는 주로 진단정확성에 대한 연구문헌들이 주를 이루며, 환자의 최종의료 결과에 미치는 영향, 즉 임상적 유용성에 대한 연구는 찾아보기 어렵다. 그러므로 진단검사에 서는 진단정확성 결과를 토대로 임상적 유용성에 대한 결론을 도출하여야 한다.

(19)

한 메타분석 보고지침인 MOOSE (Meta-analysis of Observational Studies in Epidemiology) 체크리스트(Stroup 등, 2000)도 참고할 수 있다.

∙ 보고서 작성은 체계적 문헌고찰의 명확성 및 재현가능성을 확인할 수 있도록 작성되어야 하지 만 보고서나 본문에 모든 내용을 기록할 수 없을 경우, 부록을 이용하여 상세 내용을 보고하도 록 한다.

Part 2. 진단검사의 메타분석

1. 진단검사 메타분석

∙ 진단 정확성 연구는 중재법 연구와 다르게 두 가지 척도(예. 민감도/특이도, 양성예측도/음성예 측도, 양성우도비/음성우도비 등)를 동시에 보고한다.

∙ 진단 정확성 연구에는 역치효과가 존재하며 이를 고려한 메타분석 모형이 필요하다.

2. 진단 검사 메타분석 모형

∙ 민감도와 특이도의 관련성을 고려한 모형으로 Moses-Littenberg SROC 모형과 계층적 모형(이 변량 모형, Rutter & Gatsonis HSROC 모형)이 일반적으로 널리 활용되고 있다.

∙ Moses-Littenberg SROC 모형은 초기에 만들어진 모형으로 중재법의 고정효과 모형과 마찬가 지로 이질성을 파악할 수 없고 요약추정치 정보를 제공하지 않는다.

(20)

∙ 이변량 모형은 민감도와 특이도의 요약추정치와 이들의 상관관계를 직접적으로 추정하고 이를 바탕으로 SROC 곡선을 제공하며 요약추정치의 신뢰영역 및 예측영역을 함께 제공한다. 하지 만 연구 수가 적은 경우 HSROC 모형에 비해 잘 수렴하지 않는 경우가 발생한다.

∙ HSROC 모형은 요약추정치를 제공하지 않으며 직접적으로 SROC 곡선을 추정한다. 이변량 모 형에 비해 연구 수가 적은 경우에도 잘 수렴하지만 이변량 모형에 비해 이질성 검토 단계가 복잡하다.

∙ 이러한 모형을 적용하기 위한 소프트웨어로는 SAS, R, Stata 가 있으며 이들 소프트웨어를 중 심으로 진단 검사 메타분석 수행 시 참고 할 수 있는 명령문을 정리하여 제공하였다.

∙ 사후분포를 기반으로 모수를 추정하는 이변량모형의 베이지안 추론방법을 정리하였다. 이러한 베이지안 모형은 랜덤효과의 정규분포 가정 이외에도 여러 가지 분포를 적용할 수 있으며, 메 타분석에 포함되는 연구의 수가 작은 경우에 효과적이다.

3. 진단 검사 메타분석의 이질성 검토

∙ 이변량 모형에서 추정되는 상관계수의 부호 및 연구 간 변동과 연구 내 변동의 비교, 예측영역 을 이용하여 이질성의 정도 및 존재여부를 파악할 수 있다.

∙ 이변량 모형과 HSROC 모형에 이질성의 원인으로 생각되는 공변량을 모형에 포함하여 그 회 귀계수의 유의성을 바탕으로 이질성의 원인을 파악할 수 있다.

∙ 2개 이상의 진단 검사법에 대한 진단 정확성을 비교하는 것을 주요 목적으로 하는 경우 계층 적 모형의 이질성 검토방법과 동일하게 진단 검사법의 종류를 공변량으로 추가하여 그 회귀계 수의 유의성을 바탕으로 진단 검사법 간의 진단 정확성을 비교할 수 있다.

(21)

∙ 예후 검사에 대한 임상적 유용성은 환자들의 향후 건강에 대해 정확한 예측 정보를 제공하고 이들을 다양한 예후 그룹들로 분류해내는 능력에 좌우된다.

∙ 예후 검사의 체계적 문헌고찰을 수행하는 방법은 아직 명확히 확립되지 않았으며, 여기에 토의 된 이슈들은 고찰을 계획하고 수행할 때 고려할 필요가 있는 사항이다.

∙ 검사법의 예후 연구에 대한 문헌검색은 무작위배정 임상시험연구를 주로 사용하는 중재법의 체 계적 문헌고찰보다 연구를 놓칠 위험이 크기 때문에 수행하기 어렵다.

∙ 예후 변수는 질병 진행과정의 동일 시점에 모인 환자들의 대표 표본에서 평가되어야 한다. 이상 적으로 그들은 모두 동일한 의학적 치료를 받았거나 무작위배정 임상시험에 포함되어야 한다.

∙ 예후 검사에 대한 일차연구의 방법론적 질 수준을 평가하기 위한 표준적인 방법은 정립되지 않았으며, 예후 연구들은 흔히 방법론적인 타당성이 부족한 것으로 알려져 있다.

∙ 출판된 데이터에 근거한 메타분석은 연구 방법과 결과의 보고가 불충분하고 연구와 환자 특성 간의 변이가 크기 때문에 시행되지 못할 수 있다.

∙ 예후 검사의 체계적 문헌고찰과 메타분석의 핵심적인 통계자료는 예측군에 대한 다양한 일반적 특성, 위험 수준 및 결과 발생률이다.

∙ 일반적으로 많이 수행되는 예후 검사와 환자 결과간의 연관성에 대한 고찰은 중재 예후 검사 의 많은 발전이 이루어져야 한다는 것을 결정하는 것 이외 큰 영향을 주지 못한다.

(22)

2. 유전자 검사에 대한 체계적 문헌고찰

∙ 유전자 검사에 대한 체계적 문헌고찰은 유전자 검사의 목적에 대한 이해가 먼저 필요하다.

∙ 유전자 검사는 분석적 타당도, 진단 정확성, 임상적 유용성, 사회적 중요성을 고려한 평가가 필 요하다. 특히, 윤리적인 관점에 대한 고려가 이루어져야 한다.

∙ 유전자 검사에 대한 결론을 도출 시 윤리적, 사회적, 법적인 관점도 충분히 고려하여야 한다.

∙ 유전자 검사의 예측적 특성을 반영하고 적절한 결과를 포함하는 분석틀을 개발하여야 한다.

∙ 환자-대조군 연구를 평가할 때 잠재적 선택 비뚤림에 유의하여 평가하여야 한다.

∙ 기존의 위험 평가에 더불어 유전자 검사의 추가적 가치를 확인하여야 한다.

∙ 유전자 검사에 특정하게 관련된 통계학적인 문제를 이해해야 한다.

∙ 유전자의 기능과 질환과의 관련성 평가시, 고려해야할 잠재적 비뚤림의 위험을 고려하여야 한다.

(23)

(24)

PART 1 진단 검사의 체계적 문헌고찰

1.1 개요

1.2 진단 검사 체계적 문헌고찰 주제 및 핵심질문 선정

1.3 연구 프로토콜 작성 1.4 문헌검색

1.5 문헌선택 및 분류 1.6 문헌의 질 평가 1.7 자료추출

1.8 자료분석 및 결과제시 1.9 근거수준 평가와 결론 도출 1.10 보고서 작성

(25)

2

1.1. 개요

새로운 진단검사의 개발과 도입은 급격히 증가하고 있으며, 이에 따라 진단검사 기술 을 평가한 연구의 수 또한 증가하고 있으나 진단검사 평가의 방법론은 아직 미흡한 상 태이다. 치료적 유효성에 대한 방법론이 지속적인 발전을 이루고 있는 반면, 진단검사 를 위한 방법론은 질병의 조기 선별이나 진단의 유용성에도 불구하고 구체화 되어있지 않다.

진단은 질병 치료의 과정에서 가장 중요한 의학적 중재이며, 증상과 호소에 대해 분 류하고, 가능성 있는 질환과 그 예후를 제시한다. 보건의료의 질은 증상에 대한 정확한 해석과 진단과정의 결과에 크게 영향을 받으며, 검사의 부정확한 진단정확성은 부적절 한 치료나 잘못된 치료로 이어질 뿐 아니라 불필요한 비용을 발생시킬 수 있다. 이에 현재 진단검사 연구가 가지는 특성을 파악하고 이들을 이용하여 수행되는 진단 검사 체 계적 문헌고찰 시 고려해야 할 사항을 살펴보고자 한다.

1.1.1. 진단 검사 연구의 분류

1.1.1.1. 진단 검사의 역할별 분류

새로 도입된 진단검사의 역할에 따라 평가 시 중점을 두는 의료결과의 종류가 달라 진다. 새로 개발된 검사는 기존 검사를 대체(replacement)하거나, 선별분류(triage) 기 능을 하거나 혹은 추가적인(add-on) 검사로서의 역할을 수행하게 된다. 이에 따른 검 사 전략 및 평가 방법은 달리 적용되어야 한다(그림 1-1).

대체검사의 경우에는 기존 검사와 동등하거나 우월한 진단정확성을 확보해야 하지만, 선별분류(triage)검사나 추가검사로서의 역할을 하는 검사를 평가할 경우에는 민감도 또는 특이도 중 하나가 기존 검사보다 우월할 경우 사전 선별검사 또는 검사 후 확진검 사로서의 기능을 하게 된다. 따라서 각 검사의 역할은 평가 시작 전에 반드시 정리해야 할 사안이다.

(26)

3 그림 1-1 새로 개발된 검사기술의 역할별 분류 (Bossuuyt, 2006)

1.1.1.2. 진단검사의 목적별 분류

진단검사는 목적에 따라 평가해야 할 초점이 달라진다. 목적별로 평가에 포함해야 할 의료결과가 다르며, 진단검사의 권고 시 해당검사의 목적별 유효성을 제시해야한다.

￭ 질환의 진단

진단검사가 질환의 유무에 대한 진단정확성에 있어서 충분한 판별력을 가지고 있는 지를 확인한다. 참고표준검사의 결과와 비교하여 2×2표로 정리할 수 있으며, 이러한 방법은 동일 목적을 가진 다양한 검사에 적용할 수 있다. 예를 들어 초음파 검사와 같 은 덜 침습적인 검사가 혈관조영술과 같은 보다 침습적인 검사와 비교하여 진단정확성 이 유사하거나 더 나을 수도 있다. 우선순위를 판단하기는 어려우나, 보다 경제적이고 덜 침습적인 진단검사를 사전 진단과정에 추가할 수 있을 것이다.

￭ 질환의 선별

선별검사는 질환을 진단하기 위한 사전단계의 검사로서 기존의 진단검사를 시행할지 의 여부를 결정하여 불필요한 검사를 줄일 수 있다. 민감도가 높아야 하나 위양성에 주 의를 기울여야 한다.

(27)

4

￭ 치료방법에 대한 의사결정

더 나은 진단은 치료적 관리를 위한 의사결정에 기여한다. 예를 들어, 병변의 위치나 형태를 판별함으로써 보다 우선하는 치료방법을 선택할 수 있다.

￭ 치료과정 모니터링

질병의 진행 경과 또는 치료 후의 반응, 건강상태 등을 모니터링 하여 치료를 지속 할 것인지의 여부를 결정한다.

￭ 질환의 예후사정

진단 결과의 양상과 중증도에 기초하며, 임상 추적관찰의 계획과 정보 제공을 위한 시작점이 된다. 질환의 예후는 치료방법의 변경에 대한 의사결정에도 기여한다.

(28)

5

1.1.2. 진단 검사 연구의 구조

진단검사에 대한 임상연구는 약물 및 중재 임상연구의 일반적인 단계와 다소 차이가 있다. 대표적으로 Sackett(2002)은 진단검사의 임상연구를 수행할 때 각 단계별 연구 질문을 정리하였으며, Gluud(2005)는 진단검사 임상연구의 단계를 정의하고 유사한 맥 락으로 임상연구의 구조를 설명하였다.

진단검사의 임상연구는 대상 검사의 분석 성능을 확인하는 초기 단계에서 진단정확 성을 확인하는 단계, 임상 현장의 진단검사를 수행할 의심 환자에 있어서 검사가 의료 결과에 미치는 영향인 임상적 유용성을 확인하는 단계로 발전한다. Sackett(2002)과 Gluud(2005)이 제시한 진단검사 임상연구의 구조도 1상에서 4상까지 각 단계별로 다 소 차이는 있지만 동일한 흐름을 따른다(표 1-1).

표 1-1 진단검사 임상연구 구조

진단검사 임상연구의 구조

Sackett(2002) Gluud(2005)

Phase I 환자에서의 검사 결과가 정상인의 결과와 차이가 존재하는가?

건강한 사람에게서 관찰적 연구를 통해 진단 검사 지표들의 정상 범주를 결정하는 연구

Phase II

어떤 검사의 특정 결과를 갖는 환자들이 그렇지 않은 결과를 갖는 환자들 보다 대상 질병이 더 있겠는가?

정상인과 환자(확진: IIa, 의심: IIb)를 포함한 환자-대조군 연구를 통해 진단 정확성을 알 아내는 연구

Phase III

임상적으로 질병이 의심되는 사람을 대상으로 검사를 시행한 결과가 대상 질환자와 아닌 환자를 구별해낼 수 있는가?

무작위 시험 연구를 통해 진단 검사를 도입함 으로써 나타나는 임상적 결과를 밝히는 연구

Phase IV

진단 검사를 받은 환자들이 검사를 시행하지 않은 유사한 환자에 비해 궁극적인 임상결과가 더 나아졌는가?

대규모 코호트 연구에서의 감시(surveillance) 를 통해 새로운 진단검사 도입에 따른 임상 진료에 미친 영향을 알아보는 연구

(29)

6

한국보건의료연구원에서는 Sackett(2002)과 Gluud(2005)가 제시한 진단검사 임상연 구 구조를 근간으로 연구설계 분류를 정의하고 의료기술평가 및 신의료기술평가를 수행 하고 있다. 한국보건의료연구원에서 사용 중인 진단검사 임상연구의 단계별 질문 및 예 시는 다음과 같다.

1상 연구 : 대상 질환을 가진 환자는 정상인과는 다른 검사결과를 가지는가?

(예 : 패혈증 및 박테리아성 감염증을 가진 환자는 정상인보다 프로칼시 토닌이 더 높은가?)

2상 연구 : 특정 검사결과를 가진 환자들은 다른 검사결과를 가진 환자들보다 대상 질환을 더 가지고 있는가?

(예 : 높은 프로칼시토닌을 가진 환자는 낮은 프로칼시토닌을 가진 환자 보다 패혈증 및 박테리아성 감염증을 더 가지고 있는가?)

3상 연구 : 대상 질환이 의심되는 환자에게 검사를 시행했을 때 검사결과의 정도는 대상 질환을 가진 경우와 아닌 경우를 구별하는가?

(예 : 임상적으로 패혈증 및 박테리아성 감염증이 의심되는 환자 중 프 로칼시토닌의 정도는 그 질병의 유무를 구별할 수 있는가?)

4상 연구 : 진단검사를 수행한 군의 의료결과가 그렇지 않은 군에 비해서 향상되었는가?

(예 : 프로칼시토닌 검사로 선별한 환자에서 그렇지 않은 환자들보다 더 나은 의료결과(사망률, 기능, 삶의 질 등)를 갖는가?)

1.1.2.1. 1상 연구 : 대상질환을 가진 환자는 정상인과는 다른 검사결과를 가지는가?

1상 연구 질문은 큰 어려움없이 해답을 얻을 수 있다. 이후 단계의 연구와 1상 연구 의 가장 중요한 차이는 대상 질환을 가진 환자의 검사결과를 정상인과의 결과와 비교한 다는 것이다. 1상 연구에서는 대부분 검사의 임계치(cut-off)가 결정되지 않은 경우가 많아 환자군과 정상인군의 검사 평균치로 비교하는 경우가 많다.

패혈증 및 박테리아성 감염증 환자 정상 대조군

프로칼시토닌 평균값 평균값

(30)

7 1상 연구 질문을 위한 대답은 환자에게 직접 적용할 수 없다. 이는 일반적으로 전체

적인 검사결과를 단순히 제시하기 때문에 진단검사의 민감도, 특이도를 분석할 수 없기 때문이다. 1상 연구의 질문은 다음 단계의 진단검사 연구로 발전할 수 있는 기본적인 정보를 제공한다고 할 수 있다. 1상 연구를 통해 질병의 기전에 대한 생물학적 통찰력 을 더하고, 치료 원리에 대한 기초자료를 확보할 수 있다. 또한 1상 연구에서 정상군과 의 평균값이 차이가 나지 않는다면, 추가적인 다음 단계의 연구는 필요하지 않기 때문 에 불필요한 연구 노력과 비용을 절약할 수 있다.

1.1.2.2. 2상 연구 : 어떤 검사결과를 가진 환자들은 다른 검사결과를 가진 환자들보다 대상 질환을 더 가지고 있는가?

1상 연구 질문의 연구결과가 긍정적이라면 2상 연구를 진행하는 것이 합리적이다.

ʻʻ높은 프로칼시토닌을 가진 환자는 낮은 프로칼시토닌을 가진 환자보다 패혈증 및 박테 리아성 감염증을 더 가지고 있는가?ʼʼ처럼 진단검사의 결과로부터 진단을 내리는 방향으 로 진행한다. 2상 연구 질문은 1상 연구 질문을 생성한 동일한 자료집단에서 적용할 수 있으나, 질문의 구조와 해답은 다르다. 2상 연구에서는 1상 연구와 달리 군간 전체자료 의 비교가 아니라, 개인 검사수치를 통해 대상 질환을 가지고 있는 사람과 가지지 않은 사람을 잘 구분할 수 있는 선택된 임계치에 의해 2×2표에 의한 값을 보여준다.

패혈증 및 박테리아성 감염증 환자 정상 대조군

높은 프로칼시토닌 해당 인원 해당 인원

정상 프로칼시토닌 해당 인원 해당 인원

비록 2상 연구의 결과가 고무적이라고 할지라도 이 연구결과를 임상적 실무에서 진 단검사가 질환을 잘 구별할 수 있다고 말하기는 어렵다. 2상 연구에서는 정상과 대조적 으로 현저한 차이를 보이는 중증질환을 가진 집단의 검사결과를 비교하는 것이다. 이는 우리에게 이상적인 상태에서 그 검사의 진단정확성을 보여준다. 실제 임상에서는 대상 질환이 의심되는 환자들을 대상으로 질환여부를 구분해야한다.

(31)

8

1.1.2.3. 3상 연구: 대상질환이 의심되는 환자를 대상으로 검사했을 때 검사결과의 정도는 대상 질환을 가진 경우와 없는 경우를 구별하는가?

2상 연구는 이상적인 상태에서 검사가 질환을 구별할 수 있는가에 해당한다면, 3상 연구는 실제 임상에서의 진단검사가 대상 질환을 구분할 수 있느냐에 대한 답을 줄 수 있다. 언뜻 보기에는 차이가 없어 보일지 모르나 연구대상자의 모집 방법이 다르다. 1 상 또는 2상의 연구결과를 마치 3상 연구 질문의 해답인 것으로 해석할 때, 우리가 치 러야 하는 비용은 엄청나다. 2상 연구는 정상인과 대상 질환을 명확히 가지고 있는 자 들의 사전 선택된 집단을 대상으로 한다면, 3상 연구는 임상적으로 대상 질환이 있을 것으로 여겨지는 연속적인 환자를 대상으로 한다. 즉 “임상적으로 패혈증 및 박테리아 성 감염증이 의심되는 환자 중 프로칼시토닌의 정도는 그 질병의 유무를 구별할 수 있 는가?”처럼 3상 연구에서는 다루어지는 환자의 스펙트럼이 달라진다 할 수 있다.

2상 연구 3상 연구

질문 이 검사는 이상적 상태에서 환자를 구별할 수 있는가?

이 검사는 일상적 진료에서 환자를 구별할 수 있는가?

연구대상 정상인과 대상 질환을 명확히 가지고 있는 자들의 사전 선택된 집단

일상적으로 대상 질환이 의심되는 연속적인 환자

연구방향 진단검사 결과에 따른 대상 질환 여부 확인

대상 질환이 의심되는 환자를 대상으로 진 단검사 결과 확인

1.1.2.4. 4상 연구 : 진단 검사를 수행한 군의 의료결과가 그렇지 않은 군에 비해서 향상 되었는가?

프로칼시토닌 검사로 선별한 환자에서 그렇지 않은 환자들보다 더 나은 의료결과(사 망률, 기능, 삶의 질) 등을 갖는가? 프로칼시토닌 수준에 따른 항균제 치료를 받은 실 험군과 기존의 진료지침에 따라 판단하여 항균제 치료를 받은 대조군간의 항균제 이용 및 임상적인 의료결과에 대한 평가는 6편의 무작위배정 임상시험 연구로 평가되었다(신 의료기술평가사업본부, 2009). 실험군은 대조군에 비해 항균제 치료기간 및 노출기간, 항균제 처방률, 항균제 비용과 같은 항균제 이용 지표가 유의하게 감소하였고, 사망률, 감염재발률 및 증상악화시기 등과 같은 임상적인 의료결과에서는 실험군과 대조군간의

(32)

9 통계적인 차이가 없었다. 그러므로 조기에 적절한 항균제의 사용 및 중단, 항균제 치료

에 대한 모니터링을 프로칼시토닌 수준에 따라 결정하는 것은 임상적으로 판단하여 결 정하는 것에 비해 임상적인 의료결과에 대한 부정적 영향 없이 항생제 이용을 낮추는 긍정적인 효과를 가진다고 평가하였다.

이처럼 진단검사의 궁극적 가치는 진단검사을 통해 치료적 중재에 영향을 줌에 따른 의료결과의 향상이라고 말할 수 있다. 이런 결과는 진단검사를 실시하는 군과 그렇지 않은 군을 무작위 배정하여 그에 따른 의료결과를 비교하는 무작위배정 임상시험의 체 계적 문헌고찰을 통해 평가를 할 수 있다.

프로칼시토닌 선별검사 시행군 프로칼시토닌 선별검사 비시행군

항균제 이용 항균제 이용률 (의미있는 감소) 항균제 이용률

임상적 결과 사망률, 감염재발률 (유사) 사망률, 감염재발률

그러나 실제 평가를 진행하다 보면 대부분 진단정확성에 중점을 두고 있는 3상 연구 이다. 4상 연구는 진단검사 자체의 효과와 그 후의 중재법과의 효과가 혼합되어 있기 때문에 설계(design)나 해석상에 주의를 요할 필요가 있다.

1.1.3. 진단 검사 연구시 고려사항

1.1.3.1. 스펙트럼

스펙트럼 비뚤림(spectrum bias)은 그 검사가 실제 적용되는 대상보다 임상 스펙트 럼(예: 더 악화된 상태)이 다른 연구대상에게 진단정확성을 평가할 때 발생할 수 있다.

민감도는 질환 대상자를 정확히 진단하는 것임에 반해, 특이도는 명백히 건강한 대상을 가려내는 것에 중점을 둔다. 임상적으로 질환 여부를 사전에 구별하기 불가능하기 때문 에, 민감도와 특이도는 실제보다 과다 측정될 수 있다.

선택 비뚤림(selection bias)은 검사를 검증할 연구대상 인구에 포함될 확률이 검사 결과에 의해 영향을 받을 때 발생할 수 있다. 예를 들어 운동부하 심전도가 비정상인 사람은 심장혈관조영술의 시행 대상자로 선택될 확률이 커질 것이다. 결과적으로 이들 선택된 사람들만을 대상으로 운동부하 심전도의 검정을 진행한다면 그런 선택과정을 거

(33)

10

치지 않은 사람들을 대상으로 시행한 검정결과에 비해 높은 민감도와 낮은 특이도가 나 오게 될 것이다.

1.1.3.2. 참고표준검사

검사의 판별력을 평가하기 위하여 검사 결과는 반드시 확립된 참고표준검사와 독립 적으로 비교되어야만 한다. 그러나 건강상태에 대한 완전한 확신을 제공하는 “황금표 준”은 거의 없다. 심지어 x-ray, CT 스캔과 병리검사조차도 위양성과 위음성의 결과 를 생산할 수 있다. 그래서 가능한 한 황금표준에 근접하는 적절한 표준검사를 정의하 는 것이 목표이다.

진단검사 평가 시 적절한 표준검사가 없는 경우에 직면할 수 있다. 예를 들면 당뇨 병성 말초신경병증을 진단하는 검사의 진단정확성을 평가하고자 할 경우, 해당 질병을 잘 진단해내는지를 판단할 만한 기존의 확립된 검사가 없거나 기존 검사를 표준검사로 하여 산출한 진단정확성(민감도, 특이도)이 낮을 때 표준검사가 해당 질병을 찾아내지 못해서 나온 결과로도 여겨질 수 있기 때문에 진단검사를 명확히 평가하기가 어렵다.

또 하나의 문제는 참고표준검사의 탁월성이다. 예를 들어 전형적인 혈관조영술을 표 준검사로 하여 새로운 영상기법을 증명할 때에는 결코 완벽한 동의에 도달할 수 없으므 로 후자는 항상 타당성이 떨어지는 것으로 여겨질 수도 있다.

1.1.3.3. 질병 진행(disease progression)

진단검사 평가 연구에서 진단정확성을 좌우하는 또 하나의 요소는 질병의 진행이다.

참고표준검사와 중재검사 사이의 시한(time period)은 대상 질환이 두 검사 시행 시점 사이에 변하지 않을 만큼 충분히 짧은지를 의미한다.

이상적으로 중재검사와 참고표준검사 결과는 동시에 같은 환자에게서 수집되어야 한다.

이것이 가능하지 않거나 지연된다면, 자연적 회복으로 인해 잘못 분류되거나, 치료로 인 한 이득이 생기거나, 질병의 후기 단계로 진행되거나, 새로운 질병이 발생할 수 있다. 이 와 같은 것들과 관련한 잠재적 비뚤림들을 질병 진행 비뚤림(disease progression bias) 과 회복 비뚤림(recovery bias)이라 한다. 더불어 첫 번째 검사로 양성이 나온 환자들을 효과적으로 치료하여 두 번째 검사에서 음성이 나오는 경우, 치료의 모순(treatment paradox)으로 알려진 특별한 현상이 발생할 수 있다. 이와 같은 비뚤림이 발생할 수도

(34)

11 있는 시한의 길이는 질환에 따라 다양할 것이다. 예를 들어, 며칠 동안 지연되는 것은

만성 질환에서는 문제가 되지 않겠지만, 급성 감염에서는 받아들이기 어려울 것이다.

이 비뚤림은 때때로 부검결과를 기다리는 것조차 죽은 후에 할 수 있거나(예를 들어, 알츠하이머병 진단을 확진하는), 장기적인 추적관찰(지연된 검증으로 알려진) 후에만 (최종) 진단을 할 수 있는 질병에서 발생할 가능성이 있다. 오랜 지연 후에는 때로 그 질병이 중재 검사를 할 때 정말로 존재했는지 여부가 불명확하고, 어떤 경우에는 회복 될 가능성도 있다.

1.1.3.4. 부분 확증(partial verification)

모든 샘플 또는 무작위 선택된 샘플이 참고표준검사로 확증 받았는지는 의미한다.

부분 확증 비뚤림(partial verification bias)은 연구의 모든 환자들이 참고표준에 의 해 확증되지 않았을 때 발생할 수 있다. 확증을 위해 환자 선택을 무작위로 하지 않은 경우, 특히 중재검사 결과에 의해 영향을 받은 경우 진단 정확성 추정에 비뚤림이 발생 할 수 있다. 부분 확증의 효과를 예측하는 것은 복잡하며, 이유는 다음과 같다.

검사 양성 환자가 확증되지 않았는지 또는 검사 음성 환자가 확증되지 않았는지에 의존적이다.

확증되지 않은 환자들이 2x2 표에서 제외되었는지, 만일 포함되었다면 진음성 또 는 진양성으로 분류되었는지에 의존적이다.

확증되지 않은 환자들이 중재검사 음성과 양성의 무작위 샘플인지의 여부에 의존 적이다.

확증을 위한 환자의 무작위 표본추출은 때때로 효율성의 이유로, 특히 희귀 질병인 경우에 수행된다. 환자들이 참고표준검사를 받기 위해 무작위로 선택된다면(전체에 대 해서 표본추출하거나, 더 일반적으로 중재검사 양성 또는 음성 환자 내에서 별도로 표 본추출됨), 비록 중재검사 양성인 환자와 중재검사 음성인 환자가 별도로 표본추출 되 는 경우라고 할지라도, 표본추출 계획에 의해 검사의 전반적 진단 성능에 비뚤림 없는 추정이 얻어질 수 있을 것이다.

부분 확증이 문제가 된 첫 연구 디자인은 두 개 이상의 중재검사를 비교할 때 하나 이상의 검사에서 양성인 대상자만 확증하는 paired-screen-positive 연구였다. 이러한

(35)

12

연구들은 참고표준검사가 침습적인 경우에 질병의 존재가능성이 매우 낮을 것이라 추정 되는 두 검사 모두에서의 음성 대상자에게도 침습적인 참고표준검사를 시행하는 것은 윤리적인 문제를 야기할 수 있다. 그러나 두 가지 검사에서 음성인 대상자를 확증하지 않았다고 하더라도, 각 검사의 민감도와 특이도를 직접적으로 추정하는 것이 아니라 중 재검사의 상대 민감도(relative sensitivity)와 상대 위양성률로 비뚤림 없는 추정을 얻 는 것이 가능하다(Chock, 1997; Pepe, 2001).

1.1.3.5. 차별 확증(differential verification)

환자들이 중재검사 결과에 상관없이 동일한 참고표준검사를 받았는지를 의미한다. 차 별 확증(differential verification)은 일부 환자가 한 가지의 참고표준검사에 의해 확증 받고, 그 밖의 환자들은 다른 참고표준검사에 의해 확증 받을 때 발생한다. 예를 들면, 종양이 관찰된 환자와 종양이 관찰되지 않은 환자에서 질병의 추적관찰을 위해 고형암 을 진단하기 위한 영상검사를 평가함에 있어 참고표준검사는 종종 생검에 기반한 조직 병리학적 검사이다. 참고표준검사가 패널검사들과 기타 정보를 포함한 조합검사 (composite test)일 때, 모든 환자가 모든 검사를 받게 되면 차별 확증 비뚤림은 발생 하지 않을 것이나 각 개인에게 이용 가능한 검사만 선택적으로 받은 경우, 차별 확증은 중재검사결과와 관계되는 정보의 크기로 문제가 될 수 있다.

차별 확증은 참고표준검사가 정확성에 있어 다른 경우와 참고표준검사의 선택이 중 재검사 결과와 관계된 경우에 문제가 된다. 이는 중재검사에서 양성을 받은 환자가 음 성판정을 받은 환자에 비해 좀 더 정확하고, 침습적인 표준검사를 받을 때 흔히 발생한 다. 그러한 상황은 질병의 위험도가 낮은 환자로서 중재검사에서 음성인 환자들에서 침 습적인 표준검사를 사용하는 것이 비윤리적인 것으로 간주되었을 때 흔히 발생한다. 특 정(음성) 중재검사 결과와 덜 정확한 참고표준검사에 의한 확증과의 연관은 검사의 진 단정확성 평가에 영향을 미칠 것이다. 중재검사의 오류와 부정확한 표준검사의 오류 간 상관관계가 있을 때, 검사정확성은 과대 추정된다(Mol, 1999).

차별 확증의 극단적인 형태는 음성을 보인 중재검사의 일부가 전혀 어떠한 참고표준 검사의 확증을 수행하지 않은 채 진음성(true negative)으로 분류할 때, 민감도와 특이 도는 모두 과대 추정될 수 있다.

심각한 비뚤림을 야기하는 차별 확증의 위험성을 측정하기 위해서는, 개개인들이 다 른 검사들에 의해 확증받은 이유와 적용된 두 개 이상의 참고표준검사의 질(quality)

(36)

13 차이를 이해하는 것이 중요하다. 만일 그 참고표준검사의 선택이 중재검사 결과 또는

관심 질병의 임상적 가능성과 관계되어 있다면, 비뚤림은 실제로 가능성이 있다.

1.1.3.6. 혼합(incorporation)

참고표준은 중재검사와 독립적으로 수행되었는지를 의미한다(이를테면, 중재검사는 표 준검사의 일부분으로 수행되지 않았는가?). 중재검사 결과가 참고표준으로 사용되는 경 우, 혼합 비뚤림(incorporation bias)은 발생할 수 있다(Ransohoff, 1978; Worster, 2008).

참고표준 패널에서 중재검사의 혼합은 중재검사결과와 참고표준검사간의 일치도를 증 가시킬 가능성이 높고, 이는 결과적으로 진단정확성을 과대 추정한다. 그 예로, 다발성 경화증(multiple sclerosis) 진단을 위한 MRI의 정확성 평가에 있어서 참고표준은 MRI 결과, 뇌척수액(cerebrospinal fluid) 검사, 환자의 임상적 추적관찰을 포함한 모든 이 용 가능한 정보로 구성되어 있다. 혼합 비뚤림과 해석 비뚤림(review bias)간에 구분은 힘들지만, 참고표준검사에 대한 중재검사 결과의 눈가림 부족이 자동적으로 중재검사 결과가 참고표준의 부분이라는 것을 의미하지는 않는다(Mower, 1999).

1.1.3.7. 검사와 진단적 해석(test and diagnostic review)

참고표준검사의 결과는 중재검사 결과를 알지 못한 상태에서 해석되어졌는지 또는 중재검사 결과는 참고표준검사의 결과를 알지 못한 상태에서 해석되어졌는지를 의미한 다. 이 항목은 중재법 연구에서 눈가림을 하는 것(blinded outcome assessment)과 유 사하다.

참고표준검사의 결과를 아는 것은 중재검사 결과 해석에 영향을 줄 수 있고(검사 해 석 비뚤림, test review bias), 그리고 반대의 경우에도 마찬가지이다(진단적 해석 비 뚤림, diagnostic review bias) (Ransohoff, 1978). 검사 해석 시 주관성의 정도에 따라 검사 결과 효과에 영향을 미친다. 보다 주관적인 해석이 요구되는 중재검사일 때, 해석자(interpreter)는 완전히 자동화된 검사보다 참고표준검사의 결과에 의해 영향 받 을 가능성이 높아진다. 그러므로 중재검사 또는 참고표준검사의 해석이 다른 검사 결과 를 아는 것에 의해 영향을 받을 수 있는지 여부를 확인하는 것이 중요하다. 경험적인 근거에서 진단적, 검사 해석 비뚤림은 민감도를 증가시키나 특이도에 대한 체계적인 효

(37)

14

과는 언급되지 않는 것으로 나타나고 있다(Whiting, 2004).

연구에서 눈가림의 수행 여부는 본문에 명백하게 명시되어있지 않을 수도 있다. 그러 나 중재검사 및 참고표준검사가 차례대로 수행되고 해석되었다고 기술되어 있다면, 이는 첫 번째 검사가 두 번째 검사 결과에 눈가림된 채로 수행되었다는 근거가 될 것이다.

2개 이상 중재검사를 비교하는 연구에서는 중재검사들 간에 눈가림의 정도에 대한 추가적인 문제가 발생한다. 눈가림이 필요할지 여부는 제안된 검사 역할에 따라 달라진 다. 검사가 다른 검사의 대체로 제안되었다면, 눈가림은 필요하다. 추가적인 검사로 제 안되었다면, 눈가림에 대한 필요는 그다지 크지 않다.

1.1.3.8. 임상적 해석(clinical review)

현장에서 검사가 사용될 때 환자에 대한 정보가 얻어져 사용되는 여건과 마찬가지로, 연구 중에서 검사 결과를 해석할 때 임상적 정보가 얻어져 사용되었는지를 의미한다.

검사가 수행되었을 때, 연령, 성별, 증상의 유무, 증상의 중증도, 기타 검사 결과 등 과 같은 환자와 관련된 정보의 이용가능성 또는 부재는 중재 검사 수행에 영향을 미칠 수 있다(Whiting, 2004, Mower, 1999). 예를 들면, 많은 영상검사들은 증상을 나타 내는 특성과 위치에 대한 정보에 의해 영향 받는다. 외적인 정보에 의해 바뀌지 않는 생화학적 분석과 같은 객관적인 측정으로 보고되는 검사에서는, 다른 임상적 정보가 주 어지지 않는 상태에서 치우침이 없는 검사 정확성 추정치(unbiased estimate)를 얻을 수 있다.

진단정확성은 임상적 정보가 주어지는 경우 높아질 수 있다. 중재검사가 실제 현장에 서 이용가능한 동일한 임상적 정보가 주어진채 평가되었는지가 중요하다. 그러나 중재 검사의 진단 가치와 기존 임상정보의 진단가치를 분리하는데 어려움이 있을 수 있다.

연구들은 중재검사 결과를 해석하는 자가 임상적 정보를 알 수 있다면 민감도를 증가시 키고, 특이도에 덜 영향을 미친다는 것을 보여준다(Whiting, 2004; Loy, 2004).

1.1.3.9. 해석할 수 없는 결과(uninterpretable results)

해석할 수 없는 또는 중간단계의 검사 결과가 보고되었는가? 진단검사는 일부 환자 에 대해 해석할 수 없는 결과를 보고할 수 있거나 불확실하거나 또는 중간단계의 결과 를 나타낼 수 있다. 이는 중재검사와 참고표준검사 모두에서 발생할 수 있다.

(38)

15 그러한 검사 결과 빈도는 검사들 사이에 광범위하게 다를 수 있다. 해석이 불가능하

고 중간단계의 검사 결과는 때로는 진단정확성 연구에서 보고되어지지 않거나 분석에서 제외된다. 분석에서 그러한 결과를 포함하는 올바른 방법에 대한 합의(consensus)는 없긴 하지만, 이는 검사의 유용성에 영향을 미치기 때문에, 해석 불가능한 중간단계의 결과의 발생빈도를 보고하는 것이 중요하다는 것에는 동의하고 있다(Mower, 1999;

Poynard, 1982). 비뚤림은 해석 불가능한 검사결과와 실제 질병의 상태간의 상관성에 따라 발생할 것이다. 만일 해석 불가능한 결과가 무작위로 발생하고, 개개인의 실제 질 병 상태와 관련이 없다면, 이는 이론적으로 검사 정확성 추정에 비뚤림을 유발하지는 않을 것이다.

1.1.3.10. 탈락(withdrawals)

연구에서 탈락된 부분에 대해 설명이 되어졌는지를 의미한다. 탈락은 환자가 중재검 사와 참고표준검사 중 하나 또는 두 가지 모두 결과를 알기 전에 연구에서 중도하차 할 때 발생한다. 단면조사연구에서 이런 문제가 발생할 가능성은 낮지만, 참고표준검사가 추적관찰(follow-up)의 정도를 포함하는 경우에는 가능성이 있다. 환자는 프로토콜을 위반한 것으로 확인된 경우(연구대상자로 자격 없음이 이후에 확인된 경우 또는 검사가 매뉴얼이나 지정된 시간 안에 수행되지 않은 경우) 또는 데이터와 표본이 손실된 경우 에 연구에서 사후에 제외될 수 있다. 이 항목에서 탈락과 누락된 데이터는 모두 연구의 실행에 문제가 된다. 검사 고유의 문제 때문에 누락된 데이터가 발생하는 해석 불가능 한 결과와는 구별된다.

질병의 상태 또는 검사 결과의 차이에 따라 환자의 추적 관찰시 탈락 양상이 다르게 나타난다면, 결국 검사 수행의 추정치는 편향될 수 있다. 손실을 처리하는 접근방식은 결과의 비뚤림을 발생시킬 큰 잠재력을 가지지만, 또 불완전한 보고는 이런 문제의 경 험적 평가를 방해한다. 탈락 또는 누락(missing) 결과가 발생하였다면, 탈락 또는 누락 (missing) 검사 결과의 수와 그것들이 어떻게 처리되었는지 기록하는 것이 중요하다.

1.1.3.11. 연구결과와 임상적 결합

진단검사 평가영역에서는 임상연구는 물론 이미 수행된 실험연구와 임상 전문지식의 결과들을 체계적으로 합성하는 것을 포함하는 다양한 방법론적 접근법이 있다. 연구목