한국보건의료기술평가학회 > 학회지 > 보건의료기술의 과학적 평가방법

(1)

J Health Tech Assess 2013;1:9-15 ISSN 2288-5811

서 론

보건의료기술은 사람들의 건강수준을 향상시키고, 질병을 예방하며, 질병에 걸린 사람을 조기에 발견하여 적절한 치료 를 받아 신속하게 사회에 복귀할 수 있도록 도와주는 모든 방 법을 포함하는 용어다. 따라서 보건의료기술에는 각종 의약 품, 의료기기, 수술이나 시술, 진단법, 건강기능식품 등을 포 함할 뿐 아니라, 심지어 예방의료서비스와 보건의료시스템 까지도 포함된다. 새로 개발한 보건의료기술은 일상적으로 사용되기 전에 반드시 어떤 사람들에게 유용하게 사용될 수 있는지, 기존 의료기술에 비해 더욱 안전하고 효과적이며 경 제성이 있는지 등을 과학적으로 평가하여야 한다. 최근 우리 나라에서는 많은 새로운 보건의료기술들이 경쟁적으로 개발 되고 있는데, 그 가운데 적지 않은 기술들이 사전에 과학적인 평가가 제대로 이루어지지 않은 채 국민들에게 상업적으로 제공되어, 도움을 주기 보다 오히려 피해를 유발하는 경우가

드물지 않게 발생하고 있다.

보건의료기술을 과학적으로 평가하고자 할 때는 안전성, 유효성, 경제성 및 사회적 측면을 고려하여야 한다. 첫째, 아 무리 뛰어난 효과를 가진 보건의료기술이라도 안전하지 않 으면 사람들에게 사용할 수 없다. 따라서 보건의료기술을 사 람에게 적용하고자 할 때는 무엇보다 우선하여 부작용 발생 여부와 그 중증도를 파악하여 이러한 위해성이 의학적, 사회 적으로 받아들여질 수 있는 수준인지를 평가하여야 한다. 둘 째, 보건의료기술을 적용하는 환자들에서 질병으로부터 회 복률, 사망률, 삶의 질 개선 정도 등을 종합적으로 평가하여 야 한다. 셋째, 미시경제적 측면에서 개별 보건의료기술의 가 격수준과 환자가 받을 수 있는 이득 간 비용-효과성을 평가 하여야 하며, 거시경제적 측면에서 새로운 보건의료기술을 도입함으로써 국가 보건의료비 지출을 기존의 다른 의료기 술에 비하여 얼마나 절감할 수 있는지를 평가하여야 한다.

마지막으로 사회적, 법적, 윤리적으로 문제가 없는지를 평가

Scientific Evaluation Methods for Health Technology

Byung Joo Park, MD, MPH, PhD

Department of Preventive Medicine, Seoul National University College of Medicine, Seoul, Korea Korea Institute of Drug Safety and Risk Management, Seoul, Korea

보건의료기술의 과학적 평가방법

서울대학교 의과대학 예방의학교실, 한국의약품안전관리원

박 병 주

Address for Correspondence:

Byung Joo Park, MD, MPH, PhD Department of Preventive Medicine, Seoul National University College of Medicine, 103 Daehak-ro, Jongno-gu, Seoul 110-799, Korea Tel: +82-2-740-8325 Fax: +82-2-747-4830 E-mail: [email protected]

Recently new health technology has been developed very actively in Korea as well as worldwide, but appropriate scientific evaluation system for the new technology has not been established satisfacto- rily. Not a few people have suffered from lack of effectiveness and even from unexpected adverse events by the new technologies. Therefore it is very important to evaluate safety and efficacy of the new technology scientifically before their market approval. Scientific evidence can be produced based on sound research methodology, which can be the fundamental tool for evaluating new health technology. For generating scientific evidence of new treatment, surgery, or diagnostic tests, randomized controlled trials and systematic review are generally conducted. For obtaining mean- ingful and qualified results from systematic review, critical appraisal depends on the quality of medical literatures published. Appropriate scientific evaluation for new health technology using sound scientific methods cannot be too much exaggerated to protect patients and provide best benefit for them.

Key Words

Health technology · Scientific evaluation · Safety · Efficacy · Randomized controlled trial · Bias · Systematic review.

Special Article

JoHTA

(2)

하여야 한다. 이러한 측면을 과학적으로 생성된 근거를 기반 으로 평가하여 해당 보건의료기술을 우리 사회가 받아들일 수 있을지 여부를 합리적으로 결정하여야 한다.

보건의료기술의 과학적 평가방법

새로 개발된 보건의료기술에 대한 과학적 평가는 여러 단 계를 거쳐 이루어진다. 보건의료기술의 개발 초기에는 개발 자의 연구실에서 평가가 이루어지는데 동물실험을 포함하는 실험실적 연구에서 보건의료기술로서의 가치가 입증되면 다 음 단계인 사람을 직접 대상으로 하는 임상연구를 통하여 안 전성과 유효성에 대한 평가를 수행하게 된다. 일반적으로 새 로운 의료기술을 개발하여 안전성과 유효성을 평가하는 경 우는 관찰적 연구보다는 실험적 연구인 임상시험을 수행하 는 것이 원칙이다.

임상연구의 각 연구설계로부터 얻어진 연구결과는 타당도 의 수준에 따라 신뢰할 수 있는 정도가 달라서 근거의 수준에 위계가 있다(그림 1). 새로운 보건의료기술을 사람에게 적용 하는 근거로는 직접 사람을 대상으로 평가하는 무작위배정 비교임상시험에 의한 결과가 관찰적 연구로부터 얻어진 결 과에 비하여 더 높은 수준의 근거로 인정받는다. 그리고 이러 한 무작위배정 비교임상시험이 국내외적으로 다수 존재할 때 그 연구결과들을 모두 검색하여 찾은 후 논문의 질을 평가 하여 기준을 충족시키는 논문들의 내용을 종합하여 최종 결 론을 내리는 체계적 문헌고찰(systematic review)에 의한 결

론이 가장 높은 수준의 근거로 인정받고 있다.¹⁾ 본 고에서는 진료현장에서 실질적으로 임상적 판단의 근거로 많이 활용 되고 있는 무작위배정 비교임상시험과 체계적 문헌고찰에 대하여 간략하게 소개하고, 보건의료기술의 대상에 따른 적 용사례를 소개하고자 한다.

무작위배정 비교임상시험

새로운 보건의료기술을 임상에 도입하기 위해서는 해당 보건의료기술이 안전하고 효과적임을 사람을 직접 대상으로 한 임상시험을 통하여 입증하여야 한다. 임상시험은 직접 사 람을 대상으로 아직 안전성이 완전히 파악되지 않은 새로운 치료법의 효능과 안전성을 평가하기 위하여 수행하는 실험 적 연구이다. 무작위배정 비교임상시험은 각종 비뚤림의 발 생을 최소화시킬 수 있는 연구설계로서 일차 가설을 구체적 으로 수립하고 이를 검정하는 것을 목적으로 수행된다. 임상 시험의 형태는 연구대상 환자를 연구시작 시점에 치료군과 비교군 가운데 한 군으로 무작위배정한 후 전체 연구기간 동 안 해당 치료법만을 적용하는 평행설계, 연구대상 환자들에 게 무작위로 치료법을 배정하여 일정 기간 동안 치료를 시행 한 후 일정한 휴약기간을 경과한 다음 교차된 약물을 투여하 는 교차설계, 독립적인 두 가지 치료법의 효과를 동시에 평가 하는 요인설계 등이 있다.

새로운 치료제의 효과와 안전성을 과학적으로 평가하려면 비교하고자 하는 군 간의 비교성을 최대한 확보하는 것이 무 엇보다 중요하다. 즉 치료군과 비교군 간에는 치료내용 외에

Fig. 1. Pyramid on the level of evidence. Adapted from Sackett DL, Straus SE, Richardson WS, et al. Evidence-based medicine: how to practice and teach EBM. 2nd ed. Edinburgh: Churchill Livingstone;2000.

Systematic Reviews

FILTERED INFORMATION Quality of evidence

UNFILTERED INFORMATION Critically-Appraised

Topics [Evidence Syntheses]

Critically-Appraised Individual Articles [Article Synopses]

Randomized Controlled Trials (RCTs) Cohort Studies Case-Controlled Studies

Case Series / Reports Background Information / Expert Opinion

(3)

환자의 임상결과에 영향을 미칠 수 있는 모든 요인이 동등하 게 분포하여야 한다. 예를 들어 두 군에 배정된 연구대상자들 의 성, 연령 및 병기 등 연구대상 질병의 예후에 영향을 미칠 수 있는 기초상태의 특성이 최대한 비슷하여야 한다. 비교군 은 치료내용에 따라서 무치료군, 위약비교군, 표준치료제비 교군, 저용량비교군 등으로 구분할 수 있다. 무작위배정 비교 임상시험은 연구수행이 까다롭고 연구대상자 확보가 어려워 연구자와 연구의뢰자들은 단일군으로 임상시험을 수행한 후 그 결과를 과거에 동일한 질병을 진단받았던 환자들에 대한 기존의 치료법에 의한 결과와 비교하고자 하는 경우가 자주 발생한다. 그러나 이런 경우에는 과거에 치료받았던 환자들 과 현재 또는 미래에 치료받는 환자들의 진단기준이나 보조 치료의 내용 등이 현저히 달라 임상결과에 영향을 크게 미칠 가능성이 있으므로 과거비교군보다는 치료군과 같은 시기에 동시에 선정되는 동시비교군을 설정하는 것이 바람직하다.

구체적 연구가설을 설정한 후 그러한 가설을 검정하는 데 필요한 최소한의 연구대상수를 연구계획을 수립할 때 미리 통계적으로 산출하여야 한다. 연구대상수가 너무 적을 경우 에는 통계적 검정력이 낮아져 실제로 의미있는 효과를 가지 고 있음에도 불구하고 통계적으로 유의하다는 결론을 내리 지 못하게 되는 경우가 발생할 가능성이 높아진다. 연구대상 수를 너무 많이 확보하면 임상적으로 의미없는 차이도 통계 적으로 유의하게 나타나며 예상치 않았던 부작용의 발생으 로 연구대상자가 위험에 처할 가능성을 높이게 되므로 비윤 리적이다.

무작위배정법은 치료군과 비교군의 환자에게 치료법을 배 정할 때 연구자의 주관적인 의도가 개입되지 않도록 무작위 로 배정하는 방법으로서, 새로운 치료법에 의한 유해반응으 로 인한 피해나 예상하지 못하였던 탁월한 치료효과로 인한 혜택이 연구참여자에게 공정하게 돌아가도록 함으로써 윤리 적이며, 비교군 간 예후요인의 분포를 같게 하여 비교성을 극 대화함으로써 과학적 연구결론을 내릴 수 있도록 해준다. 따 라서 무작위배정법은 임상시험을 과학적이고 윤리적으로 수 행하도록 만들어주는 가장 중요한 요소이다.

치료법의 효과를 통증의 완화 정도, 삶의 질 개선, 인지기 능의 개선 등과 같은 주관적 요소가 강한 결과변수로 평가하 고자 할 때 연구대상자가 자신이 받는 치료내용을 알게 되면 치료효과에 크게 영향을 미칠 수 있다. 그 결과 정보비뚤림 이 발생하여 새로운 치료법의 효과를 실제 이상으로 과대평 가하거나, 실제로 효과가 있음에도 불구하고 효과가 없는 것 으로 평가될 수 있다. 따라서 이러한 비뚤림의 발생을 예방하 기 위하여 연구대상자로 하여금 자신이 받게 될 치료의 내용 을 모르게 하는 방법을 눈가림법이라 한다. 연구대상자만 치

료내용을 모르게 하는 단일눈가림법, 연구대상자를 포함하 여 환자와 접촉할 수 있는 모든 의료인력인 의사, 약사, 간호 사 및 의료기사들이 치료내용을 모르게 연구를 수행하는 것 을 양측눈가림법, 여기에다 자료를 분석하고 결과를 해석하 게 되는 임상역학자나 의학통계학자들까지 비밀로 한 다음 최종 결론이 내려진 후에 치료내용을 공개하는 경우를 삼측 눈가림법으로 정의하고 있다. 눈가림법을 적용하기 위하여 새로운 치료제와 모양, 크기, 색깔 및 맛까지 동일하면서 유 효성분만 없는 위약(placebo)을 개발하여야 한다. 비교하고 자 하는 두 치료제의 용법이 다른 경우 즉 새로운 치료제는 하루에 한 번, 한 알만 복용하면 되는데, 비교대상 치료제는 하루 세 번, 한 알씩 복용하여야 한다면 연구대상자는 자신이 시험약을 하루에 몇 번 복용하여야 하는지를 아는 순간 자신 이 어떤 치료군에 속하는지를 알게 되어 임상결과에 영향을 미칠 수 있다.

이 경우에는 두 가지 치료제 각각의 위약을 개발하여 두 군 에 동일한 용법을 적용하는 방법을 사용하여야 한다(double dummy technique). 이와 같이 주관적 요소가 강한 결과변수 를 대상으로 삼는 경우에는 정보비뚤림을 최소화하기 위하여 반드시 눈가림법을 적용하여야 한다.

체계적 문헌고찰

특정한 보건의료기술에 대한 과학적 평가 가운데 가장 높 은 수준의 근거를 생성하는 연구형태는 체계적 문헌고찰이 다. 대부분의 임상연구는 사람을 직접 연구대상으로 수행하 지만, 체계적 문헌고찰은 사람 대신 논문을 연구대상으로 삼 는 것 외에는 연구수행과정이 다른 임상연구와 동일하다. 여 러 나라에서 수행된 무작위배정 비교임상시험 결과들이 다 수 존재할 때 이들을 인터넷을 통한 문헌검색으로 대상 선정 기준에 맞는 논문을 찾은 후 그 논문들의 질을 평가하여 기준 을 충족시키는 논문을 분석대상으로 선별한다. 각 논문에서 분석에 필요한 정보를 추출하여 메타분석을 시행함으로써 요약된 결론을 얻는다. 개별 임상시험의 경우 대표성이 떨어 지고, 여러 나라에서 수행된 임상시험들의 결과가 다소 상이 하게 나타날 경우에 이들을 종합함으로써 최종 결론을 내릴 수 있다. 이 경우 메타분석의 결과를 해석할 때 혹시 해당 보 건의료기술에 대한 임상시험 가운데 긍정적인 연구결과들만 발표됨으로써 분석대상으로 선정된 논문들이 출판비뚤림 (publication bias)을 유발한 것은 아닌지 따져 보아야 한다.

우리나라에서는 2006년 의료법 개정으로 신의료기술평가 제도를 도입하고 그 업무를 건강보험심사평가원(이하 심평 원)에서 수행하도록 하였다. 심평원은 신의료기술평가 업무 를 담당하면서 새로운 보건의료기술에 대한 과학적 평가를

(4)

위하여 체계적 문헌고찰 방법론을 도입하여 적용하기 시작 하였고, 현재는 한국보건의료연구원에서 이 업무를 담당하 고 있다. 그런데 문제는 새로운 보건의료기술의 안전성과 유 효성을 평가하고 체계적 문헌고찰을 실시하기 위하여 이전 에 수행된 무작위배정 비교임상시험 연구결과를 검색하는 과정에서 우리나라에서 수행된 연구가 거의 없는 경우를 빈 번하게 접하게 되었다. 가장 높은 수준의 과학적 평가를 하고 자 하나 그에 필요한 재료가 없어 어려움을 겪게 된 것이다.

이와 같이 제대로 수행된 무작위배정 비교임상시험 결과는 없고 낮은 수준의 연구인 환자군 연구 결과만 있는 경우에는 부득이 해당 분야 전문가들의 자문을 얻어 결정할 수 밖에 없는데 그러한 경우는 결론의 타당성을 인정받기 어렵게 된 다. 따라서 국내 새로운 보건의료기술평가를 위한 무작위배 정 비교임상시험의 수행을 활성화시키기 위한 정책적 지원 이 절실히 필요하다.

보건의료기술평가의 적용분야

새로운 치료제의 과학적 평가

신약을 개발하는 과정은 비교적 오랜 기간 동안 잘 정립되 어 왔다. 국제적으로는 1960년대 초 탈리도마이드에 의한 사 지결손증 기형아가 집단적으로 발생한 대규모 약화사고를 경험한 다음 미국에서 키포버-해리스 상원의원에 의한 법률 개정으로 새로운 치료제에 대한 안전성과 유효성을 과학적 으로 평가하는 시스템이 더욱 강화되었다. 그리고 1980년대 부터 활발한 활동을 벌여온 국제조화회의(International Con- ference on Harmonization, 이하 ICH)에서 개발한 임상시험 용 가이드라인이 전세계적으로 보급되면서 미국이나 유럽의 선진국뿐 아니라 아시아지역에서 수행되는 임상시험들의 수 준이 높아지면서 신약후보물질의 안전성과 유효성을 평가하 는 임상시험의 질적 수준이 표준화되기 시작하였다.²⁾ 우리 나라에서도 식품의약품안전처에서 1995년 10월부터 의약품 임상시험관리기준(Korea Good Clinical Practice)을 제정하 여 적용하기 시작하였고, 2001년부터 국제조화회의에서 제 시한 ICH-GCP를 반영한 개정판을 배포함으로써 국내 임상 시험 수준을 국제적인 수준으로 향상시키는 데 기여하였다.

우리나라에서는 1980년대부터 정부에서 신약개발의 활성화 를 위하여 적극적인 재정지원을 시작하였다. 그 결과 10년 뒤 인 1999년에 백금착체 항암제가 신약 1호로 시판허가를 받았 고, 그 후 현재까지 20개 가까운 국내 개발 신약들이 식약처 로부터 시판허가를 받았다. 그리고 다국적 제약회사에서 개 발한 신약들을 국내에서 시판할 수 있는 허가를 받기 위한 임 상시험이 활성화되기 시작하여 2000년대에 들어오면서 국내

임상시험 여건과 수준이 국제적인 수준으로 발전하게 되었다.

새로운 치료제를 개발하여 동물실험을 거쳐 사람에게 적 용하는 임상시험을 수행할 때는 주로 세 단계를 거친다. 첫 번째 단계인 제1상 임상시험은 신약후보물질을 사람을 대상 으로 처음으로 투여하는 단계이다. 일반적으로 소수의 건강 자원자를 대상으로 치료제의 체내에서의 약동학적 및 약력 학적 특성을 파악한다. 이 단계에서는 새로운 치료제가 동물 실험에서 나타난 결과가 사람에서도 나타나는지를 관찰하 지만 무엇보다도 우선적으로 안전성 측면에서 문제가 없는 지를 확인하게 된다. 두 번째 단계인 제2상 임상시험은 그 치료제로 치료하고자 하는 적응증을 가진 환자들을 대상으 로 수행한다. 제2상 임상시험은 전기 2상 임상시험과 후기 2 상 임상시험으로 구분하는데, 전기 2상에서는 새로운 치료제 의 용량에 따른 치료효과를 평가하여 사람에게 최대한 치료 효과를 나타내면서 견딜만한 부작용을 나타내는 유효치료용 량을 결정하는 것이 주된 목적이다. 후기 2상 임상시험에서 는 비교적 소규모의 연구대상자를 대상으로 기존 표준치료 제를 투여하는 비교군을 설정한 비교임상시험을 수행한다.

세 번째 단계는 안전성과 유효성에 대한 확정적인 평가를 하 는 제3상 임상시험으로서 기존의 표준치료제와 비교하여 장 단점에 관한 높은 수준의 과학적 근거를 생성하기 위하여 구 체적 연구가설을 설정하여 연구대상수를 통계적으로 산출한 후 적절한 비교군을 설정하여 무작위배정을 통하여 전향적 으로 수행하는 무작위배정 비교임상시험이다.

무작위배정 비교임상시험의 보고지침으로서 연구방법, 결 과 및 고찰 등에 제시되어야 할 항목을 제시한 Consolidated Standards of Reporting Trials(이하 CONSORT) 지침이 1996 년 개발된 후 국제적으로 통용되고 있으며 지속적으로 업데 이트되고 있다. 이 지침이 도입된 후 임상시험의 결과를 보고 하는 논문의 질이 향상되는 효과가 나타나고 있다.³⁾ 미국 국 립보건원에서는 2000년부터 임상시험등록체계(ClinicalTri- als.gov)를 구축하여 공개적으로 운영하고 있다. 이 시스템 에는 주요 연구질문, 연구대상자 선정기준과 같은 주요 계획 을 미리 등록하도록 하고, 연구진, 연구수행일정 및 현재 진 행상황 등을 공개하도록 하고 있다. 최근에는 이 체계에 등록 하지 않은 임상시험에 대해서는 의약품 등의 시판허가가 제 한되고, 의학전문학술지에의 투고가 제한되는 등의 조치가 보편적으로 시행되고 있어, 치료법 평가 분야에 있어 선택적 보고에 의한 비뚤림을 최소화 하는 데 중요한 역할을 담당하 고 있다. 미국의 보건의료기술평가 전문연구기관인 Agency for Healthcare Research and Quality(이하 AHRQ)에서는 근거기반의 비교효과연구(comparative effectiveness research)를 강조하면서, 무작위배정 비교임상시험 등을 통한

(5)

근거의 생성, 체계적 문헌고찰 등을 통한 근거의 종합, 이를 활용한 근거의 확산 등의 체계를 갖추도록 하고 있다. 특히 여러 가지 치료제의 효과를 비교평가하는 측면에서의 체계 적 문헌고찰 수행과 관련하여 방법론에 관한 가이드라인을 개발하여 배포하기도 하였다.⁴⁾ 또한 무작위배정 비교임상시 험 결과에 대한 메타분석을 타당하게 보고하기 위한 가이드 라인으로 18개 항목을 포함하는 The Quality of Reporting of Meta-analyses(QUOROM)가 활용되고 있다.

새로운 수술법의 과학적 평가

새로운 수술법을 임상에 적용할 수 있는지 여부를 평가하 기 위하여 기존 수술법과 새로운 수술법을 비교 평가하는 무 작위배정 비교임상시험의 윤리성에 관한 논란 때문에 임상 시험을 통한 효과검증이 제한적이었고 임상의의 경험적 근 거에 기반하여 평가를 내리는 경우가 많았다. 그러나, 새로운 수술법을 개발하여 환자에게 적용하기 위해서는 새로운 수 술법이 적절하게 임상시험을 거쳐 최소한 기존에 존재하는 수술법에 비해 더 안전하고 효과적인지를 평가하여야 하고, 새로운 수술법은 적합한 환자에게 적용되어야 하며, 비용-효 과적으로 타당한지 등에 대한 평가가 전제되어야 한다.⁵⁾

우리나라에서 새로 개발한 수술법을 신의료기술로 인정하 는 과정에 최근 수년간 논란의 대상이 되어온 종합적 대동맥 근부 및 판막성형술(comprehensive aortic root and valve repair surgery, 이하 CARVAR)의 경우를 살펴본다. 종합적 대동맥근부 및 판막성형술은 CARVAR Set를 이용해 대동맥 근부 및 판막을 복원시켜 심박출량을 개선하기 위해 시행하 는 수술이다. 해당 수술은 2007년 3월 22일 심평원에 신의료 기술로 신청되었으나, 관련 학회와 해당 수술법을 개발한 시 술자 간에 신의료기술 여부 및 장기간에 걸친 안전성과 유효 성 수준에 이견이 있었다. 이에 따라 제9차 건강보험정책심 의위원회(2009년 5월 8일)에서 사후관리방안으로 “비급여청 구를 원하는 의료인은 흉부외과학회와 한국보건의료연구원 이 합동으로 실시하는 CARVAR 수술의 안전성・유효성 평 가연구에 필요한 자료를 심평원에 제출하는 조건으로 비급 여를 시행하고, 3년 후 재평가”하기로 결정하였다. 이에 따라 한국보건의료연구원, 대한흉부외과학회 및 심장내과학회 등에서 추천한 전문가들로 구성된 실무위원회를 심평원 내 에 설치하고, 안전성과 유효성에 대한 과학적 평가를 위하여 필요한 자료제출방법 등에 관한 지침을 제정하였다. 그 지침 에는 안전성과 유효성을 평가하기 위한 연구로 연구대상 환 자를 CARVAR 수술과 비교대상 표준판막치환술을 적용하 는 두 군에 무작위배정하여 시술한 후 그 결과를 비교 평가 하는 전향적 무작위배정 비교임상시험의 수행을 제안하였

다. 그러나, 신의료기술의 안전성과 유효성 평가에서 잘 계 획된 구체적인 연구계획에 기반한 무작위배정 비교임상시험 이 수행되지 않았고, 개발자가 자신의 개인적 경험과 견해에 의해서 해당 술기의 우수성을 주장함으로써 임상적 의사결 정에 필요한 과학적 근거의 서열상 낮은 수준인 ‘전문가 의 견’ 수준만이 존재하는 상황으로 이 수술법이 환자들에게 계 속 적용되었다. 또한 조건부 비급여를 부여하면서 3년간 CARVAR를 시술하려면 사전에 연구계획서를 작성하여 의 학연구윤리심의위원회(Institutional Review Board)의 승인 을 받도록 명시한 지침도 준수되지 않았다. 그리고 한국보건 의료연구원에서 후향적 연구를 시행하는 과정에서 연구에 필요한 환자의 기본정보를 수집하기 위하여 수술을 시행한 병원의 자료를 수집하는 것이 제한적이었고, CARVAR 수술 을 받은 환자들의 수술 후 임상경과를 추적관찰하기 위하여 심평원에 해당 대상자들의 진료정보자료를 요청하였으나 개인정보보호법을 이유로 자료의 활용이 불가능하였다. 이 는 공익적인 목적의 연구수행을 위하여 개인정보보호법(HI- PAA법)의 예외적인 적용을 허용하고 있는 미국과 상치되는 경우로서 향후 국가적인 차원에서 국민들에게 도움이 되는 공익적 연구를 위하여 개인정보를 활용할 수 있는 토대를 마련하는 사회적 합의를 도출할 필요가 있음을 시사하였다.

이러한 상황에서 한국보건의료연구원에서 제한적인 여건임 에도 불구하고 후향적 관찰연구를 수행하여 2007년 3월에서 2009년 11월 사이 CARVAR 수술을 받은 397명 환자에서 출 혈, 재수술, 심내막염의 1년 누적발생률이 3% 이상으로 나타 나 안전성 측면에서 우려가 제기된다고 보고하였다.⁶⁾

그러면 비슷한 시기에 프랑스에서 개발된 유사한 수술법인 Conservative Aortic Valve surgery for aortic Insufficiency and Aneurysm of the Aortic Root(이하 CAVIAAR)의 경우 는 어떤 과정을 밟았는지 살펴보자. CAVIAAR는 대동맥근 부 및 판막성형술의 일종으로 CARVAR수술 논란과 비슷한 시기에 프랑스의 Lansac 박사에 의해 개발된 수술법이다. 이 수술법은 개발 이후 그 유효성과 안전성에 대한 과학적 평가 를 위하여 2007년 5월부터 다기관 공동 무작위배정 비교임상 시험이 시작되었으며, 그 내용은 미국 국립보건원에서 운영 하는 임상시험 등록사이트인 ClinicalTrials.gov(등록번호:

NCT00478803)에 등록하였다.⁷⁾ 이를 통해 연구시작일과 종 료일, 피험자 모집방법, 수술대상의 포함조건과 배제조건, 연 구의 결과변수 등을 손쉽게 찾아볼 수 있게 되었으며, 자세한 임상시험 방법과 수술법에 대한 내용은 논문으로 발표하였 다.⁸⁾ 이어서 연구가 진행 중이던 2009년 10월에는 연구의 중 간평가결과를 논문으로 발표하였다.⁹⁾ 그 내용에는 수술의 효 과를 나타내는 조기사망률(30일 이내), 기능개선 정도와 같

(6)

은 결과들 외에도 재수술률과 그 이유, 수술에 의한 부작용 발생내용을 상세히 기술하여 수술법의 안전성에 대하여 충 분한 동료검토를 받을 수 있는 정보를 제공하였다. 이 연구는 2013년 현재까지 추적관찰을 수행하고 있으며, 2014년 11월에 일차연구결과를 도출하기 위한 최종 자료수집 및 통계적 분석 을 계획하고 있음을 임상시험등록사이트상에 공표하고 있다.

새로운 진단법의 과학적 평가

새로운 진단법의 검사결과는 true positive, false positive, true negative, false negative로 나타낼 수 있으며, 이를 바탕 으로 민감도(질병이 있는 사람 중 검사결과가 양성인 사람의 분율), 특이도(질병이 없는 사람 중 검사결과가 음성인 사람 의 분율), 양성예측도(positive predictive value; 검사결과가 양성인 사람 중 실제로 질병에 걸려있는 사람의 분율), 음성 예측도(negative predictive value; 검사결과가 음성인 사람 중 실제 질병에 걸리지 않은 사람의 분율), 양성결과의 우도 비(likelihood ratio of positive predictive value; 질병을 가 지지 않은 사람이 이상소견을 보일 확률에 비해 질병을 가진 사람이 이상소견을 보일 확률), 음성결과의 우도비(likelihood ratio of negative predictive value; 질병을 가지지 않은 사람 이 이상소견을 보이지 않을 확률에 비해 질병을 가진 사람이 이상소견을 보이지 않을 확률) 등의 평가지표를 산출하여 평 가하게 된다. 진단법 평가 결과보고의 질을 확보하기 위한 지 침으로 25개의 항목을 포함하는 Standards for Reporting of Diagnostic Accuracy가 2003년 개발되어 활용되고 있다.¹⁰⁾

미국 AHRQ에서는 진단법 평가의 체계적 문헌고찰을 위 한 가이드라인을 발간하였다.¹¹⁾ 이 가이드라인에서는 효과적 이고 안전한 예방의료서비스를 보증하기 위하여 미국예방의 료서비스실무그룹(United States Preventive Services Task Force)에서 제안한 주요 연구질문의 분석틀에 따른 연구질 문에 대한 체계적 문헌고찰 방법을 제시하고 있다. 즉, 진단 및 검진방법 기술자체의 효능, 임상적 효능, 진단 및 검진결 과에 따른 치료법 등 개입에 따른 질환 이환율 및 사망률 감 소와 유해사례 경험 등을 아우르는 임상적 유용성(clinical uti- lity)을 포함하는 연구질문과 Patient/population, Interven- tion, Comparator, Outcomes, Timing, and Setting 설정이 필요하다는 것이다. 진단법 평가문헌의 비뚤림 위험 등 질평 가를 수행하기 위한 도구로서 Quality Assessment of Diag- nostic Accuracy Studies가 개발되어 있다.¹²⁾

보건의료기술평가시 고려사항

새로운 치료법과 수술법 및 진단법 평가를 위한 연구 결

과를 정리하다 보면 표본오차나 측정오류 등으로 인하여 어 떤 결과는 유의하게, 어떤 결과는 유의하지 않게 나오기 마련 이다. 이 때, 연구자 입장에서 유리하고 바람직한 결과는 보 고하고, 그렇지 않은 결과는 보고하지 않게 되는 경향이 있는 데, 이러한 선택적 보고로 인하여 발생하는 비뚤림을 보고비 뚤림이라 한다. 이 비뚤림은 모든 형태의 연구설계를 적용한 후 얻은 연구결과들에서 발생할 수 있으며, 연구계획단계에 어떤 결과를 보고하고자 계획하였는지 알지 못하면 그 발생 여부를 확인하기는 대단히 어렵다.

또한 거시적으로 보았을 때, 이러한 경향을 가진 연구자들 이 많게 되면 후발 연구자들은 이전 연구자들이 부분적으로 보고한 결과를 근거로 자신은 다른 내용을 부분적으로 보고 하는 것을 합리화할 수 있어서, 결과적으로 보고비뚤림은 보 고비뚤림을 낳는 악순환에 빠져들게 된다. 이렇듯, 연구에 대 한 평가는 보고된 내용에 기반하게 되므로 앞서 소개한 바와 같이 무작위배정 비교임상시험에서의 CONSORT 지침, 체 계적 문헌고찰 수행에 대한 각종 지침을 활용하여 연구를 수 행하고 결과를 보고하도록 함으로써 과학적인 보건의료기 술평가를 수행하도록 해야 한다.

보건의료기술을 실제 인구집단에 적용한 후 나타나는 효 과와 안전성 및 경제성 등에 대한 모든 의학적 지식은 실험적 연구만을 통하여 생산될 수는 없는 까닭에 전체적인 근거의 위계에서 보았을 때 최고 수준의 근거가 관찰적 연구에서 나 올 수 밖에 없는 경우들도 많다. 관찰적 연구는 일상적 진료 환경에서의 치료법, 수술법, 진단법 등의 효과를 측정하는 방 법으로서, 별도의 무작위배정과 같은 개입이 포함되지 않는 연구설계이므로 임상시험과 달리 근원적으로 제거할 수 없 는 비뚤림을 가지고 있는 경우가 많다. 하지만, 관찰연구를 통하여 생성되는 과학적 근거의 가치를 고려할 때, 관찰연구 가 가지는 불가피한 비뚤림의 가능성만을 근거로 획일적으 로 질이 낮은 연구로 폄하하는 것도 적절하지 않다. 보건의료 기술에 대한 근거의 평가는 개별적인 비뚤림의 요인을 어떻 게 통제하였는가에 대한 평가, 그리고 그 통제가 전체 연구에 서 어떻게 작동하여 내적타당도와 외적타당도를 높이고 있 는지에 대한 평가, 마지막으로 전체 근거체계의 맥락에서 해 당 연구가 가지는 가치에 대한 평가까지 이루어질 때 완성 된다.

결 론

새로운 보건의료기술을 과학적으로 평가하기 위하여 적용 할 수 있는 가장 핵심적인 연구형태인 무작위배정 비교임상 시험과 체계적 문헌고찰을 살펴보았다. 이들 연구방법론은

(7)

환자진료에 필요한 과학적 근거를 생산하고, 생산된 근거를 평가하는 데 널리 활용되고 있다. 이러한 연구방법론의 장단 점과 평가방법을 숙지하고 적절하게 활용하는 것은 새로운 보건의료기술들을 과학적으로 평가하여 진료에 도입하고 보 건정책수립에 반영하여 국민들의 건강수준을 높이는 데 기 여할 수 있을 것이다.

REFERENCES

1) Sackett DL, Straus SE, Richardson WS, et al. Evidence-based medi- cine: how to practice and teach EBM. 2nd ed. Edinburgh: Churchill Livingstone;2000.

2) International Conference on Harmonization of Technical Require- ments for Registration of Pharmaceuticals for Human Use. ICH har- monized tripartite guideline-E6 Guideline for Good Clinical Practice;

1997.

3) Schulz KF, Altman DG, Moher D. CONSORT 2010 statement: up- dated guidelines for reporting parallel group randomised trials. J Pharmacol Pharmacother 2010;1:100-107.

4) Agency for Healthcare Research and Quality (AHRQ). Methods Guide for Comparative Effectiveness Reviews. Rockville, MD:

Agency for Healthcare Research and Quality;2008 [online]. Avail- able from: http://www.ncbi.nlm.nih.gov/books/NBK47095.

5) Wilson CB. Adoption of new surgical technology. BMJ 2006;332:

112-114.

6) Bae JM, Shin E, Heo DS. Safety of Comprehensive Aortic Root and Valve Repair Surgery: A Retrospective Outcomes Research by Na- tional Evidence-Based Health Care Collaborating Agency, Korea.

Korean Circ J 2012;42:769-771.

7) Clinicaltrials.gov [Homepage on internet]; Conservative Aortic Valve Surgery for Aortic Insufficiency and Aneurysms of the Aortic Root.

CAVIAAR. Available from: http://clinicaltrials.gov/ct2/show/

NCT00478803.

8) Lansac E, Di Centa I, Bonnet N, Leprince P, Rama A, Acar C, et al.

Aortic prosthetic ring annuloplasty: a useful adjunct to a standard- ized aortic valve-sparing procedure? Eur J Cardiothorac Surg 2006;29:537-544.

9) Lansac E, Di Centa I, Sleilaty G, Bouchot O, Arnaud Crozat E, Blin D, et al. An aortic ring to standardise aortic valve repair: preliminary results of a prospective multicentric cohort of 144 patients. Eur J Cardiothorac Surg 2010;38:147-154.

10) Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, Ir- wig LM, et al. Towards complete and accurate reporting of studies of diagnostic accuracy: The STARD Initiative. Ann Intern Med 2003;

138:40-44.

11) Agency for Healthcare Research and Quality (AHRQ). Methods Guide for Medical Test Reviews. June 2012 (AHRQ Publication No.

12-EHC017).

12) Whiting PF, Rutjes AW, Westwood ME, Mallett S; QUADAS-2 Steer- ing Group. A systematic review classifies sources of bias and varia- tion in diagnostic test accuracy studies. J Clin Epidemiol 2013;66: