연구결과 1 - 적정성 평가항목별 종합점수 산출방법 체계화 방안 연구

건강보험심사평가원(이하, 심평원)은 개원 이후 2017년 현재까지 실시하고 있는 요양 급여 적정성 평가를 통해 의료의 질 향상과 국가 보건의료체계 성과개선에 기여해 왔다.

최근 보건의료 환경 변화로 인한 의료서비스 소비자의 권리 강화 및 의료의 질에 대한 관 심의 증가는 의료 평가사업의 패러다임 전환의 시기를 이끌었다. 심평원에서는 지난 17년 간 확대·발전해 온 요양급여 적정성 평가 사업의 중요한 방법을 정리하고 방법론적 측면 에서 중요한 의사결정 사항을 재점검함으로써 이러한 변화에 대응하고 발전방안을 모색하 고 있다. 이에 본 연구에서는 현재 요양급여 적정성 평가에서 종합점수 산출 방법 및 등급 화 방법을 검토하고, 방법론적 측면에서 개선에 대한 요구나 필요성이 있는 부분에 대한 개선방안을 마련하고자 하였다.

본 연구에서는 우선적으로 적정성 평가항목별 종합점수 산출 및 등급화 과정의 문제점 을 파악하기 위해 요양급여 적정성 평가결과를 분석하였다. 또한, 외국의 평가결과 산출 및 공개 관련 문헌 검토 및 통계학적 방법론에 근거하여 적정성 평가에서 종합점수 산출 및 등급화 방법에 대해 체계화 방안을 모색하였다. 그 과정에서 의료소비자와 전문가의 의견을 청취하고 수렴하여 개선안 마련에 반영하였다. 본 연구에서 제시한 개선안을 적정 성 평가에 적용가능성(feasibility) 여부를 확인하기 위해 모의시험을 통해 검토하였다.

2017년 기준 32개 평가항목에 대해 요양급여 적정성 평가를 진행하고 있다. 현재 적 정성 평가에서는 14개의 평가항목⁶⁶⁾에서 종합점수를 산출하고 있으며 이를 5개 구간으로 구분하여 등급화하고 공개하고 있다. 물론 종합점수를 산출하지 않는 평가항목 가운데 고 혈압, 당뇨, 천식 평가는 각 평가지표가 일정 수준 이상이면 양호 등급을 부여하고 있으 며, 질병군포괄수가 처럼 등급을 부여하지 않는 평가항목도 있고 진료량과 같이 2등급으 로 공개하는 평가항목도 있다.

66) 급성기뇌졸중, 폐렴, 관상동맥우회술, 급성심근경색증, 만성폐쇄성폐질환, 혈액투석, 대장암, 유방암, 폐암, 위암, 수술의예방적항생제, 요양병원, 의료급여정신과, 중환자실이 이에 해당함.

종합점수 산출방법에 따라 종합점수 값과 평가기관의 질적 수준 차이에 영향을 미칠 수 있을 만큼⁶⁷⁾ 평가항목과 목적에 따라 적절한 방법을 적용하는 것은 중요하다. 또한 종합 점수 산출과정에서 다양한 방법을 선택할 수 있기 때문에 더욱 그러하다. 이에 본 연구에 서는 종합점수를 산출하고 있는 평가항목을 중심으로 통계학적 방법론에 따른 산출 과정 별로 표준화(normalization), 가중치부여(weighting), 종합화(aggregation), 등급화로 4단계로 구분하여 검토하였다.

적정성 평가에서 종합점수를 산출하고 있는 14개 평가항목 중, 11개 항목에서 표준화 방법을 이용하고 있다. 요양급여 적정성 평가에서 적용하고 있는 표준화 방법은 표준점 수, 기준과의 거리, 점수배분, 기회모형이 있다. 구조지표는 점수배분 또는 기회모형 방법 을 이용하여 표준화를 하고 있으며, 과정지표는 대부분이 기회모형을 이용하고 혈액투석, 요양병원, 의료급여 정신과, 중환자실은 점수배분을 이용하고 있다.

OECD 및 국외문헌에서 제시된 표준화 방법과 현재 적정성 평가에서 이용하고 있는 표 준화 방법을 비교해보았으나 특별한 문제점이 없는 것으로 판단하였다. 다만 일부 평가항 목에서 표준점수 산출 방식을 변경한다면 좀 더 정확성 높은 평가결과를 산출하는 데 도 움이 될 것으로 보인다. 현재 개별 기관의 예측값과 예측값의 표준오차를 이용하여 표준 화하는 방법 대신 실제값과 예측값의 비를 이용하여 점수 산출을 하는 방안을 고려할 수 있다. 또한 표준점수 산출과정에서 발생할 수 있는 표준화의 문제점을 개선하기 위해서는 명목형 범위로 표준화를 하는 점수배분 방식도 하나의 고려사항이 될 수 있을 것이다.

현재의 적정성 평가에서는 지표를 우선 설정하고 해당 지표를 연결하여 영역을 구성하 여 가중치를 선정하는 상향식 방식이며, 각 평가영역이 질환 중심으로 구분되었기 때문에 각 지표별 특수성을 반영하여 가중치가 선정되었다. 현재의 가중치를 일관된 형식으로 조 정한다면 오히려 평가항목의 특수성을 반영하시 못하는 경우가 발생할 수 있다. 따라서 가중치 선정의 개선안은 단기적인 가중치 수정이 아니라 지표 영역 수준까지 연결하여 중․

장기적인 개선안이 필요하다.

중․장기적인 개선안은 현재 적정성 평가의 가중치와는 다르게 적정성 평가의 영역에 대 한 정의 및 구성이 우선되어야 하며, 영역별 중요성을 감안하여 가중치를 정하는 하향식

67) 김 윤 등(2010), 요양급여 적정성 평가 발전방안에 관한 연구

방식의 개선방안을 고려해야 한다. 따라서 요양급여 적정성 평가에서 '목표중심의 평가체 계 구축'이 선행된 후에 통계적 자료를 바탕으로 전문가 집단의 합의를 통해 결정하는 방 안을 제시할 수 있다.

현재 적정성 평가의 가중치 선정에 있어서 상향식 접근방법을 이용하고 있으므로 각 영역별로 명확한 gold standard를 제시할 수 없는 문제점이 있다. 이러한 기준의 부재로 인해 가중치 선정 방법 중 회귀모형 기반 접근법 등을 적용하기 어려운 현상이 발생하였 다. 이에 현재 가중치는 전문가들의 합의로 선정된 것으로서 표면적 타당성을 확보한 것 이기 때문에 적합한 방법이라고 판단된다. 그러나 각 영역별로 가중치를 부여하기 위한 합의 과정에서 일관된 절차가 없기 때문에 신뢰도 부분에서 문제가 발생할 수 있다. 따라 서 가중치 부여의 '절차적 합리성' 확보를 위한 개선방안이 필요하다.

적정성 평가에서 사용하고 있는 종합화(aggregation) 방법 자체에서 문제점은 발견되 지 않았다. 그러나 100점 만점이 아니거나 아닐 가능성이 있는 평가항목(현재 적정성 평 가에서는 관상동맥우회술, 급성심근경색 항목)의 경우 재척도화(rescaling)하는 방법으로 통일성을 확보할 수 있을 것이다. 다만, 재척도화를 하는 과정에 있어서는 대내외적인 합 의(consensus)를 거쳐 진행되어야 할 것으로 판단된다.

재척도화를 하여 100점 만점으로 만드는 대표적인 방식은 re-scaled index를 이용하 는 것이다. 이 방식은 지표의 최대값(max)과 최소값(min)을 이용하여 지표를 0점 ~ 100점으로 만드는 방식이다. 해당 수식은 다음과 같다.

_ max_  min _

_ min _

 × 

본 연구에서는 적정성 평가에서 적용가능성을 검토하기 위해 현재 적정성 평가항목 중 종합점수가 100점 이상인 관상동맥우회술 평가항목에 대해 re-scaled index를 가지고 재척도화를 시행하였다. 그 결과 점수의 분포는 동일한 것을 확인할 수 있었다. 그리고 현 재 종합점수의 분포가 77.5~104.2에서 0~100점으로 변환된 것을 알 수 있었다. 이는 최소점과 최대점의 간격이 26.7점에서 100점으로 변경되었으며 의료기관별 점수의 변별 력이 커진 것을 확인할 수 있었다.

적정성 평가의 등급화와 관련하여 이해관계자들 사이에 이견이 있으며, 특히 등급의 개

수에서 그러하다. 일부 이해관계자는 등급을 pass/failure로 두 개의 등급으로 변환하자는 의견도 있으며 일부는 3단계로 변환하자는 의견을 제시하기도 하였다. 그러나 등급의 개수 를 3등급 또는 그 이하로 변환했을 때는 통계적 신뢰도가 높은 장점이 있지만, 의료기관 성과의 결과를 정확히 반영하기 어려운 단점이 있다. 또한 각 등급의 의료기관에 대한 구 분이 정확하지 않으며, 성과 향상에 대한 정확한 측정 및 반영이 어렵다.⁶⁸⁾ 반면 5등급 분 류는 평가 기관의 분포가 정규 분포할 가능성이 높으며, 성과의 결과를 반영하기 용이하 고, 평가기관에 대한 구분이 용이하다는 장점이 있다. 미국 CMS와 호주 등 많은 나라에서 의료기관을 평가하고 결과를 공개할 때, 5등급 분류를 사용하고 있다. 이에 현재 5개 구간 으로 구분하여 의료기관의 평가결과와 성과 향상을 잘 반영할 수 있다고 판단하여 본 연구 에서는 현재 5개 구간 분류 체계를 유지하는 방안을 고려하였다. 또한 절대평가 성격을 평 가등급 체계를 확대하는 방안 중심으로 검토하였다.

또한 등급화와 관련해서 적정 목표 수준의 각 등급의 기준을 설정하기 위해 등급의 조 작적 정의 내리고 그에 따라 모의시험을 실시하였다. 우선 상급종합병원⁶⁹⁾을 이용하여 1 등급의 조작적 정의를 설정하였다. 또한 평가목표 수준 및 기준은 평가지표의 평균과 변 이 값을 기준으로 판단할 수 있다(대한의학회, 2015)는 연구결과에 근거하여 상급종합병 원의 평균과 표준편차 등 다양한 기준을 적용하여 모의시험 시행하였다(표 33).

모의시험을 통해 적정성 평가의 14개 항목에 각각의 조작적 정의를 반영한 등급 분포를 확인해 본 결과, 현재 적정성 평가 기준을 적용한 분포와 차이가 나타남을 알 수 있었다.

모든 평가항목을 일관된 방식으로 종합점수를 산출 및 등급화 하는 것 보다 유사한 특성을 가지는 영역으로 구분하여 종합점수를 산출하는 것도 하나의 방편이 될 수 있다는 선행연

문서에서 적정성 평가항목별 종합점수 산출방법 체계화 방안 연구 (페이지 106-111)