한글판 번역 타당도 검증 - 의약품 가치평가방안 마련을 위한 연구

☐ 타당도 검증 진행 목적

❍ ASCO/ESMO 가치 평가도구의 한글 버전을 만들었으며, 이 한글 버전을 다시 영어로 역 번 역하는 과정을 진행하여 만든 한글판 평가도구의 타당도를 검증하기 위함

☐ 진행 방법

❍ 두 가지 도구로 한글 버전의 validation을 진행하기 위해 한글판 작성에 참여하지 않았던 연구진들이 선정된 6가지 약제를 평가하는 과정을 진행함 <표 15>

❍ Bentley, 2017⁸⁾의 타당도 검증연구와 같이 동일한 수의 평가자들이 ASCO와 ESMO의 한글 번역, 역 번역본을 사용해 공통적으로 지정된 임상논문을 참고하여 선정된 약제를 모두 한 번씩 평가함

❍ 본 연구에서는 평가 약제 별 종양내과 의사 3명, 비전문의(PhD/PharmD/석사급 이상 연구 자 등) 2명 총 5명의 평가자들이 현 연구의 한글판 평가도구 중 한글 번역을 평가하였고, 종양내과 의사 4명, 비전문의 4명 총 8명의 평가자들이 역 번역 도구를 이용해 평가하였 으며 의사 5명이 원문을 이용해 평가하였음. 두 가지를 사용해 선정된 6가지 약제를 각각 평가하여 한 명의 평가자마다 12개의 평가 결과를 얻을 수 있도록 하였음

❍ 평가자들의 평가 점수들의 분포를 분산 그래프를 이용하여 확인하였음

❍ 또한, Bland-Altman, Intraclass Correlation Coefficient(ICC)를 이용하여 결과의 일관성을 평가하였음

약제명 논문

osimertinib 2^ndline

nivolumab 2^ndline(CM017) pembrolizumab 2^ndline

atezolizumab 2^ndline cafilzomib

pomalidomide

<표 16> 번역 타당도 평가 약제

☐ 한글판 평가도구 평가 결과

❍ 한글 번역 항목별 평가 결과 [그림7-11]

- ASCO와 ESMO의 평가도구를 한글로 번역한 평가도구의 대한 타당도 검증을 하기 위하 여 평가자 의사 3명, 비전문의 2명 총 5명이 한글 번역 도구를 이용하여 약제들을 평가하 였음

- 또한, 평가자간 점수결과를 분산 그래프를 통해 분포하는 정도를 확인하였음. ASCO의 가치평가 도구의 평가 결과는 clinical benefit과 toxicity 그리고 bonus point의 점수를 합 산하여 최종점수를 얻는 도구이기 때문에 위 세 가지 항목과 최종 점수에 대한 그래프를 나타내었음

- ASCO의 clinical benefit을 평가한 점수는 평가자간 동일한 평가 결과를 보이거나 최대 약 15점 이내의 점수 차이를 볼 수 있었고 특히, pembrolizumab과 atezolizumab의 평가 는 모든 평가자들이 동일한 점수를 부여했음. 독성의 항목에서는 약제 별 유사한 점수를 보이는 것을 확인할 수 있었으나 약제 nivolumab 평가 약 17점의 점수 차이를 보이는 것으로 평가자 간 점수평가에 차이를 보임. 세 항목 중 bonus point의 평가 결과 그래프 에서 다른 항목에 비해 점수 간 차이가 많이 존재하는 것을 보이며, 최대 약 50점까지 점수 차이를 보임

[그림 7] 한글 번역 평가자 ASCO-VF clinical benefit 평가 점수

[그림 9] 한글 번역 평가자 ASCO-VF toxicity 평가 점수 [그림 8] 한글 번역 평가자 ASCO-VF bonus point 평가 점수

- ASCO의 clinical benefit, toxicity, bonus point를 모두 합산한 최종 점수 NHB의 결과는 큰 차이를 보이지 않았지만, 대체로 모든 약제에 대해 동일한 점수 결과를 보이지는 않 고 있음

- ESMO 최종 등급 평가 결과는 모두 동일한 평가를 보인 약제 결과도 있지만, 적게는 1등 급 많게는 3등급까지의 차이를 보임. 이는 평가 시 예비 임상적 이득에 대한 등급 평가에 서의 결과차이 때문이라고 풀이됨

[그림 10] 한글 번역 평가자 ASCO-VF 최종 점수

[그림 11] 한글 번역 ESMO-MCBS 평가 점수

❍ 역 번역 항목별 평가 결과 [그림12-16]

[그림 13] 역 번역 평가자 ASCO-VF toxicity 평가 점수 [그림 12] 역 번역 평가자 ASCO-VF clinical benefit 평가 점수

- 역번역본으로 평가한 평가자는 총 8명으로 4명의 전문의와 4명의 비전문의가 평가를 진 행하였음. 역 번역 역시 clinical benefit의 점수 평가는 유사하게 평가를 한 것을 확인할 수 있었고, toxicity 항목에서도 유사한 평가를 한 것을 볼 수도 있었지만 최대 20점의 점수 차이를 보이는 경우도 볼 수 있었음. 또한, bonus point 항목은 한글 번역과 동일하 게 평가자 간 점수 결과가 일치하지 않았음

[그림 14] 역 번역 평가자 ASCO-VF bonus point 평가 점수

[그림 15] 역 번역 평가자 ASCO-VF 최종 점수

- 역 번역의 ESMO 평가 결과 1등급~3등급의 점수 차이를 보이는 경우를 확인할 수 있었 음. 이는 예비 임상적 이득 등급 부여와 QoL에서 평가 차이로 인한 결과로 보임

❍ 원문 항목별 평가 결과 [그림17-21]

[그림 17] 원문 평가자 ASCO-VF clinical benefit 평가 점수 [그림 16] 역 번역 ESMO-MCBS 평가 점수

- 원문평가를 진행한 임상의 5명의 평가 결과 그래프를 보았을 때 clinical benefit 항목에 서 매우 높은 점수 유사성을 보이며 toxicity 점수에서는 최대 약 7점의 점수 차이를 확인 할 수 있는데 이 점은 한글번역과 역 번역의 독성 평가와 비교했을 때 더 높은 점수 유사 성을 나타내는 것을 알 수 있었음. bonus point 항목에서는 원문 평가에서도 평가자간

[그림 18] 원문 평가자 ASCO-VF toxicity 평가 점수

[그림 19] 원문 평가자 ASCO-VF bonus point 평가 점수

- ESMO-MCBS의 최종 등급 평가 분포 그래프에서 약제 nivolumab 평가에서 최대 3등급의 점수 차이를 볼 수 있었으나, 대부분 유사한 등급 평가를 보이는 것을 확인할 수 있었음

[그림 20] 원문 평가자 ASCO-VF 최종 점수

[그림 21] 원문 평가자 ESMO-MCBS 평가 점수

☐ Bland-Altman plot 정의

❍ Bland-Altman plot은 동일 대상에 대한 두 세트의 측정값에서 각 측정값의 쪽마다 평균과 차이를 계산한 다음 평균을 x축, 차이를 y축으로 하는 산점도인데, 반복성과 재현성 평가 에서 뿐만 아니라 서로 다른 두 검사법에 의한 측정값들 간의 불일치 양상을 살펴보는데 권고되는 방법임 (Bland, 1999)⁹⁾

❍ 그림을 나타낼 때 일반적으로 x축과 평행한 세 개의 가로선을 표시함. 이 값들은 평균, 95% 일치한계 상한 값과 하한 값을 나타내고 일치한계 상한 값과 하한 값을 구하는 법은 아래와 같음

- 95% 일치한계 상한 값 : ^ _ - 95% 일치한계 하한 값 : ^ _

(^= 측정값의 짝 간 차이의 평균, _=차이의 표준편차)

❍ 측정값 간 차이들이 정규분포를 따른다면 차이의 대략 95%는 일치한계 상한 값, 하한 값 사이에 존재하게 됨

☐ Bland-Altman plot 분석 결과

❍ Bland-Altman plot 분석 시 ASCO 와 ESMO 평가 도구들의 한글 번역, 역 번역 그리고 원문 의 각 평가 도구에서 얻은 최종점수의 재현성을 검증하는데 사용되었음

❍ ASCO 도구에서의 Bland-Altman plot 그림에서는 모두 한글 번역과 역 번역, 한글번역과 원문 그리고 역 번역과 원문 사이의 값들이 모두 95% 한계 값 내에 분산되어 있는 것을 확인할 수 있었음

❍ 또한, ESMO 평가도구에서의 Bland-Altman plot 분석 결과 ASCO와 동일하게 모든 값들이 95% 일치한계 상한 값과 하한 값을 벗어나지 않고, 기준선 사이에 존재하는 것을 볼 수 있었음

❍ Bland-Altman plot 분석을 통해 ASCO와 ESMO 도구의 한글 번역, 역 번역 그리고 원문 비교에서 모두 기준선 내에 분산되어 있어 매우 좋은 일치성을 보이는 것을 확인할 수 있었음

❍ 그러나 이는 평가자들의 평균 값에 대한 비교로, 개인 간의 값은 여전히 차이가 있을 수 있으므로 해석에 주의를 요함

[그림 22] ASCO 도구의 한글번역, 역 번역 Bland Altman plot

[그림 23] ASCO 도구의 한글번역, 원문 Bland Altman plot

[그림 24] ASCO 도구의 역 번역, 원문 Bland-Altman plot

[그림 25] ESMO 도구의 한글번역, 역 번역 Bland-Altman plot

[그림 26] ESMO 도구의 한글번역, 원문 Bland-Altman plot

[그림 27] ESMO 도구의 역 번역, 원문 Bland-Altman plot

☐ 도구 Intraclass Correlation Coefficient (ICC) 정의 및 함의

❍ Inter-rater reliability (평가자 간 신뢰도)를 확인하기 위해 Intraclass Correlation Coefficient(ICC) 값을 구하여 분석함

❍ ICC 정의

       

 

(var: variability)

- ICC의 범위는 0에서 1까지이며, 0.40보다 작은 값은 낮은 신뢰성을 나타냄. 0.40~0.59는 공정한 신뢰성, 0.60~0.74 값은 좋은 신뢰성, 0.75이상인 값을 나타내면 우수한 신뢰성을 나타낸다고 해석할 수 있음 (Bentley, 2017)⁸⁾

❍ ICC를 분석할 때 응답자는 random sample 되었다고 가정하는 two-way random model을 이용하였고, 95%의 confidence interval을 사용하였음

❍ ASCO와 ESMO의 원문, 한글 번역, 역 번역의 최종 점수의 ICC를 확인하였고, ASCO는 점 수를 결정하는 데에 clinical benefit, toxicity, bonus point 항목으로 얻어지기 때문에 ASCO 의 이 세 가지 항목의 ICC 함께 확인하였음

❍ 또한, 한글 번역과 역 번역에서 전문의와 비전문의의 ASCO와 ESMO 도구를 이용한 최종 점수의 평가자 간 신뢰도를 확인하였음

❍ 표에서 ‘†’ 로 표시한 값은 ICC 분석 시 음의 값이 나온 것으로 실제 ICC 값이 매우 낮은 것을 의미하는 것으로 0으로 가정하였음 (Bentley, 2017)⁸⁾

☐ ICC 분석 결과 <표 16>

❍ 한글 번역의 전문의와 비전문의 전체 평가자의 ASCO와 ESMO 도구의 최종 점수의 ICC는 ASCO는 0.895(0.654~0.983)이며, ESMO의 최종 점수의 ICC는 0.726(0^†~0.982)로 두 도구 모 두 우수하거나 좋은 신뢰성을 보이며 ASCO 도구의 신뢰성이 더 높게 나옴. 이는 ESMO의 경우 연속형이 아닌 범주형 범수로 정의된 것과도 관련될 수 있음

❍ 전문의(n=3)의 ASCO 평가 ICC는 0.903(0.590~0.985)이며, 비전문의는 0.462(0^†~0.925)로 비 전문의보다 전문의의 평가 점수 일치도가 높다는 것을 볼 수 있었음. ESMO 평가 ICC는 전문의 0.500(0^†~0.970), 비전문의 0.640(0^†~0.976)의 결과로 ASCO에서와는 달리 전문의가 비전문의보다 일치도가 낮은 것을 확인할 수 있었음. 이것은 한글 번역을 평가한 전문의 와 비전문의의 평가자 비율이 동일하지 않다는 점에서 ASCO에서와 ESMO에서의 전문의 와 비전문의 간 신뢰도 차이는 추후 재시험을 통하여 확인해야 할 필요가 있음 또한, ASCO의 항목별 신뢰도에서 clinical benefit이 0.973(0.910~0.996)으로 우수한 신뢰성

을 보였고 bonus point 0.646(0^†~0.944), toxicity 0.407(0^†~0.906) 순으로 독성에서 가장 낮 은 신뢰성을 보였음. 독성에 낮은 신뢰도가 도출된 것은 선행연구 Bentley, 2017⁸⁾, Wilson 2017⁴⁰⁾와 일관되며, 이는 독성 부분에 3~4등급의 high grade 만 적용하는 ESMO 와 달리 Low, high grade를 모두 적용하는 ASCO 도구의 장점이자 단점임. (Cherny, 2019)¹²⁾Grade 1, 2와 3, 4 독성을 명확히 구분하여 보고한 임상연구가 한정적 (Cheng, 2017)⁹⁾이어서 평 가를 위하여 평가자가 보정하는 과정에서 주관적 판단이 개입할 수 있음

❍ 역 번역의 ASCO 항목별 신뢰도는 한글 번역과 동일하게 clinical benefit이 0.973(0.921~0.996)의 값으로 우수한 신뢰도를 나타냄. toxicity 신뢰도는 0.823(0.477~0.971), bonus point 0.646(0^†~0.944)의 신뢰도를 보임. bonus point 항목의 신뢰도가 가장 낮은 이 유는 bonus point는 최대 60점까지 점수부여가 가능한 항목이기 때문에 bonus point의 세 부항목(tail of the curve, palliation, QoL, treatment free interval)에서 한 부분에서 평가자 간 점수평가 차이가 존재할 때 clinical benefit과 toxicity 항목보다 매우 큰 평가자 간 차이 를 나타낼 수 있는 것으로 판단됨

❍ 역 번역의 전체 평가자(n=8) 간 신뢰도를 분석한 결과 ASCO의 최종점수의 신뢰도는 0.930(0.792~0.989)이고, ESMO는 0.900(0.604~0.993)로 우수한 신뢰도를 확인할 수 있었음.

전문의(n=4)의 그룹의 ASCO 도구의 최종점수는 0.886(0.592~0.982)이고, 비전문의(n=4) 그 룹은 0.893(0.618~0.983)로 두 그룹 모두 우수한 신뢰도를 보여주었음. ESMO 도구의 전문 의 그룹의 신뢰도는 0.525(0^†~0.971), 비전문의 그룹의 신뢰도는 0.913(0.557~0.994)로 비전 문의 그룹의 신뢰도가 더 높게 나온 것을 확인할 수 있었는데 이는 전문의 그룹의 평가자 중 도구에 대한 사전지식과 이해도가 부족한 경우 나타날 수 있는 결과로 판단되며 이러 한 문제는 일관된 평가를 위한 사전 평가도구에 대한 충분한 설명이 필요함을 시사함

❍ 원문의 평가자 간 신뢰도의 점수는 ASCO 항목별 신뢰도 점수도 모두 0.9점을 넘는 것을 보였으며, ASCO 도구는 0.969(0.898~0.995), ESMO 0.910(0.638~0.994)로 가장 높은 신뢰도 를 보임. 이와 같은 이유는 원문을 평가한 평가자(n=5)는 모두 암전문의였으며, ASCO/ESMO 에 대한 충분한 사전지식이 있는 것과도 관련됨. 한글 번역의 경우 낮은 신뢰 성을 보이지는 않지만 샘플사이즈가 적고, 전문의와 비전문의 그룹 사이의 동일하지 않은 평가자 수 등에 예민하게 반응하여 해석에 어려움이 있으며 추후 샘플을 추가하여 분석할 필요가 있음

문서에서 의약품 가치평가방안 마련을 위한 연구 - HIRA OAK Repository (페이지 63-79)