Journal of Korean Society of Health-System Pharmacists

(1)

특집

Meta analysis(메타분석)의 이해

신임희

대구가톨릭대 의과대학 의학통계학교실

1. 들어가면서

최근 의, 약, 간호계뿐만 아니라, 다양한 의료영역 에서, 근거 중심관련 연구가 많이 주장되어 오고 있 는 상황이다. 근거중심연구가 좀 더 연구에 대한 타 당성과 객관성을 부여할뿐만 아니라, 기존의 연구를 종합 정리하고, 앞으로의 연구에 보다 더 질적으로 신뢰성있는 연구 결과를 보증하기 위해서는 근거중 심을 확보하기 위한 연구에 많은 주안점을 두고 있 다. Sytematic review를 통한 연구의 질적인 평가 가 이루어지면 질적평가에 따른 연구를 바탕으로 객 관적인 타당성을 확보하는데 이용되는 통계적 분석 방법이 메타분석(meta analysis)이다. 메타분석의 이론적 정립이 본격화된 것은 1976년 Gene.V.

Glasss에 의해서 이루어졌으며 이후 많은 관심을 받 아온 메타분석에 대한 개념 및 분석의 방법, 또한 메 타분석을 위해서는 우리는 어떤 관점에 그 중요성을 두고 있는지를 살펴보고자 한다. 메타분석의 전반적 이고 개념정립과 더불어 이해에 중점을 두고 진행하 기에, 복잡한 통계적 분석방법에 대한 구체적인 전 개는 남겨두기로 하겠다.

2. 메타분석의 이해

예를 들어 SGA(Second Generation Antipsychotic drug)의 efficacy가 FGA(First Generation Antipsychotic drug)에 비하여 어느 정도인지를 알아보기 위하여, 1953∼2002년까지의 관련된 모 든 문헌을 검색하여, SGA와 FGA의 efficacy를 비

교하고자 한다면(Arch Gen psychiatry. 2003: 60 권 :553-554) 지난 50여년간의 논문을 체계적으로 평가하고, 이것을 종합적으로 정리하는 방법은 무엇 일까? 또는 새로운 drug의 개발로 clinical trial을 하는 경우 multi-clinical trial center에서 동시에 연구를 시작하여, 그 결과를 종합하는 방법은 무엇 일까에 대해서 고민하게 된다. 이러한 배경을 두고, 연구결과를 요약하고, 객관적으로 평가하는 방법을 고민하게 되고, 그 결과 대두된 통계적 방법론이 바 로 메타분석이다. 즉, 메타분석은 synthesis, overview, pooling results 와 관련된 개념으로 고 려되어야 한다. 이러한 객관적 타당성을 지닌 결과 를 근거인 통계적인 유의성을 밝혀두면, 근거중심연 구(Evidence Based Research)뿐만 아니라, 연구 의 결과에 대한 일반화가 가능하고, 표준적인 guideline의 설정이 가능하다.

대부분의 임상연구에 있어서, 메타분석이 적용되 기 위해서는 Sytematic review를 통한 양질의 문 헌을 전제되어 있고, 근거중심연구에서 강조되는 PICO(Patients, Intervention, Comparision, Outcomes)의 설정이 정확하게 이루어져야 한다.

주로 임상시험 관련연구는 RCT(Randomized Controlled Clinical Trial)논문을 위주로, Cochran Library, Embase로 검색이 가능하며, 근 거중심의 올바른 근거를 확보하기 위해서는 기본적 으로 논문의 질적평가가 바탕과 더불어 이러한 상황 이 가정되어 있어야 한다.

혹자는 왜 메타분석을 해야 하는가에 의문을 가질

수도 있다. 예를 들어 어떤 특정 질환을 치료하는

(2)

데, A방법(치료군)과 B방법(대조군)을 비교하는 논 문이 총 20편이 있는데, 이것을 살펴본 결과 8편은 통계적으로 유의하게 치료군이 좋다고 보고 4편은 통계적으로 유의하지는 않으나, 치료군이 우세한 경 향으로 보고 4편은 통계적으로 유의하게 대조군이 좋다고 보고 7편은 통계적으로 유의하지는 않으나, 대조군이 우세한 경향으로 보고 있다면 최종적인 결 론은 어떻게 내릴수 있는가이다. 단순히, 치료군이 좋다고 나온 논문의 편수가 1편이 많으니, 치료군이 더 좋고 치료의 효과가 있다고 말하기에는 그 방법론 적인 접근이 너무 과학적이지 않고, 동의가 되지 않 는다. 그러므로, 여기에 타당성과 객관성을 부여하는 과학적인 방법론에 대한 연구가 메타분석의 필요성 에 대한 의문을 해결해주는 것이다. 그러면, 메타분 석시에 고려해야 할점과 그 방법론에 대해서 살펴보 기로 한다.

메타분석시 과연 몇 편의 논문이 있어야 메타분석

이 가능하며, 메타분석에서 언급되는 논문은 연구목 적, 연구대상, 연구도구, intervention, 측정변수 등 등이 모두 동질하다고 여겨지는가? 또한 연구에서 측정되는 도구 및 변수는 그 속성이 측정된 결과 모 여진 DATA의 속성은 어떠한가? 더불어 동일한 PICO를 가지고, 연구를 진행하는 연구팀이 없는가?

또한 메타분석과 관련된 용어에 익숙한지 고려해 보 아야 한다. 무엇보다도 메타분석과 관련된 용어에 대 한 이해가 필요하기에, 메타분석에 이용되는 용어를 한번 살펴보고 그 의미를 파악해보자

3. 메타분석과 관련된 용어 효과크기(effect size, d) : 효과크기는

(d:: 표준화된 평균차이,

^Sp

: 공통표준편차, :대조 군의 평균, :치료군의 평균)로 정의되어 진다. 그러

이 부분은 우측으로 가면 위약이 효과/좌 측으로 가면 치료군의 효과를 말하고 있 으며, 좌. 우는 바뀌어 질 수도 있다.

이 중간 line은‘no effect’를 의미한다. 만약 자료의 속성이 양적자료인 경우에는 효과크기의 평균차이(mean difference)가 0이므로‘0’의 값이 기준이 되며, 질적 자료인 경우에는 승산비(odds ratio)가 기준이 되어 1의 값이 보통 나타나게 된다.

Fig. 1

(3)

므로, 위의 식처럼 대조군의 평균과 치료군의 평균과 의 차이가 크면 그만큼 치료군의 효과가 적다는 것이 다, 그러면 효과크기가 0이 되면 치료군과 대조군의 효과는 동일하다고 한다. 이 표준화된 평균차이의 장 점은 자료의 단위와 무관하므로, 서로 다른 도구를 이용한 연구나, 측정결과도 메타분석에 포함할 수 있 음을 내포하고 있다.

Forest plot : 앞 페이지의 그래프는 효과크기와 95% 신뢰구간(confidence interval)을 그려주고 있 으며, 효과크기는 사각형으로 나타나고, 95%신뢰구 간은 양쪽의 선으로 나타난다. 95% 신뢰구간의 폭이 좁을수록 시각형의 크기도 커진다. 또한 전체에 대한 효과크기는 다이아몬드 형태로 그래프 맨 아래 표시 된다(Figure 1).

Publication bias와 Funnel plot : 출판오류와 깔 대기 그림이라고도 하며 publication bias는 posi- tive outcome bias라고도 한다. 학술지가 긍정적 결과에 치우쳐 논문을 출간할수 있으며, 특히 표본수 가 적은 경우에는 더욱더 통계적 유의성이 떨어질수 도 있다. 그러므로, Funnel plot이 이 Publication

bias를 판단해준다. 이외에도 메타분석에서 이루어 지는 bias는 language bias, database bias, cur- tural bias...등이 있다(Figure 2).

Fail safe -N : 최종적으로 분석된 메타분석의 결 과가, 과연 몇편의 논문이 더 추가되면, 그 결과가 바 뀌어 질수 있는 가를 나타내준다. 예를 들어 이 값이 3으로 계산되었다면, 메타분석의 결과가 단 3편의 논문이 더 추가되면, 결과가 바뀌어 질수 도 있음으 로 해석하면 더 쉽게 이해될 것 같다. 이것은 effect size(d)의 결정이 우선되어야 정해질 수 있다.

메타분석의 용어의 정의와 더불어, 메타분석의 방 법에 대해서 살펴보기로 한다. 메타분석의 방법은 1) p-value의 병합 2) 연속 또는 양적 data에 대한 분 석 -이경우는 주로 각 집단의 평균, 표준편차, 표본 수, p-value가 중요한 정보로 모여져야 한다. 3) categorical data에 대한 분석 - 이 경우는 odds ratio 또는 relative risk, 비율차(rate differ- ence), 표본수, p-value에 대한 정보가 모여져야 한 다. 이 각각에 대한 방법을 좀더 구체적으로 살펴보 고자 한다.

가로축은 각 연구의 치료의 효과를 나타 내며, 세로축은 치료효과의 표준오차를 나타낸다. 표본수가 작은 연구는 그래프 의 아래쪽에, 표본수가 큰 연구는 그래프 위쪽에 위치하고, 이 bias가 적을수록 그 래프는 대칭적이 되어 깔대기 모양을 뒤 집어놓은 형태가 된다. 즉, 표본수가 적어 (그결과 효과가 좋지 않아) 논문을 출간하 지 않은 결과가 많았다면, 그래프 모양은 비대칭적이 된다. 또한 이 Funnel plot은 연구결과의 homogeneity(동질성)을 나 타내주는 그래프이기도 하다.

Fig. 2

(4)

4. 메타분석의 방법 1) p-value의 병합

대부분의 연구결과는 모두 p-value의 값으로 그 통계적 유의성을 고찰하게 되므로, 각 연구결과 제시 된 모든 p-value의 값을 모아서 이 값만으로 전반적 인 치료의 효과를 알아보는‘종합적 유의성 검정’의 방법으로 불리어 진다. 단순히 p-value의 값만을 합쳐서 전체의 결과를 알아내기에 치료군과 대조군 의 효과에 mean difference, odds ratio 등에 대한 효과크기를 고려할수 없다는 점이 아쉽다. 이 경우에 는 각 연구에서 알 수 있는 p-value의 값과, 치료군 이 효과가 좋은지, 대조군이 효과가 좋은지에 대한 부호가 설정되어져 있어야 한다. 각 연구의 p- value의 값과 연구결과의 방향성(치료군이 좋은지, 대조군이 좋은지)을 고려하여 -2∑log(단측 p- value) 의 값을 구하고, 이것에 따른 검정통계량을 X

²그룹수·연구수

로 설정하고, p-value의 값을 구하여 전 체적으로 치료군의 효과가 좋은지에 대한 결론을 내 리게 된다.

2) 연속, 양적 자료에 대한 분석

연속, 또는 양적자료의 분석에서 주로 이용되어지 는 측도는 주로 평균(mean)과 표준편차(S.D :standard deviation)이다. 임상자료가 많은 부분 이 이 양적자료에 속한다(예를 들어, SBP, DBP, BMI, WBC, PLT...). 치료군과 대조군에서 주어진 평균과 표준편차의 값을 이용하여 단순히 p-value 만을 병합한 방법과는 달리 연구결과에 대한 좀 더 많은 정보를 파악할 수 있다.

여기에서는 각연구의 각 그룹에서 주어진 평균과 표준편차의 값을 이용하여 표준화된 평균차이인 효 과크기(effect size : d)를 앞의 용어 정의에서 언급 된 것과 같이 계산한다. 이 경우 효과크기도 중요하 지만 효과크기의 부호도 중요하게 생각되어, 치료군 의 효과인지, 대조군의 효과인지를 함께 파악할 수 있다. 앞의 용어정의처럼 효과크기를 구할 때 대조군 의 평균-치료군의 평균을 한다면 이 차이가 + 부호

를 가질때에는 대조군의 효과로 볼수 있다. 하지만, 효과크기의 부호는 이용된 측정치나 연구도구가 갑 이 높을수록 효과가 있는 지, 아니면 낮을수록 효과 가 있는지를 잘 고려하여 설정해야 하므로, 각 연구 에서 이용된 도구나 측정치를 볼때 아래의 상황을 이 해하고 부호를 설정해야 한다.

이 경우는 각 연구에서 필요한 정보는 각 그룹의 평 균과 표준편차, 표본수이다. 이 정보로 효과크기를 구하고, 효과크기에 대한 평균과 분산을 고려하여 각 연구에 대한 가중치(w

i

: 1/Var(d

i

), i : i번째 연구,

d_i

: i번째 효과크기)를 계산한다. 이 값을 이용하여

d =∑diw_i

/∑w

i

를 구하고, Q통계량(Q=∑(d

i

-d)

²w_i

)과 U통계량(U=(∑d

iw_i

)

²

/∑w

i

)를 계산한다. 최종적으로 종합적인 치료효과에 대한 검정은 U통계량을 이용 하여, 검정하게 되며, Q통계량은 다양하게 모은 연 구들에 대한 동질성 검정에 이용된다.

그러면 동질성 검정이란 무엇인가? 동질성 검정이 란 여러연구로부터 계산된 효과크기가 동일한지를 검정할 수 있으며 만일 이 동질성 검정이 확보되지 않으면 메타분석에서는 좀 더 다른 접근법을 고려하 여 위의 Q통계량만으로 치료효과를 검정하기에는 무리가 있는 것 같다.

만약 동질성 검정이 확보되면, 좋지만, 성립되지 않 는 경우도 많으며, 이 경우에는 적용이 가능한 랜덤 효과 모형(random effect model)을 고려한 통계량 을 이용해야 하여 메타분석을 실시하고 치료효과에 대한 검정을 한다.

3) 질적, 범주형자료에 대한 분석

질적, 또는 범주형 자료에 주로 이용되어지는 측도 는 빈도와 백분율, rate, proportion이며, 이 경우 에는 또한 평균과 표준편차의 값보다는 승산비(odds ratio), 상대위험(relative risk), 비율차(rate dif- ference; RD)의 값이 주로 이용되고 있다. 이중 승 산비가 많이 이용되고 있으며 최근에는 NNT(num- ber needed to treat)도 이용되고 있다.

승산비에 의한 메타분석의 방법은 Peto방법,

Mantel-Haenszel방법, DerSimonian과 Laird방

법이 있다. 승산비에 의한 메타분석을 위해서는 각

(5)

연구에서 각군의 표본수, 반응 또는 사건(event)이 일어난 수, 반응 또는 사건이 일어나지 않은 수, 각 연구의 숭산비가 필요하다. 또한 비율차이에 의한 메 타분석을 위해서도 승산비의 경우와 같은 정보가 필 요하며, 비율차이(RD)는 치료군의‘사건발생률-대 조군의 사건발생률’ 로 계산된다. 이 비율차이를 절 대위험이라고 정의하며, NNT=1/RD 로 계산된다.

즉, NNT는 한건의 사건을 미리 예방하기 위해 몇 명을 치료해야 하는 가?로 해석될수 있다. 상대위험 은‘치료군의 사건발생율/대조군의 사건발생율’ 로 정의되므로, 대조군의 사건발생율을 기준으로 치료 효과의 좋고 나쁜지를 알수 있는 측도이다. 즉, 치료 의 효과가 좋으면, 상대위험은 감소된다(사건을 사 망, 심근경색 등과 같은 결과가 나쁜 것으로 정의했 을 경우).

이 경우에도 양적자료의 분석에서와 같이 승산비등 과 같은 값으로 효과크기를 구하고, 효과크기가 동질 한 것인지에 대한 동질성검정을 실시하여야 한다. 각 연구에 대한 가중치(i번째 연구의 승산비 w

i

=pt

i

(1-

pci

)/pc

i

(1-pt

i

), i : i번째 연구, pt

i

: i번째 연구에서의 치료군의 반응율, pc

i

: i번째연구에서의 대조군의 반 응율)를 계산하고, 이 가중치에 log값을 취한 log(w

i

) 의 값이 효과크기이다. 이 효과크기는 양적자료의 d 와는 달리 계산되며, 이 값을 이용하여 양적자료에서 와 같이 치료군과 대조군의 효과차이에 대한 비교를 실시하며, 각 연구에서 나온 효과크기의 동질성 검정 도 실시한다. 만약 동질성 검정이 확보되지 않으면, 이 경우 또한 적용이 가능한 모형과 통계량이 설정되 어 있으나 여기에서의 언급은 생략하기로 한다.

5. 나가면서

위에서 설명된 메타분석의 방법은 메타분석의 이해 돕기 위한 기본적인 내용이다.

이외에, 통계적 유의성을 밝히기 위한 다양한 통계 량 및 그에 따른 p--value, 효과크기를 나타내는 또 다른 효과크기들, 그들 효과크기간의 관계, 다양 한 통계량들의 변환 등등과 관련된 많은 방법들이 제 시되어 있고 연구되어 있다. 그리고, 많은 웹사이트 에서 메타분석에 대한 설명과 그에 따른 방법론을 어