사회통합지수 선행 연구 검토 <<
2. 지수화 과정의 방법론적 쟁점
〔그림 2-1〕 지수화 연구 과정
〔이론적 틀의 구성〕 → 〔자료 선택〕 → 〔결측값의 처리〕 → 〔다변량 분석〕
→ 〔정규화〕 → 〔가중치 부여 및 합산〕 → 〔견고성 및 민감성 검증〕 →
〔실제 데이터와 비교〕 → 〔다른 변수와의 관련성 검증〕 → 〔제시 및 시각화〕
자료: OECD and EU JRC(2008). pp.15-16.
[그림 2-1]은 지수화 연구 과정을 제시하고 있다. 연구 과정에서 지표 를 다룰 때 중요하게 검토해야 할 이슈를 살펴보면 다음과 같다.
첫째, 자료를 선택한 후에는 지표값을 정리해야 한다. 이때 자료에서 결측값이 발생할 경우, 이를 처리하는 방법에서 쟁점이 있다. 국가 간 시 계열 자료 비교에서 결측이 발생할 경우 가장 일반적인 처리 방법은 결측 연도와 가장 인접한 연도의 관측치를 사용하는 것이다. 이 외에도 결측 연도 이전에 활용 가능한 여러 시점의 자료가 있는 경우에는 관측치 평균 값을 투입하여 활용하기도 하며, 두 관측 시점 사이에 발생하는 결측값의 경우에는 선형추세 회귀분석 결과의 추정치를 활용하여 결측값을 대체하 기도 한다. 한편 특정 비교 시점이 아닌, 한 국가의 해당 지표가 모두 결 측인 경우는 해당 지표를 제외하고 지수화하기도 하며, 지표의 상당수가
결측인 국가는 비교 대상국에서 제외하기도 한다. 그러나 한두 개 지표의 결측으로 인해 해당 국가를 제외하게 되는 경우에는 비교 대상 국가가 줄 어드는 문제가 발생한다. 이런 이유로 발전의 경향성이 유사한 수준의 국 가 값을 이용하여 대체하기도 한다.
둘째, 종합지수의 산출은 다양한 차원의 이질적인 지표들을 결합하는 과정으로 결합 이전에 지표들에 대한 표준화 과정이 필요하다. 지표들은 사회통합에 주는 각각의 방향성을 가지고 있다. 어떤 지표는 지표값이 증 가할수록 사회통합의 긍정적 측면과 관련되는 반면, 어떤 지표는 지표값 이 증가할수록 사회통합의 부정적 측면과 관련될 수 있다. 그러므로 이를 규정해야 하는데, 보통 이는 이론적 틀의 구성 단계에서 확인된다. 사회 통합에 미치는 영향의 방향성뿐 아니라 지표값의 변동 폭 및 척도도 다양 하다. 이산형 변수는 변동 폭이 크며, 연속형 변수도 측정의 범위에 따라 변동 폭이 다양할 수 있다. 특히 연속형 변수에서도 어떤 지표는 그 상한 값과 하한값이 사전적으로 정의되기도 하고 어떤 지표는 상한값이 존재 하지 않는다(강신욱 등, 2011, p.118). 전자의 대표적인 예가 ‘민주주의 지수’와 같은 것이며, 후자의 대표적인 예가 ‘1인당 GDP’이다. 따라서 지 표들이 가지는 다양한 변량을 통제하는 과정을 거쳐야 한다. 이를 정규화 (또는 표준화, normalization)3) 과정이라고 한다.
정규화 방법으로는 첫째, 순위를 이용하는 방법이 있다. 이는 지표가 가지는 변량 그 자체에 큰 관심을 가지지 않는 경우에 활용한다. 각 지표 별로 가지는 순위의 합산값이 종합점수가 된다. 그러나 이는 개별 지표 내에서 변량이 설명하는 다양한 현상을 설명하지 못하므로, 최근 연구에
3) 원칙적으로 표준화(standardization)는 평균을 기준으로 얼마나 떨어져 있는지를 보여 주는 방식으로 이하에서 보여 주는 Z-score 표준화 방식이 이에 해당한다. 정규화는 측 정치의 전체 구간을 0-100으로 구분하여 제시한 것으로 최소-최대 정규화 전환 방식이 이에 해당한다. Z-score 표준화를 제외한 본 연구에서 제시하는 나머지 방식은 모두 정 규화 전환에 해당한다.
서는 거의 사용하지 않고 있다. 둘째, 최댓값과 최솟값을 이용하는 방법 으로서 최소-최대 정규화 방법이 있다. 이는 Z-score 표준화 방법과 함 께 가장 대표적인 방법이다. 이 방법을 사용하면 지표의 최댓값은 1이 되 고, 최솟값은 0이 된다. 비교 대상의 표준화된 지표값이 1에 가까울수록 가장 높은 수준에 접근함을 의미한다. 다만 규범적으로 가장 바람직한 상 태에 접근함을 의미하지는 않는다는 점을 유의해야 한다(강신욱 등, 2012, p.66). 즉 규범적 수준에서의 가장 이상적인 수치와 현재 특정 국 가가 보여 주는 최대치와는 차이가 있을 수 있다. 이 방법은 하위 영역 내 에서 지표의 변량을 정규화할 수 있다는 점에서 장점을 가진다. 지역, 국 가 간의 비교를 목적으로 하는 연구에서 특정 범주 영역 내의 값을 구하 고자 할 때 주로 사용한다. 셋째, Z-score 표준화 방법이다. 이 방법은 각 지표값에서 해당 지표의 평균값을 빼고, 이를 다시 해당 지표의 표준 편차로 나누어 주는 방법이다. 지표값이 평균값과 일치하면 표준화된 지 표값은 0이 되고, 지표값이 평균값보다 작을 때는 음(-)의 값, 지표값이 평균보다 클 때는 양(+)의 값을 지닌다. 이때 표준화된 점수는 상한 및 하 한값이 존재하지 않는다. 이 방법은 특정 지표가 가지는 변량을 그 자체 로 반영한다는 점에서 지표의 본질적 수준에 관심을 가질 수 있다는 장점 을 가지나, 각 지표가 하나의 영역을 구성하고 있을 때, 즉 하위 영역 내 에 다양한 지표를 구성하고 있을 때에 특정 지표의 영향력이 지나치게 커 지는 문제를 가진다. 마지막으로 최근에는 퍼지소속점수(Fuzzy mem-bership)를 활용하기도 한다(정해식, 2012, pp.147-148; 정해식, 2015). 최소-최대 정규화 방식은 특정 국가가 극단값을 가지는 경우에 다른 모든 국가들을 평균 이하의 점수를 받게 한다는 단점을 가진다. 퍼 지소속점수는 주어진 점수가 정해진 기준에 속할 확률을 구하는 것으로 최솟값, 최댓값 외에도 중위값 또는 평균값을 이용한 전환점(crossover
point)을 이용한다. 이와 같이 특정 기준에 속할 확률을 이용하는 것은 점수의 분포를 표준화하면서도 최솟값과 최댓값을 0, 1로 할 수 있다는 장점을 가진다. 유사한 방식으로 누적분포함수(Cumulative Distribution Function: CDF)를 이용하는 경우도 있는데, 이것은 지표 분포의 불평등 과 같이 분포의 경향성을 표준화하여 비교하고자 하는 연구에서 사용한 다(Jung et al., 2014, p.178).
셋째, 지수화 과정에서 쟁점이 되는 것은 표준화된 지표들을 합산하는 방식의 문제이다. 비교 국가 연구에서는 각국의 발전 수준이 경로의존적 (path-dependency) 속성을 가지므로, 발전이 서로 다른 방향과 성격을 가질 수 있다고 본다. 이때 가중치 부여는 발전 성격이 다른 차원 내에서 상대적 중요도를 반영하고자 할 때 사용한다. 이런 이유로 지표 및 영역을 기준으로 하여 국가 간 순위를 비교하는 과정에서 가중치를 부여한다. 이 러한 가중치 부여의 방법은 임의의 방식과 통계적 방식으로 구분할 수 있다.
임의의 방식에서 가장 대표적인 경우는 동일가중치(equal weight)를 적용하는 방식이다. 동일가중치 부여는 지수화 과정에서 상당히 자주 이 용되는 방식이지만, 하나의 차원에 다수의 변수가 속할 경우 통합지수의 구조를 불균형하게 만든다는 단점이 있다(OECD and EC JRC, 2008, p.31). 임의로 부과하는 방식 중의 또 다른 것은 전문가 조사 등을 이용하 여 지표별 가중치를 확인하는 방식이다. 전문가 대상의 델파이 조사를 통 하여 가중치를 부여하는 것으로, 연구자가 설정한 임의의 영역 내에서 각 지표의 상대적 가중치를 전문가의 견해를 이용하여 비교하는 것이다. 이 러한 이유로 이를 주관적 방식이라 부르기도 한다. 대표적인 것은 AHP 가중치 방식으로, 계층화분석 방법으로 불리며 지표 간의 상쇄 효과를 설 명한다. 예를 들어 A와 B 중에서 A를 선택하게 될 때, 포기하게 될 상대 적 의지의 표명이라고 보면 된다. 전문가 조사 방식은 사회·경제적 환경
변화에 따라 주요한 영역을 변경하므로, 지표별 가중치를 반영할 수 있다 는 장점을 가지지만, 동시에 이는 새롭게 바뀐 사회 환경에는 적용할 수 없다는 단점을 가진다.
통계적 방식 또는 수리적 도출 방식의 대표적인 경우는 요인분석을 이 용하거나 회귀계수를 이용하는 방식이 있다. 정해식과 김성아(2015)는 주성분 분석을 이용한 가중치 부여를 시도하였는데, 이는 주어진 변량을 설명하는 성분 중에서 상대적으로 공통성이 큰 변수에 높은 가중치를 부 여하는 방식이다. 즉 이는 관측변수들에 공통적으로 영향을 미치는 요인 을 고려하고, 그 요인이 각 개별 지표에 가지는 영향력을 고려한다. 이 외에 김태환 등(2004)에서는 종속변수를 설명하는 독립변수로서 각 지 표의 표준회귀계수를 토대로 가중치를 산정하였다. 통계적 방식도 한계 를 가지고 있는데, 예를 들어 요인분석을 이용한 방법은 한 지표가 다른 지표들과의 상관관계가 크면 높은 가중치를 가지게 되는 문제를 가진다 (김태일, 1999).