시퀀스분석의 개념과 비교복지국가 연구에의 적용

이 논문에 사용된 분석방법은 시퀀스 분석이다.²⁶⁾ 시퀀스 분석이란 원 래 생물학자들이 두 DNA가 얼마나 유사한지 알아보기 위해 DNA 시퀀 스를 비교하려는 목적으로 만들어졌다(Kruskal, 1983; Brzinsky-Fay and Kohler, 2010에서 재인용). 시퀀스 데이터는 사건이나 숫자와 같은 항목 들의 서열화된 리스트이다. 사회과학에서 시퀀스분석은 사회적인 과정 (social process)에 대한 물음과 이를 해결하기 위해 만들어진 분석적인 테크닉이다(Macindoe and Abbott, 2009: 387). 시퀀스분석은 패널데이터 분석이나 사건사분석(event history analysis)과 같이 각각의 시점을 확 률적인 변수로 간주하는 게 아니라 시작부터 끝까지의 전체 데이터를 하 나의 분석 단위로 간주한다(Macindoe and Abbott, 2009: 387).²⁷⁾

시퀀스 분석의 다양한 분석 기법 중 이 연구에서는 최적화 매칭 (Optimal Matching)을 사용한다. 최적화 매칭은 시퀀스 분석의 첫 단계

26) 시퀀스분석과 시퀀스분석에 기반을 한 군집분석은 통계프로그램인 R 패키 지 중 TraMineR와 Weighted Cluster(Gabadinho et al. 2011; Studer 2013), 그 리고 Stata의 OM 모듈을 사용했다.

27) 사건사분석(event history analysis)은 시간의 흐름에 따른 변화를 분석한다 는 측면에서 시퀀스분석과 유사한 방법론처럼 여겨질 수 있다. 그러나 시퀀 스 분석은 시퀀스 전체를 하나의 데이터로 간주하는 반면 사건사분석은 시점 마다 확률적으로 만들어진 데이터를 분석한다. 또한 시퀀스 분석은 시퀀스의 상이함(dissimilarity)을 측정하는 게 목적이라면 사건사분석은 공변량 (covariates) 간의 인과적 메커니즘을 확률적으로 추론하는 게 목적이다 (Brizinsky-Fay and Kohler, 2010).

로 두 시퀀스 간의 거리를 계산하는 방법이다. 최적화 매칭은 시퀀스 간 의 거리를 바탕으로 복합적인(complex) 사회적 현상의 근저에 깔려있는 패턴을 찾아내는 게 주된 목표다(Cornwell, 2015).²⁸⁾ 그러나 최적화 매칭 만으로는 시퀀스 데이터에 관련된 질문에 대한 답을 주지 못한다. 오히 려 시퀀스 데이터에 대한 군집분석(Cluster analysis)이나 다차원척도분 석(Multidimensional Scaling; MDS)을 위한 기초 분석과정이다. 한 가지 강조할 점은 최적화 매칭은 인과적인 분석이 아니라 기술적(descriptive) 인 분석이다. 다른 양적방법론과 달리 최적화 매칭은 가설에 대한 검증 을 하지 않는다. 대신에 시퀀스 데이터에 대한 유형화 분석을 위한 하나 의 과정이다(Macindoe and Abbott, 2009: 388). 최적화 매칭의 알고리즘 은 두 시퀀스 간의 거리를 계산하여 행렬을 만드는 간단한 대수학 (algebra)이다. 쉽게 말해 한 시퀀스를 다른 시퀀스와 동일하게 만들기 위해 필요한 값을 계산하는 방법이다.

그렇다면 시퀀스분석을 복지국가 연구에 적용하는 이유는 무엇일까?

애벗(Abbott, 2000)은 사회과학에서 시퀀스분석을 사용하는 이유를 사회 현상의 패턴을 찾기 위해서(fishing for patterns)라고 주장하였다. 다시 말해, 사회적인 과정의 하위 리듬(sub-rhythms)을 파악하기 위해서이다 (Lesnard, 2006: 10). 그리고 이러한 리듬이 서로 비슷한 사건들과 다른 사건들을 구별하기 위해 최적화 매칭이 필요하다. 예컨대, 생애사연구나 경력에 관한 연구에서 교육, 취업, 실업 등의 패턴이 비슷한 개인들을 유 형화하고 이를 바탕으로 이들의 사회·경제적 지위나 은퇴연령 등을 파악 한 분석들이 있다(Halpin and Chan, 1996; Han and Moen, 1999;

Blair-Loy, 1999). 새로운 사회적 위험에 대응하여 복지국가들은 각기 다 28) 사회과학 연구에 시퀀스분석을 적용하는 접근에 대한 주된 비판은 두 시퀀 스 간의 거리를 계산하는 분석값이 과연 이론적으로 설명가능하며, 사회적 현실을 반영한다고 할 수 있는 지에 대한 물음이다. 이에 대해 현재까지 시 퀀스 분석을 옹호하는 연구자들의 대답은 시퀀스분석은 사회적 현실을 있는 그대로 모델화하려는 의도가 아니라 단지 사회적으로 의미가 있는 개념을 분 석적으로 유용하게 측정하기 위해 적용된 방법론이라는 것이다(Cornwell, 2015: 120). 또한 상당히 유사한 패턴의 시퀀스들은 어떤 분석값을 적용하더 라도 동일한 집단으로 분류되기 때문에 너무 분석값에 민감할 필요가 없다는 입장이다(Lesnard, 2014: 40).

양한 방식의 정책을 실행했다. 똑같은 정책이라 하더라도 정도와 범위가 다를 수도 있다. 그리고 정책의 변화의 방향도 서로 다를 수 있다. 예컨 대, 신사회지출을 북유럽 국가들처럼 1980년대부터 높은 수준으로 유지 하고 있는 국가들도 있지만 최근에야 조금씩 늘리고 있는 국가들도 있 다. 그러므로 지난 26년 간 복지국가들의 정책적인 대응의 궤적을 파악 함으로써 복지레짐이 계속 유지되고 있는지, 아니면 변화가 있었는지 파 악할 수 있다. 특히 이전의 사회적 위험과 새로운 사회적 위험을 동시에 고려하면서 재정적인 측면의 변화까지 통합한 데이터를 바탕으로 복지국 가의 변화과정을 유형화할 수 있다는 측면에서 시퀀스분석의 장점이 있다.

최근 십 여 년 동안 복지레짐의 변화에 대한 연구의 필요성을 지적하 는 논문들이 늘어가고 있다(Powell and Barrientos, 2004; Arts and Gelissen, 2010; Ferragina and Seeleib-Kaiser, 2011). 페러지나와 시립카 이져(Ferragina and Seeleib-Kaiser, 2011)는 레짐 분류의 기준이 되는 정치이념과 정당들이 변화하고 있기 때문에 레짐의 변화에 대한 연구가 필요하며 기존의 레짐 분류가 실업이나 고령과 같은 이전의 사회적 위험 에 초점을 맞추고 있기 때문에 새로운 사회적 위험을 반영한 레짐의 분 류가 필요하다고 지적하고 있다. 파월과 바리엔토스(Powell and Barrientos, 2004)는 이전의 레짐분석이 연금과 의료와 같은 수동적인 복 지지출만을 포함시켰다면 적극적노동시장정책 변수를 포함시킴으로써 능 동적인 복지지출까지 통합하였다. 그리고 1980년대와 1990년대 데이터의 비교를 통해 복지레짐이 수렴하지 않고 경로 의존적으로 유지되고 있다 고 주장했다. 하지만 기존의 연구들은 복지레짐의 변화에 대한 필요성은 지적하고 있지만 경험적으로 분석한 경우는 드물다. 분석을 하더라도 단 편적인 시점 간의 비교에 그치고 있다. 시퀀스분석은 이러한 한계를 극 복하여 복지정책의 변화의 궤적 전체를 분석함으로써 변화과정에 대한 유형화가 가능하다는 장점이 있다. 물론 복지제도 연구에 시퀀스분석을 사용한 경우도 있으며(Abbott and DeViney, 1992) 시퀀스라는 개념을 언급한 연구들도 있다(Palier, 2000; Pierson, 2004; Bonoli, 2007;

Hemerijck and Eichhorst, 2010). 그러나 전자는 다섯 가지의 복지제도가

어떤 순서로 도입되었는지에 대한 연구이기 때문에 최근의 변화를 반영 하지 못하고 있고 후자는 시퀀스 분석의 필요성만 언급했을 뿐 구체적이 고 경험적인 분석을 시도하지 않았다. 그러므로 최근 30년간의 복지제도 의 변화를 분석하는 이 논문의 시도는 복지제도의 변화라는 이론적인 측 면과 시퀀스분석이라는 방법론적인 측면에서 의미가 있다.

이 연구에서는 연속변수인 네 변수를 범주화(categorize)하여 분석을 하였다. 그러나 그동안 연속변수를 범주화하는 것에 대한 많은 비판이 제기되었다. 대표적으로 범주화의 기준선을 정하는 데 있어서 자의적인 측면이 있고, 몇 개의 범주로 나눌 것인지, 각각의 범주에 어느 정도 비 율의 데이터를 배분할 것인지, 범주들을 어떻게 점수화할 것인지 등에 대한 의문 등이다(O'Brein, 1981; Harrell, 2008). 그러나 젤먼과 박 (Gelman and Park, 2009)은 회귀분석의 결과를 이해하기 쉽게 하기 위 해서 연속변수를 범주화하는 방법도 나쁘지 않다고 주장하였다. 예컨대, 소득수준과 정치성향에 대한 회귀분석에서 소득기준 상위 33%와 하위 33%의 차이를 비교하는 방식이다. 10,000번의 시뮬레이션을 통해 그들은 데이터가 1/3과 1/4 사이로 균등하게 나눠지는 경우 연속변수의 회귀분 석 결과의 왜곡을 최소화한다고 분석했다(Gelman and Park, 2009: 6).

실제로 위에서 예로든 사회과학의 영역뿐만 아니라 계량심리학 (psychometrics)에서도 극단적인 두 집단 간의 비교를 위해서 연속변수 의 범주화를 사용하고 있다(Cureton, 1957; Preacher et al., 2005). 시퀀 스분석에 있어서 연속변수의 범주화가 갖는 의미는 시퀀스분석의 의의에 대해 설명을 한 에벗(Abbott, 2000)을 통해 파악할 수 있다. 그는 시퀀스 분석에서 삽입과 삭제(input and delete, 혹은 indel)값과 대체 (substitution)값은 현실을 그대로 반영하는 게 아니라 변화의 패턴을 파 악하기 위함이라 하였다(Abbott, 2000: 68). 따라서 이 연구에서도 복지 지출이나 국민부담률의 정확한 수치가 중요하기보다는 큰 틀에서 지난 30여 년간 복지지출이나 국민부담률의 규모가 증가, 유지, 혹은 감소했는 지에 대한 경향을 파악하는 게 더 중요하다. 복지레짐 연구의 대표작으 로 평가받는 『복지 자본주의의 세가지 세계(The three worlds of

welfare capitalism)』에서도 에스핑 엔더슨(Esping-andersen, 1990:54)은 복지레짐의 유형을 구분하기 위해 네 개의 연속변수를 각각의 평균과 표 준편차를 사용하여 세 범주의 탈상품화지수(decommodification index)를 만들었다. 그러나 데이터가 정규분포를 따르지 않거나 심하게 편향된 경 우 평균과 표준편차를 기준으로 범주화를 하게 되면 자칫 왜곡이 일어날 수 있기 때문에 이 연구에서는 4분위수(quartile)를 기준으로 범주화하였 다.²⁹⁾

최적화 매칭과 관련해서 이 연구에서는 삽입과 삭제값을 사용하지 않 고 대체값만을 사용하였다. 그 이유는 사회적인 과정과 관련하여 특히 사건이 발생한 시점이 중요하다면 삽입과 삭제값을 사용하는 것은 바람 직하지 않기 때문이다(Lesnard, 2006: 9). 삽입과 삭제값을 사용한다는 의미는 시간을 초월한다는 의미이다(warping time). 예컨대, 만약 두 사 람의 실업과 취업상태를 비교한다고 했을 때 첫 번째 사람이 처음 5년 동안 실업상태였다 이후 5년 동안 취업상태였고 두 번째 사람이 6년 동 안 실업상태였다 이후 4년 동안 취업상태였다고 가정하자. 두 시퀀스를 일치시키기 위해 첫 번째 사람의 6번째 년도에 실업상태를 ‘삽입’하게 되 면 취업상태가 시작되는 시점이 1년 간 왜곡되게 된다. 또한 전체 시퀀 스의 길이가 달라진다. 따라서 동일한 30년간의 복지제도의 변화롤 분석 하는 이 연구에서는 시간의 왜곡이 일어나서는 안 되기 때문에 대체값만 을 사용하였다.

대체값의 계산은 범주 간 전환(transition)의 확률을 바탕으로 한 대체 값 행렬을 사용하였다(Han and Moen, 1999; Caswell and Kleif, 2013;

Yang, 2014). 전환의 확률은 이론적으로 정의된 개념에서 도출된 게 아 니라 순수하게 연구에 사용된 데이터에서 만들어진 값이다. 따라서 전환 확률은 연구자에 의해 자의적으로 설정된 값이 아니라 데이터 자체에서 만들어진 값이라는 장점이 있다(Aisenbrey and Fasang, 2017). 전환확률

29) 페러지나 등(Ferragina et al., 2013)도 실업 보호정책과 가족정책에 대한 다 중대응분석(multiple correspondence analysis)을 실행하면서 연속변수를 4분 위수로 변환하여 편향된 분포의 데이터가 가져올 수 있는 왜곡의 문제를 해 결했다.

문서에서 PDF Disclaimer (페이지 108-116)