본 연구에서는 취약계층 밀집지역의 내부적 요인과 외부적 환경요인을 분석함에 있어서 개인수준 및 지역수준의 변수들을 동시에 고려하고 있다. 따라서 본 연구에 서는 위계가 있는 변수들을 동시에 고려하는 분석방법으로 다수준 분석을 수행하였 다. 구체적으로는 여러 수준의 변수를 동시에 고려하여 분석하는 다수준분석 (Multi-Level Analysis) 모형의 하나로 개인수준의 변수를 고려하면서 동네의 수준이 나 지역 유형과 같은 환경의 독립적인 영향을 확인할 수 있는 통계기법인 ‘위계적 선형모형’을 적용하였다.
□ 위계적 선형모형의 개요
① 개념 및 특징
다수준 분석모형들은 위계적으로 구조화된 자료(Hierarchically Structured Data) 를 분석하기 위하여 사용되는 모형들이다. 위계적으로 구조화된 자료란 본 연구에서 사용한 표본추출방법과 같이 집단이 먼저 선정되고 그 집단에 속하는 개인을 다시 선정하는 방식으로 표본이 구성되는 자료를 말한다. 이렇게 수집된 개인에 관한 자 료는 상위단계인 각 집단 사이에서는 독립성이 유지되나 하위단계인 동일 집단에 속한 개인들은 각 집단의 고유한 영향을 공유한다고 볼 수 있다. 본 연구에서는 개 인들이 취약계층 밀집지역 안에 내재되어있다는 점에서 자료가 위계적으로 구조화 되어 있다. 따라서 이러한 위계적 자료에 대하여 각 자료들이 독립적이라고 가정하 는 통상적인 통계모형4)과 같은 분석기법을 적용한다면 연구결과는 타당성을 잃게 된다. 반면 위계선형 모형들은 표본들이 각기 다른 특성을 지닌 상위 수준에 속하는 위계구조를 지니고 있다는 전제 하에서 분석이 이루어진다.
기존의 관련 연구에서는 위계적 구조를 갖는 자료에서 위계적 선형모형을 사용함 으로써 종속변수의 분산을 보다 더 많이 설명할 수 있었고, 추정된 회귀계수들도 실 제에 더 근접한 값을 제시해주면 각각의 상위그룹 내에서의 개인과 종속변수 간 관 계를 보는 데에도 용이하다는 점을 밝히고 있다(강상진(1995, 1998)5), 유정진(2006)).
위계적 선형모형을 다루는 통계프로그램은 SAS PROC MIXED, Mln, HLM 등 여러 가지가 있는데, 본 연구에서는 그 중 가장 널리 사용되는 HLM 6.02를 사용하였다.
② 기본모형
다수준 자료를 분석하는 최선의 방법은 하나의 분석 안에서 집단 내 뿐만 아니라 집단 간 관계를 고려하기 위하여 집단 내에서의 설명되어지지 않은 변이(Variation) 와 집단 간에 설명되어지지 않은 변이를 무작위적인 것으로 간주하는 것이다. 서로
4) 즉 분산분석은 그룹간의 평균을 비교하거나, 회귀모형의 경우 자료의 위계적 구조를 고려하지 않은 상태에서 변수간의 인과관계에 초점을 두기 때문에 그룹의 영향을 받는 변수들이 상관관계가 존재한다는 사실을 고려하지 못하고 개인이 서로 독립적으로 분포하는 것을 가정하고 있다.
5) 강상진(1998)은 구체적인 사례를 근거로 위계적 자료의 분석에서 HLM은 그 어느 상황이던 항상 일반 회귀분석보다 더 적절한 분석모형임을 밝혔다. 위계적 자료를 이용하여 일반 회귀분석을 하는 경우에는 어떠한 분석단위를 선택하더라도 집계화의 오류로부터 파생되는 원자학적 오류와 생태학적 오류를 피할 수 없었다. 그러나 HLM에서 개인수준의 정보는 개인수준의 모형에서 독립변수로 명세화하고, 그룹수준의 정보는 그룹수준에서 독립변수가 되어 분석의 단위와 관련된 집계화의 오류를 극복할 수 있다.(강상진. 1998. “교육 및 사회연구를 위한 연구방법으로서 다층모형과 전통적 선형모형의 비교분석연구”. 「교육평가연구」11(1):207-258)
다른 동네에 살고 있는 주민들의 예를 들면, 주민들 사이의 설명되어지지 않은 변이 뿐만 아니라 동네들 사이의 설명되어지지 않은 변이까지도 무작위적 변이성 (Random Variability)을 갖는 것으로 간주하는 방식이다. 이러한 구조는 무작위 계수 (Random Coefficients)를 가진 통계모형으로 표현될 수 있으며, 위계적 선형 모형은 이러한 무작위 계수 모형의 대표적인 예이다(곽현근, 2007).
위계적 선형모형은 위계적으로 구조화된 자료를 분석하기 위하여 설계된 모형이 다. 본 연구에서는 위계적 선형모형 중 ‘무작위 절편모형(Random Intercept Model)’
을 기본모형으로 설정하고 분석을 수행하였다. 무작위 절편모형은 위계적 선형모형 의 가장 단순한 형태의 모형으로서 오직 절편만이 무작위적인 것으로 간주하는 것 이다. 하지만 좀 더 일반적인 경우에는 기울기까지도 무작위적인 것으로 취급하기도 한다6). 이처럼 무작위 절편모형의 경우 집단 내 모형은 절편계수만이 무작위적 효과 (Random Effects)를 갖고 나머지의 회귀계수는 고정효과(Fixed Effects)를 갖게 된다.
따라서 집단 내 모형의 고정효과 회귀계수 추정치의 해석은 기존의 다중회귀분석의 해석방법과 같다. 한편 무작위 절편모형에서 집단 간 모형의 회귀계수는 모두 고정 효과를 가지게 되므로 집단 간 모형은 기존의 다중회귀계수모형과 동일한 것이 된 다.
□ 변수의 구성
본 연구에서는 위계적 선형모형을 통해 취약계층 밀집지역의 내부적 요인들 즉, 동네효과에 있어 지역별로 차이가 있는지, 또한 개인수준의 변수 외에 동네수준의 변수에 의한 차이가 있는지를 살펴보고자 하였다. 이를 위해 이웃에 대한 신뢰와 이 웃 간의 교류를 나타내는 사회적 관계망, 집합적 통제가 존재하는지를 나타내는 사 회적 통제, 취약계층 밀집지역에 거주하면서 받는 개인적 스트레스를 의미하는 사회 적 낙인, 동네의 범죄 위험에 대한 인지인 범죄 위험 등의 항목값으로 구성된 내부 적 요인을 종속변수로 하고, 개인의 속성 변수와 동네수준의 설명변수라고 할 수 있 는 외부적 환경 요인을 독립변수로 하여 검증하였다.
분석을 위한 종속변수는 내부적 요인들의 평균값이며, -2(매우 부정적)에서 2(매우 긍 정적)까지의 범위에서 연속적인 값을 갖는다. 독립변수들로는 성별, 연령, 교육수준 등 개인의 인구․사회학적인 배경과, 주택유형 등의 주거요인, 지역의 경제 및 고용환경, 서 비스 수준의 외부적 환경요인이 활용되었다. 성별, 주택유형은 더미변수로 전환하여 분석
6) 보다 구체적인 설명은 Snijders & Bosker(2002: 38-84)와 Kreft & Leeuw(2000: 39-53)을 참조할 것.
에 사용하였는데, 여성은 1, 남성은 0의 값을 부여했고, 혼인상태는 배우자가 있는 경우 를 1로, 배우자가 없는 경우를 0으로 지정하였다. 주택유형은 다가구 매입임대주택이나 영구임대아파트의 경우 1을 나머지는 0의 값을 부여하였으며, 주거 소유형태는 자가소유 의 경우 1을 나머지는 0을 부여하였다. 2차수준 변수로는 취약계층 밀집지역의 네 가지 유형을 사용하였다. 다음의 표는 분석모형에 포함된 종속변수와 독립변수를 정리한 것이 다.
구 분 변수명 변수설명 비 고
종속변수 내부적 요인 사회적 관계망, 사회적 통제, 사회적 낙인, 범죄 위험에 대한 인식
독립 변수
개인수준
성별 개인의 성별 남=1
연령 연령
혼인상태 배우자 유(기혼), 배우자 무(사별,
이혼, 미혼) 배우자 유=1
소득 가구소득
주택소유유형 임대아파트
단독․다가구․다세대 주택,
일반아파트 등 임대아파트=1
주택형태 자가 소유, 임대(전세, 월세, 무상 등) 자가=1
거주기간 거주 지역 거주기간
동네수준 외부적
환경 요인 지역의 경제 및 고용환경 서비스 수준
지역수준 유형더미 취약계층 밀집지역의 유형 1, 2, 3, 4 [표 10] 분석의 사용변수 정의
□ 분석결과
① 기본모형 (임의효과모형)
위계적 선형모형이 사용될 때 자료는 일련의 단계를 거쳐 분석된다. 먼저, ‘기본 모형(임의효과모형)’을 통한 분석으로, 이는 자료의 위계인 1차수준(개인수준)과 2차 수준(8개 사례지역)의 분산값이 유의미한 차이를 발생하는지를 검증하고, 1차수준 자 료의 분산 중 2차수준에 의해 발생하는 분산비율을 도출하게 된다. 이 후 기본모형 에 대한 분석을 기초로 2차수준에 따라 종속변수의 분산값이 유의미하게 달라진다
는 것이 검증되면, 설명변수를 투입하여 각 변수들이 종속변수에 미치는 영향을 검 증하는 ‘연구모형(임의절편모형)’에 대한 분석을 수행한다. 본 연구에서는 내부적 요 인이 취약계층 밀집지역의 유형에 따른 차이가 있는 지를 검증하기 위하여 내부적 요인에 대하여 기본모형을 추정하였다.
내부 적요 인
고정효과(Fixed effects) Coefficient std. error t-value df p-value
상수 -0.044639 0.11451 -0.39 7 0.708
임의효과(Random effects) SD V.C. df chi-square p-value 개인수준분산 0.55364 0.30652
동네수준분산 0.31252*** 0.09767 7 108.77915 0.000
상수항의 신뢰도 0.931
사 회적 관계 망
고정효과(Fixed effects) Coefficient std. error t-value df p-value
상수 -0.068900 0.138394 -0.498 7 0.633 임의효과(Random effects) SD V.C. df chi-square p-value
개인수준분산 0.76670 0.58783
동네수준분산 0.37330*** 0.13935 7 81.58210 0.000
상수항의 신뢰도 0.909
사회 적통 제
고정효과(Fixed effects) Coefficient std. error t-value df p-value
상수 0.117856 0.126534 0.931 7 0.383 임의효과(Random effects) SD V.C. df chi-square p-value
개인수준분산 0.83367 0.69500
동네수준분산 0.33422*** 0.11170 7 58.50823 0.000
상수항의 신뢰도 0.872
사 회적 낙 인
고정효과(Fixed effects) Coefficient std. error t-value df p-value
상수 -0.030860 0.130222 -0.237 7 0.820 임의효과(Random effects) SD V.C. df chi-square p-value
개인수준분산 0.76027 0.57801
동네수준분산 0.34933*** 0.12203 7 75.53446 0.000
상수항의 신뢰도 0.899
범 죄위 험
고정효과(Fixed effects) Coefficient std. error t-value df p-value
상수 -0.192565 0.125358 -1.536 7 0.168 임의효과(Random effects) SD V.C. df chi-square p-value
개인수준분산 0.74968 0.56201
동네수준분산 0.33535*** 0.11246 7 69.96143 0.000
상수항의 신뢰도 0.894
참고 : * p<0.05, ** p<0.01, *** p<0.001에서 유의
[표 11] 취약계층 밀집지역의 내부적 요인에 대한 위계선형모형 분석: 기본모형
기본모형에 대한 분석결과([표 11])는 설명변수를 포함시켰을 때 동네수준의 분산 과 개인수준의 분산이 어떻게 변하는가를 보여준다. 이는 어떠한 설명변수도 포함시 키지 않았을 때 내부적 요인에 있어 지역 간에 차이가 있다는 것을 의미한다. 추정 된 내부적 요인에 대해 취약계층 밀집지역별 동네수준의 분산은 0.09767로, 이는 통 계적으로 유의미하게 나타나 지역의 내부적 요인이 개인의 차이뿐만 아니라 취약계 층 유형별 차이에 의해서도 상당부분 설명되어짐을 보여주고 있다.
내부적 요인에 대한 지역의 영향력이 구체적으로 어느 정도인지를 확인하기 위해 집단 내 상관관계(ICC: Intra-Class Correlation)7)를 이용하였다. 여기서 집단 내 상관 관계란 종속변수의 총 분산 중에서 어느 정도의 비율이 개인속성의 차이에 의한 것 이며, 또한 어느 정도가 지역 간 차이에 의한 것인지를 의미하는 것이며, 이를 수식 으로 표현하면 다음과 같다.
… 수식(1)
본 연구에서는 2수준 분석을 사용하였으므로, 2수준의 지역 간 분산비율은
이고, 1수준의 분산비율은
이다.
분산 추정 값을 이용하여 집단 내 상관관계를 계산한 결과는 [표 12]와 같다. 내 부적 요인에 대한 기본모형분석에서 2차수준(8개 사례지역) 분산비율은 24.2%로, 이 는 내부적 요인에 영향을 주는 변수가 개인적인 차이 외에 개인이 속한 지역 간의 차이에 의해서도 발생한다는 것을 의미한다. 각 항목의 값을 보면, 개인수준 변수가 아닌 개인이 속한 취약계층 밀집지역 유형, 즉 지역수준 변수에 의해 설명될 수 있 는 분산비율은 13.85~19.16%로 지역의 차이가 내부적 요인에 상당한 영향을 주고 있 다는 것으로 해석할 수 있다. 이는 일반선형회귀분석을 통해서는 파악할 수 없는 것 으로, 본 연구에서 위계적 선형모형의 임의절편모형에 의한 분석이 적합함을 나타내 고 있다고 할 수 있다.
7) 이러한 는 아무런 변인에도 통제되지 않은 임의효과모형에서 총분산이 하위집단의 분산에 의한 것인지 상위집단에 의한 것인지를 보여주기 때문에, 통계적 유의성과는 별개로 다 수준의 임의계수모형 사용여부에 대한 판단근거를 제공한다는 측면에서 중요한 지표라 할 수 있다(이성우. 2006).