小地域推定法을 活用한 地域保健統計生産

Ⅱ. 地域統計生産 관련 先行硏究

2. 小地域推定法을 活用한 地域保健統計生産

가. 小地域推定法의 槪要

통계자료의 생산은 국가형태가 생긴 시기부터 국가통치, 국가의 이익, 정치문 제 등을 원만히 다루기 위해서 필요했던 것으로 그 역사는 인류의 역사와 같다 고 할 수 있다. 이러한 통계자료는 최근까지도 계속되어 census라는 국가적인 조사를 통해서 얻고 있다.

지금까지 우리나라 정부 및 공공기관에서 주요 정책의 근거로 활용하는 통계 는 광역자치단체를 기본단위로 하는 대단위 지역통계가 주를 이루고 있다. 그 러나 사회가 발달하고 사회구조가 복잡해지며 국가조직이 세분화되면서 정확하고 다양한 통계를 필요로 하게 되었다. 특히 1995년부터 지방자치시대가 시작되면서 지역간 균형 있는 예산의 배정과 지역 특성에 맞는 발전계획을 추진하기 위해 각 자치단체마다 소지역통계(small area statistics)가 필요하게 되었고, 이에 대한 요구 가 증가하고 있는 실정이다. 소지역통계는 지리적으로 작은 지역뿐 아니라 연령-성별-학력에 따른 그룹과 같은 작은 부차모집단에 대한 통계를 의미한다.

소지역통계는 11세기 영국과 17세기 캐나다에서 생산되었던 기록이 있고 (Brackstone, 1987), 국내에서는 이보다 훨씬 이전인 755년 통일신라 경덕왕 14 년경 서원경(현 청주시)부근의 4개 마을에 대한 통계조사기록이 있다(최봉호, 1998). 또한 일제시대에도 충청북도 내 군, 읍 단위의 호구, 농작물, 과수, 가축 등에 대한 상세한 소지역 통계자료와 직업별 호구조사기록이 있다(김신웅, 1998). 그러나 이러한 소지역통계는 주로 지리적으로 작은 소지역을 대상으로 한 전수조사나 표본조사를 통한 직접추정으로 얻어진 것들이다. 근대에 들어서 국가체계가 확립되면서 각 나라마다 census나 대규모 표본조사를 통해 국가통 계들이 생산되고 있지만 census의 어려움이 가중되면서 표본조사로 대체되어 대단위 지역에 대한 신뢰할 수 있는 추정량들이 생산되는 경향이 있다. 표본조 사를 사용할 경우 소지역에 할당된 표본의 수가 적게 되고 적은 표본을 근거로

생산된 소지역통계는 사용할 수 없을 정도로 큰 표본오차가 수반된다. 따라서 직접조사에 의하지 않고 이미 생산된 신뢰할 수 있는 대단위 지역 통계와 여러 행정자료, 그리고 다양한 통계적 방법을 적용한 간접적인 방법으로 소지역통계 를 추정하게 된다.

조사환경의 변화와 함께 정부와 민간부문에서 요구하는 소지역통계를 얻기 위한 소지역 추정법은 미국, 캐나다, 영국, 이태리, 그리고 호주 등에서 전국 단 위의 통계조사 자료를 이용하여 소지역 단위의 인구 및 실업자 관련 통계를 생산 할 뿐만 아니라 소득과 보건 관련 통계 생산에서도 이용되는 기법이다. 소지역 추 정법의 특징은 직접 조사된 자료 외에도 행정업무자료 또는 인구센서스 자료 등을 이용하여 연구변수(실업률 또는 실업자 수, 특정 질병의 유병률 등)들을 분석하여 모형을 추정하거나, 연속 조사 자료들을 시계열 모형에 적합시켜 표본조사구의 수 가 적은데서 오는 추정값의 불안정성과 낮은 신뢰도를 보완해 준다.

사회의 발달과 사회구조의 변화로 조사환경이 열악해지고, 조사비용이 급격 히 증가하여 모든 소지역통계를 직접조사를 통해서 얻는다는 것은 불가능하므 로 통계적 추정방법을 사용한 소지역 추정법이 요구된다. 그리고 지역간 인구 사회학적 특성과 경제구조가 다르므로 각 지역에 적합한 추정방법과 모형을 사 용해야 신뢰성 있는 소지역통계를 얻을 수 있다.

소지역의 특성을 올바로 알아야 중앙 및 지방자치단체의 예산을 적절히 배분 하고 지역 특성에 맞는 정책을 추진할 수 있게 된다.

나. 小地域推定法

표본조사에 의해서 생산되고 있는 전국 규모의 보건통계는 표본설계 시에 대 규모 단위(전국, 광역자치단체 또는 도)의 통계 생산을 주목적으로 한다. 표본 의 규모가 제한되는 관계로 소지역 단위의 통계를 직접 생산하기가 곤란하였 고, 간접적 방법인 소지역 추정법의 활용이 미진하여 소지역통계를 생산할 수 없었다. 그러나 근래에 들어 소지역 통계의 중요성과 필요성이 높아지면서 통

계적 방법을 이용한 소지역 추정기법의 도입으로 소지역 통계의 생산이 가능하 게 되었다.

과거에 생산된 소지역 통계들은 해당 소지역에 대한 표본조사 자료에 승수를 곱하여 얻었다. 그러나 이러한 방법은 앞서 지적한 바와 같이 해당 소지역의 표본 이 아주 적거나 없는 경우에 신뢰할 만한 추정치를 산출해 내기가 곤란하였다. 그 래서 해당 소지역을 포함하고 있는 대규모 지역의 조사통계 자료에 가능한 행정자 료들을 이용하는 간접추정법으로 소지역 통계를 생산할 수 있게 되었다.

본 절에서는 소지역 추정에 널리 사용되고 있는 주요 방법들을 살펴본다.

1) 인구통계학적 방법(Demographic Method)

필요한 인구통계 자료들은 일정한 주기로 실시되는 센서스를 통해 얻는다.

그러나 센서스를 실시하고 다음 센서스가 있기까지 중간 해당 년도의 소지역에 대한 인구는 센서스 자료와 인구수에 관련된 징후 변수(출생자수, 사망자수, 가 구 수, 등록한 학생 수 등)의 변동을 분석하여 얻은 예측값을 결합하여 얻는다.

이러한 추정법을 인구통계학적 방법이라 한다.

가) 생명률법(Vital Rates Method: VR Method)

VR법은 인구의 변동률보다는 출생과 사망과 같은 징후변수 자료만을 사용한 다. 가장 최근에 센서스를 실시한 해를 기준 년도( t = 0)로 하고, 기준 년도 로부터 t 년째의 소지역 인구수를 추정하다고 하자. 추정에서의 전제 조건은 추정 대상인 소지역의 특성과 이 소지역을 포함하는 대지역의 특성이 동일하다 는 것이며, 전제 조건에서 많이 벗어나는 경우에는 추정량의 편향이 커서 신뢰 도가 낮아진다.

추정 대상 소지역의 t 년째 해의 연간 출생자 수와 사망자 수는 각각 b _t와

d

t이다. 해당 소지역의 출생률과 사망률 γ_bt와 γ _dt는 다음과 같이 추정된

다.

γ _{b t}= γ _{b o}

( ^R ^R

^{b o}^{b t}

)

^{, γ} ^{d t}^{= γ} ^{d o}

( ^R ^R

^{d o}^{d t}

)

(1)

여기서 γ _b0와 γ _d0는 기준 년도의 소지역의 출생률과 사망률이고 R _{b 0}와

R

_{d 0}는 기준 년도의 대지역(소지역을 포함)의 출생률과 사망률이다. 또한 t번 째 해의 대지역의 출생률과 사망률은 R _{b t}와 R _{d t}이다.

센서스를 실시한 기준 년도로부터 t년째의 소지역 인구수를 다음과 같이 추 정할 수 있다.

P

t= 1

(

^γ

^b

^{b t}^t ⁺ ^γ

^d

^{d t}^t

)

(2) 나) 성분법(Components Method)

성분법은 출생과 사망 인구수 그리고 유입, 유출 인구수에 관한 자료를 이용 하여 소지역의 인구수를 추정하는 방법이다.

최근에 센서스를 실시하고 난 후 t 년 동안의 출생 인구, 사망인구 및 총 이 주인구를 각각 b _t, d_t, m _t라 할 때 t년째의 대상 소지역의 인구수를 다 음과 같이 추정한다.

P _t= P ₀+ b _t- d _t+ m _t (3)

여기서, P ₀는 최근에 센서스를 실시한 해( t = 0)의 인구수이다.

다) 회귀징후법(Regression Symptomatic Procedures)

회귀징후법은 소지역의 인구를 추정하기 위해서 다중선형회귀모형을 이용하 는 방법인데, 독립변수로 징후변수를 사용한다. 비상관(ratio correlation)계수, 차 분상관(difference correlation)계수, 표본회귀법(sample regression method) 등은 이 러한 회귀징후법의 일종이다. 여기에서는 비교적 자주 사용되고 있는 표본회귀 법을 살펴보고자 한다. 먼저 종속변수와 독립변수를 다음과 같이 정의하자.

R _i= ( P i t/ P t) / ( P i 0/ P 0) : 소지역 i의 인구비 변화량, r _{i j}= ( S _{i j t}/ S _{j t}) / ( S _{i j 0}/ S _{j 0}): 소지역 i에 대한 j번째 징후변수 의 변화량 ( j = 1 , 2 , … , p ).

여기서 P _t, P ₀, S _jt, S_j0는 소지역 i를 포함하는 대지역에서의 값들 이고, r _{i j}는 행정자료로부터 얻는다.

R _i의 표본추정치들은 m개의 소지역 중 k개의 소지역에 대하여 가능하 다고 가정하고, k개의 표본 소지역으로부터의 자료( R

ˆ

_i i,

r

_i1, ⋯ , r _ip)에 회귀방정식을 적합시킨다. 그러면, 기지의 징후변수들을 이용해서 모든 소지역 에 대해 다음과 같은 표본회귀추정량을 얻는다.

Rˆ

i= β

ˆ

0+ β

ˆ

r

_{i 1}+ … + β

ˆ

r

_{i p}, i = 1 , 2 , … , m (4)

소지역 i에 대한 인구수는 식(4)의 표본회귀추정량을 이용하여 다음과 같이 추정한다.

Pˆ

i t= Rˆ

p

_{i 0}(

∑

P

_{i t}) ,

i = 1 , 2 , … , m

(5)

여기서

∑

P

i t는 다른 행정자료로부터 얻는다. 표본회귀추정량은 표본으로 부터 직접 추정된 값이 아니라 다중선형회귀를 거쳐 얻어진 보정된 추정량이

며, 표본회귀법은 이를 이용하여 소지역의 인구를 추정하는 방법이다.

2) 합성추정법(Synthetic Estimation)

추정하고자 하는 소지역과 소지역을 포함하고 있는 대지역의 특성이 동일하 다는 가정 하에서 대지역의 신뢰할 수 있는 추정치를 소지역의 추정들을 얻는 데 사용할 때, 이러한 추정치들을 합성추정들이라 한다.

1968년 미국 NCHS(National Center for Health Statistics)는 NHIS(National Health Interview Survey)자료를 이용해서 장⋅단기 신체적 장애에 대한 주별 추 정치를 얻는데 합성추정법을 처음으로 사용하였다. 이 추정법이 전통적으로 널 리 사용되는 데, 그 이유는 표본설계 시 간편하고 활용성이 있으며, 유사한 소 지역들의 정보를 빌려옴으로써 추정의 정도를 높일 수 있기 때문이다. 그래서 합성추정법을“Borrow Strenth”라고 말하기도 한다. 표본설계 시에는 대지역에 대해서만 직접 추정값을 구하고자 하였으나 조사 후 대지역을 분할한 소지역의 추정값이 필요한 때에는 대지역과 소지역의 구조적 특성이 같다는 조건하에서 소지역의 연구변수에 대한 추정값을 구할 수 있는데, 이때 대지역을 지리적인 것보다는 연령, 성별, 그리고 교육정도 같은 특성에 따라 분할한다.

모집단을 g개의 특정 그룹(또는 대지역이라 함)으로 나누고, 각 그룹의 총계

Y

_{. g}의 신뢰할 수 있는 추정치 Y

ˆ

. g는 표본조사자료로부터 직접 계산되어 질 수 있다고 가정한다. 소지역 i 가 g개의 그룹을 가로지른다고 할 때

문서에서 지자체의 보건통계생산 활성화 방안 (페이지 45-0)

小地域 推定法을 活用한 地域保健統計 生産

Ⅱ. 地域統計生産 관련 先行硏究

2. 小地域 推定法을 活用한 地域保健統計 生産

d

( R R

)

( R R

)

R

P

(

b

d

)

ˆ

r

ˆ

ˆ

r

ˆ

r

p

∑

P

i = 1 , 2 , … , m

∑

P

Y

ˆ

2. 小地域推定法을 活用한 地域保健統計生産

( ^R ^R

( ^R ^R

^b

^d