• 검색 결과가 없습니다.

1 676   1948.3003 .501

가구원수* 0 6047   2.4435 .017

1 676 793 1.1731 .034

가구원 만성질환 유무* 0 6047 4575 .7566 .006

변수 Y N 해당자 수 평균 평균의

가처분소득_adj* 0 6047   3819.0475 85.01361

1 676   1488.0040 42.73412

세금(h1107_4)* 0 6047   12.8130 .50376

1 676   .5833 .12378

총생활비(h1107_9)* 0 6047   295.9507 3.102

1 676   120.4571 3.453

총부채 0 6047   21474.9883 5480.160

1 676   46022.4970 25593.754

총재산* 0 5223   39396.1324 3923.039

1 540   5273.5519 1876.486

2달 이상 집세가 밀리거

0 6047 115 .0190 .002

1 676 25 .0370 .007

0 6047 155 .0256 .002

1 676 63 .0932 .011

주: 유의수준 5%하에서 유의하면 변수에 * 표시를 하였음.

분석 모형은 로지스틱 회귀모형, Elastic Net, Tree, Boosting, Random Forest, SVM, Deep Learning이다. 모형 구축을 위한 분석에 서 총재산 항목은 결측치가 많이 존재하여 분석변수에서는 제외하였다.

0 6047 138 .0228 .002

1 676 89 .1317 .013

경제적인 어려움 때문에 먹을 것을 살 돈이 없어서 균형 잡힌 식사를 할 수가 없었던 경험*

0 6047 291 .0481 .003

1 676 191 .2825 .017

그리고 t-test에서 유의하지 않은 변수들도 모형 간의 비교 분석을 위해 분석 변수에 포함하여 모형을 구축하였다.

데이터는 모형을 구축하는 데이터와 모형을 선택하는 데이터, 모형을 평가하는 데이터 3가지로 나누어진다. 때로는 모형을 선택하는 데이터는 모형을 구축하는 데이터와 합쳐서 모형구축 데이터(Training data), 모 형평가 데이터(Test data)로 나누기도 한다.

〔그림 5-2〕 모형구축과 모형평가 데이터

여기에서는 10 fold cross-validation을 이용하여 모형을 구축하고 모형을 평가하였다. 전체 데이터셋을 10개로 나누고, 첫 실험에는 첫 번 째 데이터셋을 모형 테스트에 사용하고 나머지 9개 데이터셋을 모형 구 축에 사용한다. 두 번째 실험은 두 번째 데이터셋을 모형 평가에 사용하 고 나머지 9개 데이터셋을 모형 구축에 사용한다. 이렇게 10번의 실험을 다 거치면 모든 데이터는 모형 구축에 1번씩만 사용하게 되고, 모형 구축 데이터셋과 모형 평가 데이터셋이 겹치는 일이 없게 된다.

〈표 5-3〉 10 fold Cross-Validation

 변수 Estimate Std. Error Pr(>|z|)

(Intercept) -3.7805 0.3552 0

 변수 Estimate Std. Error Pr(>|z|)

Elastic Net 의 회귀계수를 살펴보면 Logitic 회귀계수와 크게 다르지

〔그림 5-3〕 Decision Tree 모형 주요 변수

의사결정나무 모형에서 수급가구를 예측하는 데 주요한 변수는 세금을 얼마 내는지, 집 점유형태가 월세인지, 가구주 근로능력 수준은 어느 정 도인지이다.

Elastic Net Estimate

경제적인 어려움 때문에 먹을 것을 살 돈이 없어서 균형 잡힌 식사를

할 수가 없었던 경험 0.6501

경제적인 어려움 때문에 먹을 것을 충분히 살 수 없어서 가구 내 성인

들이 식사의 양을 줄이거나 식사를 거른 경험 -0.0464

경제적인 어려움 때문에 먹을 것을 충분히 살 수 없어서 먹어야 한다

고 생각하는 양보다 적게 먹었던 경험 0.2841

경제적인 어려움 때문에 먹을 것을 살 돈이 없어서 배가 고픈데도 먹

지 못한 경험 -0.3584

1년간 근심이나 갈등을 초래한 문제(1순위)_경제적 어려움 0.3241

1년간 근심이나 갈등을 초래한 문제(1순위)_취업 및 실업문제 0.2822

1년간 근심이나 갈등을 초래한 문제(1순위)_건강문제 0.1846

1년간 근심이나 갈등을 초래한 문제(1순위)_알코올문제 0.4172

1년간 근심이나 갈등을 초래한 문제(1순위)_주거문제 0.8399

〔그림 5-4〕 Boosting 모형(상대적 영향도)

부스팅 알고리즘에서 수급 여부를 결정하는 데 있어서 중요한 변수는 세금, 월세 여부, 총생활비, 경제적 어려움으로 균형잡힌 식사 못한 경험, 가처분소득, 가구원장애 유무, 가구형태 정보, 가구주 근로능력 정보이다.