2017, 28
(6)
,1457–1469
일반계 고등학생 사교육비 지출에 대한 베이지안 분위회귀모형 분석
ᄋ ᅩ현숙
1
1가천대학교 응용통계학과
ᄌ ᅥ
ᆸᄉ ᅮ 2017ᄂ ᅧ ᆫ 9ᄋ ᅯ ᆯ 11ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2017ᄂ ᅧ ᆫ 10ᄋ ᅯ ᆯ 16ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2017ᄂ ᅧ ᆫ 10ᄋ ᅯ ᆯ 23ᄋ ᅵ ᆯ
요 약
ᄋ ᅵ
ᆯᄇ ᅡ ᆫᄀ ᅨ ᄀ ᅩᄃ ᅳ ᆼ ᄒ ᅡ ᆨᄉ ᅢ ᆼᄋ ᅴ ᄉ ᅡᄀ ᅭᄋ ᅲ ᆨ ᄇ ᅵ ᄌ ᅵᄎ ᅮ ᆯᄋ ᅳ ᆫ ᄃ ᅢᄒ ᅡ ᆨᄋ ᅵ ᆸᄉ ᅵᄋ ᅪ ᄆ ᅡ ᆽᄆ ᅮ ᆯ ᄅ ᅧ ᄎ ᅬ ᄀ ᅳ ᆫ ᄃ ᅥᄋ ᅮ ᆨ ᄌ ᅳ ᆼ ᄀ ᅡᄒ ᅡᄀ ᅩ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄃ ᅩ ᆼ ᄉ ᅵᄋ ᅦ ᄀ ᅡᄀ ᅮᄉ ᅩ ᄃ
ᅳ
ᆨ ᄉ ᅮᄌ ᅮ ᆫ, ᄌ ᅵᄋ ᅧ ᆨ ᄃ ᅳ ᆼ ᄋ ᅦ ᄄ ᅡᄅ ᅡ ᄋ ᅣ ᆼ ᄀ ᅳ ᆨ ᄒ ᅪᄃ ᅬᄀ ᅩ ᄋ ᅵ ᆻᄃ ᅡ. ᄀ ᅵᄌ ᅩ ᆫ ᄋ ᅴ ᄉ ᅡᄀ ᅭᄋ ᅲ ᆨ ᄇ ᅵ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅳ ᆫ ᄌ ᅮᄅ ᅩ ᄃ ᅡᄌ ᅮ ᆼ ᄒ ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄐ ᅩᄃ ᅢᄅ ᅩ ᄎ ᅬᄉ ᅩ ᄌ
ᅡᄉ ᅳ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᆻᄋ ᅳᄂ ᅡ ᄌ ᅡᄅ ᅭᄀ ᅡ ᄎ ᅬᄉ ᅩᄌ ᅡᄉ ᅳ ᆼᄇ ᅥ ᆸᄋ ᅴ ᄀ ᅵᄇ ᅩ ᆫ ᄀ ᅡᄌ ᅥ ᆼᄋ ᅵ ᆫ ᄌ ᅥ ᆼᄀ ᅲᄉ ᅥ ᆼᄀ ᅪ ᄃ ᅳ ᆼᄇ ᅮ ᆫ ᄉ ᅡ ᆫᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄆ ᅡ ᆫᄌ ᅩ ᆨ ᄒ ᅡᄌ ᅵ ᄋ ᅡ ᆭᄋ ᅳᄆ ᅧ ᆫ ᄇ ᅮ ᆫᄉ ᅥ ᆨ ᄀ ᅧ
ᆯᄀ ᅪᄋ ᅴ ᄉ ᅵ ᆫᄅ ᅬᄉ ᅥ ᆼᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄆ ᅮ ᆫ ᄌ ᅦᄀ ᅡ ᄇ ᅡ ᆯᄉ ᅢ ᆼᄃ ᅬ ᆫ ᄃ ᅡ. ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅳ ᆫ 2015ᄂ ᅧ ᆫᄃ ᅩ ᄉ ᅡᄀ ᅭᄋ ᅲ ᆨᄉ ᅵ ᆯᄐ ᅢᄌ ᅩᄉ ᅡᄌ ᅡᄅ ᅭᄋ ᅦ ᄃ ᅢᄒ ᅡᄋ ᅧ ᄌ ᅥ ᆼᄀ ᅲᄉ ᅥ ᆼᄀ ᅪ ᄃ
ᅳ
ᆼᄇ ᅮ ᆫ ᄉ ᅡ ᆫᄉ ᅥ ᆼᄋ ᅵ ᄉ ᅥ ᆼᄅ ᅵ ᆸᄃ ᅬᄌ ᅵ ᄋ ᅡ ᆭᄋ ᅳ ᆷᄋ ᅳ ᆯ ᄒ ᅪ ᆨ ᄋ ᅵ ᆫᄒ ᅡᄀ ᅩ ᄋ ᅵᄅ ᅳ ᆯ ᄐ ᅩ ᆼ ᄌ ᅦᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄇ ᅮ ᆫ ᄋ ᅱᄒ ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄌ ᅥ ᆨᄒ ᅡ ᆸᄒ ᅡ ᆫ ᄒ ᅮ ᄀ ᅵ ᆸᄉ ᅳ ᄉ ᅢ
ᆷᄑ ᅳ ᆯᄅ ᅵ ᆼ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄉ ᅡᄀ ᅭᄋ ᅲ ᆨ ᄇ ᅵ ᄌ ᅵᄎ ᅮ ᆯ ᄀ ᅲᄆ ᅩ ᄉ ᅮᄌ ᅮ ᆫ (ᄇ ᅮ ᆫ ᄋ ᅱᄉ ᅮ)ᄋ ᅦ ᄄ ᅡᄅ ᅡ ᄋ ᅧ ᆼᄒ ᅣ ᆼᄋ ᅭᄋ ᅵ ᆫᄃ ᅳ ᆯᄋ ᅳ ᆯ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄇ ᅮ ᆫᄉ ᅥ ᆨᄀ ᅧ ᆯ ᄀ
ᅪ ᄒ ᅡ ᆨᄉ ᅢ ᆼᄋ ᅴ ᄉ ᅥ ᆼᄇ ᅧ ᆯ, ᄇ ᅮᄆ ᅩᄋ ᅴ ᄂ ᅡᄋ ᅵ, ᄇ ᅡ ᆼᄀ ᅪᄒ ᅮ ᄒ ᅡ ᆨᄀ ᅭ ᄎ ᅡ ᆷᄋ ᅧᄉ ᅵᄀ ᅡ ᆫᄀ ᅪ ᄇ ᅵᄋ ᅭ ᆼᄋ ᅳ ᆫ ᄉ ᅡᄀ ᅭᄋ ᅲ ᆨ ᄇ ᅵ ᄌ ᅵᄎ ᅮ ᆯ ᄀ ᅲᄆ ᅩᄋ ᅦ ᄋ ᅴᄆ ᅵᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄋ ᅧ ᆼᄒ ᅣ ᆼᄋ ᅳ ᆯ ᄌ
ᅮᄌ ᅵ ᄆ ᅩ ᆺ ᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄀ ᅡᄀ ᅮᄉ ᅩᄃ ᅳ ᆨᄋ ᅳ ᆫ ᄉ ᅡᄀ ᅭᄋ ᅲ ᆨ ᄇ ᅵ ᄌ ᅵᄎ ᅮ ᆯ ᄀ ᅲᄆ ᅩᄋ ᅴ ᄆ ᅩᄃ ᅳ ᆫ ᄉ ᅮᄌ ᅮ ᆫ ᄋ ᅦᄉ ᅥ ᄃ ᅩ ᆼᄋ ᅵ ᆯᄒ ᅡᄀ ᅦ ᄋ ᅧ ᆼᄒ ᅣ ᆼᄋ ᅳ ᆯ ᄌ ᅮᄂ ᅳ ᆫ ᄋ ᅭᄋ ᅵ ᆫᄋ ᅳᄅ ᅩ ᄑ ᅡᄋ ᅡ ᆨ ᄃ
ᅬᄋ ᅥ ᆻᄃ ᅡ. ᄀ ᅳ ᄋ ᅬ, ᄀ ᅥᄌ ᅮᄌ ᅵᄋ ᅧ ᆨ, ᄎ ᅩ ᆼ ᄉ ᅡᄀ ᅭᄋ ᅲ ᆨ ᄉ ᅵᄀ ᅡ ᆫ, ᄒ ᅡ ᆨᄉ ᅢ ᆼᄋ ᅴ ᄉ ᅥ ᆼᄌ ᅥ ᆨ, ᄇ ᅮᄆ ᅩᄋ ᅴ ᄀ ᅭᄋ ᅲ ᆨᄌ ᅥ ᆼᄃ ᅩ, ᄀ ᅡᄀ ᅮᄋ ᅴ ᄀ ᅧ ᆼᄌ ᅦ ᄒ ᅪ ᆯᄃ ᅩ ᆼ ᄌ ᅮᄎ ᅦ, ᄇ ᅡ ᆼᄀ ᅪᄒ ᅮ ᄒ
ᅡ ᆨᄀ ᅭ ᄎ ᅡ ᆷᄋ ᅧᄋ ᅧᄇ ᅮ, EBS ᄀ ᅭᄌ ᅢᄇ ᅵᄋ ᅭ ᆼᄋ ᅳ ᆫ ᄉ ᅡᄀ ᅭᄋ ᅲ ᆨ ᄇ ᅵ ᄌ ᅵᄎ ᅮ ᆯ ᄀ ᅲᄆ ᅩᄋ ᅴ ᄉ ᅮᄌ ᅮ ᆫ ᄋ ᅦ ᄄ ᅡᄅ ᅡ ᄃ ᅡᄅ ᅳᄀ ᅦ ᄋ ᅧ ᆼᄒ ᅣ ᆼᄋ ᅳ ᆯ ᄌ ᅮᄋ ᅥ ᆻᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄉ ᅡᄀ ᅭᄋ ᅲ ᆨ ᄇ ᅵ, ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄇ ᅮ ᆫ ᄋ ᅱᄒ ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼ, ᄎ ᅬᄉ ᅩᄌ ᅡᄉ ᅳ ᆼᄇ ᅥ ᆸ, ᄀ ᅵ ᆸᄉ ᅳ ᄉ ᅢ ᆷᄑ ᅳ ᆯᄅ ᅵ ᆼ.
1. 서론 ᄒ
ᅡᆫ국교육에서 사교육은매우 보편화된 교육형태이다. 통계청에서 조사한 2016년도 초중고 사교육비 ᄌ
ᅩ사 자료 (Statistics Korea, 2017)에 의하면 초중고 학생의 사교육참여율은 67.8%이며 사교육비 총 애
ᆨ은약 18조 1천억원이라고 한다.
ᄄ
ᅩ한, 사교육비 규모를 학교급별로 살펴보면, 초 · 중 · 고 학생 1인당 월평균 사교육비는초등학교 24만 1천원, 중학교 27만 5천원,고등학교 26만 2천원이며 이는사교육에 참여하지 않는학생들도 포함 ᄉ
ᅵ켰을때의 수치로서 중학교가 가장 높다. 한편, 사교육에 참여하는학생들에 대하여 1인당 월평균사 ᄀ
ᅭ육비는초등학교 30만 2천원, 중학교 43만 1천원,고등학교 49만 9천원으로 고등학생이 가장 높았다.
Figure 1.1은사교육참여학생의 1인당 월평균사교육비의 과거 연도별 추이를보여주고 있으며 최근 증 ᄀ
ᅡ세가 뚜렷함을알 수 있다.
ᄎ
ᅬ근 가구소득의 수준에 따라 사교육비 지출과 참여율의 격차가 더욱 심화되고 있다. 소득 최상위 (월평균 700만원 이상) 가구와 최하위 (월평균 100만원 미만) 가구의 학생 1인당 사교육비 격차는 2015년 6.4배에서 2016년 8.8배로 증가했고, 사교육참여율도 최상위 가구는 81.9%인 반면 최하위 가 ᄀ
ᅮ는 30.0%로 사교육의 양극화 현상이 뚜렷해지고 있다. 뿐만 아니라 지역별로, 서울 (월평균 35만 2천원), 중소도시 (25만원),광역시 (24만 8천원), 읍면지역 (16만 6천원)간 차이가 매우 크다.
1
(13120) ᄀ ᅧ ᆼᄀ ᅵᄃ ᅩ ᄉ ᅥ ᆼᄂ ᅡ ᆷᄉ ᅵ ᄉ ᅮᄌ ᅥ ᆼᄀ ᅮ ᄉ ᅥ ᆼᄂ ᅡ ᆷᄃ ᅢᄅ ᅩ 1342, ᄀ ᅡᄎ ᅥ ᆫᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅳ ᆼᄋ ᅭ ᆼᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ. E-mail: [email protected]
Figure 1.1 Monthly private education expenses per student (10,000 won)
ᄒ
ᅡᆫ국의 사교육은대학입시와 매우 밀접한관련이 있다. 심지어 초등학교, 중학교에서도 사교육의 궁 그
ᆨ적인 목표는대학입시에 있는경우가 많고, 대학입시를 목전에 둔고등학교에서는거의 모든사교육은 ᄃ
ᅢ학입시와 직접적관계를가지고 있다. 사교육에 참여하는고등학생 비율은 52.4% (전년대비 2.3% 증 ᄀ
ᅡ)로 절반 이상이며 참여학생의 1인당 월평균사교육비가 해마다 지속적으로 증가하고 (Figure 1.1) 있 느
ᆫ것으로 보아 대학입시제도의 여러 가지 보완과 변화 시도에도 불구하고 고등학생의 사교육은더 심화 ᄃ
ᅬ고 있다.
ᄋ
ᅵ상의 수치적 자료는 모두 2016년도 초중고 사교육비조사 자료 (Statistics Korea, 2017)로부터 인 ᄋ
ᅭ ᆼ되었다.
보
ᆫ 연구는 일반 고등학교에 재학중인 사교육에 참여하고 있는 학생들을 대상으로 사교육비 지출에 ᄃ
ᅢ한 영향요인들을 베이지안 분위회귀모형 (Bayesian quantile regression model)을 이용하여 분석한 ᄃ
ᅡ. 지금까지의 사교육비에관한 연구는거의 다중회귀모형 분석방법을이용하였다 (Lee와 Song, 2014;
Kang과 Lim, 2012; Oh와 Kim, 2011; Sung과 Hong, 2008; Kim, 2008; Lee, 2007).
ᄃ
ᅡ중회귀모형에서 사용하는최소자승법 (ordinary least squares method, OLS)은 설명변수들이 주 ᄋ
ᅥ졌을때 종속변수의 조건부 평균을구하여 설명변수들의 영향을 분석하는방법으로서 활용도가 가장 ᄂ
ᅩᇁ은방법이지만, 전제되는기본가정들이 충족되지 않으면 분석 결과의 신뢰성에 문제가 발생한다. 기 보
ᆫ가정으로서 주로 문제가 되는점은 자료의 정규성 (normality)과 등분산성 (homoscedasticity)이다 (Choi, 2014). 앞에서 서술한 바와 같이 사교육비는양극화가 심한 자료로서 정규성을만족시키기가 어 ᄅ
ᅧ울것이며 사교육비 지출규모의 수준에 따라 영향요인들이 다를수 있으므로 자료들의 이질성으로 인 ᄒ
ᅡᆫ 등분산성이 성립되지 못할 것으로 예상된다.
ᄎ
ᅬ소자승법에서 정규성과 등분산성이 위배되는경우, 이에 대한 대안으로 분위회귀모형을사용할 수 이
ᆻ다. 분위회귀모형 분석방법은설명변수가 주어졌을때 종속변수의 조건부 분위수 (conditional quan-
tiles)를구하여 설명변수와 종속변수간 함수관계를추정하는방법이다. 분위회귀모형 분석은자료의 정 ᄀ
ᅲ성이나 이질성 (이분산성)을 통제할 수 있고 자료에 대한확률분포의 모든지점에서 변수들간의 함수 과
ᆫ계를추정할 수 있는장점이 있다 (Yu 등, 2003; Jung, 2014).
보
ᆫ연구에서는 2015년도에 수집된초중고 사교육실태조사자료 (Statistics Korea, 2016)에 대하여 먼 ᄌ
ᅥ 정규성과 등분산성의 위배를확인하고, 베이지안 접근방식으로 분위회귀모형 분석을이용하여 사교 ᄋ
ᅲ
ᆨ비 지출규모에 영향을주는요인들을사교육비 수준별로 분석한다. 베이지안 방법을이용함으로써관 시
ᆷ 모수의 추정에서 모수에 대한 사후확률분포 (posterior probability distribution)를 유도할 수 있고 ᄉ
ᅡ전정보 (prior information)를이용할 수 있다 (Yu와 Moyeed, 2001).
2. 표본자료와 변수의 설명
2.1. 표본자료 보
ᆫ연구는 통계청에서 매년 2회에 걸쳐 실시하는 “초중고 사교육비 실태조사”자료 중 2015년도 하반 ᄀ
ᅵ(6월 ∼ 10월)에 수집된자료를 분석 대상으로 하였다.
ᄆ ᅩ
ᆨ표모집단은대한민국에 거주하는 초중고 재학생과 그 학부모이며 표본추출틀은 교육통계정보센타 ᄋ
ᅴ 2014년도 학교DB상의 학교를사용하였다. 단, 폐교 또는휴교인 학교, 도서지역 소재의 학교, 학급 ᄃ
ᅡᆼ 평균 학생수가 10명 미만인 학교, 학교급 (초 · 중· 일반고 · 특성화고)별 해당학년의 학급수가 0인 ᄒ
ᅡᆨ교는표본추출틀에서 제외시켰다.
ᄑ
ᅭ본 추출은 층화확률비례 2단 집락추출법을 사용하였으며 층화는 20개 지역 (시, 도)을구분하여 ᄎ
ᅳ
ᆼ화한 후 20개 지역 내 학교를초등학교, 중학교, 일반고, 특성화고로 구분하여 층화하였다. 층별로 학 ᄀ
ᅳ
ᆸ수를크기척도로 하는확률비례추출방법으로 학교를추출하고 추출된학교를대상으로 학년을계통추 추
ᆯ방법으로 배정한 후 추출된학년 내에서 표본학급을단순임의추출하였다. 추출을위한 학교급별 분류 ᄌ
ᅵ표로서 행정구역, 지역규모, 학업성취도 수준,남녀공학구분,학교계열구분을학교급에 따라 선택적으 ᄅ
ᅩ 적용하였다. 특히 중학교와 일반고에 학업성취도 수준을적용하여 분류한 것은 2015년도 이전과는 ᄃ
ᅡ른점이다.
ᄌ
ᅩ사대상으로 추출된표본학교의 수는전체 1,483개로 초등학교 426개, 중학교 375개, 일반고 543개, ᄐ
ᅳᆨ성화고 139개이다. 표본학교에서 추출된표본학급의 학부모 전체, 담임교사, 방과후학교 교사를대상 ᄋ
ᅳ로 인터넷조사를 실시하고, 인터넷조사가 어려운경우에 한하여 종이조사를 실시하여 표본자료가 수 지
ᆸ되었다.
ᄋ
ᅵ상의 표본자료 수집에 대한 절차와 방법은사교육비조사 결과 (Statistics Korea, 2016)에 자세하게 ᄂ
ᅡ와 있다.
2.2. 변수 설명 ᄑ
ᅭ본자료에 포함된 변수의 수는 총 52개로서 가중치 변수를 포함하고 있다. 가중치 변수는 층화추출 서
ᆯ계에 따른설계가중값과 표본추출틀에서 사용된모집단과 조사시점의 모집단의 변화에 따른사후조정 ᄀ
ᅨ수를 곱한 값으로서 자료의 맨 마지막 변수로 입력되어 있다.
ᄇ
ᅩᆫ연구는 일반고를대상으로 사교육비 지출규모의 수준에 따라 영향을미치는요인들을살펴보고자 ᄒ
ᅡᆫ다. 사교육비 지출규모에 대한 변수들은 총 20개로서 일반교과 과목별과 유형별, 예체능,취미, 교양 ᄀ
ᅪ목별과 유형별, 취업관련 항목들각각에 대한 사교육비 지출이다. 본연구의 조사 대상이 일반고 학생 ᄋ
ᅵ므로 취업관련 사교육비 항목을제외한 나머지 19개 항목별 사교육비 지출액을모두 합한 값을반응
ᄇ
ᅧᆫ수인 사교육비 지출규모 (fee private)로 정하였다. 또한 사교육비 지출을하는경우에 한하여 영향 ᄋ
ᅭ인들을 분석하고자 하므로 사교육비 지출규모가 0인 경우는자료에서 제거하였다.
ᄋ ᅣ
ᆨ 30개의 나머지 설명변수들 중 일반고와 상관성이 적은변수들 또는결측값이 너무 많거나 불필요 ᄒ
ᅡ다고 여겨지는변수들은 분석에서 제외하였다.
ᄋ
ᅨ를 들어 사교육 목적 구분에 대한 4개의 변수들과 어학연수비 항목 2개는결측값이 너무 많고, 취업 과
ᆫ련 사교육참여시간은 일반고와는상관성이 적으며, 행정구역 변수는 19개의 시도로 분류되어 수준수 ᄀ
ᅡ 너무 많아 모두 제외시켰다.
ᄄ
ᅩ한 방과후 학교 교육비 지출에 대한 3개 세부 항목을 합하여 방과후 학교 교육비라는한 개의 변 ᄉ
ᅮ로 사용하였다. 마찬가지로 사교육참여시간도 일반교과 사교육시간과 예체능사교육시간을합하여 ᄒ
ᅡᆫ 개의 변수로 사용하였다.
ᄄ
ᅡ라서 본 연구에서 사용되는 설명변수들은 지역구분 (region), 사교육 참여시간 (total hour), 학 새
ᆼ 성별 (gender), 학생 성적 (achievement), 부의 연령 (age father), 부의 교육정도 (edu father), ᄆ
ᅩ의 연령 (age mother), 모의 교육정도 (edu mother), 부모의 경제활동 (who earns), 가구소득 (in- come),방과후 학교 참여 (after school), 방과후 학교 참여시간 (hour after school), 방과후 학교 교육 ᄇ
ᅵ (fee after school), EBS 교재비 (fee EBS)의 14개 변수이다.
ᄇ
ᅮ의 연령, 부의 교육정도, 모의 연령, 모의 교육정도, 부모의 경제활동변수들에 대한 빈도분석 결과 3.6% 이내의 결측값이 존재하는데 Oh와 Kim (2011)에서와 마찬가지로 이들결측값들은최빈구간 범 ᄌ
ᅮ로 대체하였다. 주목할 점은부의 교육정도에서 교육을 “안받았음”의 응답 빈도와 부의 연령에서 “안 ᄀ
ᅨ심”의 응답빈도가 정확하게 일치하여 교육을 “안받았음”은 실제로는결측자료인 것으로 판단되어 최 ᄇ
ᅵᆫ구간의 값으로 대체하였다. 이는모에 대한 응답에서도 마찬가지이다.
Table 2.1 Variables variable name levels (discrete case) or
values (continuous case) region 1: seoul, 2: metropolitan city,
3: small city, 4: municipal area
total hour mean time for private education per week(hour) gender 1: male student, 2: female student
achievement 95: top 10%, 80: 11∼30%, 55: 31∼60%, 30: 61∼80%, 15: 81∼100%
age father 25: twenties, 35: thirties, 45: forties, 55: fifties, 65: sixties
edu father 6 (elementary), 9 (middle school), 12 (high school), 14 (college), 16 (university), 18 (master), 20 (doctorate)
age mother 25: twenties, 35: thirties, 45: forties, 55: fifties, 65: sixties
edu mother 6 (elementary), 9 (middle school), 12 (high school), 14 (college), 16 (university), 18 (master), 20 (doctorate)
who earns 1: father only, 2: mother only,
3: both of father and mother, 4: none of father and mother income average of monthly house income (10,000 won);
50:0∼100, 150:100∼199, 250:200∼299, 350:300∼399,
450:400∼499, 550:500∼599, 650: 600∼699, 750:more than 700 after school 1: do, 2: don’t
hour after school mean time for after school per week (hour)
fee after school annual amount for after school (1,000 won)
fee EBS annual amount for EBS textbook (1,000 won)
fee private annual amount for private education (1,000 won)
3. 베이지안 분위회귀모형 부
ᆫ위 회귀모형은설명변수 xxx와 반응변수 y의 조건부 τ -분위수(conditional tau-quantile), Qτ(y|xxx)에 ᄃ
ᅢ한 선형모형으로서 다음의관계식으로 표현된다.
yi= xxxiβββτ+ ϵτ i, Qτ(yi|xxxi) = xxxiβββτ, i = 1, · · · , n, 0 < τ < 1, ᄋ
ᅧ기서 xxxi= (1, x1i, · · · , xki)′는절편 (intercepts)을포함할 때 설명변수벡터의 i번째관측값이고 βββτ = (β0, β1, · · · , βk)′는 y의 조건부 τ -분위수에 대응하는 분위회귀계수 벡터이다. ϵτ i는잔차로서 τ -분위수 ᄀ
ᅡ 0인 분포를갖는다.
ᄀ
ᅩ전적 분위회귀분석에서 분위회귀계수 βββτ의 추정은아래 식에서 최소화 문제의 해가된다. 즉,오차 ᄋ
ᅴ 100τ %는 음 (-)의 값을갖고 100(1 − τ )%는양 (+)의 값을갖도록하여 추정하게된다.
min
n
X
i=1
ρτ(yi− xxxiβββ)
!
, ρτ(u) =
( τ |u| if u ≥ 0
(1 − τ )|u| if u < 0 (3.1) ᄀ
ᅳ러나 위 식에서 정의된 손실함수, ρτ(u)는 u = 0에서 미분가능하지 않기 때문에 명백한 해를구할 ᄉ
ᅮ 없고 주로 선형계획법 (linear programing method)을이용한다 (Koenker와 Park, 1996).
ᄇ
ᅦ이지안 분위회귀분석은고전적 분위회귀분석 방법과는다른접근방식으로서 비대칭 라플라스 분포 (asymmetric Laplace density)에 기초한 우도함수를이용한다.
자
ᆫ차 ϵτ i, i = 1, · · · , n 들이 서로 독립이고 비대칭 라플라스 분포를 따른다고 가정하면 관측치 {yi, i = 1, · · · , n}에 대한 βββτ의 우도함수는다음과 같다 (Yu와 Moyeed, 2001).
L(yyy|βββτ) = τn(1 − τ )nexp (
−X
i
ρτ(yi− xxxiβββτ) )
. (3.2)
ᄄ
ᅡ라서 식 (3.1)의 최소화 문제는 식 (3.2)의 우도함수를 최대화 하는 것과 동일하다. 그러나 식 (3.2)의 우도함수로부터 βββτ의 최대우도추정치 (maximum likelihood estimator)를 구하는 것은 식 (3.1)의 최소화 문제에서처럼 명백한 해를 구할 수 없다. 베이지안 추정은 βββτ의 사전정보확률 분포, π(βββτ)를가정한 후 식 (3.2)의 우도함수와 결합하여 βββτ의 사후확률분포, π(βββτ|yyy)를구하고 사후분포로 ᄇ
ᅮ터 모의표본 (simulated samples)을생성하여 최대사후확률 (highest posterior density)추정방법으 ᄅ
ᅩ βββτ를추정한다.
ᄇ
ᅵ대칭 라플라스 분포는다양한 혼합모형 (mixture model)들로 표현될수 있는데 깁스샘플링 방법으 ᄅ
ᅩ 모의표본생성을 용이하게 하기 위해 지수분포와 정규분포의 혼합모형을이용한다. 즉, Z는표준정 ᄀ
ᅲ분포를따르는변수이고 W 는평균이 1인 지수분포를따른다고 하면 비대칭 라플라스 분포를따르는 ϵτ i는다음과 같이 표현할 수 있다 (Kozumi와 Kobayashi, 2011).
ϵτ i= 1 − 2τ τ (1 − τ )Wi+
s 2Wi
τ (1 − τ )Zi. ᄌ
ᅡ
ᆷ재변수 Wi= wi를모수로 취급하면관측값 yi에 대한 (wi, βββτ)의 우도함수는다음과 같다.
yi|wi, βββτ ∼ N
1 − 2τ
τ (1 − τ )wi+ xxx′iβββτ, 2wi
τ (1 − τ )
, i = 1, · · · , n. (3.3) β
β
βτ의 일반적인 짝사전분포 (conjugate prior)로 정규분포 N(βββτ 0, Στ 0)를가정하면 βββτ의 조건부 사후 ᄇ
ᅮᆫ포는다음과 같다.
βββτ|yyy, www ∼ N (ˆβββτ, ˆΣτ), Σˆ−1τ =
n
X
i=1
x xxixxxi
2wi/τ (1 − τ )+ Σ−1τ 0, βββˆτ = ˆΣτ
Pn
i=1xxxi[yi− (1 − 2τ )wi/τ (1 − τ )]
2wi/τ (1 − τ ) + Σ−1τ 0βββτ 0
. (3.4)
ᄆ
ᅡ찬가지로 우도함수 (3.3)으로부터 잠재변수 wi, i = 1, · · · , n에 대한 조건부 사후함수는 wi−1의 사 ᄒ
ᅮ분포가 역 가우시안분포 (inverse Gaussian distribution)임을유도할 수 있다.
wi−1|βββτ, yyy ∼ IG
1
τ (1 − τ )|yi− xxxi′βββτττ|, 1 2τ (1 − τ )
. (3.5)
ᄋ
ᅱ의 βββτ와 wi, i = 1, · · · , n의 조건부 사후분포 식 (3.4)와 (3.5)에 대하여는 Kozumi와 Kobayashi (2011), Oh 등 (2016)을참조하기로 한다.
부
ᆫ위수값 τ 가 주어지면, 가중치를 고려한 관측자료 {yi, i = 1, · · · , n}에 대하여, 식 (3.4)와 (3.5)를 ᄋ
ᅵ용하여 깁스 샘플링 방법을적용하여 사후분포로부터 추출된βββτ의 모의표본을생성할 수 있다. 이에 ᄃ
ᅢ하여 Reed와 Yu (2009)는깁스 샘플링의 수렴 (convergence)을수월하게 하기 위해 식 (3.5)로부터 w에 대한 샘플링을먼저 한 후 식 (3.4)로부터 βββτ에 대한 샘플링을수행할 것을제안했으며 본연구는 ᄋ
ᅵ 방법을따랐다.
4. 베이지안 분위회귀모형 분석 및 결과
4.1. 변수의 요약 ᄇ
ᅡᆫ응변수인 총사교육비 (fee private)와 설명변수들에 대한 요약 통계량값 (가중치 고려)을 통하여 ᄑ
ᅭ본자료의 특성을 살펴보기로 한다 (Table 4.1). 총사교육비의 평균과 표준편차는 각각 589,790원, 372,828원이고 최소값 3,534원, 중위수 521,389원, 최대값 6,197,419원으로 편차가 매우 크며 이상점 ᄃ
ᅳ
ᆯ이 존재할 가능성이 높다.
ᄎ ᅩ
ᆼ사교육 시간도 평균 8.266시간, 표준편차 5.444시간인데 최대값과 제 3사분위수가 53.677과 11시 ᄀ
ᅡᆫ으로 그 차이가 다른구간에 비해 갑자기 증가한다. 성적은 평균과 중위수가 비슷하며 점수가 최하, ᄒ
ᅡ, 중,상, 최상으로 골고루 분포되어 있다.
ᄋ
ᅡ버지의 나이는최소 30대, 최대 60대이며 표본의 75%는 40대에 속하며 어머니의 나이는 20대부터 60대까지이고 아버지와 마찬가지로 75%가 40대이다. 아버지의 교육정도는 평균 14.752 (년), 어머니 ᄋ
ᅴ 교육정도의 평균은 13.928 (년)으로 평균전문대졸수준이다. 월 평균가구소득은평균 400만원대이 ᄀ
ᅩ 표본의 25%는 400만원미만, 25%는 400∼500만원, 25%는 500∼600만원, 25%는 600만원이상이 ᄃ
ᅡ.
ᄌ
ᅮ당 방과후 학교에서 수업을받는시간은평균 4.465시간이고 표본의 25%는방과후 학교를전혀 다 ᄂ
ᅵ지 않고 있으며 최대값은 27.667시간으로 제 3분위수인 8시간과 차이가 크다. 연간 방과후 학교 수업 ᄅ
ᅭ의 평균과 표준편차는 23,360원과 25,834원이며 최대값은 244,180원이다. 연간 EBS 교재비 평균은 8,493원이고 표준편차는 12,153원,최대값은 118,497원이다.
ᄑ
ᅭ본의 거주지역 분포는 중소도시가 42.83%로 가장 많고 광역시 25.90%, 서울 21.05%, 읍면지역 10.22% 순이다. 남학생과 여학생의 비율은 거의 비슷한 수준으로 분포되어 있다. 부모의 경제활동은 ᄆ
ᅡ
ᆽ벌이가 59.26%로 절반 이상이고 아버지만 경제활동을하는경우가 그 다음으로 34.04%, 어머니만 하 느
ᆫ경우가 5.82%, 그 외가 0.88%이다. 방과후 학교 수업에 참여하는비율은 69.12%로 30.88%는참여 ᄒ
ᅡ지 않고 있다.
Table 4.1 Weighted summary statistics for continuous variables
variable mean std min 1st quartile median 3rd quartile max
total hour 8.266 5.444 0.333 4 7 11 53.667
achievement 54.498 26.426 15 30 55 80 95
age father 47.274 4.497 35 45 45 45 65
edu father 14.752 2.337 6 12 14 16 20
age mom 45.145 3.839 25 45 45 45 65
edu mom 13.928 2.131 6 12 14 16 20
income 471.082 192.988 50 350 450 650 750
hour after school 4.465 4.527 0 0 3.667 8 27.667
fee after school 23.360 25.834 0 0 18.415 38.303 244.180
fee EBS 8.493 12.153 0 0 3.141 13.742 118.497
fee private 583.979 372.828 3.534 329.804 521.389 765.617 6197.419
Table 4.2 Weighted percentages for discrete variables
variable 1 2 3 4
region 21.05% 25.90% 42.83% 10.22%
gender 47.58% 52.42% NA NA
whoearns 34.04% 5.82% 59.26% 0.88%
afterschool 69.12% 30.88% NA NA
※NA; not available
4.2. 베이지안 분위회귀모형 분석 ᄒ
ᅵ스토그램을이용하여 반응변수인 총사교육비의 분포를살펴 본결과 정규분포로부터 크게 벗어나 ᄅ
ᅩ그변환을 실시하였다 (Figure 4.1). 로그변환자료를이용하여 일반적인 회귀모형 적합 (OLS)을 수 ᄒ
ᅢᆼ한 후 잔차 (residuals) 분석 결과 이상점을포함하고 있고 등분산성이 위배되며 잔차의 정규성이 성립 ᄃ
ᅬ지 않음을확인하였다 (Figure 4.2, Table 4.3).
Table 4.3 Normality and non-constant variance test for OLS residuals Anderson-Darling normality test Non-constant variance score test
(Kim ᄃ ᅳ ᆼ, 2006) (Cook ᄀ ᅪ Weisberg, 1983)
test-statistics p Chi-square df p
208.38 < 0.0001 109.63 1 < 0.0001
Figure 4.1 Weighted histograms of fee private and log (fee private)
Figure 4.2 Plots for ordinary regression model for log(fee private)
ᄄ
ᅡ라서 로그변환 변수를반응변수로 하여 3장에서 설명한 베이지안 분위회귀모형 분석을 실시하였다.
βββτ의 사전정보로서 βββτ 0 = 000, Σ−1τ 0 = 0인 무정보 사전확률 (non-informative prior)을적용 (Lee 등, 2016)하여 통계 소프트웨어 ‘R’의 함수 ‘MCMCquantreg’을이용하여 식 (3.5) − > (3.4)의 순서로 깁 ᄉ
ᅳ 샘플링방법을구현하였다. 고려한 τ -값은 τ = .05, .10, · · · , .95로서 20개이다. 각 τ -값에 대응하는 βββτ에 대하여 총 105,000 개의 모의표본을생성하였으며 초기 5,000 개의 표본은 제외하고 (burn-in), ᄂ
ᅡ머지 100,000 개의 표본을 βββτ에 대한 추론에 사용하였다. 20개 마코프체인의 수렴성은각각 Geweke (1992)이 제시한 진단법 (Geweke’s Z-score)을이용하여확인하였다.
Figure 4.3은다양한 τ -값에 (τ = .05, .10, · · · , .95) 대한 분위회귀계수 추정값을보여주고 있으며 학 새
ᆼ의 성별, 부모의 나이, 방과후 학교 참여 시간과 비용은 모든 τ -값에 대하여 분위회귀계수 추정값이 ᄋ
ᅲ의하지 않은것으로 나타났다. Table 4.3은모든 τ -값에 대하여 유의하지 않은이들변수들은제외하 ᄀ
ᅩ, 나머지 변수들에 대하여 τ = .05, .10, · · · , .95일 때, 분위회귀계수의 추정치에 대한 구체적인 수치를 ᄇ
ᅩ여준다. τ 가 주어졌을때, 19개의 변수 각각에 대하여 생성된100,000개의 모의표본으로부터 평균을 ᄀ
ᅮ하여 βββτ의 추정값으로 하고 표준편차를구한 후 t-값은추정값을표준편차로 나눈값으로서 t-값을기 주
ᆫ으로 유의성 검정을 실시한다. 또한, OLS 회귀계수 추정값과, t-값 (=추정값/표준오차)을제시하였
ᄃ ᅡ.
과
ᆼ역시는 τ = .05를제외한 다른모든 τ -값에서 서울과 유의한 차이를나타내고, 중소도시, 읍면지역 ᄋ
ᅳ
ᆫ모든 τ -값에 대하여 서울과 유의한 차이를나타낸다. 특히, 각 τ -값에 대하여광역시, 중소도시, 읍 ᄆ
ᅧᆫ지역 순으로 서울과의 차이(절대값)가 증가한다 (광역시: β0.05 = −0.094, β0.25 = −0.166, β0.50 =
−0.140, β0.75 = −0.122, β0.95 = −0.157; 중소도시: β0.05 = −0.284, β0.25 = −0.254, β0.50 =
−0.213, β0.75 = −0.192, β0.95 = −0.240; 읍면지역: β0.05 = −0.470, β0.25 = −0.370, β0.50 =
−0.302, β0.75 = −0.283, β0.95 = −0.318). 모든 지역의 OLS 회귀계수 추정값 (광역시: -0.078, 중 ᄉ
ᅩ도시: -0.147, 읍면지역: -0.266)은 각 지역의 모든 τ -분위회귀계수 추정값보다 작으므로 과소추정 (underestimate)하고 있음을알 수 있다.
ᄎ ᅩ
ᆼ사교육시간과 가구소득은 모든 τ -값에 대하여 분위회귀계수의 추정값이 양수이고 유의하므로 총 ᄉ
ᅡ교육시간과 가구소득이 클수록 총사교육비 지출은 증가한다. 구체적으로, 총사교육시간에 대한 τ - 부
ᆫ위회귀계수 추정값은 τ가 클수록 감소하고 (β0.05 = 0.068, β0.25 = 0.058, β0.50 = 0.053, β0.75 = 0.045, β0.95= 0.038),가구소득의 τ -분위회귀계수 추정값은모든 τ에 대하여 일정하다 (βτ = 0.001, τ = 0.05, · · · , 0.95).
ᄒ
ᅡᆨ생의 성적이 높을수록 총사교육비 지출은대체로 증가하지만 (β0.05= 0.004, β0.25= 0.002, β0.50= 0.002, β0.75 = 0.001) 상위 분위수에서는 성적이 유의하지 않다 (βτ ≤ 0.001, t < 1.732, τ = 0.85, 0.90, 0.95). 또한 τ 가 작을수록 분위회귀계수의 추정값이 크다.
ᄋ
ᅡ버지의 교육수준은 0.55 ≤ τ ≤ 0.8일 때, 어머니의 교육수준은 τ ≥ 0.30일 때 교육수준이 높을 ᄉ
ᅮ록 총사교육비 지출이 유의하게 증가한다 (아버지: β0.75 = 0.011; 어머니: β0.50 = 0.015, β0.75 = 0.017, β0.95 = 0.019). 아버지와 어머니의 교육수준에 대한 OLS 회귀계수 추정값은모두 유의하다(아 ᄇ
ᅥ지: β = 0.009; 어머니: β = 0.012).
ᄇ
ᅮ외벌이와 모외벌이는 모든 τ -값에 대하여 유의한 차이가 없고 맞벌이의 경우 0.40 ≤ τ ≤ 0.90 ᄋ
ᅦ서 부외벌이보다 총사교육비 지출이 유의하게 낮다 (β0.40 = −0.040, β0.50 = −0.043, β0.75 =
−0.041, β0.90 = −0.052). 부모의 경제활동이 없는 경우는 0.35 ≤ τ ≤ 0.90일 때 부외벌이보다 총 ᄉ
ᅡ교육비 지출이 유의하게 낮다 (β0.35 = −0.217, β0.50 = −0.201, β0.75 = −0.243). OLS회귀계수 추 저
ᆼ에서도 부외벌이와 모외벌이의 차이는유의하지 않고 맞벌이 (β = −0.019)와 부모의 경제활동이 없 느
ᆫ경우 (β = −0.212)에 부외벌이보다 총사교육비 지출이 유의하게 낮다.
ᄇ
ᅡᆼ과후 학교에 참여하지 않는학생은 0.15 ≤ τ ≤ 0.35일 때 참여하는학생보다 총사교육비 지출이 유 ᄋ
ᅴ하게 낮다 (β0.15= −0.105, β0.25= −0.088, β0.35= −0.069). 방과후 학교 참여에 대한 OLS 회귀계 ᄉ
ᅮ 추정값 (β = −0.012, t = −0.896)은유의하지 않다.
EBS 교재비용은 τ ≥ 0.70일 때 EBS 교재비용이 높을수록 총사교육비 지출이 유의하게 높다 (β0.70 = 0.002, β0.85 = 0.003, β0.95 = 0.003). OLS 회귀계수 추정값은 β = 0.001 (t = 3.780)이 ᄀ
ᅩ 유의하다.
5. 결론 및 고찰 보
ᆫ연구는 통계청에서 조사한 2015년도 2차 사교육비 실태조사 자료 중 일반계 고등학생들의 사교육 ᄇ
ᅵ 지출규모에 대하여 학생들의 거주지역과 성별, 사교육참여시간 및 성적, 부모의 연령과 교육정도 및 ᄇ
ᅮ모의 경제활동 주체, 가구소득, 방과후 학교 참여 여부와 참여시간 및 교육비, EBS 교재비의 영향을 ᄋ
ᅡ
ᆯ아보기 위해 베이지안 분위회귀모형 분석을수행하였다.
부
ᆫ석 결과 학생의 성별, 부모의 나이, 방과후 학교 참여 시간과 비용은사교육비 지출규모의 모든수 ᄌ
ᅮᆫ에서 영향을주지 않았다. 거주지역에 따라 사교육비 지출은거의 모든수준에서 차이를보였는데 지
※· ; significant, ◦ ; not significant, - - - ; OLS estimates
Figure 4.3 Point estimates of τ -quantile regression coefficients
ᄇ
ᅡᆼ 소도시, 읍면지역으로 갈수록서울지역과의 차이가 컸다. 또한 이러한 차이는사교육비 지출이 높아 지
ᆯ수록 증가했다.
ᄎ ᅩ
ᆼ사교육비 지출은 총사교육시간에 비례하여 증가했다. 단, 총사교육비 지출규모가 커질수록 총사 ᄀ
ᅭ육 시간의 비례량은감소했다. 즉, 사교육비 수준이 낮은 경우에는사교육시간에 따라 비용 증가가
Table 4.4 Quantile regression estimates for log(fee private)
variable OLS τ = .05 τ = .25 τ = .5 τ = .75 τ = .95
intercept β 5.062*** 4.112*** 4.986*** 5.143*** 5.475*** 5.889***
t 72.571 11.082 29.875 38.806 39.480 22.911
region
metro city β -0.078*** -0.094 -0.166*** -0.140*** -0.122*** -0.157**
t -5.489 -1.199 -5.069 -4.996 -4.080 -2.963
small city β -0.147*** -0.284*** -0.254*** -0.213*** -0.192*** -0.240***
t -12.106 -3.842 -8.110 -7.987 -6.861 -4.790
municipal area β -0.266*** -0.470*** -0.370*** -0.302*** -0.283*** -0.318***
t -15.069 -4.869 -9.015 -8.703 -8.053 -5.070
total hour β 0.056*** 0.068*** 0.058*** 0.053*** 0.045*** 0.038***
t 66.284 21.022 32.193 28.064 20.956 10.092
achievement β 0.002*** 0.004*** 0.002*** 0.002*** 0.001** 0.001
t 11.233 4.458 5.509 4.716 3.059 1.012
edu father β 0.009*** 0.021 0.009 0.009 0.011* 0.006
t 3.798 1.708 1.598 1.917 2.260 0.774
edu mother β 0.012*** 0.005 0.009 0.015** 0.017** 0.019*
t 4.595 0.325 1.547 3.085 3.274 2.134
who earns
mother only β -0.014 -0.018 -0.008 -0.036 -0.055 -0.061
t -0.652 -0.165 -0.168 -0.929 -1.347 -0.827
both β -0.019* 0.033 -0.013 -0.043* -0.041* -0.052
t -2.018 0.623 -0.585 -2.355 -2.200 -1.577
none β -0.212*** -0.377 -0.253 -0.201* -0.243** -0.278
t -4.417 -1.239 -1.955 -2.134 -2.798 -1.635
income β 0.001*** 0.001** 0.001** 0.001*** 0.001*** 0.001***
t 26.680 5.184 10.795 13.500 12.298 7.856
after school
don’t β -0.012 -0.108 -0.088** -0.025 0.028 0.076
t -0.896 -1.446 -2.624 -0.873 0.964 1.492
fee EBS β 0.001*** -0.003 0.000 0.001 0.002** 0.003*
t 3.780 -1.560 0.119 0.989 2.728 2.104
***: p < 0.001, **: p < 0.01, *: p < 0.05
ᄉ
ᅡᆼ대적으로 크다는것이다. 한편, 총사교육비 지출은가구소득에 따라 일정하게 증가했다.
ᄒ
ᅡᆨ생의 성적이 높을수록 총사교육비 지출은 증가하지만 총사교육비 지출규모가 최상위에근접할수록 서
ᆼ적과 무관한 것으로 나타나 총사교육비 지출의 최상위 그룹에서는성적이 높든낮든사교육비를많이 ᄊ
ᅳ고 있음을알 수 있다. 또한 총사교육비 지출규모가 낮을수록성적의 영향력은컸다.
ᄎ ᅩ
ᆼ사교육비 지출 규모가 중상위 수준에서는 아버지의 교육수준이 높을수록사교육비 지출이 증가했 ᄃ
ᅡ. 한편, 어머니의 교육수준은 총사교육비 지출의 하위 그룹을제외한 나머지 모든그룹에서 영향을주 ᄋ
ᅥᆻ다. 따라서 총사교육비 지출의 규모는아버지보다 어머니의 교육수준에 따라광범위하게 영향을받는 ᄃ
ᅡ고 할 수 있다.
겨
ᆼ제활동의 주체가 부외벌이와 모외벌이의 총사교육비 지출에 대한 차이는없다. 최근여성 가구주의 ᄉ
ᅮ는지속적으로 증가하고 있으며 여성은남성보다 임금이 훨씬 낮아 여성 가구주의 빈곤화에 대한 우려 ᄀ
ᅡ 제기되고 있다 (Yi, 2009). 이러한 상황에도 불구하고 부외벌이와 모외벌이간 사교육비 지출규모가 ᄎ
ᅡ이가 없다는것은모외벌이의 경우 소득의 많은 부분을자녀의 사교육에 쏟고 있음을의미하며 이는 ᄋ
ᅧ성 가구주의 빈곤화에 대한 한 원인이될수 있는근거가된다. 맞벌이는 총사교육비 지출규모가 중 ᄋ
ᅱ 또는상위 수준에서 부외벌이보다 사교육비 지출이 낮았다. 소득이 더 많음에도 사교육비 지출이 낮
ᄋ ᅳ
ᆫ이유에 대해서는향후 구체적인 연구가 필요하다.
ᄎ ᅩ
ᆼ사교육비 지출 규모 수준이 주로 하위에 속할 때, 방과 후 학교에 참여하지 않는 학생의 사교육비 ᄌ
ᅵ출이 참여하는학생보다 더 낮았으며 이는사교육과 방과후 학교 모두에 소극적임을알 수 있다. 이와 느
ᆫ반대로 총사교육비 지출규모가 상위 수준일 때 사교육비 지출규모와 방과 후 학교는무관하며 EBS ᄀ
ᅭ재 비용이 많을수록사교육비 지출도 증가했다. 즉, 사교육비 지출이 높은그룹은방과 후 학교 보다 ᄂ
ᅳᆫ EBS교재 공부에 더 적극적임을알 수 있다. 방과 후 학교의 취지중하나인 사교육비 경감의 효과에 ᄃ
ᅢ해 재고해 볼여지가 있다.
ᄁ ᅳ
ᇀ으로 일반 회귀모형 분석 방법인 OLS 다중회귀모형 분석은과소추정, 사교육비 규모 수준을무시 ᄒ
ᅡᆫ 유의성 검정 등의 문제점이 발견되어 본연구자료에 대한 베이지안 분위회귀분석의 유용성을다시확 ᄋ
ᅵᆫ 할 수 있었다.
References
Choi, J. S. (2014). Type I projection sum of squares by weighted least squares. Journal of the Korean Data & Information Science Society, 25, 423-429.
Cook, R. D. and Weisberg, S. (1983). Diagnostics for heteroscedasticity in regression. Biometrika, 70, 1-10.
Jung, S. Y. (2014). Analysis of the impact of agglomeration on firm performance using quantile regression.
Journal of Market Economy, 43, 95-121.
Kang, S. H. and Lim, B. I. (2012). An analysis on determinants of the private education expenses from a viewpoint of housewives. Journal of the Korean Data & Information Science Society, 23, 543-558.
Kim, D., Eom, J. H. and Jeong, H. C. (2006). A comparison on the empirical power of some normality tests. Journal of the Korean Data & Information Science Society, 17, 31-39.
Kim, H. J. (2008). Analyzing the impact of high school equalization policy on the private tutoring expen- diture of academic high school second grade students in Korea. The Journal of Educational Adminis- tration, 26, 1-22.
Koenker, R. and Park, B. J. (1996). An interior point algorithm for nonlinear quantile regression. Journal of Econometrics, 71, 265-283.
Kozumi, H. and Kobayashi, G. (2011). Gibbs sampling methods for Bayesian quantile regression. Journal of Statistical Computation and Simulation, 81, 1565-1578.
Lee, D. H, Kim, D. H. and Kang, S. G. (2016). Noninformative priors for linear combinations of exponential means. Journal of the Korean Data & Information Science Society, 27, 565-575.
Lee, H. J. and Song, J. W. (2014). The analysis of private education cost for the elementary, middle, and high scholl students in Korea. The Korean Journal of Applied Statistics, 27, 1125-1137.
Lee, S. J. (2007). An socio-psychological approach to the cause of shadow education in South Korea. The Journal of Educational Administration, 25, 455-484.
Oh, M. S., Choi, J. and Park, E. S. (2016). Bayesian variable selection in quantile regression using the Savage-Dickey density ratio. Journal of the Korean Statistical Society, 45, 466-476.
Oh, M. S. and Kim, J. H. (2011). Statistical analysis of private education expenses in Korea. The Korean Journal of Applied Statistics, 24, 193-206.
Reed, C. and Yu, K. (2009). An efficient gibbs sampler for Bayesian quantile regression, Department of Mathematical Sciences, Brunel University(Technical Report).
Sung, N. I. and Hong, S. W. (2008). An empirical study on the Korean Household expenditure for private tutoring. Korea Review of Applied Economics, 10, 183-212.
Statistics Korea. (2017). Private education expenditures survey in 2016.
Statistics Korea. (2016). Private education expenditures survey in 2015.
Yi, J. (2009). The permanent poverty of female headed household: the tendency and determinants. The Women’s Studies, 77, 49-79.
Yu, K., Lu, Z. and Stander, J. (2003). Quantile regression: applications and current research areas. Jounal of the Royal Statistical Society: Series D (the Statistician), 52, 331-350.
Yu, K. and Moyeed, R. A. (2001). Bayesian quantile regression. Statistics & Probability Letters, 54, 437-
447.
2017, 28
(6)
,1457–1469
Bayesian quantile regression analysis of private education expenses for high scool students in Korea
Oh Hyun Sook
1
1Department of Applied Statistics, Gachon University
Received 11 September 2017, revised 16 October 2017, accepted 23 October 2017
Abstract
Private education expenses is one of the key issues in Korea and there have been many discussions about it. Academically, most of previous researches for private ed- ucation expenses have used multiple regression linear model based on ordinary least squares (OLS) method. However, if the data do not satisfy the basic assumptions of the OLS method such as the normality and homoscedasticity, there is a problem with the reliability of estimations of parameters. In this case, quantile regression model is pre- ferred to OLS model since it does not depend on the assumptions of nonnormality and heteroscedasticity for the data. In the present study, the data from a survey on private education expenses, conducted by Statistics Korea in 2015 has been analyzed for inves- tigation of the impacting factors for private education expenses. Since the data do not satisfy the OLS assumptions, quantile regression model has been employed in Bayesian approach by using gibbs sampling method. The analysis results show that the gender of the student, parent’s age, and the time and cost of participating after school are not significant. Household income is positively significant in proportion to the same size for all levels (quantiles) of private education expenses. Spending on private education in Seoul is higher than other regions and the regional difference grows as private educa- tion expenditure increases. Total time for private education and student’s achievement have positive effect on the lower quantiles than the higher quantiles. Education level of father is positively significant for midium-high quantiles only, but education level of mother is for all but low quantiles. Participating after school is positively significant for the lower quantiles but EBS textbook cost is positively significant for the higher quantiles.
Keywords: Bayesian quantile regression, gibbs sampling, ordinary least squares method, private education expenses.
1