2018, 29
(5)
,1201–1214
응급실 과밀화 해결을 위한 데이터 분석 기반 응급실 혼잡도 예측 모형 연구 †
기
ᆷ벼울
1
· 윤용익2
12숙명여자대학교 IT공학과
ᄌ ᅥ
ᆸᄉ ᅮ 2018ᄂ ᅧ ᆫ 7ᄋ ᅯ ᆯ 9ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 9ᄋ ᅯ ᆯ 3ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 9ᄋ ᅯ ᆯ 10ᄋ ᅵ ᆯ
요 약
ᄇ
ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅳ ᆫ ᄌ ᅥ ᆫᄀ ᅮ ᆨ ᄋ ᅦ ᄋ ᅵ ᆻᄂ ᅳ ᆫ 414ᄀ ᅢ ᄋ ᅳ ᆼᄀ ᅳ ᆸ ᄋ ᅴᄅ ᅭᄉ ᅦ ᆫᄐ ᅥᄋ ᅴ 2017ᄂ ᅧ ᆫ ᄌ ᅡᄅ ᅭᄅ ᅳ ᆯ ᄐ ᅩᄃ ᅢᄅ ᅩ ᄋ ᅳ ᆼᄀ ᅳ ᆸᄉ ᅵ ᆯᄋ ᅴ ᄐ ᅳ ᆨᄉ ᅥ ᆼ ᄆ ᅵ ᆾ ᄌ ᅵᄋ ᅧ ᆨᄌ ᅥ ᆨ ᄐ ᅳ ᆨ ᄉ ᅥ
ᆼᄋ ᅳ ᆯ ᄇ ᅡ ᆫᄋ ᅧ ᆼᄒ ᅡᄋ ᅧ ᄋ ᅳ ᆼᄀ ᅳ ᆸᄉ ᅵ ᆯ ᄒ ᅩ ᆫ ᄌ ᅡ ᆸᄃ ᅩᄅ ᅳ ᆯ ᄉ ᅵ ᆯᄉ ᅵᄀ ᅡ ᆫᄋ ᅳᄅ ᅩ ᄋ ᅨᄎ ᅳ ᆨ ᄒ ᅡᄂ ᅳ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄀ ᅢᄇ ᅡ ᆯᄒ ᅢ ᆻᄃ ᅡ. ᄋ ᅨᄎ ᅳ ᆨ ᄆ ᅩᄒ ᅧ ᆼ ᄀ ᅢᄇ ᅡ ᆯᄋ ᅦᄂ ᅳ ᆫ ᄃ ᅦᄋ ᅵᄐ ᅥᄆ ᅡ ᄋ
ᅵᄂ ᅵ ᆼ ᄀ ᅵᄇ ᅥ ᆸ ᄌ ᅮ ᆼ ᄃ ᅡᄌ ᅮ ᆼᄉ ᅥ ᆫᄒ ᅧ ᆼᄒ ᅬᄀ ᅱᄇ ᅮ ᆫᄉ ᅥ ᆨ, ᄇ ᅮᄇ ᅮ ᆫᄌ ᅵ ᆸᄒ ᅡ ᆸᄉ ᅥ ᆫᄐ ᅢ ᆨ, ᄂ ᅳ ᆼᄒ ᅧ ᆼᄒ ᅬᄀ ᅱ, Lasso, ᄌ ᅮᄉ ᅥ ᆼᄇ ᅮ ᆫ ᄒ ᅬᄀ ᅱᄇ ᅮ ᆫᄉ ᅥ ᆨ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᆻᄋ ᅳ ᄆ
ᅧ, ᄌ ᅮᄉ ᅥ ᆼᄇ ᅮ ᆫ ᄒ ᅬᄀ ᅱᄇ ᅮ ᆫᄉ ᅥ ᆨᄋ ᅵ ᄀ ᅡᄌ ᅡ ᆼ ᄂ ᅩ ᇁᄋ ᅳ ᆫ ᄋ ᅨᄎ ᅳ ᆨᄅ ᅧ ᆨᄋ ᅳ ᆯ ᄇ ᅩᄋ ᅧ ᆻᄃ ᅡ. ᄄ ᅩᄒ ᅡ ᆫ, ᄋ ᅨᄎ ᅳ ᆨ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄀ ᅢᄇ ᅡ ᆯᄒ ᅡᄂ ᅳ ᆫ ᄃ ᅦ ᄋ ᅵ ᆻᄋ ᅥ ᄌ ᅥ ᆫᄎ ᅦ ᄋ ᅳ ᆼᄀ ᅳ ᆸ ᄋ ᅴᄅ ᅭ ᄀ
ᅵ ᄀ ᅪ ᆫᄋ ᅳ ᆯ ᄀ ᅵᄌ ᅮ ᆫ ᄋ ᅳᄅ ᅩ ᄒ ᅡ ᆫ ᄋ ᅨᄎ ᅳ ᆨ ᄆ ᅩᄒ ᅧ ᆼ(92.73%)ᄇ ᅩᄃ ᅡ ᄋ ᅳ ᆼᄀ ᅳ ᆸ ᄋ ᅴᄅ ᅭᄀ ᅵ ᄀ ᅪ ᆫ ᄋ ᅲᄒ ᅧ ᆼᄋ ᅦ ᄄ ᅡᄅ ᅡ ᄉ ᅦᄇ ᅮ ᆫ ᄒ ᅪᄒ ᅡ ᆫ ᄋ ᅨᄎ ᅳ ᆨ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄋ ᅨᄎ ᅳ ᆨᄅ ᅧ ᆨᄋ ᅵ ᄃ
ᅥ ᄂ ᅩ ᇁ ᄀ ᅦ ᄂ ᅡᄐ ᅡᄂ ᅡ ᆻᄃ ᅡ. ᄐ ᅳ ᆨ ᄒ ᅵ, ᄀ ᅡᄌ ᅡ ᆼ ᄒ ᅩ ᆫ ᄌ ᅡ ᆸᄒ ᅡ ᆫ ᄋ ᅲᄒ ᅧ ᆼᄋ ᅵ ᆫ ᄀ ᅯ ᆫᄋ ᅧ ᆨᄋ ᅴᄅ ᅭᄉ ᅦ ᆫᄐ ᅥᄋ ᅴ ᄋ ᅨᄎ ᅳ ᆨᄌ ᅥ ᆼᄃ ᅩᄂ ᅳ ᆫ 97.37% ᄅ ᅩ ᄂ ᅡᄐ ᅡᄂ ᅡ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄋ ᅧ ᆫ ᄀ
ᅮᄋ ᅦᄉ ᅥ ᄀ ᅢᄇ ᅡ ᆯ ᄃ ᅬ ᆫ ᄋ ᅳ ᆼᄀ ᅳ ᆸᄉ ᅵ ᆯ ᄒ ᅩ ᆫ ᄌ ᅡ ᆸᄃ ᅩ ᄋ ᅨᄎ ᅳ ᆨ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆫ ᄋ ᅳ ᆼᄀ ᅳ ᆸᄉ ᅵ ᆯ ᄀ ᅡ ᆫᄋ ᅴ ᄌ ᅵᄋ ᅧ ᆨᄂ ᅦᄐ ᅳᄋ ᅯᄏ ᅳᄅ ᅳ ᆯ ᄒ ᅧ ᆼᄉ ᅥ ᆼᄒ ᅡᄀ ᅩ, ᄋ ᅳ ᆼᄀ ᅳ ᆸᄉ ᅵ ᆯ ᄀ ᅪᄆ ᅵ ᆯᄒ ᅪ ᄆ ᅮ ᆫ ᄌ ᅦ ᄅ
ᅳ ᆯ ᄒ ᅢᄀ ᅧ ᆯᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅡ ᆫ ᄀ ᅵᄎ ᅩᄌ ᅡᄅ ᅭᄀ ᅡ ᄃ ᅬ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄋ ᅳ ᆯ ᄀ ᅥ ᆺᄋ ᅵᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄃ ᅡᄌ ᅮ ᆼᄉ ᅥ ᆫᄒ ᅧ ᆼᄒ ᅬᄀ ᅱᄇ ᅮ ᆫᄉ ᅥ ᆨ, ᄇ ᅮᄇ ᅮ ᆫᄌ ᅵ ᆸᄒ ᅡ ᆸᄉ ᅥ ᆫᄐ ᅢ ᆨ, ᄋ ᅳ ᆼᄀ ᅳ ᆸᄉ ᅵ ᆯ ᄒ ᅩ ᆫ ᄌ ᅡ ᆸᄃ ᅩ, ᄌ ᅮᄉ ᅥ ᆼᄇ ᅮ ᆫ ᄒ ᅬᄀ ᅱᄇ ᅮ ᆫᄉ ᅥ ᆨ.
1. 서론 ᄋ
ᅴ학 기술은발달하고 응급의료서비스 이용률은꾸준히 높아지고 있다. 하지만 이에 반해 응급실 과 미
ᆯ화 문제는 지속적으로 제기되어 왔다. 보건복지부와 서울대학교의과대학에서 연구한 보고서에서는 ᄋ
ᅳ
ᆼ급실과밀화에 대해 “응급의료 서비스에 대한 요구가 해당 응급센터의 이용 가능한 자원을초과하는 ᄉ
ᅡᆼ태”라고 정의하고 있다. 응급실 과밀화 현상은적시 치료의 지체, 내원환자의 사망률 증가, 환자의 ᄆ
ᅡᆫ족도 감소 등의 문제를 일으킬 뿐만 아니라 과밀화된 응급실은다시 응급실 과밀화를 일으키는악순환 으
ᆯ이룬다는데에 더큰 문제가 있다 (Shin 등, 2011). 뿐만 아니라, 응급실 진료 시간의 증가가 병원수 이
ᆸ의 감소와관계가 있다는보고도 있다 (Bayley 등, 2005).
ᄋ
ᅵ와 같은 응급실 과밀화 현상은 주로 응급실 체류시간에 의해 측정되어왔다 (Lee, 1996). 2000년 ᄃ
ᅢ 들어서 영국의 국가 보건 서비스 (National Health Service, NHS)에서 진행된 Reforming Emer- gency Care Project에서는 응급실 과밀화 해소를위한 응급실 체류시간 목표시간을 ‘4시간 이내’로 그 ᄀ
ᅵ준을세운바 있다. 하지만 국내 응급의료서비스의 상황은이보다 훨씬 못미친다. 보건복지부가 조 ᄉ
ᅡ한 ‘2015년 응급의료기관 평가’에 따르면 우리나라 전체 414개 응급실 기준 응급실 체류시간은평균
†
ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅳ ᆫ ᄀ ᅪᄒ ᅡ ᆨᄀ ᅵᄉ ᅮ ᆯᄌ ᅥ ᆼᄇ ᅩᄐ ᅩ ᆼᄉ ᅵ ᆫᄇ ᅮ ᄆ ᅵ ᆾ ᄌ ᅥ ᆼᄇ ᅩᄐ ᅩ ᆼᄉ ᅵ ᆫᄀ ᅵᄉ ᅮ ᆯᄌ ᅵ ᆫᄒ ᅳ ᆼᄉ ᅦ ᆫᄐ ᅥᄋ ᅴ ᄃ ᅢᄒ ᅡ ᆨICTᄋ ᅧ ᆫᄀ ᅮᄉ ᅦ ᆫᄐ ᅥ ᄋ ᅲ ᆨᄉ ᅥ ᆼᄌ ᅵᄋ ᅯ ᆫ ᄉ ᅡᄋ ᅥ ᆸᄋ ᅴ ᄀ ᅧ ᆯᄀ ᅪᄅ ᅩ ᄉ
ᅮᄒ ᅢ ᆼᄃ ᅬᄋ ᅥ ᆻᄋ ᅳ ᆷ (IITP-2018-2016-0-00311).
1
(04310) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄋ ᅭ ᆼ ᄉ ᅡ ᆫᄀ ᅮ ᄎ ᅥ ᆼᄑ ᅡᄅ ᅩ 47ᄀ ᅵ ᆯ100, ᄉ ᅮ ᆨᄆ ᅧ ᆼᄋ ᅧᄌ ᅡᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ITᄀ ᅩ ᆼ ᄒ ᅡ ᆨᄀ ᅪ, ᄉ ᅥ ᆨᄉ ᅡᄀ ᅪᄌ ᅥ ᆼ.
2
ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (04310) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄋ ᅭ ᆼ ᄉ ᅡ ᆫᄀ ᅮ ᄎ ᅥ ᆼᄑ ᅡᄅ ᅩ 47ᄀ ᅵ ᆯ100, ᄉ ᅮ ᆨᄆ ᅧ ᆼᄋ ᅧᄌ ᅡᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ITᄀ ᅩ ᆼ ᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.
E-mail: [email protected]
6시간 54분,상위 20개 병원의 평균체류시간은무려 14시간의 수치를나타낸다. 우리나라의 응급실 과 미
ᆯ화 문제가 여전히 해결되지 못하고 있음을알 수 있다.
ᄀ ᅮ
ᆨ내 응급실 과밀화 현상의 원인에 대해 input - throughput - output model (Asplin 등, 2003)을토 ᄃ
ᅢ로 살펴보면 응급실에 들어오는환자들의 수와 중증도 증가 (input), 주치의 방문지연 혹은 진료 결정 ᄌ
ᅵ연 (throughput), 진료 이후의 입원실 부족 등으로 인한 입원/전원지연 (output)등이 있다 (Ahn 등, 2004; Kim과 Seo 등, 2011). 이를해결하기 위해 응급실의 진료 프로세스 조정 (Sim 등, 2009; Kim 등, 2010), 병원복도 입원제도 운영 (Kwak 등, 2011),구급차 분산배치 (Woo, 2016)등이 연구되었고, 정부 ᄋ
ᅦ서도 2017년 12월 응급실별 24시간 이상 장기체류환자를연간 5% 미만 유지하고, 동행 보호자를최 ᄃ
ᅢ 1명으로 제한하는 응급실 출입 제한하는 등 행정조치를마련하였다.
ᄒ
ᅡ지만 이러한 해결방안들은 응급실 진료 프로세스 중 throughput과 output요소 해결에 집중한 것으 ᄅ
ᅩ 응급실 과밀화에 대한 해결을개별 응급실 차원에 국한시키고 있다. 이러한 해결방안의 경우 병원과 ᄋ
ᅴ료진에게 지나치게 책임이 집중될수 있다는데 문제가 있다. 나아가 국내 응급실 과밀화 현상이 상위 며
ᆾ 개의 응급실에 특히 집중되어 있다는 특징을고려한다면, 특정 응급실에 내원하기 이전환자들을지 ᄋ
ᅧ
ᆨ적 차원에서 분산시킴으로써 상위 응급실에환자들이 집중되는현상을개선할 필요가 있다. 즉, 응급 시
ᆯ 진료 프로세스 중 input요인에서부터의 과밀화 해결에 대한 연구가 필요하다.
ᄒ
ᅡᆫ편 응급실 과밀화에 대한 선행연구들의 경우 주로 개별 환자의 응급실 체류 시간을 측정하거나 (Kim 등 ,2014; Ji와 Kim, 2013; Kim 등, 2010; Sim 등, 2009) 혹은 응급실 병상 수 대비 연간 응 ᄀ
ᅳᆸ실 이용환자 수 (Jung, 2017; Shin 등, 2011) 등을기반으로 응급실 과밀화 정도를 측정해왔다. 하지 ᄆ
ᅡᆫ 이러한 지표는시간의 경과를전제하고 있기 때문에 특정 시점의 과밀화 정도를 측정하는데에는한 ᄀ
ᅨ가 있었다.
ᄇ
ᅩᆫ연구는개별 응급실의 과밀화 정도 즉, 응급실의 혼잡도를예측하는모형을개발하고, 궁극적으로 ᄒ
ᅢ당 정보를 실시간으로 공유함으로써 응급실 진료 프로세스의 input요소를지역 단위로확장·조정하고 ᄋ
ᅳ
ᆼ급실 과밀화를개선하는데 목적이 있다. 나아가 실시간 응급실 병상 이용률을 통해 과밀화 정도를 측 저
ᆼ함으로써 응급실 과밀화 정도를 실시간으로 예측가능하도록하였다. 또한, 응급실 재원시간과환자 ᄋ
ᅴ 연령과 유의미한관계가 있으며 (Chung과 Hwang, 2009), 지역과 병원 종 및 계절별 특성에 따라 응 ᄀ
ᅳᆸ실 이용률에 차이가 있다 (Moon 등, 2016)는선행 연구를기반으로환자의 특성과 함께 계절, 요일 미
ᆾ 지역의 특성 등을반영하여 예측모형을만들었다.
ᄌ ᅩ
ᆼ합하면, 응급실 혼잡도 예측모델은 축적된응급실 데이터와 지역에 대한 정보를기반으로 미래 응 ᄀ
ᅳᆸ실의 과밀화 정도를예측하는것을 목표로 한다. 응급실이 위치한 지역의 특성 (음주/흡연율,비만율, ᄒ
ᅪ재발생건수, 교통사고발생건수, 노령 및 아동 인구 비율 등),날씨 (기온, 습도, 강수량 등),개별 응급 시
ᆯ의 특성 (병원 평가등급 및 국가지정병원등급), 그리고 실제 응급환자 In-Out 추이를 종합적으로 고 ᄅ
ᅧ하여 예측하는모델이다.
2. 연구방법
2.1. 연구대상 ᄋ
ᅧᆫ 단위 응급실 이용 환자수를 통한 응급실 혼잡도 수치로는 실시간 혼잡도 추이를 파악하기 힘들 ᄃ
ᅡ (Moon 등, 2016). 따라서 본 연구에서는 응급실 혼잡도를 실시간으로 파악하기 위해 응급실 병상 ᄉ
ᅮ를 이용하여 혼잡도를 계산하였고, 실시간 가용병상 수를 측정하기 위해 국립중앙의료원에서 제공하 느
ᆫ오픈 API - ‘전국응급의료정보조회서비스’에 실시간으로 전송되는‘응급실 실시간 가용병상 정보 조 ᄒ
ᅬ 서비스’를활용하였다. 해당 자료에는 국립중앙의료원이 지정한 전국의 모든 응급의료기관이 포함되 ᄆ
ᅧ, 해당 자료를 10분에 한 번씩 읽어 저장하는 프로그램을만들었다. 본 연구에 사용된 응급의료기관
414개의 응급실 종별에 따른 분류는 권역응급의료센터 35개, 지역응급의료센터 117개, 지역응급의료기 과
ᆫ262개로 나타난다. 해당 연구에활용된가용병상에 대한 정보에환자 개인의 식별 가능정보는전혀 어
ᆹ었음을밝힌다.
2.2. 데이터 수집 및 데이터 처리
2017년 8월 21일부터 9월 18일까지 4주간 데이터를 10분 주기로 수집하였다. 응급실 혼잡도를 분 ᄉ
ᅥᆨ하기 위해서는해당 응급의료기관의 전체 병상 수와 실시간 가용 병상 수가 필요했다. 이 때 응급의 ᄅ
ᅭ기관의 전체 병상 수는 응급의료기관이 직접 입력해놓은고정된값이며, 실시간 가용병상 수는해당 ᄉ
ᅵ점에 응급의료기관측에서 전송한 값이다. 이를 통해 실시간 응급실 혼잡도 (Realtime Emergency Department Over Crowding Rate, REDC) (2.1)를계산하면 아래와 같다.
시
ᆯ시간 응급실 혼잡도 (REDC) =해당 응급실 전체 병상 수 - 실시간 가용병상 수 ᄒ
ᅢ당 응급실 전체 병상 수 . (2.1) 시
ᆯ시간 가용병상 수는 국립중앙의료원 측에서 동일한 시간마다 전국의 응급의료센터의 가용병상 수 르
ᆯ 측정하는것이 아니고, 해당 응급의료기관측에서 개별적으로 전송해주는정보인 까닭에 병원마다 서 ᄅ
ᅩ 다른간격과 시간에 정보가 전송되어 나열된다. 따라서 데이터 손실을최소화하기 위해 가장 최소 단 ᄋ
ᅱ인 10분간격으로 데이터를추출했을때 상당한 수의 데이터 중복이 발생한다. 이러한 데이터 중복을 ᄑ
ᅵ하기 위하여 10분간격으로 수집한 실시간 응급실 혼잡도 (REDC)를시간 단위로 평균치를계산하여 ᄉ
ᅵ간별 혼잡도 (Emergency Department Over Crowding Rate, EDC) (2.2)로 다시 구축하였다.
EDCi= AV ERAGE(REDC),
EDCi: i시 정각부터 (i + 1)시 정각이 되기 전까지 수집된실시간 응급실 혼잡도의 평균값. (2.2) ᄋ
ᅵ를 통해 병원마다 서로 다르게 입력되는시간을 통일시키고, 시간 더미 변수를만드는데 더욱 용이 ᄒ
ᅡ게 하였다. 여기에 개별 응급실의 규모와 등급에관한 데이터는 국립중앙의료원에서 제공되는데이터 르
ᆯ사용하였고, 지역 특성 및 인구 비율에관한 데이터는 국가통계포털 (https://kosis.kr/)에서 제공 ᄒ
ᅡ는 ‘인구 총조사’와 ‘지방지표-보건/의료’를활용하였다. 나아가 날씨에관한 데이터는기상자료개방 ᄑ
ᅩ털 (https://data.kma.go.kr/)에서 한 시간에 한 번씩 제공하는지역별 기상예보 데이터를활용하 ᄋ
ᅧᆻ다.
ᄃ
ᅦ이터 셋을구축하면서 전체 응급실 병상 수가 잘못 입력되어있는 문제 즉, 응급실 여유 병상 수가 ᄌ
ᅥᆫ체 응급실 병상 수를초과하여 응급실 혼잡도 수치가 음수 값을나타내는 문제, 혹은 응급실 여유병상 ᄉ
ᅮ를 잘못 입력하거나 장기간동안 입력하지 않는 등의 문제가 발생한 데이터의 경우 모두 제외하였다.
ᄋ
ᅵ 밖에도 변수 속성 값이 하나라도 비어있는데이터의 경우 의미 없는데이터로 판단, 모델에서 제외시 켜
ᆻ다. 이러한 전처리과정을거쳐 구축한 데이터 셋은 총 246,807개의관측치로 구성되었다.
2.3. 변수 선정 화
ᆫ자들의 응급실 재원시간 및 병상 이용률 즉 응급실이 과밀화 되는데 영향을주는 요인으로 응급 시
ᆯ의 규모 (병상 수, 수술실 수, 응급의료기관 종, 응급실 평가 등급), 해당 지역의 특성 (출산율, 일인 다
ᆼ 자동차 등록 대수, 인구 천 명당 의료기관 병상/의사 수, 음주율, 흡연율, 비만율, 건강수준/스트레 ᄉ
ᅳ 인지율, 자살률, 교통사고 발생 건수, 화재발생건수, 이혼율, 1인 가구 비율), 인구 비율 (연령별, 성
벼
ᆯ), 요일 및 시간변수와 날씨 (습도, 강수량, 기온)를설명 변수로 포함하였다. 이 때 요일 및 시간변수 느
ᆫ시계열 데이터로 회귀모형에 적용하기 적절하지 않다. 이에 따라 요일변수는각 요일에 따른더미변 ᄉ
ᅮ (총 6개의 더미변수)로, 시간변수는 한 시간단위의 더미변수 (총 23개의 더미변수)로 만들었다. 또 ᄒ
ᅡᆫ 응급의료기관 종이나, 응급실 평가등급, 강수형태, 하늘형태 등은명목형 (nominal) 데이터이기 때 무
ᆫ에 더미변수로 변환하여활용하였다. 반응변수 (목표변수)는 응급실 혼잡도 (EDC)로, 실시간으로 측 저
ᆼ 가능한 응급실 병상 이용률을 통해 측정하였다. Table2.1은 본연구에활용된 변수들에 대한 설명이 ᄃ
ᅡ.
Table 2.1 Data description in the analysis
Variable Definition
EDC (target variable) Emergency Department crowding rate
(<1: Number of patients < Number of ED beds, 1: Number of patients = Number of ED beds, 1<: Number of patients > Number of ED beds) Scale Number of total hospital beds
ED Scale Number of emergency department beds OR Scale Number of operating rooms
Hospital Type 3 classes of emergency medical institution defined by the health and welfare ministry
ORC Operating room crowding rate
EDC 1 An hour ago emergency department crowding rate Hospital evaluation level of Made for dummy variable (1∼6)
Myocardial infraction
Hospital evaluation level of Made for dummy variable (1∼6) acute stroke
Hospital evaluation level of Made for dummy variable (1∼6) Intensive care unit
Birth rate Local fertility rate
Car rate Number of cars registered per person Nohosp Number of hospital beds per 1,000 Inhabitants
Nodoc Number of doctors engaged in medical institutions per 1,000 Inhabitants
Drinkrate Drinking rate in the area Smokerate Smoking rate in the area
Healthlev Subjective health level perception in the area EQ5D Indicator for quality of life in the area Obesityrate Obesity rate in the area
Stressrate Stress perception rate in the area Accrate Number of traffic accidents per 1,000 cars Firerate Number of fires per 10,000 inhabitants Suiciderate Suicide rate per 100,0000 inhabitants Divorcerate Divorce rate per 1,000 inhabitants Singlehhrate Single households rate
Total population How many people live in the area Proportion of men How many men are in the area
Population by age Percentage of population by age (It is divided into five years) Proportion of men by age Percentage of men in that age group (It is divided into five years)
Day of the week Dummy variables on days of the week
Time Dummy variables for time split by hour
Humidity At that time, the humidity of the area
Precipitation Precipitation in an area for an hour
Temperatures At that time, the temperature of the area
2.4. 분석 방법 보
ᆫ 연구에서 개발하고자 하는 응급실 혼잡도 예측모형은 현재 응급실의 혼잡도 및 날씨와 해당 응급 시
ᆯ이 위치한 지역적 특성을 통해 해당 응급실의 앞으로의 혼잡도를예측하는모형이며, 모형을구축하기 ᄋ
ᅱ하여 다중선형회귀, 부분집합 선택, 능형회귀, Lasso, 주성분회귀분석을적용하였다.
ᄃ
ᅡ중선형회귀분석 (multiple linear regression)의 경우 하나보다 많은설명변수를기반으로 반응변수 르
ᆯ예측하기 위한 가장 기본적인 선형회귀모델 (2.3)로, 반응변수와 설명변수들 (X1, X2, ·, Xp)간의 상 과
ᆫ관계를설명하는데 주로 사용된다.
Y = β0+ β1X1+ β2X2+ · + βpXp+ ϵ. (2.3) ᄃ
ᅡ중선형회귀모델은 잔차 제곱 합 (sum of squared residuals)을 최소로 하는 최소제곱방법 (least squared method)을 통하여 적합함에 따라 계수추정치가 0이 될 가능성이 거의 없다. 즉, 실제 반응 ᄇ
ᅧᆫ수와 연관되어 있지 않은 설명변수까지 포함하여 모델을더욱 복잡하게 만들수 있다. 부분집합 선 태
ᆨ, 능형회귀, Lasso 및 주성분회귀분석은 다중선형회귀의 이러한 단점을 극복하고, 예측정확도와 모 ᄃ
ᅦᆯ 해석력을더욱 높이기 위해 개발된 모델이다. 부분집합 (subset)선택 기법의 경우 p개의 설명변수 주
ᆼ 반응변수와 관련이 큰부분집합을 식별하여 해당 부분집합에 다시 최소제곱을사용하여 적합 하는 ᄀ
ᅵ법이다 (Narendra와 Fukunaga, 1977; Ridout, 1988). 능형회귀 (Ridge regression)와 Lasso는 수 ᄎ
ᅮᆨ (shrinkage)기법으로, 변수의 수가 줄어드는 부분집합 선택 기법과 다르게 설명변수 모두를포함하 ᄃ
ᅬ 반응변수와 관련이 깊지 않은 설명변수들의 계수 추정치를 0에 가깝게 만드는 방법이다 (Hoerl과 Kennard, 1970; Seber와 Lee, 2003; Zou와 Hastie, 2005). 일반적으로 Lasso는 능형회귀에 비해 적 ᄋ
ᅳ
ᆫ수의 설명변수가 상당히큰 계수를가지고, 다수의 설명변수를 0이라고 가정한다. 하지만 둘 중 어 ᄂ
ᅳ 것 하나가 다른하나보다 항상 좋은성능을보이는것은아니기 때문에 능형회귀와 Lasso를모두 적 ᄋ
ᅭ
ᆼ시켜보았다. 앞서서 살핀 방법들의 경우 원래의 변수들을 그대로 사용하지만 차원축소 (dimension reduction)기법인 주성분회귀분석은 원래의 설명변수들을 변환 (transform)하여 M (M < p)개의 새 ᄅ
ᅩ운변수들 (Z1, Z2, ·, ZM)을만들어 낸 후, 새로운변수들을사용해 최소제곱모델을적합 하는기법을 ᄆ
ᅡ ᆯ한다.
보
ᆫ 연구에서는 R (ver.3.4.2)와 RStudio (ver.1.1.383)을 사용하여 분석하였다. 데이터 전처리를 위 ᄒ
ᅢ서는 dplyr패키지 (Wickham 등, 2018)를사용하였고, 부분집합선택 기법에서는 leaps패키지 (Lum- ley와 Miller, 2017), 능형회귀와 Lasso는 glmnet패키지 (Friedman 등, 2018),주성분회귀는 pls패키지 (Mevik 등, 2016)를사용하였다.
3. 연구결과
3.1. 주요 요인의 일반적 특성 ᄇ
ᅩᆫ연구의관측치는 총 246,807개이다. 이 중에서 권역의료센터의관측치는 20,651개, 지역의료센터 느
ᆫ 72,092개, 지역의료기관은 153,339개로 이루어져있다. 반응변수인 응급실 혼잡도는전체관측치에 ᄃ
ᅢ해 평균적으로 0.2734의 수치를보이고 있지만, 권역의료센터는평균적으로 0.5637의 혼잡도를보이 ᄀ
ᅩ 있고, 지역의료센터는 평균 0.3622, 지역의료기관의 경우 평균 0.1925의 혼잡도를나타낸다 (Table 3.1). 이를 일원배치 분산분석을 통해 검정한 결과, 검정 통계량 F = 26235, p < 2e − 16로 나타나 응 ᄀ
ᅳ
ᆸ의료기관유형에 따라 응급실 혼잡도가 유의미한 차이를보인다고 할 수 있다.
Table 3.1 EDC Comparison by hospital type
Hospital Type Min 1st Qu Median Mean 3rd Qu Max
Total 0.0000 0.0769 0.1917 0.2734 0.3864 3.6221
Regional emergency medical 0.0000 0.2921 0.5023 0.5637 0.7500 2.2944 center
Local emergency medical 0.0000 0.1313 0.2727 0.3622 0.5222 3.6221 center
Local emergency medical 0.0000 0.0417 0.1333 0.1925 0.2833 2.5000 institution
3.2. 응급실 혼잡도 예측 모형 개발 및 평가 ᄀ
ᅡ
ᆨ각의 모델에 적용하기 위해 전체 데이터를 training data set과 test data set으로 나누어 적용하였 ᄋ
ᅳ며, data set을구성할 때 랜덤으로 구성하지 않고 전체 4주의 데이터 중앞선 3주를 training data로, ᄆ
ᅡ지막 한주를 test data로 하였다. 이는 각각의 시간과 요일이 적절하게 분포되기 위함이다. 본 연 ᄀ
ᅮ에서는 데이터마이닝 주요 기법 중에서 다중선형회귀, 부분집합선택 모형, 능형회귀, Lasso, 주성 부
ᆫ회귀 분석을 적용하였다. 또한 개발된 예측 모델을평가하기 위해 상관계수와 평균제곱오차 (mean square error, MSE), 평균절대값오차 (mean absolute error, MAE)를살펴보았다. MSE는 test data로 부
ᆫ류된 관측치의 실제 혼잡도 (YACT U AL)에서 개발된 예측 모형의 혼잡도 예측치 (YP REDICT ED)를 ᄈ
ᅢᆫ 값의 제곱값의 평균값으로 다음 식 (3.1)과 같고, MAE는 실제 혼잡도 (YACT U AL)에서 개발된예측 ᄆ
ᅩ형의 혼잡도 예측치 (YP REDICT ED)를 뺀 값의 절대값의 평균값으로 다음 식 (3.2)와 같다. 예측모형 ᄋ
ᅵ 얼마나 실제 값을정확하게 예측하고 있는지에 대한 판단 기준이된다.
M SE = 1 n
n
X
i=1
(YACT U ALi− YP REDICT EDi)2, (3.1)
M AE = 1 n
n
X
i=1
|YACT U ALi− YP REDICT EDi|. (3.2)
ᄃ
ᅡ중선형회귀분석의 경우 본 연구에서 정의한 설명변수와 반응변수를 정규화하여 반영한 결과 Ta- ble3.2와 같이 각 변수의 회귀계수를산출하였다. 해당 모형에서 training data에 대한 R-squared 값 ᄋ
ᅳᆫ 0.8627로 높은설명력을보였으며, test data에 대한 상관계수는 0.9236으로 예측력 또한 높았다. 산 ᄎ
ᅮᆯ된 모형을 통해 예측한 혼잡도에 대한 MSE값은 0.0108, MAE값은 0.0738이었다. Table3.2에서 각 서
ᆯ명변수의 p-value를살펴볼때, 대부분의 변수의 p-value는 0.001미만으로 반응변수에 영향을끼치는 거
ᆺ으로 드러났다. 특히, EDC 1 변수 즉한 시간 전 응급실의 혼잡도가 반응변수 (응급실의 혼잡도)에 ᄆ
ᅢ우 밀접한 영향을끼치고 있었다.
ᄃ
ᅡ음으로 부분집합선택 모델을적용하였다. 설명변수의 개수가 충분히 클때 최상의 부분집합 선택 ᄋ
ᅳ
ᆫ 개의 가능한 모든 경우의 수를 고려해야하므로 의 개수가 109개에 달하는 본 연구에는 적절하지 ᄋ
ᅡ
ᆭ다. 따라서 제한된모델들의 집합을조사하는 단계적 방법을 택하였다. 전진 단계적 선택 (forward stepwise selection)과 후진 단계적 선택 (backward stepwise selection)을 통해 설명변수들의 부분집합 (subset)을 선택하였다. 변수선택 기준으로 Akaike information criterion (AIC), Bayesian informa- tion criterion (BIC), 그리고 의 기법을 고려하였다. Figure 3.1은 전진 단계적 선택에 따라, Figure 3.2는후진 단계적 선택에 따라 변수를선택한 그래프이다.
Figure 3.1 Variable selection by forward stepwise selection
Figure 3.2 Variable selection by backward stepwise selection
Adjusted R2은 더 많은변수가 추가되면 증가하는경향이 있는데 (James 등, 2013), Figure 3.1과 3.2에서도 이러한 경향을 보여주고 있다. 또한, BIC는 변수가 많은 모델에 더 심한 페널티를 부과함 ᄋ
ᅦ 따라 데이터 차원이 높을수록 AIC에 비해 더 적은변수가 선택되는데 (Shumway와 Stoffer, 2010), Figure 3.1과 3.2 모두에서확인할 수 있었다. 결과적으로 변수선택 기준 중 BIC가 복잡한 모델을단순 ᄒ
ᅡᆫ 모델로 차원을 축소시킬 수 있음을확인하였다. 하지만 BIC를선택기준으로 예측한 결과, 전진 선택 ᄆ
ᅩ델과 후진 선택 모델 모두 상관계수 0.9235, MSE값 0.0108, MAE값 0.0738 (소수점 아래 넷째자리 ᄀ
ᅵ준)로 예측력에 있어서는전진 단계적 선택과 후진 단계적 선택에큰차이가 없었다.
ᄀ
ᅭ차검증은 AIC, BIC, Adjusted R2과 비교해 검정오차의 직접적인 추정치를제공하고 실제 모델에 ᄃ
ᅢ한 가정을적게 한다는장점이 있다. 하지만 변수의 개수 p가큰 본연구에는적절하지 않다.
ᄒ
ᅡᆫ편, 앞서 응급의료기관 종에 따라 혼잡도가 유의미한 차이를보인다는것을반영하여 응급의료기관
ᄌ ᅩ
ᆼ을각각 분류한 후 각 그룹별로 다중선형회귀모형을적합하였는데 권역의료센터의 다중회귀모형의 경 ᄋ
ᅮ 전체를적합하였을때보다큰 폭으로 개선되는것을확인할 수 있었다 (Table 3.3).
Table 3.3 MSE & MAE Comparison by hospital type according to multiple linear regression
Hospital type Adjusted Correlation MSE MAE
R-squared Coefficient (test data) (test data) (training data) (test data)
Total 0.8627 0.9236 0.0108 0.0738
Regional emergency 0.9487 0.9734 0.0063 0.0603
medical center
Local emergency 0.9161 0.9532 0.0078 0.0651
medical center
Local emergency 0.7041 0.8392 0.0123 0.0790
medical institution
Table3.4은 능형회귀 (Ridge)와 Lasso 기법을 적합한 모델의 상관계수와 MSE, MAE값을앞선 다 주
ᆼ선형회귀와 부분집합선택을 통해 적합한 모델과 비교한 표이다. 능형회귀의 조율파라미터 λ는 임의 ᄅ
ᅩ 선택하지 않고, 내장된교차검증함수 cv.glmnet()을사용하였다. 이 함수는 10-fold교차검증을수 ᄒ
ᅢᆼ하도록기본설정되어있으며, 이를변경하지 않았다. 능형회귀모델을적합할 때, 전체 응급의료기관 ᄋ
ᅴ 교차검증오차가 가장 작은 λ값은 0.02798583, 권역응급의료센터는 0.03780309, 지역응급의료센터 느
ᆫ 0.03195019,지역응급의료기관은 0.01824067이다. Lasso의 경우, 교차검증오차가 가장 작은 λ값은 ᄌ
ᅥᆫ체 응급의료기관 9.379738e-05, 권역응급의료센터 1.526117e-04, 지역응급의료센터 1.415592e-04, 지 ᄋ
ᅧ
ᆨ응급의료기관 6.709611e-05로확인되었다. 주성분회귀는 pls라이브러리의 pcr()함수를 통하여 수행 ᄒ
ᅡ였는데, 해당 함수는주성분의 수 M에 대한 10-fold 교차검증오차를계산한다. 전체 응급의료기관에 ᄃ
ᅢ해서 M=84일 때 교차검증오차가 가장 작고, 권역응급의료센터는 M=66일 때, 지역응급의료센터는 M=104일 때, 지역응급의료기관은 M=97일 때 교차검증오차가 가장 작았다.
Table 3.4 Total correlation coefficient (Cor), MSE and MAE comparison by hospital type Total Regional emergency Local emergency Local emergency
medical center medical center medical institution
LM Cor: 0.9236 Cor: 0.9734 Cor: 0.9532 Cor: 0.8392
MSE: 0.0108 MSE: 0.0063 MSE: 0.0078 MSE: 0.0123
MAE: 0.0738 MAE: 0.0603 MAE: 0.0651 MAE: 0.0790
Best Subset Cor: 0.9235 Cor: 0.9734 Cor: 0.9530 Cor: 0.8388
MSE: 0.0108 MSE: 0.0063 MSE: 0.0078 MSE: 0.0123
MAE: 0.0738 MAE: 0.0604 MAE: 0.0652 MAE: 0.0788
Ridge Cor: 0.9247 Cor: 0.9694 Cor: 0.9526 Cor: 0.8389
MSE: 0.0114 MSE: 0.0080 MSE: 0.0090 MSE: 0.0122
MAE: 0.0778 MAE: 0.0686 MAE: 0.0709 MAE: 0.0793
Lasso Cor: 0.9240 Cor: 0.9698 Cor: 0.9528 Cor: 0.8309
MSE: 0.0113 MSE: 0.0076 MSE: 0.0086 MSE: 0.0127
MAE: 0.0756 MAE: 0.0656 MAE: 0.0677 MAE: 0.0805
PCR Cor: 0.9273 Cor: 0.9737 Cor: 0.9562 Cor: 0.8397
MSE: 0.0107 MSE: 0.0065 MSE: 0.0079 MSE: 0.0120
MAE: 0.0732 MAE: 0.0614 MAE: 0.0650 MAE: 0.0774
ᄋ
ᅨ측정도를 파악할 수 있는 상관계수를 살펴봤을 때 전체 응급의료기관과 응급의료기관 각각의 유 혀
ᆼ 모두 주성분회귀분석의 예측력이 가장 높게 나타났다. 하지만, 오차값을 측정하는 MSE나 MAE를 ᄇ
ᅵ교했을때는 응급의료기관유형별로 미세한 차이가 있었다. 전체응급의료기관과 지역응급의료기관의
겨
ᆼ우 오차값 또한 주성분회귀분석의 오차가 가장 적었지만, 권역응급의료센터의 경우 부분집합선택과 ᄃ
ᅡ중선형회귀분석간의큰 차이 없이 가장 적은 오차를 보였고, 지역응급의료센터의 경우 다중선형회귀 ᄇ
ᅮᆫ석이 더 적은오차를보였다.
ᄎ
ᅮ가로 제시된 Table 3.5의 경우, 변수선택이 이루어졌던 모델 부분집합선택, Lasso에 의해 어떤 변 ᄉ
ᅮ가 선택되었는지 제시한 표이다.
4. 결론 보
ᆫ연구에서는 응급실 혼잡도에 영향을끼치는 응급실의 특성 및 응급실이 위치하고 있는지역의 특성 ᄋ
ᅳᆯ바탕으로 앞으로의 응급실의 혼잡도를 실시간으로 예측하는모형을개발하였다. 전국 414개의 응급 ᄋ
ᅴ료기관을대상으로 하였으며, 이들 응급의료기관의 실시간 여유병상 수를기준으로 혼잡도를정의하 ᄀ
ᅩ, 예측하였다.
ᄒ
ᅩᆫ잡도 예측모형 개발에는데이터 마이닝 기법 중다중선형회귀분석, 부분집합선택, 능형회귀, Lasso, ᄌ
ᅮ성분회귀분석 5가지 방법을적용하였으며, 전체 응급의료기관을기준으로 한 모형 외에 응급의료기관 ᄋ
ᅲ형에 따른예측모형을추가로 비교하였다. 그 결과, 전체 응급의료기관을기준으로 한 응급실 혼잡도 ᄋ
ᅨ측모형의 예측력과 응급의료기관유형을세분화하여 적용한 예측모형의 예측력은서로 다르게 나타났 ᄃ
ᅡ. 특히, 응급의료기관유형 중환자 수가 많이 몰리고, 그 변동성이큰 권역의료센터의 경우 권역의료 세
ᆫ터만의 별도 예측모형이 전체 응급의료기관을기준으로 한 예측모형에 비해 더 나은예측력을보였다.
ᄒ
ᅡᆫ편, 설명변수를 줄이고 모형을간소화한 여러 기법 (부분집합선택, 능형회귀, Lasso, 주성분회귀분석) ᄀ
ᅪ 전체 설명변수를그대로활용한 기법 (다중선형회귀분석)간 예측력의 차이를살펴봤을때 전체 응급 ᄋ
ᅴ료기관과 응급의료기관각각의 유형 모두 주성분회귀분석의 예측력이 가장 높게 나타났다. 오차값을 ᄎ
ᅳᆨ정하는 MSE나 MAE를비교했을때는 응급의료기관유형별로 차이가 있었지만, 미세하였다. 응급의 ᄅ
ᅭ기관유형별로 예측력에 서로 어떻게 차이가 생기는지에 대해 추가 연구가 필요하지만 여기서는단순 ᄒ
ᅡ게 응급의료기관유형별로 서로 다른예측모형을적용하여야한다는결론으로 마무리한다.
보
ᆫ연구에서 개발된 응급실 혼잡도 예측모형을 실제 응급의료서비스 과정에서활용할 경우 장기적으 ᄅ
ᅩ 응급실 과밀화 개선에 기반이될수 있을 것이다. 예컨대,환자들의 측면에서 살펴보면, 이동시간을 ᄀ
ᅩ려하여 혼잡하지 않은 응급실에환자들을 실시간으로 분산시킬 수 있고, 응급의료기관 측면에서 살펴 ᄇ
ᅩ면, 시간과 요일에 따른 응급실 혼잡정도를예측하여 의료 인력 배치 등을조정할 수 있을것이다. 나 ᄋ
ᅡ가 개별병원의 노력여하에 따라 응급실 과밀화문제를해결하고자 하였던 현재까지의관점을지역단위 ᄅ
ᅩ확대시킬 수 있을것이다.
ᄆ
ᅡ지막으로, 본연구에서는어떤 설명변수가 응급실 혼잡도에 어떻게 영향을끼치는지에 대한 문제는 ᄀ
ᅩ려하지 않았다. 또한,환자에 대한 식별가능정보를활용할 수 없었기 때문에 응급실 혼잡도에 영향을 ᄁ
ᅵ치는환자의 특성은반영할 수 없었다. 또한 단기간 (4주)으로 이루어진 연구로 유의미한 결과치가 나 ᄋ
ᅪ
ᆻ지만, 계절 등의 특성이 반영되지 못하였음을밝히는바이다. 후속연구에서 추가적으로 이에 대한 요 ᄋ
ᅵᆫ을반영한다면, 보다 더 정교한 예측모형을개발할 수 있을것으로 판단된다.
Table 3.5 Variable selection in best subset selection & lasso
Best subset Lasso Best subset Lasso
selection selection
Variable T 1 2 3 T 1 2 3 Variable T 1 2 3 T 1 2 3
(Intercept) * * * * * * * * r m0 4 *
Scale * * * * * r t5 9 * *
ED Scale * * * r m5 9 * *
OR Scale * * * * * * r t10 14 * * *
hospital type1 * r m10 14 * * * *
hospital type2 * r t15 19 * * * *
ORC * * * * r m15 19 * * *
EDC 1 * * * * * * * * r t20 24 * * * *
t00 01 * * * * * * * * r m20 24 * * * *
t01 02 * * r t25 29 * *
t02 03 * * * * r m25 29 * *
t03 04 * * * r t30 34 * *
t04 05 * * r m30 34 *
t05 06 * r m35 39 * *
t06 07 * r t40 44 * *
t07 08 * * * * r m40 44
t08 09 * * * * r t45 49 * * *
t09 10 * * * * r m45 49 *
t10 11 * * * * * r t50 54 * * *
t11 12 * * * * * r m50 54 * * *
t12 13 * * * r t55 59
t13 14 * * * * r m55 59 * *
t14 15 * * * * r t60 64 * *
t15 16 * * * r m60 64
t16 17 * * r t65 69 * *
t17 18 * * * * r m65 69 *
t18 19 * * * * r t70 74 * * *
t19 20 * * * * r m70 74 * *
t20 21 * * * * r t75 79 *
t21 22 * * * * r m75 79
t22 23 * * * * r t80 84 * * *
mon * * r m80 84
tue * * * r m85 *
wed * * * myocard 1 * *
thur * * * myocard 2 * * *
fri * * * myocard 3 *
sat * * myocard 4 *
Birth Rate * * * myocard 5 *
Car Rate * * myocard 6 *
Nohosp * * cva 1 * * * * *
Nodoc * * * cva 2 * *
Drinkrate * * cva 3
Smokerate * * * cva 4
Healthlev * * cva 5
eq5d * * cva 6 * *
obesityrate * * * * ergrade 1 * * *
stressrate * * * ergrade 2 *
accrate * * ergrade 3 * *
firerate * * * ergrade 4 *
suiciderate * * ergrade 5 * *
divorcerate * ergrade 6
singlehhrate * * humidity * * * *
population * * * * precipitation *
ratio of men * * * temperature * * *
r t0 4 * * * 69 51 68 64 6 8 6 3
T: Total, 1: Regional emergency medical center, 2: Local emergency medical center,
3: Local emergency medical institution
References
Ahn, K. O., Yun, S. Y., Lee, S. J., Jung, K. Y., Cho, J. H. and Jo, H. S. (2004). Definition and analysis of over crowding in the emergency department of ten tertiary hospitals. J Korean Soc Emerg Med , 15, 261-272.
Asplin, B. R., Magid, D. J., Rhodes, K. V., Solbeg, L. I., Lurie, N. and Camargo, C. A. (2003) A conceptual model of emergency department crowding. Ann Emerg Med., 42, 173-181.
Bayley, M. D., Schwartz, J. S., Shofer, F. S., Weiner, M., Sites, F. D., Traber, K. B. and Hollander J. E.
(2005). The financial burden of emergency department congestion and hospital crowding for chest pain patients awaiting admission. Ann Emerg Med , 45, 110-117.
Chung, S. H. and Hwang, J. I. (2009). Patient characteristics associated with length of stay in emergency departments. Health Policy and Administration, 19, 27-44.
Friedman, J., Hastie, T., Tishirani, R., Simon, N., Narasimhan, B. and Qian, J. (2018). Glmnet: Lasso and elastic-net regularized generalized linear models, https://cran.r-project.org/web/packages/glmnet Hoerl, A. E. and Kennard, R. (1970). Ridge regression: Biased estimation for nonorthogonal problems.
Technometrics, 12, 55-67.
Ji, H. N. and Kim, M. S. (2013). Predicting Patient Demand by Using Data of Emergency Medical Center.
Journal of Intelligence and Information Systems, 6, 261-264.
Jung, K. H. and Kweon, J. H. (2017). A study on space use analysis at emergency room in local emergency medical center-mainly with user’s movement simulation. Journal of Digital Design, 17, 81-92.
Kim, E. J., Lim, J. Y., Ryu, J. S., Jo, S. H., Bae, N. R. and Kim, S. S. (2011). A stay time optimization model emergency medical center. J Korean Acad Soc Home Care Nurs, 18, 81-87.
Kim, K. W., Kim, S. H., Park, K. N., Kim, H. J., Oh, S. H., Lee, J. Y., Lee, J. M. and Lim, J. Y.
(2014). Mid-term effects of tertiary hospital beds expansion on emergency department overcrowding.
The Korean Society of Emergency Medicine, 25, 722-729.
Kim, S. M., Seo, H. Y., Lee, J. H., Gwon, Y. G., Kim, S. M., Park, I. C., Kim, S. H. and Lee, Y. H. (2010).
An application of a Jackson network for waiting time reduction at the emergency care center. Korean Management Science Review , 27, 17-31.
Kwak, Y. H., Shin, S. D., Kim, D. G. and Park, C. B. (2011). Development of the performing model and standard of hallway admission strategy in Korea, Ministry of Health and Welfare, Seoul National University College of Medicine.
Lee, I. J. (1996). A study on the degree of patients’ satisfaction for medical service at emergency room, Unpublished Master’s Thesis, Jungang University, Seoul.
Lumley, M. and Miller, A. (2017). leaps: Regression subset selection, https://cran.r-project.org/web/
packages/leaps
Mevik, B. H., Wehrens, R. and Liland, K. H. (2016). pls: Partial least squares and principal component regression, https://cran.r-project.org/web/packages/pls
Moon, B. H., Lee, S. M., Oh, M., Ryu, H. H. and Heo, T. (2016). Analysis of emergency department utilization rate by region, emergency medical center, and hospital type. Journal of the Korean Society of Emergency Medicine, 27, 442-449.
Narendra, P. M. and Fukunaga, K. (1977). A branch and bound algorithm for feature subset selection.
IEEE Transactions on Computers, 9, 917-922.
Park, I. S. and Han, J. T. (2017). Developing the high-risk drinking predictive model in Korea using the data mining technique. Journal of the Korea Data & Information Science Society, 28, 1337-1348.
Ridout, M. S. (1988). Algorithm AS 233: An improved branch and bound algorithm for feature subset selection. Journal of the Royal Statics Society, Sers C (Applied Statistics), 37, 139-147.
Seber, G. and Lee, A. (2003). Linear regression analysis, Wiley Series in Probability and Statistics Shin, S. D., Park, C. B., Cha, W. C., Jang, J. Y., Shin, S. H., Lee, J. H., Kim, J. E. and Bang, Y. J. (2011).
Modeling the regional emergency care network as a solution of emergency department overcrowding, Ministry of Health and Welfare, Seoul National University College of Medicine.
Shin, Y. R. and Yoon, S. H. (2016). Electricity forecasting model using specific time zone. Journal of Korean Data & Information Science Society, 27, 275-284
Sim, S. B., Choi, J. H., Kim, B. S., Oh, J. S., Kim, S. H., Park, Y. S., Park, I. C., Chung, T. N., Oh, G. H., Jeong, B. J. and Lee, Y. H. (2012). Healthcare process pattern analysis with triage in the emergency department. Journal of the Korean Operations Research and Management Science Society, 37, 111- 124.
Wickham, H., Francois, R., Henry, L. and Muller, K. (2018). dplyr: A grammar of data manipulation,
https://CRAN.R-project.org/package=dplyr
Woo, I. W. (2016). The future of ambulance distributed system. Seoul Metropolitan Fire Academy Journal , 27.
Zou, H. and Hastie, T. (2005). Regularization and variable selection via the elastic net. Journal of Royal
Statistical Society, Series B., 67, 301-320.
2018, 29
(5)
,1201–1214
Developing the data analysis-based emergency room congestion predictive model for the resolution of
overcrowded emergency room †
Byeo Wool Kim
1
· Yong Ik Yoon2
12School of IT Engineering, Sookmyung Women’s University
Received 9 July 2018, revised 3 September 2018, accepted 10 September 2018
Abstract
This research developed a model that predicts the congestion of the emergency room in real time based on the 2017 data of 414 emergency medical institutions na- tionwide. In the development of the predictive model, data mining techniques such as multiple linear regression analysis, subset selection, ridge regression, Lasso and prin- cipal component regression were applied, and principal component regression method showed high prediction power. The predictive power of the subdivided prediction mod- els (especially regional emergency medical center (97.37%)) according to the types of emergency medical institution was higher than that of the predictive model based on the entire emergency medical institutions (92.73%). The emergency room congestion predictive model developed in this research can be used as basic data to solve the problem of overcrowding of emergency room and form a regional network between the emergency rooms.
Keywords: Emergency room congestion, multiple linear regression, principal component regression, subset selection
†
This research was supported by the MSIT (Ministry of Science and ICT), Korea, under the ITRC (Information Technology Research Center) support program (IITP-2018-2016-0-00311) supervised by the IITP (National IT Industry Promotion Agency).
1
Student of Master’s Degree, School of IT Engineering, Sookmyung Women’s University, Seoul 04310, Korea.
2