빅 데이터를 활용한 자살요인 다변량 분석: Google 검색트렌드 적용

(1)

1. 빅 데이터 활용의 필요성

■ 빅 데이터란?

○스마트기기,센서등의급속한보급과모바일인터넷과SNS의확산으로데이터량이기하급수적으로증가하여 데이터가경제적자산이될수있는빅데이터시대가도래 ○2011년 전 세계 데이터에서 생성될 디지털 정보량이 1.8ZB(제타바이트)에 달하는‘제타바이트 시대’로 진입1) -1ZB는1조GB(기가바이트)에해당하는양으로미의회도서관저장정보(235TB(테라바아트),‘11.4월현재) 의약4백만배에해당

빅 데이터를 활용한 자살요인 다변량 분석:

Google 검색트렌드 적용

우리나라의 보건복지 분야에서는 이미 수많은 빅 데이터가 정부 및 공공기관에서 관리되고 있으나 정보 접근의 어려움으로 새로운 가치를 창출할 수 있는 빅 데이터 활용에는 미흡함 빅 데이터를 통한 자살요인 분석은 구글의 검색트랜드(http://www.google.co.kr/ trends/)를 이용하여 한국의 자살 검색량의 결정요인에 대한 다변량 분석을 실시한 결과, 한국의 자살률은 구글의 자살 검색량과 비슷한 추세를 보이고 있고, 연도별 자살률은 자살 검색량을 유의하게 높이는 것으로 나타남 본 고의 스트레스 검색량이 자살 검색량에 직접적인 영향을 주는 것으로 나타나 민간 검색포털이나 SNS에서 관련 키워드의 검색이나 Buzz 발생 시 징후가 예측 되면 이용자에게 가장 적합한 스트레스 관리 프로그램을 팝업창이나 문자 메시지를 통하여 제공함으로써 자살충동을 예방하는 데 기여할 수 있을 것임 송태민 연구위원 1) 윤형중(2012). 이제는 빅 데이터 시대. e비즈북스.

(2)

○빅데이터는엄청나게많은데이터로양적인의미를벗어나데이터의분석과활용을포괄하는개념 -빅 데이터는 기존의 데이터베이스 시스템으로는 수집·저장·관리·분석하기 힘든 대량의 정형 또는 비정형의데이터로부터새로운가치를창출하는기술로정의

■ 빅 데이터의 가치

2) ○세계각국의정부와기업들은빅데이터가향후국가와기업의성패를가름할새로운경제적가치의원천이 될것으로기대하며다양한부문에서빅데이터의적극적인활용을시도 ○맥킨지(McKinsey)는의료,공공행정,소매,제조,개인정보등다양한부문에빅데이터의적용이가능할 것으로예측 -미국의경우최대7천억달러의경제적효과가창출되고EU는연간1,500억유로이상,한국은10.7조 원이상정부지출이감소될것으로예측 ○가트너(Gartner)는빅데이터가미래경쟁력을좌우하는21세기의원유로수많은일자리창출을전망 -2015년까지전세계적으로440만개,미국내에서만190만개의빅데이터관련일자리가창출될것으로전망

■ 빅 데이터의 활용사례

○보건의료분야에서는많은국가의공공부분에서유전자와생명연구자원의공유를통하여질병의예방(예측)과 치료,환자관리등에활용하고있으며다국적IT기업과검색포털들은기존에저장된빅데이터를분석하여 다양한가치정보를제공 -미국국립보건원은제조사와사용자간의쌍방향상호작용을통해사용자가요구하는다양한약에대한정 보를제공하는Pillbox서비스(pillbox.nlm.nih.gov)를구축하여연간5,000만달러의비용절감3) -구글은사용자가입력한검색어의로그를분석하여독감예보서비스(www.google.org/flutrends)를제공하 여전세계독감확산현상을실시간으로제공 -한국정보화진흥원빅데이터국가전략포럼분석팀에서는2012년1월부터10월18일까지자살로언급된 빅데이터자료를뉴스,블로그,카페,SNS,게시판등에서수집하여청소년이작성했다고추정되는69,886건 의자료를분석하여청소년들의자살과관련한온라인Buzz의발생패턴에따라보다체계적으로대응할 수있는자살예방체계를설계할수있다는가능성을보임4)

■ 자살요인 분석의 빅 데이터 활용

○우리나라의보건복지분야에서는이미수많은빅데이터가정부및공공기관에서관리되고있으나정보접근의 어려움으로새로운가치를창출할수있는빅데이터활용에는미흡함 -공공부문의빅데이터는정보의제한적서비스로활용이미흡한반면,민간기관의검색포털이나SNS에서 관리되고있는빅데이터의분석과활용은활발히이루어지고있음 ○우리나라는급격한사회·경제적변화속에자살률이2004년부터OECD국가중최고의수준이며,특히청소 년계층의자살문제가사회적이슈로대두되면서정부차원의적극적인대책이시급한실정임 2 제 168 호 2) ‘한국정보화진흥원(2012. 10. 29). 대한민국 사회현안과 빅 데이터 전략’과‘국가정보화전략위원회(2011. 11). 지식정보 개방과 협력으로 스마트정부 구현’ 에서 인용 3) 한국정보화진흥원(2012). 빅 데이터로 진화하는 세상(Big data 글로벌 선진 사례). 4) 한국정보화진흥원(2012. 10. 29). 대한민국 사회현안과 빅 데이터 전략.

(3)

○그동안자살연구는국가간자살률비교나패널데이터의분석을통한자살원인의요인으로정신과적요인,생 물학및의학적요인,사회환경적요인등에초점을맞춘연구가진행됨 -사회환경적요인중유명연예인이나또래친구의자살을모방하는‘베르테르효과’도자살의위험을높일수 있는원인이며,스트레스가우울을유발하여자살의가능성을높일수있다고보고됨 ○패널데이터의분석은데이터수집의제한으로인하여개인과집단의다양한자살원인에대한분석은미흡한실정임 -본고에서는구글의검색트랜드를활용하여자살요인에대한다변량분석을적용해봄으로써보건복지분야 빅데이터의활용방안을제시함 ○빅데이터를통한자살요인분석은구글의검색트랜드(http://www.google.co.kr/trends/)를이용하여한국의 자살검색량의결정요인에대한다층(위계적선형)모형분석과한국과미국의자살요인에대한집단간구조모형 분석을실시함 -구글의검색트랜드는전세계의사용자가입력한검색어빅데이터를분석하여사용자가특정시간에특정 지역에서검색어를입력한검색량을표준화하여제공함 -본연구에사용된구글의검색어로는스트레스(stress),음주(drinking),운동(exercise),자살(suicide)로 2004년1월부터2012년10월까지의검색량을이용함5)

2. OECD 국가별 자살률과 빅 데이터 자살 검색량 비교

■ OECE 주요 국가의 자살률과 자살 검색량 비교

○2010년OECD회원국의자살에의한평균사망률은인구10만명당12.8명이며,우리나라는33.5명으로회원국 중가장높음(OECDHealthData2012) ○주요OECD국가의자살률과자살검색량을비교한결과대부분국가의자살률과자살검색량은안정적으로지속 되거나감소하였으나,한국의자살률과자살검색량은증가추세를보이는것으로나타남 3 제 168 호 시간 흐름에 따른 관심도 변화 2004년 4월 숫자 100은 최대 검색량을 나타냅니다. 2005 20 40 80 100 2006 2007 2008 2009 2010 2011 2012 60 suicide : 68 [그림 1] 구글 검색트랜드(http://www.google.co.kr/trends/)의 suicide 검색어 검색 결과(미국) 5) 국내의 횡단적 연구와 종단적 연구를 통하여 스트레스는 우울과 자살에 밀접한 관련이 있으며, 스트레스와 자살 간에 건강생활실천요인(음주, 운동 등)이 매개 하여 영향을 준다는 결과에 따라 본 고의 자살요인 분석에는 4개의 키워드를 선정함

(4)

4 제 168 호

■ 우리나라의 자살률과 자살 검색량 비교

○한국의자살률은2003년28.1명에서2004년29.5명,2005년29.9명으로증가하다가2006년감소하였다가2007 년이후증가추세를보이고있으며,구글의자살검색량도자살률과비슷한추세를보이고있음 -특히,2005년과2008년유명연예인의자살과함께자살률과자살검색량이증가한것은모방자살에대한 위험이높은것으로나타남 ○연도별자살검생량의결정요인에대한다층(위계적선형)모형분석결과연도별자살률은자살검색량을유의 하게높이는것으로나타남 -연도별자살검색량의통계적차이를분별하는모형1(기초모형)에서고정효과(FixedEffect)는55.202로 유의하게(p<.001)나타났으며,집단내상관계수(ICC:InterclassCorrelation)는.332로유의하게나타나 (χ²=41.909,P<.001)연도별특성에따라자살검색량이33.2%정도영향을받는것으로나타남 -모형2(무조건적기울기모형)검증에서월별자살검색량의영향에있어스트레스검색량이.38정도자살 검색량을유의하게(p<.1)높이는것으로나타났으며,임의효과(RandomEffect)도유의미하게(p<.1)나타나 스트레스검색량도연도별차이가있는것으로나타남 국가 2005년 2006년 2007년 2008년 2009년 2010년 자살률1) _검색량2) _자살률1) _검색량2) _자살률1) _검색량2) _자살률1) _검색량2) _자살률1) _검색량2) _자살률1) _검색량2) 독일 11.4 42.8 10.7 41.2 10.2 40.3 10.3 41.8 10.3 41.3 10.8 41.0 미국 11.2 74.2 11.3 64.2 11.7 59.7 12.0 61.0 - 57.5 - 57.4 스웨덴 13.1 79.3 12.7 75.3 11.9 64.1 12.2 61.4 12.9 57.1 11.7 61.0 영국 6.7 87.0 6.7 77.0 6.3 63.8 6.9 67.0 6.8 56.8 6.7 53.4 이탈리아 - 59.5 5.6 72.1 5.7 57.3 5.8 48.3 5.9 40.3 - 34.3 일본 22.1 71.2 21.6 62.0 22.1 59.3 21.8 69.8 22.2 76.4 21.2 83.3 프랑스 17.1 63.4 16.5 52.9 15.8 52.5 16.1 53.6 16.2 49.9 - 49.3 핀란드 18.3 49.0 19.6 43.7 18.2 42.8 19.0 46.8 18.9 47.7 17.3 44.0 호주 10.3 79.1 10.4 69.6 10.8 60.2 10.8 54.5 10.5 49.9 10.6 51.0 한국 29.9 58.9 26.2 42.2 28.7 47.3 29.0 55.8 33.8 58.8 33.5 78.3 <표 1> OECD 주요 국가의 자살률과 자살 검색량 비교

1) 자살률은 인구 100,000명당 자살 수를 나타냄(OECD Health Data 2012)

2) 자살 검색량은 google에서 실행된 총 검색수 대비 자살용어(suicide, 자살)에 대한 검색수로 특정 시간에 특정 지역에서 검색할 확률을 나타냄 45.2 58.9 42.2 47.3 55.8 58.8 78.3 29.5 29.9 _26.2 28.7 29.0 33.8 33.5 0 10 20 30 40 50 60 70 80 90 2004년 2005년 2006년 2007년 2008년 2009년 2010년 자살검색량 자살률 [그림 2] 한국의 자살률과 자살 검색량 비교

(5)

-모형3(조건적모형)검증에서연도별자살률은자살검색량을3.26정도유의하게(P<.05)높이는것으로 나타남(mixedmodel:자살검색량ij=γ00+γ01*자살률j+γ10*스트레스검색량ij+γ20*음주검색량ij+ γ30*운동 검색량ij+u0j+u1j*스트레스검색량ij+u2j*음주검색량ij+u3j*운동검색량ij+rij)

3. 자살요인에 대한 다중집단 구조모형 분석

■ 자살요인 다중집단 구조모형의 적합성

6) ○자살요인의다중집단구조모형분석은연구모형의적합성을검증한후,집단간등가제약과정을거쳐경로계 수간유의미한차이를검증함 -다중집단분석연구모형의적합도는χ²(df,p)=2.061(2,.357),GFI=.995,NFI=0.991,TLI=0.998,RM-SEA=0.012로모든적합도에서적합한것으로나타남

■ 자살요인 다중집단 경로분석

○한국과미국두집단모두스트레스에서운동,음주,그리고자살로가는경로에정적(+)으로유의한영향을 미치는것으로나타남 5 제 168 호 6) 본 연구의 구조모형은 그동안의 연구에서 제안된 스트레스가 건강생활실천요인(음주, 운동)을 매개하여 자살에 영향을 미칠 것이라는 스트레스 취약모형을 적용함 ***p<0.01, **p<0.05, *p<0.1 경로계수 표기: 한국경로계수(미국경로계수) <표 2> 한국과 미국의 집단별 모수 추정치 B: 비표준화회귀계수 β: 표준화회귀계수 *** p<0.01, ** p<0.05, * p<0.1 경로 한국 미국 B( β) C.R. P B( β) C.R. P 스트레스→음주 .186(.276) 2.941 *** .172(.158) 1.644 * 스트레스→운동 .777(.756) 11.834 *** .337(.391) 4.357 *** 음주→자살 .186(.222) 2.538 ** .013(.014) .211 .833 운동→자살 .099(.179) 1.395 .163 .099(.084) 1.179 .239 스트레스→자살 .142(.251) 1.922 * .717(.704) 9.820 *** 음주 자살 스트레스 .276***(.158*) .756***(.391***) .521***(.704*) .221**(.014) .179(.084) 운동 [그림 3] 한국과 미국의 자살요인 다중집단 구조모형

(6)

■ 자살요인 집단 간 구조모형 분석

○구조모형내자살요인변수간의인과관계에있어두집단사이에유의미한차이가존재할수있어모형내존 재하는모든경로계수에대해각각동일성제약을가한모형을기저모형과비교 ○스트레스에서운동으로가는경로와음주와운동에서자살로가는경로에서집단간유의미한차이를보이고 있음 -한국이미국보다‘스트레스→음주→자살’로가는경로와‘스트레스→운동→자살’로가는경로가더유의 하게강하게나타남

■ 자살요인 다중집단 구조모형의 매개효과 분석

○스트레스와자살의경로에운동과음주의매개효과를살펴보기위해효과분해를실시한결과한국은매개 효과가있으나미국은없는것으로나타났으며,한국의스트레스는운동과음주를부분매개(partialmedia-tion)하여자살에영향을미치는것으로나타남 -구글 검색트렌드에서 한국인이 스트레스를 경험할 경우 건강생활실천요인(음주, 운동)을 많이 찾게되고 이러한건강생활실천요인이자살검색에영향을미치는것으로나타남 6 제 168 호 <표 3> 기저모형과 경로계수에 동일성 제약을 가한 모형들 간의 집단 간 차이 비교

1) Critical ratios for differences ** p<0.05, * p<0.1 구분 _χ² df C.R.1) _△χ² 기저모형 2.061 2 스트레스→음주 2.074 3 -.116 .013 스트레스→운동 30.979 3 5.529** 28.918 음주→자살 19.977 3 -4.328** 17.916 운동→자살 5.249 3 -1.803* 3.188 스트레스→자살 2.061 3 .000 0 모든경로제약 60.073 7 58.012 <표 4> 운동과 음주 매개변수의 집단 간 효과분해 주: 1) Sobel Test: ** p<0.05 * p<0.1 경로 한국 미국 총효과 직접효과 간접효과1) _총효과 _직접효과 _간접효과1) 운동매개효과 스트레스→자살 .446 .277 .169* .739 .706 .033 음주매개효과 스트레스→자살 .446 .380 .066** .739 .737 .002

(7)

7 제 168 호

4. 결론 및 빅 데이터 효율적 활용방안

■ 결론

○본연구결과는구글검색트랜드의빅데이터활용에대한사례에불과하며자살과관련된더많은빅데이터를 활용할경우,자살을사전에예방할수있는국가전략을마련할수있을것임 -한국의연도별자살률은구글의자살검색량과비슷한추세를보이고있음 -연도별자살검색량의결정요인에대한다층모형분석결과연도별자살률은자살검색량에유의하게영향을 주는것으로나타남 -다중집단구조모형분석결과스트레스와자살로가는경로에건강생활실천요인이미국은없고한국만매개효과가 있는것으로나타나,한국인의스트레스해소를위한건강생활실천요인의검색이자살검색에영향을주는것 으로나타남 ○본연구결과에서스트레스검색량이자살검색량에직접적인영향을주는것으로나타나민간검색포털이나 SNS에서관련키워드의검색이나Buzz발생시스트레스와자살충동을감소시킬수있는서비스의제공이요구됨 -민간검색포털이나SNS에서스트레스와자살에관련된키워드의검색이나Buzz발생시,이용자의빅 데이터(연령층,그동안의검색패턴이나Buzz등)를실시간으로분석하여징후가예측되면이용자에게가장 적합한스트레스관리프로그램을팝업창이나문자메시지를통하여제공함으로써자살충동을예방하는데 기여할수있을것임

■ 보건복지 빅 데이터의 효율적 활용방안

7) ○새로운가치를창출하고예측가능한보건복지서비스를제공할수있는보건복지분야빅데이터의효율적 활용을위한전략은다음과같음 -보건복지빅데이터를통합적으로관리하기위한범부처차원의조직(가칭:보건복지빅데이터관리위원 회)의운영이필요함 ·보건복지빅데이터는보건복지부,노동부,여성가족부,지식경제부,통계청등많은정부부처와국민건강 보험공단,건강보험심사평가원,식품의약품안전청,국책연구기관등많은공공기관에서관리·운영되고 있어각기관에서운영중인정보의연계와공유를위해서는범정부차원의조직이필요함 -보건복지비정형화된빅데이터를관리하고있는민간기관과의협조체제가마련되어야함 ·비정형화된보건복지빅데이터는민간기관의검색포털이나SNS를통해서생산·저장되고있어민간기 관과의긴밀한협조체계(가칭:보건복지빅데이터포럼)가구축되어야함 -국가차원의OpenAPI(ApplicationProgrammingInterface)의제공이필요함 ·민간기관의빅데이터는누구나이용할수있기때문에전문가와인프라만있으면분석이가능하나공공 정보의경우는공개를하지않으면활용이불가함 7) ‘송태민. 보건복지 빅 데이터 효율적 활용방안. 보건복지포럼(2012. 11). 한국보건사회연구원’의 내용을 재정리함

(8)

·2012년10월기준으로공유자원포털(www.data.go.kr)에서공개되어있는API는133종으로이중보 건복지분야의API는식품의약품안전청에서제공하는10종에불과함 ·보건복지빅데이터의공개는관련기관과빅데이터전문가의참여로정부와국민이필요로하는정보를 분류하고공개대상정보는개인정보를철저하게보안하여국가지식플랫폼에저장해야함 -보건복지빅데이터를분석처리할수있는관련기술의개발이필요함 ·스마트시대에는비관계형,비정형데이터의저장과분석,클라우드서비스의확산,시멘틱검색서비 스,추론에기반한상황인식서비스등의기술이핵심임 ·관련부처와협력하여보건복지분야빅데이터를‘수집→저장→분석→추론’할수있는기술개발은물론 기술표준화가우선적으로추진되어야함 -구조화되지않은대규모데이터속에서숨겨진정보를찾아내는데이터사이언티스트(DataScientist) 의인재양성이필요함 ·빅데이터시대에는데이터를관리하고분석할수있는인력이매우중요하며,이미글로벌IT업체에서 는데이터사이언티스트에대한인재확보와역량강화를추진함 -보건복지빅데이터의개인정보와기밀정보에대한보안정책이마련되어야함 ·보건복지빅데이터는개인에대한거의모든정보가저장되어있지만아직법·제도는미비한상황이 며논의조차되지못함 ·빅데이터의활용도중요하지만과다한개인정보의유출은프라이버시침해는물론사이버인권침해나 범죄에악용될수있음 ·빅데이터로부터개인을보호하기위해가장중요한것은특정개인을식별하지못하도록하는익명화와 정보접근및정보처리에대한통제임 ·그러나,정보접근및정보처리에대한통제를강하게하면정보활용이활성화되지않기때문에보건복지 빅데이터의‘활용과보호의균형’에대한효과적인정책이마련되어져야함 8 제 168 호 집필자Ⅰ송태민(보건복지정보센터 연구위원) 문의Ⅰ02-02-380-8201 발행인 Ⅰ 최병호 발행처 Ⅰ 한국보건사회연구원

서울특별시 은평구 진흥로 235(122-705) Ⅰ TEL 02)380-8000 Ⅰ FAX 02)352-9129 Ⅰ http://www.kihasa.re.kr 한국보건사회연구원 홈페이지의 발간자료에서 온라인으로도 이용하실 수 있습니다. http://www.kihasa.re.kr/html/jsp/publication/periodical/focus/list.jsp