보건복지 빅데이터 효율적 관리방안 연구

(1)

보건복지 빅데이터

효율적 관리방안 연구

송태민·진달래·박대순 박현애·안지영·김정선

(2)

연구보고서 2014-05 보건복지 빅데이터 효율적 관리방안 연구 발 행 일 저 자 발 행 인 발 행 처 주 소 전 화 홈페이지 등 록 인 쇄 처 정 가 2014년 12월 31일 송 태 민 최 병 호 한국보건사회연구원 (339-007)세종특별자치시 시청대로 370 세종국책연구단지 사회정책동 1F~5F 대표전화: 044)287-8000 http://www.kihasa.re.kr 1994년 7월 1일 (제8-142호) 대명기획 11,000원 ⓒ 한국보건사회연구원 2014 ISBN 978-89-6827-149-6 93510 빅데이터 분석방법론 한나래아카데미, 2013(공저) 보건복지연구를 위한 구조방정식 모형 한나래아카데미, 2012(공저) 【공동연구진】 진달래 한국보건사회연구원 연구원 박대순 한국보건사회연구원 선임전문원 박현애 서울대학교 간호대학 교수 안지영 인제대학교 교수 김정선 SK 스마트인사이트

(3)

최근 스마트폰, 스마트TV, RFID, 센서 등의 급속한 보급과 모바일 인 터넷과 소셜미디어의 확산으로 데이터량이 기하급수적으로 증가하고 데 이터의 생산, 유통, 소비 체계에 큰 변화를 주면서 데이터가 경제적 자산 이 될 수 있는 빅데이터 시대를 맞이하게 되었다. 세계 각국의 정부와 기 업들은 빅데이터가 향후 국가와 기업의 성패를 가름할 새로운 경제적 가 치의 원천이 될 것으로 기대하고 있으며, The Economist, Gartner, McKinsey 등은 빅데이터를 활용한 시장변동 예측과 신사업 발굴 등 경 제적 가치창출 사례 및 효과를 제시하고 있다. 빅데이터는 미래 국가 경 쟁력에도 큰 영향을 미칠 것으로 기대하여 국가별로는 안전을 위협하는 글로벌요인이나 테러, 재난재해, 질병, 위기 등에 선제적으로 대응하기 위해 우선적으로 도입하고 있다. 특히, 모바일 인터넷과 소셜 미디어의 확산으로 데이터량이 기하급수적으로 증가함으로써 경제적 자산이 될 수 있는 데이터를 분석하여 가치 있는 정보를 찾아내고 활용하는 일이 무엇 보다 중요한 시대가 되었다. 한국은 최근 정부3.0과 창조경제의 추진과 실현을 위하여 현 정부의 주요정책과제를 지원하기 위하여 다양한 분야에 빅데이터의 활용가치가 강조되고 있다. 보건복지 빅데이터는 다른 분야 보다 수요자에게 직접적 인 영향을 주는 것으로 규모가 방대할 뿐 아니라 효율적 관리와 활용을 통한 경제적 가치는 무한할 것으로 예측되고 있다. 특히, 저출산 고령화 가 급속히 진전되고 보건복지서비스가 공급자 중심에서 수요자 중심의 맞춤형 서비스 체계로 변화됨에 따라 대국민 보건의료 서비스와 복지전

(4)

건복지 관련 빅데이터 현황과 기술을 분석하고 수요공급의 예측과 분석 사례를 통하여 수요자 중심의 맞춤형 서비스를 위한 보건복지 빅데이터 의 효율적 관리방안을 제시하였다. 본 연구는 한국보건사회연구원의 송태민 연구위원의 주관 하에 원내의 진달래연구원, 박대순 선임전문원, 서울대 간호대학 박현애 교수, 인제대 학교 안지영 교수, SKT 스마트인사이트 김정선 부장의 참여로 수행되었 다. 연구진은 본 연구에 귀중한 조언을 아끼지 않으신 서울대학교 보건대 학 조성일 교수님과 인제대학원대학교 류시원 교수님, 원내의 정보기술 융합센터 정영철 센터장님과 통계정보연구실 장영식 초빙연구위원께 사 의를 표한다. 그리고 빅데이터 수집과 분석에 참여한 ㈜SKT스마트인사 이트 임직원 분들에게 감사하며, 본 연구에 도움을 주신 학계 및 빅데이 터 전문가 여러분께 감사한다. 끝으로 본 보고서에 수록된 모든 내용은 우리 연구원의 공식적인 견해는 아니며 어디까지나 참여한 연구진의 의 견임을 밝힌다. 2014년 12월 한국보건사회연구원장

최 병 호

(5)

Abstract ···1 요약 ···3 제1장 서론 ···9 제1절 연구의 배경 및 목적 ···11 제2절 연구목적 ···13 제3절 연구내용 및 연구방법 ···14 제4절 빅데이터의 개념 ···15 제2장 빅데이터 이론적 배경 ···19 제1절 빅데이터 전망 ···21 제2절 빅데이터 관련 기술 ···25 제3절 보건복지분야 빅데이터 활용 ···36 제4절 빅데이터 프라이버시 보호방안 ···45 제3장 국내외 공공 빅데이터 공개 현황 ···57 제1절 공공데이터 및 빅데이터 국내 관련 조직 ···59 제2절 빅데이터 관련 인력양성 현황 ···66 제3절 공개·개방된 빅데이터 현황 및 활용 방안 ···67 제4장 보건복지 이슈 분석 및 통계제공 현황 ···101 제1절 보건복지 이슈 분석 ···103 제2절 보건복지 통계제공 현황 ···127

(6)

제2절 공공과 보건의료 빅데이터 수요공급 예측 ···184 제3절 보건복지 정책 수요예측 ···212 제6장 소셜 빅데이터를 활용한 사회위험요인 예측 ···227 제1절 비만 빅데이터 수집을 위한 관련 주제 분류 ···230 제2절 소셜 빅데이터를 이용한 비만 담론 분석 ···252 제3절 소셜 빅데이터를 이용한 청소년 자살위험 예측요인 ···271 제7장 보건복지 빅데이터 활성화 전략 및 발전방안 ···289 제1절 보건복지 빅데이터 활성화를 위한 전략분석 ···291 제2절 보건복지 빅데이터 발전방안 ···294 참고문헌 ···317 부록 ···337 부록1 보건복지 공공데이터 현황 ···337 부록2 빅데이터 기술수용모형 조사표 ···383 부록3 소셜빅데이터 비만 담론 분석 속성별 키워드 분류 ···386

(7)

표 목차 〈표 1-1〉 빅데이터의 4가지 구성요소 ···16 〈표 2-1〉 국내 빅데이터 시장 현황 및 전망 ···23 〈표 2-2〉 일본 IT벤드의 빅데이터 이용 동향 ···24 〈표 2-3〉 빅데이터 기술 및 서비스 현황 ···25 〈표 2-4〉 빅데이터 처리 프로세스별 기술 영역 ···26 〈표 2-5〉 빅데이터 수집기술 ···29 〈표 2-6〉 빅데이터 저장기술 ···30 〈표 2-7〉 빅데이터 처리기술 ···31 〈표 2-8〉 빅데이터 분석기술 ···33 〈표 2-9〉 빅데이터 활용기술 ···35 〈표 2-10〉 빅데이터 기타기술 ···35 〈표 2-11〉 국내·외 보건분야 빅데이터 활용 사례 ···36 〈표 2-12〉 국내·외 복지분야 빅데이터 활용 사례 ···40 〈표 3-1〉 17부 공공데이터 담당자 및 업무현황 ···60 〈표 3-2〉 3처 공공데이터 담당자 및 업무현황 ···62 〈표 3-3〉 17청 공공데이터 담당자 및 업무현황 ···62 〈표 3-4〉 빅데이터 관련 부서 현황 ···65 〈표 3-5〉 지자체 빅데이터 관련 부서 현황 ···66 〈표 3-6〉 국내 빅데이터 관련 학과 현황 ···67 〈표 3-7〉 영국 Open data DB 현황 ···70 〈표 3-8〉 영국 Open data 분류체계 ···71 〈표 3-9〉 영국 정부 부처별 데이터 공개내용 ···74 〈표 3-10〉 미국 공공데이터 제공 사이트 Open DB 현황 ···76 〈표 3-11〉 미국 보건관련 공공데이터 제공 사이트 DB 현황 ···77 〈표 3-12〉 일본의 빅데이터 장기 추진계획 (2019~2021년) ···79 〈표 3-13〉 뉴질랜드 Open data DB 현황 ···80

(8)

〈표 3-17〉 독일 Open data 주제별 분류에 의한 DB 현황 ···87 〈표 3-18〉 독일 Open 소스 기반의 어플리케이션 현황 ···89 〈표 3-19〉 호주 Open data 주제별 분류에 의한 DB 현황 ···90 〈표 3-20〉 제공주체별 공공데이터 자료 현황 ···92 〈표 3-21〉 공공데이터 서비스 제공 유형 현황 ···93 〈표 3-22〉 공공데이터 서비스 제공 데이터 확장자 유형 ···94 〈표 3-23〉「공공데이터 포털」에서 보건/복지 분야 Open API 자료 현황 ···95 〈표 3-24〉 Open API제공자료 중 보건의료분야 서비스 분류 ···95 〈표 3-25〉 Open API제공자료 중 식품의약안전 서비스 분류 ···96 〈표 3-26〉 Open API제공자료 중 노인·청소년 서비스 분류 ···96 〈표 3-27〉「공공데이터 포털」에서 공공데이터 활용사례 ···97 〈표 3-28〉 보건의료분야 활용사례 ···97 〈표 3-29〉 복지분야 활용사례 ···98 〈표 3-30〉 식품 의약품 분야 활용사례 ···99 〈표 4-1〉 연구자료 수집대상 ···108 〈표 4-2〉 연결정도 중심성 상위 30위 키워드 ···110 〈표 4-3〉 연도별 상위 키워드 변화 ···113 〈표 4-4〉 사회보장 부분 학술문헌 이슈분석 ···126 〈표 4-5〉 보건복지부 통계포털 제공통계 목록 ···128 〈표 4-6〉 보건복지 주요지표 ···130 〈표 4-7〉 e-나라지표 보건지표 제공 목록 ···134 〈표 4-8〉 e-나라지표 복지지표 제공 목록 ···136 〈표 4-9〉 통계청 보건분야 통계지표 ···138 〈표 4-10〉 통계청 보건분야 통계제공기관별 제공지표수 현황 ···139 〈표 4-11〉 통계청 복지분야 통계지표 ···141

(9)

〈표 4-12〉 통계청 복지분야 통계제공기관별 제공지표수 현황 ···142 〈표 4-13〉 통계청 사회분야 통계지표 ···143 〈표 4-14〉 통계청 사회분야 통계제공기관별 제공지표수 현황 ···144 〈표 4-15〉 국민건강보험공단 건강보험 통계DB 현황 ···145 〈표 4-16〉 건강보험심사평가원 건강보험 통계DB 현황 ···147 〈표 4-17〉 식품의약품안전처 통계DB 현황 ···148 〈표 4-18〉 국가암 정보센터 통계DB 현황 ···149 〈표 4-19〉 한국보건사회연구원 보건복지통계 보건분야 통계지표 ···151 〈표 4-20〉 한국보건사회연구원 보건복지통계 복지분야 통계지표 ···152 〈표 5-1〉 기술수용모델 국내 선행연구 ···161 〈표 5-2〉 연구모델의 개발도구 ···168 〈표 5-3〉 모형비교 ···175 〈표 5-4〉 주요 변인들의 기술통계 ···176 〈표 5-5〉 다중집단 구조모형의 적합도 비교 ···177 〈표 5-6〉 사용목적 수용자와 활용목적 수용자 집단 간의 구조모형 분석결과 ···179 〈표 5-7〉 외생변인과 TAM변인의 매개효과 검증 ···180 〈표 5-8〉 국가별 빅데이터 관련 분야 버즈 현황 ···190 〈표 5-9〉 산업별 빅데이터 관련 분야 버즈 현황 ···191 〈표 5-10〉 보건의료 및 공공 분야 빅데이터 버즈 현황 ···193 〈표 5-11〉 업무별 빅데이터 기술 활용 현황 ···194 〈표 5-12〉 업무별 빅데이터 기반 활용 현황 ···196 〈표 5-13〉 빅데이터 수요자와 공급자에 미치는 영향요인 ···197 〈표 5-14〉 보건의료 및 공공 분야 빅데이터 수요자와 공급자에 미치는 영향요인 ···198 〈표 5-15〉 빅데이터 수요공급 예측모형에 대한 이익도표(감성요인) ···200 〈표 5-16〉 빅데이터 수요공급 예측모형에 대한 이익도표(기반요인) ···202 〈표 5-17〉 빅데이터 수요공급 예측모형에 대한 이익도표(업무요인) ···204 〈표 5-18〉 보건의료분야 빅데이터 수요공급 예측모형에 대한 이익도표(감성요인) ···206 〈표 5-19〉 공공분야 빅데이터 수요공급 예측모형에 대한 이익도표(감성요인) ···208

(10)

〈표 5-23〉 공공기관별 보건복지 정책 및 이슈 버즈 현황 ···221 〈표 5-24〉 민간기관별 보건복지 정책 및 이슈 버즈 현황 ···222 〈표 5-25〉 보건복지 정책 수요에 미치는 영향요인 ···223 〈표 5-26〉 보건복지정책 수요 예측모형에 대한 이익도표 ···226 〈표 6-1〉 비만 영역 분류틀 ···236 〈표 6-2〉 인구학적 특성 영역 분류틀 ···238 〈표 6-3〉 위험요인 영역 분류틀 ···239 〈표 6-4〉 증상 및 징후 영역 분류틀 ···240 〈표 6-5〉 합병증 영역 분류틀 ···241 〈표 6-6〉 진단 영역 분류틀 ···242 〈표 6-7〉 치료 영역 분류틀 ···245 〈표 6-8〉 예방 영역 분류틀 ···247 〈표 6-9〉 비만 온톨로지 분류에 따른 영역수준 ···250 〈표 6-10〉 소셜 빅데이터 활용한 비만 담론 분석 조사설계 ···253 〈표 6-11〉 연도별 비만 부위별 언급 키워드 현황 ···260 〈표 6-12〉 연도별 비만 치료 방법(약물치료) 언급 키워드 현황 ···261 〈표 6-13〉 연도별 비만 치료 방법(운동치료) 언급 키워드 현황 ···262 〈표 6-14〉 연도별 비만 치료 방법(식사치료) 언급 키워드 현황 ···263 〈표 6-15〉 비만에 대한 긍·부정 감성분석 결과(키워드 분석) ···264 〈표 6-16〉 다이어트에 대한 긍·부정 감성분석 결과(키워드 분석) ···267 〈표 6-17〉 운동에 대한 긍·부정 감성분석 결과(키워드 분석) ···268 〈표 6-18〉 다이어트로 인한 정신적인 증상에 대한 긍·부정 감성분석 결과(키워드 분석) ·· 269

〈표 6-19〉 Descriptive Statistics of Factors ···279

〈표 6-20〉 Multinomial Logistic of Suicide Causes ···281

(11)

〈표 6-22〉 Profit chart of Predictive models of Suicide ···284 〈표 7–1〉 보건복지 빅데이터 서비스 활성화를 위한 SWOT 분석 ···293 〈표 7-2〉 ‘빅데이터 개인정보보호 가이드라인’의 주요내용 ···302

(12)

〔그림 2-1〕 빅데이터의 시대별 특징 ···21 〔그림 2-2〕 2012년도 가트너의 이머징 기술 하이프사이클(Hype Cycle) ···22 〔그림 2-3〕 주요 시장조사 기관 빅데이터 세계시장 규모 ···23 〔그림 2-4〕 빅데이터의 진화단계 ···25 〔그림 2-5〕 빅데이터 플랫폼 ···27 〔그림 2-6〕 빅데이터 수집 기술 ···29 〔그림 2-7〕 지역보건의료정보시스템 구성도 ···40 〔그림 2-8〕 사회복지통합관리망 구성도 ···42 〔그림 2-9〕 사회서비스전자바우처시스템 구성도 ···43 〔그림 2-10〕 보육통합정보시스템 구성도 ···43 〔그림 2-11〕 개인에 관한 정보와 개인정보 및 프라이버시의 관계 ···48 〔그림 2-12〕 개인정보 식별성과 공개성 ···49 〔그림 2-13〕 개인정보와 프라이버시권에 해당하는 정보의 관계 ···50 〔그림 3-1〕 정부 3.0 목표 ···59 〔그림 3-2〕 17부 3처 17청 공공데이터 제공 현황 ···60 〔그림 3-3〕 국외 공공데이터 순위: 2013년 ···68 〔그림 3-4〕 영국의 빅데이터 전략위원회 조직 구성 체계도 ···69 〔그림 3-5〕 영국 Open data 보건분야 분류체계 ···71 〔그림 3-6〕 영국 Open data 포털 화면 ···71

〔그림 3-7〕 영국 Open data Institute 포털 화면 ···72

〔그림 3-8〕 영국 ODI 데이터 인증 페이지 ···73

〔그림 3-9〕 미국의 빅데이터 추진전략 및 체계 ···76

〔그림 3-10〕 미국 Open data 포털 화면 ···78

〔그림 3-11〕 뉴질랜드 Open data 포털 화면 ···81

(13)

〔그림 3-13〕 싱가포르 Open data 포털 화면 ···85 〔그림 3-14〕 독일 공공데이터 공개를 위한 ‘열린정부’ 전략 ···86 〔그림 3-15〕 독일 공공데이터 공개를 위한 ‘열린정부’ 구현 모델 ···87 〔그림 3-16〕 독일 Open data 포털 화면 ···88 〔그림 3-17〕 호주 Open data 포털 화면 ···91 〔그림 4-1〕 연구자료 수집대상 ···107 〔그림 4-2〕 보건의료분야의 키워드 네트워크 분석 ···112 〔그림 4-3〕 2009년 보건의료분야 키워드 네트워크 분석 ···115 〔그림 4-4〕 2010년 보건의료분야 키워드 네트워크 분석 ···117 〔그림 4-5〕 2011년 보건의료분야 키워드 네트워크 분석 ···118 〔그림 4-6〕 2012년 보건의료분야 키워드 네트워크 분석 ···120 〔그림 4-7〕 2013년 보건의료분야 키워드 네트워크 분석 ···121 〔그림 4-8〕 2014년 보건의료분야 키워드 네트워크 분석 ···123 〔그림 4-9〕 보건복지부 주요지표 제공기관 현황 ···133 〔그림 4-10〕 통계청 e-나라지표 보건지표 제공기관 ···135 〔그림 4-11〕 통계청 e-나라지표 복지지표 제공기관 ···137 〔그림 4-12〕 통계청 보건분야 통계제공기관별 제공지표 현황 ···140 〔그림 4-13〕 통계청 복지분야 통계제공기관별 제공지표 현황 ···142 〔그림 4-14〕 통계청 사회분야 통계제공기관별 제공지표 현황 ···144 〔그림 4-15〕 국민건강보험공단 건강보험통계DB 제공화면 ···146 〔그림 4-16〕 국가암정보센터 통계지표 제공화면 ···150 〔그림 4-17〕 한국보건사회연구원 통계지표 제공화면 ···153 〔그림 5-1〕 연구모형 ···175 〔그림 5-2〕 빅데이터 수요공급 예측모형(감성요인) ···200 〔그림 5-3〕 빅데이터 수요공급 예측모형(기반요인) ···202 〔그림 5-4〕 빅데이터 수요공급 예측모형(업무요인) ···204 〔그림 5-5〕 보건의료분야 빅데이터 수요공급 예측모형(감성요인) ···206 〔그림 5-6〕 공공분야 빅데이터 수요공급 예측모형(감성요인) ···208

(14)

〔그림 6-1〕 비만 온톨로지 인구학적 특성 ···248

〔그림 6-2〕 비만 관리 서비스 단계적 흐름 ···249

〔그림 6-3〕 비만 온톨로지 비만의 진단, 예방과 치료 프로세스 ···249

〔그림 6-4〕 비만 대상자의 상태에 따른 치료 또는 예방 진단 ···250

〔그림 6-5〕 Ontology for obesity management ···251

〔그림 6-6〕 연도별 버즈 현황: 2012-2013 ···254 〔그림 6-7〕 연도별 버즈 점유율 현황: 2012-2013 ···255 〔그림 6-8〕 2011년 버즈량과 순계정 비율 ···256 〔그림 6-9〕 2011년 전체 문서수와 문서작성계정 수 ···256 〔그림 6-10〕 2012년 버즈량과 순계정 비율 ···257 〔그림 6-11〕 2012년 전체 문서수와 문서작성계정 수 ···257 〔그림 6-12〕 2013년 버즈량과 순계정 비율 ···258 〔그림 6-13〕 2013년 전체 문서수와 문서작성계정 수 ···258 〔그림 6-14〕 연도별 트위터 유형 분석 ···259 〔그림 6-15〕 연도별 비만 부위별 언급 키워드 트렌드 ···260 〔그림 6-16〕 연도별 비만관련 운동치료 언급 키워드 트렌드 ···262 〔그림 6-17〕 비만에 대한 감성분석 결과 ···264 〔그림 6-18〕 비만에 대한 감성분석 결과(SNS 언급) ···265 〔그림 6-19〕 다이어트에 대한 감성분석 결과(SNS 언급) ···267 〔그림 6-20〕 운동에 대한 감성분석 결과(SNS 언급) ···268 〔그림 6-21〕 다이어트로 인한 정신적인 증상에 대한 감성분석 결과 ···269

〔그림 6-22〕 Predictive model of risk factors for Suicide ···283

〔그림 7-1〕 보건복지통계 관리 전담조직(가칭 데이터연계센터) ···304

〔그림 7-2〕 청소년 자살징후 포착을 위한 소셜 분석 시스템 구성도(안) ···310

〔그림 7-3〕 소셜 빅데이터 분석 절차 및 방법(자살버즈 분석 사례) ···312

(15)

Efficient management of Big Data

on Health & Welfare

Big data which can be play a role in improving our national power, were introduced to cope with serious incidents such as terrorism, a natural disaster, disease, and global factors which pose a threat to the national security of nation. In order to ad-dress social issues, big data were used in various countries. Big data were utilized by different technology in various regions such as the U.S., the U.K., Japan, Australia and the E.U. countries. All of them consider it as essential state policy for their future.

Emphasizing the importance of utility of big data related to supporting the Government’s flagship policy and creative economy, this study aim to analyze method and current status of big data in the fields of health and welfare. The study sug-gested the way to manage big data effectively by analyzing case study and forecasting supply and demand of the data to provide consumer-directed Services.

Chapter 1 indicates the need of big data and the definition and concept of big data. Chapter 2 includes method and tech-nology related with big data with classifying different field of

(16)

big data into collecting, storing, processing, analyzing and utilizing. Chapter 3 explains the status of publishment of public big data. Chapter 4 includes the status of statistics data being provided and analysis of the issue related to health and welfare. Chapter 5 and 6 explain supply and demand of big data, and the societal risky factors by utilizing social big data. Chapter 7 suggests the strategies to promote to use big data and the ideas for improvement.

(17)

1. 연구의 배경 및 목적

빅데이터는 미래 국가 경쟁력에도 큰 영향을 미칠 것으로 기대하여 국 가별로는 안전을 위협하는 글로벌 요인이나 테러, 재난재해, 질병, 위기 등에 선제적으로 대응하기 위해 우선적으로 도입하고 있다. 국내외에서 사회 전반의 다양한 문제에 빅데이터 기술을 활용하고 있다. 미국, 일본, 영국, 호주, 유럽연합 등 각 지역의 특징을 가지면서도 빅데이터 전략을 미래의 핵심적 국가 과제로 삼고 있다는 점에서 공통점을 가지고 있다. 샌프란시스코 경찰청은 범죄 예방 시스템을, 싱가포르는 테러 및 전염병 을 관리하기 위한 스캐닝 시스템을, 영국은 The Foresight Horizon Scanning Centre를 설립·운영하여 비만대책 수립, 잠재적 위험관리(해 안침식, 기후변화), 전염병 대응 등 사회 전반의 다양한 문제에 빅데이터 기술을 활용하고 있다. 국외 뿐 아니라 국내에서도 빅데이터 자료를 수집 하여 체계적으로 대응 할 수 있는 예측 시스템을 설계하였다. 한국인체자 원은행네트워크는 16개 병원을 통해 36만명의 인체자원을 확보하여 질 병지표 및 발굴 및 질병조기진단을 위해 활용하고 있다. DNA LINK는 질병관리 및 개인의 유전체 염기서열 분석으로 맞춤형 건강진단 서비스 제공하는 유전자 분석시스템 제공하고 있다. 한국정보화진흥원은 2012 년 자살로 언급된 빅데이터를 수집하여 온라인 자살관련 Buzz의 발생 패 턴에 따라 보다 체계적으로 대응할 수 있는 자살예방체계를 설계할 수 있 다는 가능성을 보였고, 한국보건사회연구원(www.kihasa.re.kr)에서는 2012년 구글 검색트랜드를 활용하여 자살검색량과 자살률간의 관계를

(18)

밝힌바 있다. 본 연구에서는 국내외의 보건복지 관련 빅데이터 현황과 기술을 분석 하고 수요공급의 예측과 분석사례를 통하여 수요자 중심의 맞춤형 서비 스를 위한 보건복지 빅데이터의 효율적 관리방안을 제시하고자 한다.

2. 주요 연구결과

제1장 ‘서론’에서는 정부3.0과 창조경제의 추진과 실현을 위하여 현 정부의 주요정책 과제를 지원하기 위하여 다양한 분야에 빅데이터의 활 용가치가 강조됨에 따라 국내외 빅데이터 관련 문헌 분석과 웹사이트 검 색을 통한 빅데이터 도입 배경과 필요성, 국내외에서 정의하고 있는 빅데 이터 개념에 대하여 설명하였다. 제2장 ‘빅데이터 이론적 배경’에서는 빅데이터의 시대별 특징, 빅데이 터 세계 시장 규모를 통해 빅데이터가 산업에 미치는 파급효과를 전망하 고, 정보 통신 기술과 함께 국가의 새로운 성장 동력이 될 것으로 예측하 였다. 빅데이터의 관련 기술 분야를 수집기술, 저장기술, 처리기술, 분석 기술, 활용기술로 구분하여 각 영역별 세부기술에 대하여 제시하였으며, 이러한 기술을 바탕으로 빅데이터를 활용한 국내·외 보건복지분야의 사 례를 함께 제시하였다. 그리고 빅데이터는 새로운 비즈니스 기회를 창출 하는데 없어서는 안되는 획기적인 자원으로 가치를 더해감에 따라 다양 한 목적으로 활용이 되면서 개인정보 유출과 프라이버시에 침해에 대한 우려가 높아지고 있다. 빅데이터 활용에 있어서의 개인정보 보호를 위하 여 정보보호관리체계 인증 기술, 영향평가 기술, 프라이버시 보호기술에 대하여 설명하였다. 제 3장 ‘국내외 공공 빅데이터 공개현황’에서는 공공데이터 출연배경

(19)

과 공공데이터 담당 부서 및 현황, 국내 빅데이터 관련 인력 양성 현황, 국내 공개·개방된 공공데이터의 지자체별 제공 유형과 국외 빅데이터 현 황 및 활용 사례를 제시하였다. 제4장에서는 보건복지 영역별 이슈를 감 지하여 미래 보건복지 전략을 수립하기 위한 기초자료로 활용하기 위하 여 보건복지분야의 주요 학술지에 게재된 키워드를 분석한 결과를 제시 하였다. 상위 키워드의 연도별 응집 구조를 분석한 결과 ‘Adolescents (청소년)'와 ‘Social support(사회적 지지)’, 'Self-esteem(자존감)’, ‘Self-efficacy(자기효능감)’, ‘Smoking(흡연)’, 'Suicide(자살)’ 등이 서 로 연결되어 연구되고 있었으며, 'Suicide(자살)'는 다시 ’Depression (우울)’, ‘Stress(스트레스)’, ‘Social support(사회적 지지)’, 'Self-es-teem(자존감)’ 등과 함께 연결되어 연구되고 있는 것으로 나타났다. 이는 청소년을 대상으로 한 다양한 방면에서의 연구가 지속적으로 수행되어 오고 있으며, 최근 대두되고 있는 노화, 다문화, 사회적 약자에 대한 연구 등 국내 보건의료 분야의 연구가 한국의 사회적 변화를 잘 반영하고 있다 고 해석할 수 있다. 제 5장 ‘보건복지 빅데이터 수요 공급 예측’에서는 우 리나라 기업이 빅데이터 기술을 수용하는 과정에서 발생되는 목적에 따 른 차이점을 분석하여 기업에서 빅데이터 기술 도입 시 고려해야 할 사항 을 제시하였으며, 우리나라 온라인 뉴스사이트, 블로그 카페, SNS, 게시 판 등에서 수집한 소셜 데이터를 바탕으로 국내 공공과 보건의료 분야 빅 데이터 수요공급을 예측할 수 있는 의사결정나무를 모형과 보건복지 주 요정책에 대한 수요를 예측하여 결과를 제시하였다. 제 6장 ‘소셜 빅데이터를 활용한 사회위험 요인 예측’에서는 빅데이터 분석 방법론을 적용하여, 우리나라 사회위험요인인 비만, 청소년자살에 대한 위험요인을 예측하였다. 소셜 미디어 상의 비만 주제와 관련된 메시 지를 수집하여 분석하기 위한 분석틀을 마련하기 위하여 비만 관리 관련

(20)

주제를 분류하고, 비만 관리 온톨로지와 용어체계를 개발하였으며, 이를 기반으로 소셜 미디어 상의 비만 언급에 대한 패턴과 원인 담론을 분석 하였다. 분석 결과 ‘비만 및 다이어트’에 관한 버즈 발생은 특정 시즌이 아닌 1년 내내 나타나는 것으로 분석 되었으며, 3개년 동안 해마다 온라 인상의 언급량이 증가한 것으로 나타났다. 3개년 동안 SNS의 언급량이 가장 높았으며, 그 다음이 블로그에서 다수 언급된 것으로 나타났다. 청 소년들의 다이어트 방법으로는 꾸준한 노력보다 쉽게 살을 뺄 수 있는 약 물, 수술 치료 등에 관심을 보이는 경향이 있었으며, 최근 3년간 비만 및 다이어트에 관한 긍정적인 인식의 비중이 지속적으로 높아지는 것으로 나타났다. 마지막으로 제 7장에서는 보건복지 빅데이터 활성화 전략 및 발전방안에 대해 SWOT 분석을 통한 세부 전략을 제안하였다.

3. 결론 및 시사점

빅데이터의 활성화를 위해서는 다양한 분야에서 생성되는 다양한 데이 터를 언제 어디서나 활용 할 수 있도록 해야 하며 지식과 정보의 공유가 가능하도록 해야 한다. 우리나라 보건복지 빅데이터의 효율적인 관리를 위해서는 다음과 같은 접근이 필요할 것이다. 빅데이터를 통합적으로 관리하기 위한 범정부 차 원의 (가칭)보건복지 빅데이터 관리위원회 운영되어야 한다. 비정형화된 데이터를 관리하고 민간기관과 협조체계가 마련되어야 한다. 국가 차원 의 오픈 API(Open Application Programming Interface)의 제공이 지속적으로 이루어져야 한다. 보건복지 빅데이터를 분석 처리할 수 있는 관련 기술개발과 표준화가 마련되어야 한다. 구조화되지 않은 대규모 데 이터 속에서 숨겨진 정보를 찾아내는 데이터 사이언티스트(Data

(21)

Scientist)의 인재 양성위한 전략이 마련되어야 한다. 보건복지 빅데이터 의 개인정보와 기밀정보에 대한 보안정책이 마련되어야 한다.

(22)

(23)

서 론

제1절 연구의 배경 및 목적 제2절 연구목적

제3절 연구내용 및 방법 제4절 빅데이터 개념

(24)

(25)

제1절 연구의 배경 및 목적

최근 스마트폰, 스마트TV, RFID, 센서 등의 급속한 보급과 모바일 인 터넷과 소셜미디어의 확산으로 데이터량이 기하급수적으로 증가하고 데 이터의 생산, 유통, 소비 체계에 큰 변화를 주면서 데이터가 경제적 자산 이 될 수 있는 빅데이터 시대를 맞이하게 되었다(송태민, 2012). 세계 각국의 정부와 기업들은 빅데이터가 향후 국가와 기업의 성패를 가름할 새로운 경제적 가치의 원천이 될 것으로 기대하고 있으며, The Economist, Gartner, McKinsey 등은 빅데이터를 활용한 시장변동 예 측과 신사업 발굴 등 경제적 가치창출 사례 및 효과를 제시하고 있다. The Economist(2010)는 빅데이터를 제대로 활용하면 전 세계가 직면 한 환경, 에너지, 식량, 의료문제를 상당부분 해결할 것으로 전망하고 있 다. Gartner(2012)는 2011년 이머징 기술 전망에서 빅데이터는 21세기 현재는 기술발생단계(technology trigger)지만 2012년 이후 가장 빠르 게 성숙하는 신기술로 전망하고 있다. Mckinsey(2011)는 빅데이터의 활 용에 따라 기업/공공분야의 경쟁력 확보와 생산성 향상, 사업혁신/신규 사업 발굴의 차이가 생길 것이라고 보고 있으며, 유럽 공공분야에서 연 2,500억 달러의 경제적 효과가 있을 것으로 예측하고 있다.IDC(2014) 가 최근 발간한 「국내 빅데이터 스토리지 시장 전망」보고서에 따르면 향 후 5년간 연평균 성장률이 31.3%로 증가해 2018년 1087억원 규모에 이 를 것으로 전망하고 있다. Policy Exchange(2012)는 영국에서 빅데이 터 도입 시, 공공무분에서는 연간 160억-330억 파운드를 절감할 것으로

서 론

<<

1

(26)

예측하고 있고, CEBR(2012)는 향후 5년간(‘12~’17년) 영국 산업전체에 서 약 2,160억파운드(약 395조원)의 경제적 효과가 발생할 것으로 전망 하고 있다. 특히, 빅데이터는 미래 국가 경쟁력에도 큰 영향을 미칠 것으로 기대하 여 국가별로는 안전을 위협하는 글로벌요인이나 테러, 재난재해, 질병, 위기 등에 선제적으로 대응하기 위해 우선적으로 도입하고 있다. 샌프란 시스코 경찰청은 범죄예방지역 및 시각을 예측하여 범죄를 미연에 방지 하기 위한 범죄예방 시스템을 구축하였다. 싱가포르는 테러 및 전염병으 로 인한 불확실한 미래를 대비하기 위해 2004년부터 빅데이터를 관리하 기 위한 RAHS(Risk Assessment & Horizon Scanning)를 구축하여 운 영하고 있다. 영국은 The Foresight Horizon Scanning Centre를 설 립·운영하여 비만대책 수립, 잠재적 위험관리(해안침식, 기후변화), 전염 병 대응 등 사회 전반의 다양한 문제에 빅데이터 기술을 활용하고 있다. OECD는 빅데이터를 비즈니스 효율성을 제공하는 새로운 자산으로 인식 하여 제 15차 WPIIS 회의1)_{에서 빅데이터의 경제학 측정을 의제로 채택} 하였다. 한국의 경우 한국정보화진흥원(www.nia.or.kr)은 2012년 자살 로 언급된 빅데이터를 수집하여 온라인 자살관련 Buzz의 발생 패턴에 따 라 보다 체계적으로 대응할 수 있는 자살예방체계를 설계할 수 있다는 가 능성을 보였고, 한국보건사회연구원(www.kihasa.re.kr)에서는 2012년 구글 검색트랜드를 활용하여 자살검색량과 자살률간의 관계를 밝혔다. 한편, 한국은 최근 정부3.0과 창조경제의 추진과 실현을 위하여 현 정 부의 주요정책과제를 지원하기 위하여 다양한 분야에 빅데이터의 활용가 치가 강조되고 있다. 보건의료 부문에서는 바이오센싱, 영상진단, 유전체

1) OECD, 15TH MEETING OF THE WORKING PARTY ON INDICATORS FOR THE INFORMATION SOCIETY, 7-8 June 2011.

(27)

분석 등 데이터가 급속하게 증가함에 따라 보건의료 빅데이터의 자원화 및 가치창출을 위한 산업의 생태계 조성을 필요로 하고 있다. 사회복지 분야에서는 사회복지통합관리망 구축 운영에 따른 데이터의 폭증과 공공 부조, 사회보험, 사회서비스 등 사회보장 전반에 대한 데이터 기반 정책 수립과 현안에 대한 선제적 대응을 위해 빅데이터의 연계 및 분석·활용을 시도하고 있다. 보건복지 빅데이터는 다른 분야 보다 수요자에게 직접적 인 영향을 주는 것으로 규모가 방대할 뿐 아니라 효율적 관리와 활용을 통한 경제적 가치는 무한할 것으로 예측되고 있다. 특히, 저출산 고령화 가 급속히 진전되고 보건복지서비스가 공급자 중심에서 수요자 중심의 맞춤형 서비스 체계로 변화됨에 따라 대국민 보건의료 서비스와 복지전 달체계를 개선하고 행정비용을 줄이기 위해서 보건복지 분야 빅데이터의 효율적 관리와 활용방안의 마련이 요구된다.

제2절 연구 목적

본 연구는 국내외의 보건복지 관련 빅데이터 현황과 기술을 분석하고 수요공급의 예측과 분석사례를 통하여 수요자 중심의 맞춤형 서비스를 위한 보건복지 빅데이터의 효율적 관리방안을 제시하는 것으로 구체적인 연구목적은 다음과 같다. 첫째, 국내외 빅데이터의 전망, 기술, 활용, 분석방법, 프라이버시 보호 방안 등을 분석하여 현황 및 문제점을 파악한다. 둘째, 주요국과 우리나라의 공공 데이터 공개현황을 분석하여 공공데 이터의 효율적 관리방안을 제시한다. 셋째, 우리나라 보건복지 빅데이터 이슈분석과 통계 제공 현황을 분석한다. 넷째, 국내 보건복지 빅데이터 수요공급을 예측하기 위한 모형을 개발한다.

(28)

다섯째, 보건복지 분야 소셜 빅데이터 사례분석을 통하여 보건복지 정 책개발과 위험요인 예측을 위한 방안을 제시한다. 여섯째, SWOT 분석을 실시하여 빅데이터 활용을 위한 세부전략을 도 출하고 보건복지 빅데이터 활성화 전략 및 발전방안을 제시한다. 본 연구는 보건복지 분야의 빅데이터 기술과 정책 수요를 예측함으로 써 실효성 있는 보건복지 빅데이터 정책수립을 가능하게 하고 빅데이터 연계를 통한 사전예측과 위험징후에 대한 선제적 대응체계의 구축이 가 능할 것으로 본다. 또한 소셜 빅데이터의 다양한 분석방법론을 제시함으 로써 관련 인재양성 및 서비스 산업 발굴을 통한 일자리 창출에 기여할 것으로 본다.

제3절 연구내용 및 연구방법

본 연구는 총 8개의 장으로 구성하였다. 제1장 ‘서론’에서는 국내외 문헌분석과 웹사이트 검색을 통하여 국내 외 빅데이터의 도입 배경과 필요성 그리고 빅데이터의 개념에 대해 설명 하였다. 제2장 ‘이론적 배경’에서는 문헌분석, 웹사이트 검색, 해외출장 등을 통하여 국내외 빅데이터 전망, 기술, 활용, 분석방법, 프라이버시 등 빅데이터의 전반적인 자원과 활용방안에 대해 살펴보았다. 제 3장 ‘ 국내 외 공공 빅데이터 공개현황’에서는 문헌분석과 웹사이트 검색을 통하여 공공데이터 출연배경과 빅데이터 관련부서 현황, 국내외 공개·개방된 빅 데이터 현황 및 활용방안에 대해 살펴보았다. 제4장 ‘보건복지 이슈분석 및 통계제공 현황’ 에서는 네트워크분석, 문헌분석, 기관별 보건복지 통 계정보시스템 분석을 통하여 국내 주요학술지에 게재된 보건복지 관련 논문들의 키워드를 분류하여 주요 이슈를 분석하였고 통계제공 현황을

(29)

분석하여 보건복지 통계 관리방안을 제시하였다. 제5장 ‘보건보건 빅데 이터 수요공급 예측’에서는 우리나라 빅데이터 수용요인 분석과 빅데이 터 분석방법론을 적용하여 우리나라 온라인 뉴스사이트, 블로그 카페, SNS, 게시판 등에서 수집한 소셜 데이터를 바탕으로 국내 공공과 보건의 료 분야 빅데이터 수요공급을 예측하였다. 그리고 소셜 빅 데이터를 활용 하여 보건복지 정책 수요를 예측하였다. 제 6장 ‘소셜 빅데이터를 활용한 사회위험요인 예측’에서는 빅데이터분석방법론을 적용하여, 우리나라 사 회위험요인인 비만과 청소년 자살에 대한 위험요인을 예측하였다. 제 7 장 ‘보건복지 빅데이터 활성화 전략 및 발전방안’에서는 SWOT분석에서 도출된 세부전략에 대한 활성화 방안을 제시하였다.

제4절 빅데이터의 개념

빅데이터(Big Data)는 Wikipedia(2013. 5. 30.)에서 ‘기존 데이터베 이스 관리도구로 데이터를 수집･저장･관리･분석의 역량을 넘어서는 대 량의 정형 또는 비정형 데이터 세트 및 이러한 데이터로부터 가치를 추출 하고 결과를 분석하는 기술’로 정의하고 있다. Gartner(2012)는 더 나은 의사결정, 시사점 발견 및 프로세스 최적화를 위해 사용되는 새로운 형태 의 정보처리가 필요한 대용량, 초고속 및 다양성의 특성을 가진 정보자산 으로 정의하고 있으며, 국가정보화전략위원회에서는 ‘대용량 데이터를 활용, 분석하여 가치 있는 정보를 추출하고, 생성된 지식을 바탕으로 능 동적으로 대응하거나 변화를 예측하기 위한 정보화 기술’이라고 정의하 고 있다(국가정보화전략위원회, 2011). 삼성경제연구소는 ‘빅데이터란 수십에서 수천 테라바이트 정도의 거대한 크기를 갖고 여러 가지 다양한 비정형 데이터를 포함하고 있으며, 생성, 유통, 소비가 몇 초에서 몇 시간

(30)

구분 주요내용 규모의(Volume) 증가 기술적인 발전과 IT의 일상화가 진행되면서 디지털 정보량이 기하 급수적으로 폭증하여 제타바이트(ZB)시대로 진입 다양성(Variety) 증가 로그기록, 소설, 위치, 소비, 현실데이터 등 데이터 종류의 증가와 멀티미디어 등 비정형화된 데이터 유형의 다양화 복잡성(Complexity) 증가 구조화되지 않은 데이터, 저장방식의 차이, 중복성 문제, 데이터 종 류 확대, 데이터 관리 및 처리의 복잡성 심화 속도(Velocity) 증가 사물정보(센서, 모니터링), 스트리밍 정보 등 실시간 정보의 증가로 데이터 생성과 이동 속도가 증가, 대규모 데이터 처리와 정보의 활 용을 위한 데이터 처리 및 분석 속도가 중요 단위로 일어나 기존의 관리 및 분석 체계로는 감당할 수 없을 정도의 거 대한 데이터의 집합으로 대규모 데이터와 관계된 인력, 조직, 기술 및 도 구(수집, 저장, 검색, 공유, 분석, 시각화 등)까지 모두 포함하는 개념’으 로 정의하고 있다(함유근･채승병, 2012). 이와 같은 정의를 살펴볼 때 빅 데이터란 엄청나게 많은 데이터로 양적인 의미를 벗어나 데이터 분석과 활용을 포괄하는 개념으로 사용되고 있다(송태민, 2012). 한편, 정부3.0의 효과적인 추진과 생애주기별 맞춤형 보건복지 및 국 민 행복 실현을 위한 보건복지분야 빅데이터의 효율적 활용방안 모색하 기 위하여 보건복지분야 빅데이터 추진방안이 마련되었다. 정부 3.0은 공공정보를 적극 개방·공유하고, 부처 간 칸막이를 없애고 소통·협력함으로써 국정과제에 대한 추진동력을 확보하고 국민 맞춤형 서비스를 제공함과 동시에 일자리 창출과 창조경제를 지원하는 새로운 정부운영 패러다임을 의미하고 있다. 빅데이터의 주요 특성은 일반적으 로 3V(Volume, Variety, Velocity)를 기본으로 2V(Value, Veracity) 나 1C(Complexity)의 특성을 추가하여 설명하고 있다. 특히, 보건복지 분야에서는 국민의 생명과 직결되는 정보를 다루고 있어 빅데이터에 있 어 가치(Value)와 신뢰성(Veracity)은 매우 중요하다고 할 수 있다.

〈표 1-1〉 빅데이터의 4가지 구성요소

(31)

빅데이터의 특성(5V, 1C)은 보건복지부 3.0의 추진 전략과 유기적인 연관성이 있다(오미애, 2014). 〔그림 1-1〕과 같이 보건복지부 3.0의 ‘소 통하는 투명한 보건복지’는 빅데이터의 이용 활성화를 위해 공공 데이터 를 적극 개방함으로써 활용 가능한 자료가 복잡하고(Complexity), 양이 매우 방대(Volume)해진다. 보건복지부 3.0의 ‘일 잘하는 유능한 보건복 지’는 빅데이터를 활용한 과학적 행정 구현으로 다양한(Variety) 정보의 결합이 가능하고, 정부운영시스템 개선으로 인한 자료의 축적 속도 (Velocity)가 빠르다. 보건복지부 3.0의 ‘국민중심 보건복지 서비스’는 빅데이터 분석결과를 기초로 수요자 맞춤형 서비스 통합을 제공함으로써 신뢰성 있는(Veracity) 새로운 가치(Value)를 창출한다. 〔그림 1-1〕 빅데이터의 특성과 보건복지부 3.0 추진 전략

(32)

(33)

빅데이터 이론적 배경

제1절 빅데이터 전망

제2절 빅데이터 관련 기술

제3절 보건복지분야 빅데이터 활용 제4절 빅데이터 프라이버시 보호방안

(34)

(35)

제1절 빅데이터 전망

〔그림 2-1〕과 같이 스마트폰, 스마트TV, RFID, 각종 센서의 급속한 보급과 모바일 인터넷, 소셜미디어, u-Health서비스의 확산으로 데이터 가 폭발적으로 증가함에 따라 혼돈과 잠재적인 가능성이 공존하는 빅데 이터 시대가 도래하게 되었다(정지선, 2011). 〔그림 2-1〕 빅데이터의 시대별 특징 빅데이터는 국내외 금융, 유통, 통신, 제조, 서비스, 공공, 의료 등 다양 한 분야의 산업에서 활용되고 있다. 그러나 국내에서는 아직 관련기업의 인식수준은 낮은 편이며 실제로 활용하고 있는 사례도 드문 것으로 나타 나고 있다(테이코산업연구소, 2013). 미국은 기업의 70%정도는 빅데이 터 분석을 통해 수요자, 시장, 파트너, 비용, 인력 운용 측면에서 새로운

빅데이터 이론적 배경

<<

2

(36)

사실들을 발견할 수 있을 것으로 보고 있다(TDWI, 2011). 일본은 2012 년 현재 빅데이터는 발전단계이며 빅데이터를 이용하는데 있어 문제가 되는 요인으로 인재의 확보를 들고 있고, 획기적인 분석방법이 개발되면 크게 성장할 가능성이 있다고 보고 있다(独立行政法人情報処理推進機構, 2012). 가트너는 2011년 이머징 기술 전망에서 ‘빅데이터’를 새롭게 포 함시키고 앞으로 주목해야할 기술로 소개하면서 빅데이터는 현재 기술 발생단계이며(Technology Trigger) 향후 2-5년 후에 성숙할 것이며, 2012년 가장 빠르게 성숙하는 신기술로 전망하고 있다(Gatner, 2011/2012)(그림 2-2 참조). 〔그림 2-2〕 2012년도 가트너의 이머징 기술 하이프사이클(Hype Cycle) 전 세계 빅데이터 시장은 2010년 32억달러에서 2015년 169억～321 억 달러로 향후 5년간 연평균 39%～60% 성장을 예측하고 있다(KISTI, 2013)(그림 2-3 참조). <표 2-1>은 국내 빅데이터 시장 현황 및 전망에 관한 것으로 국내 빅데이터 시장은 2015년 약 2억 6,320만달러, 2020 년 약 9억달러(한화 1조원)에 이를 것으로 예상되며, 향후 빅데이터 기술 이 전 산업 영역으로 확장 적용될 것을 감안한다면 빅데이터 관련 시장규 모는 예상치를 상회할 것으로 전망하고 있다(KISTI, 2013).

(37)

〔그림 2-3〕 주요 시장조사 기관 빅데이터 세계시장 규모 〈표 2-1〉 국내 빅데이터 시장 현황 및 전망 (단위: 백만 $) 구분 2010 2011 2012 2013 2014 2015 연평균성장율 Servers 0.6 0.8 0.9 1.1 1.5 2.0 27.6% Storage 3.8 6.8 12.5 18.9 24.0 29.0 50.0% Networking 3.9 4.6 7.1 9.8 12.2 14.4 25.3% Software 16.9 20.4 29.1 37.8 47.3 65.6 22.9% Services 42.8 46.2 69.7 95.7 123.2 152.2 23.6% 합계 68.0 78.8 119.3 163.3 208.2 263.2 25.1% 세계시장비중 2.1 1.7 1.7 1.7 1.6 1.6 자료: 방송통신 산업 통계연보(2012), ITSTAT(정보통신산업진흥원), IDC(2012)자료를 기반으로 KSTI추정(방송통신위원회 및 한국정보통신협회, 지식경제부 및 한국전자통신산업진흥회가 제공하는 IT 산업 통계(ITSTAT)를 기반으로 국내 서버(중대형 컴퓨터), 스토리지(저장장치), 네트워크 장비, 소프트웨어, IT 서비스 시장 규모를 조사 한 후 빅데이터 부문 예산 진입 비율 을 적용하여 산출함) 국내외를 막론하고 많은 IT업체가 빅데이터의 활용과 지원서비스에 주 력하고 있다. 미국의 IT벤더는 2009년 이후 빅데이터 관련 기업을 인수 합병하거나 제품과 서비스를 계속해서 투입하고 있다. 일본은 2010년 이 후 주요 IT사업자가 Hodoop의 통합(intergration) 사업을 전개하고 있 고, 복합 이벤트 처리기술의 개발에 경쟁을 벌이고 있다(송태민, 2013).

(38)

〈표 2-2〉 일본 IT벤드의 빅데이터 이용 동향

이와 같이 많은 국가에서 빅데이터가 산업에 미치는 파급효과를 전망 함에 따라 빅데이터는 정보통신기술과 함께 국가의 새로운 성장동력이 될 것으로 보여진다(김정선 외, 2014).

(39)

구분 인프라 SW제품 분석 SW제품 어플라이언스 서비스 플랫폼 주요 내용 데이터 수집, 저장, 관리, 표현 등 빅데이터 처리 분석 플랫폼을 위한 인프라가되는 단일 소프트웨어 제품 통계, 데이터 마이닝, 기계학습, 패턴인식 등을 통한 분석을 제공하는 실시간 분석 소프트웨어 제품 여러 가지 빅데이터 쿼리 소프트웨어가 최적화되어 설치된 통합 제품 빅데이터 분석을 위한 인프라와 서비스 동시 제공

제2절 빅데이터 관련 기술

정보통신기술 주도권이 인프라, 기술, SW 등에서 데이터로 이동됨에 따라 빅데이터의 역할은 분석과 추론(전망)의 방향으로 진화되어 가치창 출의 원천요소로 작용하고 있다(정지선, 2011). 〔그림 2-4〕 빅데이터의 진화단계 국내 빅데이터 시장은 <표 2-3>와 같이 데이터를 수집, 저장, 관리, 표 현하는 인프라 SW제품으로 하둡과 맵리듀스 기술 등이 있다. 통계, 데이 터마이닝, 기계학습, 패턴인식 등을 위한 분석 SW제품으로 IBM, 솔트룩 스 등에서 개발한 기술이 있다. 서버, 스토리지, 운영체제, 데이터베이스 등 여러 소프트웨어와 하드웨어를 통합하는 어플라이언스는 EMC, IBM, Oracle 등에서 개발된 기술이 있다. 빅데이터 분석, 인프라, 서비스를 동 시에 제공하는 서비스 플랫폼으로 Google, Amazon, MS, SKT 등에서 개발된 기술이 있다(KISTI, 2013). 〈표 2-3〉 빅데이터 기술 및 서비스 현황

(40)

구분 인프라 SW제품 분석 SW제품 어플라이언스 서비스 플랫폼 주요 제품 기술 Hadoop, Hbase, Cassandra, NoSQL, MapReduce EMC Greenplum, IBM MPP Data Warehouse, Oracle Big Data Appliance, Teradata Aster Data, 솔트룩스 트루스토리, 사이람 NetMetrica, 넥스알 NDAP, 그루터 BAAS EMC Greenplum, IBM MPP Data Warehouse, Oracle Big Data Appliance, Teradata Aster Data, Google BigQuery, Amazon AWS, MS Azure, social metrics, 다음소프트, SKT 스마트인사이트 자료: 2012 중소기업 기술로드맵,「빅데이터 처리분석 플랫폼」, 한국과학기술정보연구원 빅데이터 기술은 ‘생성→수집→저장→분석→표현’의 처리 전 과정을 거치면서 요구되는 개념으로 분석기술과 인프라는 <표 2-4>과 같다. 〈표 2-4〉 빅데이터 처리 프로세스별 기술 영역

(41)

빅데이터 분석기술은 통계, 데이터마이닝, 기계학습, 자연어처리, 패턴 인식, 소셜네트워크 분석, 비디오･오디오･이미지 프로세싱 등이 해당된 다. 빅데이터의 활용, 분석, 처리 등을 포함하는 인프라에는 BI, DW, 클 라우드 컴퓨팅, 분산데이터베이스(NoSQL), 분산 병렬처리, 하둡

(Hadoop)2)_{분산파일시스템(HDFS), MapReduce 등이 해당된다(Pete}

Warden, 2011; 장상현, 2012; 송태민 2012에서 재인용). 그리고 다양 한 데이터 소스에서 수집된 빅데이터를 처리･분석하여 지식을 추출하고 이를 기반으로 지능화된 서비스를 제공하기 위해서는 〔그림 2-5〕과 같이 빅데이터 플랫폼이 필요하다(황승구 외, 2013). 〔그림 2-5〕 빅데이터 플랫폼 빅데이터 관련기술은 크게 수집기술, 저장기술, 처리기술, 분석기술, 활용기술, 기타기술로 정의할 수 있다(김정선 외, 2014). 본 연구에서는 수집기술로는 ‘크롤링, 카산드라, 로그수집기, 센싱, RSS, Open API’로 정의하였다. 저장기술은 ‘데이터웨어하우스, RDB, 클라우드, X86, 디스 2) 하둡은 대용량 데이터 처리 분석을 위한 대규모 분산 컴퓨팅 지원 프레임워크로 하둡 분 산파일시스템(HDFS)과 분산처리를 위한 맵리듀스가 핵심요소이며 그외 분산DB인 Hbase, 검색엔진(Nutch), 쿼리 언어(Pig) 등을 포함한다.

(42)

크, 스토리지, NoSQL, SAN’으로 정의하였다. 처리기술은 ‘가상화, 맵리 듀스, 스케일아웃, 어플라이언스, 하둡, 인-메모리, Hbase, R, 드레멜, 퍼콜레이터, 너치, 인덱싱, 스톰, 하둡분산파일시스템’으로 정의하였다. 분석기술은 ‘NDAP, 기계학습, 네트워크, 시멘틱웹, 온톨로지, 패턴인식, EDW, 데이터마이닝, 텍스트마이닝, 오피니언마이닝, 웹마이닝, 현실마 이닝, 소셜네트워크분석, 클러스터분석, 통계적분석, 음성인식, 영상인 식, AR, AI, Mahout, ETL, 알고리즘, 프리젤’로 정의하였다. 활용기술 은 ‘BI, 인포그래픽스, SaaS, PaaS, IaaS, DaaS’로 정의하였으며 ‘아파 치, 자바, HTML5’는 기타기술로 정의하였다.

1. 수집기술

기존 검색포털이나 통신사에서 수행하고 있는 빅데이터 수집기술[ (주)SKT 스마트 인사이트 빅데이터 수집 방식]은 〔그림 2-6〕과 같다. 빅 데이터 수집기술은 크게 데이터 크롤러인 웹로봇이 매일 뉴스와 트위터 를 방문하여 데이터를 수집하여 해당 기관의 DB에 보관하는 Full Crawl 방식이 있고, 새로운 토픽(예를 들면: 자살)이 설정되면 수집조건에 따라 웹로봇이 설정된 사이트를 방문하여 데이터를 수집하는 Focus Crawl 방 식이 있다. 데이터 수집에는 ETL(Extraction Transformation Loading)과 크롤링엔진(Crawling Engine)을 사용한다. ETL은 다양한 소스시스템으로부터 필요한 데이터를 추출하여 변환작업을 거쳐 저장하 거나 분석을 담당하는 시스템으로 전송 및 적재하는 모든 과정을 포함한 다. 크롤링엔진은 로봇이 거미줄처럼 얽혀있는 인터넷 링크를 따라다니 며 방문한 사이트의 모든 페이지의 복사본을 생성함으로 문서를 수집한 다. 하둡 분산파일시스템을 이용하여 수천 대의 노드들을 연결하여 수 페 타바이트급의 저장용량을 제공하고, 다이나모(Dynamo) 분산데이터 관

(43)

영역 내용 크롤링 (Crawling) y 주로 검색엔진의 웹 로봇을 이용하여 SNS, 뉴스, 웹 정보 등 조직 외부 즉, 인터넷에 공개되어 있는 웹 문서(정보) 수집 [1] 카산드라 (Cassandra) y 분산 시스템에서 방대한 분량의 데이터를 처리할 수 있도록 디자인 된 오픈 소스 데이터베이스 관리 시스템 [2] 로그수집기 (Log collector) y 조직 내부에 존재하는 웹서버의 로그 수집, 웹 로드, 트랜잭션 로그, 클릭 로그, DB 로그 데이터 등을 수집 [1] 센싱 (Sensing) y 각종 센서를 통해 데이터 수집 [1] 리시스템은 데이터를 분할하여 노드들을 배치함으로써 대용량의 데이터 를 관리할 수 있다(황승구 외, 2013, p86; 송태민·송주영, 2013에서 재 인용). 인메모리컴퓨팅은 데이터베이스 자체를 메모리에 올려서 입출력 을 빠르게 하여 데이터의 분석과 저장, 제공을 빠르게 지원한다. 〔그림 2-6〕 빅데이터 수집 기술 빅데이터 수집기술로는 <표 2-5>과 같이 크롤링, 카산드라, 로그수집 기, 센싱, RSS 등이 있다. 〈표 2-5〉 빅데이터 수집기술

(44)

영역 내용 RSS (Really Simple Syndication or Rich Site Summary) y 데이터의 생산, 공유, 참여 환경인 웹2.0을 구현하는 기술로 필요한 데이터를 프로그래밍을 통해 수집 [1] Open API (Open Application Program Interface) y 서비스, 정보, 데이터 등을 어디서나 쉽게 이용할 수 있도록 운영체제와 응용프로그램 사이의 통신에 사용되는 언어나 메 시지 형식의 개방된 API로 데이터 수집 방식을 제공 [1] 영역 내용 데이터웨어하우스 (DW, Data Warehouse) y 사용자의 의사 결정 지원을 위하여 다양한 운영 시스템에서 추 출, 변환, 통합, 요약된 데이터베이스 [4] RDB (Relational DataBase) y 관계형데이터를 저장, 수정하고 관리할 수 있는 데이터베이스 로 SQL 문장을 통하여 데이터베이스의 생성, 수정 및 검색 등 서비스 제공 [5] 클라우드 (Cloud) y 인터넷 기반의 컴퓨팅 기술로 무형의 형태로 하드웨어, 소프트 웨어 컴퓨팅 자원을 제공하는 기술 [6] X86 y 인텔이 개발한 마이크로프로세서 계열을 이르는 말로 이들과 호 환되는 프로세서들에서 사용한 명령어 집합 구조들을 통칭 [7] 디스크, 스토리지 (Disk, Storage) y 데이터와 명령어를 저장하기 위해 사용하는 장치로 빠른 속도 및 안정성을 강화한 하드디스크 기반의 저장장치 NoSQL (Not only SQL) y 클라우드 환경에서 발생하는 빅데이터를 효과적으로 저장, 관 리하는 비정형 데이터 관리를 위한 데이터 저장 기술 [1] 자료: [1] 신신애․김근은(2013). 빅데이터 기술분류 및 현황. 한국정보화진흥원 빅데이터전략센터. 2013.12 [2] 최성곤․오진태․장종수. 미래 지식 서비스를 위한 빅데이터 처리의 기술적 요구사항. 한국 정보기술학회지 제10권 제3호, pp.5-10.

2. 저장기술

빅데이터 저장기술로는 <표 2-6>과 같이 데이터웨어하우스, RDB, 클 라우드, X86, 디스크(스토리지), NoSQL, SAN 등이 있다. 〈표 2-6〉 빅데이터 저장기술

(45)

영역 내용 SAN (Storage Area Network) y 대규모 네트워크 사용자들을 위하여 디스크 어레이, 테이프 라이브러리, 옵티컬 주크박스 등과 같은 서로 다른 종류의 데 이터 저장장치를 관련 서버와 함께 연결하는 특수목적용 스토 리지 전용 네트워크 [8] 영역 내용 가상화 (Visualization) y 물리적 컴퓨팅 자원을 논리적으로 나누어 사용자에게 서로 다 른 서버, 운영체제 등의 장치로 보이게 하는 기술 [9] 맵리듀스 (MapReduce) y 분산 시스템 상에서 데이터 추출, 대용량 데이터를 병렬처리 로 지원하기 위하여 구글이 제안한 분산처리 소프트웨어 프레 임워크 [10] 스케일아웃 (Scale Out) y 서버의 대수를 늘려 트래픽을 분산, 처리 능력을 향상시키는 방식 어플라이언스 (Appliance) y 데이터웨어하우징을 위해 서버, 스토리지, 운영체제, 데이터베 이스, BI, 데이터마이닝 등 여러가지 하드웨어(HW)와 소프트 웨어(SW)가 최적화의 상태로 통합된 장비 [2] 하둡 (Hadoop) y 분산 시스템 상에서 대용량 데이터 처리 분석을 위한 대규모 분산 컴퓨팅을 지원하는 자바기반 소프트 프레임워크 [10] 인메모리 (In-Memory) y 메모리 상에 필요한 데이터와 이의 인덱스를 메모리에 저장하 여 처리하는 기법 [10] 에이치베이스 (Hbase) y 컬럼 기반의 데이터베이스로 대규모 데이터 처리를 위한 분산 데이터 저장소 [11] 자료: [4] http://ko.wikipedia.org/wiki/데이터 웨어하우스(검색일자: 2014. 9. 29) [5] 양현철․김진철․신신애․김배현. 빅데이터 활용 단계별 업무절차 및 기술활용 매뉴얼 V1.0. 미래창조과학부․한국정보화진흥원. 2014.05. [6] http://ko.wikipedia.org/wiki/클라우드 컴퓨팅(검색일자: 2014. 9. 29) [7] http://ko.wikipedia.org/wiki/x86(검색일자: 2014. 9. 29) [8] http://www.terms.co.kr/SAN.htm(검색일자: 2014. 9. 29)

3. 처리기술

빅데이터 처리기술로는 <표 2-7>과 같이 가상화, 맵리듀스, 스케일아 웃, 어플라이어스, 하둡, 인메모리, 에이치베이스, R, 드레멜, 퍼클레이 터, 너치, 인덱싱, 스톰, 하둡분산파일시스템 등이 있다. 〈표 2-7〉 빅데이터 처리기술

(46)

영역 내용 R y 통계계산 및 시각화를 위해 R 언어와 개발환경을 제공하며 이 를 통해 기본적인 통계 기법부터 모델링, 최신 데이터 마이닝 기법까지 구현 및 개선 가능한 오픈소스 프로젝트 [1] 드레멜 (Dremel) y 빠른 속도로 쿼리를 수행하여 대용량 데이터를 분석하는 분산 처리가 지원되는 기술 [13] 퍼콜레이터 (Percolator) y 구글의 검색 엔진에서 검색 인덱스를 작성하기 위해 채택된 기 술 [14] 너치 (Nutch) y 자료와 정보를 검색하는 크롤러 [15] 인덱싱 (Indexing) y 대량의 데이터를 유형이나 연관성 등 일정한 순서에 따라 체계 적으로 정리하여 특정 정보를 쉽게 발견하기 위한 기법 [16] 스톰 (Storm) y 다양하게 분산되어 있는 정보들로부터 메타 데이터의 추출, 통합, 저장, 관리 및 활용을 위한 기반 구조, 응용 프레임워크, 개발 방법론을 제공하는 데이터 추론 플랫폼 [17] 하둡 분산 파일 시스템 (HDFS, Hadoop Distributed File System) y 이기종 간의 하드웨어로 구성된 클러스터에서 대용량 데이터 처리를 위하여 개발된 분산 파일 시스템으로 분산된 서버의 로컬 디스크에 파일을 저장하고 파일의 읽기, 쓰기 등과 같은 연산을 운영체제가 아닌 API를 제공하여 처리 [10] 자료: [9] http://ko.wikipedia.org/wiki/(검색일자: 2014. 9. 29) [10] 정지선. 성공적인 빅데이터 활용을 위한 3대 요소: 자원, 기술, 인력. IT & Future Strategy 제3호. 한국정보화진흥원. 2012.04.

[11] 유민석. 빅데이터를 위한 EDW(Enterprise Data Warehouse) 고도화 방안. 정보처리학 회지 제19권 제2호. pp54-61. 2012.03. [13] 서정욱․오영일․김현준․심탁길. 대용량 데이터 병렬 쿼리 엔진 성능 비교 분석. 2012년 한 국경영정보학회 추계학술대회. pp.387-391. [14] http://blog.acronym.co.kr/394(검색일자: 2014. 9. 29) [15] http://nblack.tistory.com(검색일자: 2014. 9. 29) [16] 김혜선․강부중․양지수․임을규. 침입 탐지 시스템에서 증가형 접두사 인덱싱을 사용한 효율 적인 시그니쳐 탐지 방법. 보안공학연구논문지, 제9권 제1호. pp.15-30. 2012.02. [17] 김정준․한성근․신인수․한기준. 공간 Hbase:공간 빅 데이터를 위한 Hbase 확장. 정보과학 회논문지: 데이타베이스 제40권 제5호. pp.295-304. 2013.10.

4. 분석기술

빅데이터 분석기술로는 <표 2-8>과 같이 NDAP, 기계학습, 네트워크, 시멘틱웹, 온톨로지, 패턴인식, EDW, 데이터마이닝, 덱스트마이닝, 오피 니언마이닝, 웹마이닝, 현실마이닝, 소셜네트워크분석, 클러스터분석, 통 계적분석, 음성인식, 영상인식, 증강현실, 인공지능, Mahout, ETL, 알고 리즘, 프레겔 등이 있다.

(47)

영역 내용 NDAP

(NexR Data Analytics Platform) y 데이터 형태와 관계없이 모든 데이터의 수집, 처리, 저장, 분 석 등과 관련한 모든 엔드 투 엔드 서비스를 제공하는 플랫폼 기계 학습 (Machine Learning) y 인공지능의 한 분야로 패턴 인식 등 컴퓨터가 학습할 수 있도 록 알고리즘과 기술을 개발 [18] 네트워크 (Network) y 개인 또는 집단이 하나의 노드가 되어 각 노드들 간의 상호 의존적인 관계에서 만들어지는 관계 구조 시멘틱 웹 (Semantic Web) y 분산 환경에서 리소스에 대한 정보와 자원 사이의 관계 및 의 미 정보를 온톨로지 형태로 표현하고 이를 자동화 처리 가능 토록 하는 프레임워크 [19] 온톨로지 (Ontology) y 도메인 내에서 공유되는 데이터들을 개념화하고 명시적으로 정의한 기술 [20] 패턴인식 (Pattern Recognition) y 데이터로부터 중요한 특징이나 속성을 추출하여 입력 데이터 를 식별할 수 있는 부류로 분류하는 기법 [21]

EDW y 기존 DW(Data Warehouse)를 전사적으로 확장한 모델 [22] 데이터 마이닝 (Enterprise Data Warehouse) y 대용량의 데이터 , 데이터베이스 등에서 감춰진 지식, 기대하 지 못했던 경향, 새로운 규칙 등의 유용한 정보를 패턴인식, 인공지능 기법 등을 이용하여 데이터간의 상호 관련성 및 유 용한 정보를 추출하는 과정 [10] 텍스트 마이닝 (Text Mining) y 자연어로 구성된 비정형 텍스트 데이터에서 패턴 또는 관계를 추출하여 가치와 의미있는 정보를 찾아내는 기법 [10] 오피니언 마이닝 (Opinion Mining) y 웹 서버 내의 데이터베이스에 저장되어있는 어떤 주제 혹은 특정한 대상에 대한 사람의 의견을 포함하고 있는 텍스트 속 에서 의미를 추출, 분석하여 의미있는 정보를 찾는다 [23] 웹 마이닝 (Web Mining) y 인터넷 상에서 수집된 정보를 데이터 마이닝 방법으로 분석 통합하는 기법 [10] 현실 마이닝 (Reality Mining) y 사람들의 행동패턴을 예측하기 위해 현실에서 발생하는 사회적 행동과 관련된 정보를 휴대폰, GPS 등 기기를 통해 얻고 분석 하는 기법 [10] 소셜 네트워크 분석 (Social Network Analytics) y 소셜 미디어를 언어분석 기반 정보추출을 통해 이슈를 탐지하 고 흐름이나 패턴 등의 향후 추이를 분석하는 기법 [23] 클러스터 분석 (Cluster Analysis) y 관심과 취미에 따른 유사성을 정의하여 비슷한 특성의 개체들 을 합쳐 서로 다른 그룹의 유사 특성을 발굴하는 기법 [23] 통계적 분석 (Statistical Analysis) y 전통적인 분석 방법으로 주로 수치형 데이터에 대하여 확률을 기반으로 어떤 현상의 추정, 예측을 검정하는 기법 〈표 2-8〉 빅데이터 분석기술

(48)

영역 내용 음성인식 (Speech Recognition) y 사람의 음성을 컴퓨터가 해석하여 그 내용을 문자 데이터로 전환하는 처리 기법 영상인식 (Vision Recognition) y 객체 인식 기술을 이용하여 추출된 전자적 데이터를 여러 목 적에 따른 알고리즘을 적용하여 정보를 처리하는 기법 증강현실(AR) (Augmented Reality) y 가상 현실(VR, Virtual Reality)의 한 분야로 현실세계와 가상세계 를 중첩하여 사용자에게 보다 나은 현실감을 제공하는 기법 [26] 인공지능(AI) (Artificial Intelligence) y 인간의 지능을 연구하고 이를 모델링 하여 이론적 체계를 세 우고 다양한 응용 시스템으로 구현하는 기법 [5] Mahout (Apache Mahout) y 분산처리가 가능하고 확장성을 가진 기계학습을 기반으로 비 슷한 속성분류를 처리하는 기법의 라이브러리 ETL (Extraction, Transformation, Loading) y 필요한 소스데이터 추출 후 변환을 거쳐 시스템에서 시스템으 로 데이터를 이동(추출, 전송, 변환, 적재)시키는 기법 [10] 알고리즘 (Algorithm) y 컴퓨터 혹은 디지털 대상이 과업을 수행하는 방법에 대한 설명 이자 명확히 정의된 한정된 개수의 규제나 명령들의 집합 [29] 프레겔 (Pregel) y 정점 중심의 메시지 전달 방식을 이용하는 그래프 처리에 적 합한 클라우드 기반 분산 처리 프레임워크 [30] 자료: [18] http://ko.wikipedia.org/wiki/(검색일자: 2014. 9. 29) [19] http://ko.wikipedia.org/wiki/시맨틱 웹 [20] 황미녕․이승우․조민희․김순영․최성필․정한민. 연구 개발 트렌드 분석을 위한 기술 지식 온 톨로지 구축. 한국콘텐츠학회논문지 ‘12 Vol. 12 No. 12. pp.35-45. [21] http://www.aistudy.com/pattern/pr_definition.htm/(검색일자: 2014. 9. 29) [22] http://www.dbguide.net/knowledge.db?cmd=view&boardUid=125292&boar dConfigUid=19&categoryUid=57/(검색일자: 2014. 9. 29) [23] 최성우․김호영․김영국. 빅데이터 기술 및 분석 기법의 연구 동향. 2012년 가을 학술발표 논문집 Vol. 39, No.2(A). pp.194-196 [26] 반경진․류남훈․김경옥․한재정․김응곤. 증강현실을 위한 가상 공간좌표 생성. 한국콘텐츠 학회 2009 춘계종합학술대회. pp.765-769 [29] 오세옥․이재현. 소프트웨어 ‘페이스북’의 알고리즘 분석-행위자 네트워크 관점-. pp.136-183. 2013.02. [30] 신은옥․이성민․정연돈. Pregel을 이용한 독립집합 문제의 병렬 분산 알고리즘. 2012 한 국컴퓨터종하뷰학술대회 논문집 Vol.39, No.1(C). pp.104-106.

5. 활용기술

빅데이터 활용기술로는 <표 2-9>과 같이 BI, 인포그래픽스, SaaS, PaaS, IaaS, DaaS 등이 있다.

(49)

영역 내용 BI (Business Intelligence) y 신속하고 정확한 비즈니스 의사결정에 필요한 데이터의 수집, 저 장, 처리, 분석하는 일련의 기술과 응용시스템 기술의 집합 [10] 인포그래픽스 (Infographics) y 복잡한 정보, 자료 또는 지식의 시각적 표현 [31] SaaS (Software as a Service) y 클라우드 환경에서 동작하는 온라인 오피스 등 서비스로서의 소 프트웨어 PaaS (Platform as a Service) y 클라우드 환경에서 동작하는 어플리케이션이나 서비스가 실행 되는 환경을 제공하는 서비스로서의 플랫폼 IaaS (Infrastructure as a Service) y 클라우드 환경에서 동작하는 OS 및 응용프로그램을 포함한 IT 자원(서버, 스토리지, DB 등)을 제공 가능한 서비스로서의 인프라 DaaS (Desktop as a Service) y 클라우드 환경에서 동작하는 데스크톱으로 PaaS, SaaS를 결합 한 데스크톱 서비스 영역 내용 아파치 (Apache) y 클라이언트 요청을 처리하기 위해 모듈화된 접근을 사용하여 주요 소스코드를 변경하지 않고 서버측 기능을 구현하는 유연 하고 확장 가능한 웹 서버 자바 (JAVA) y 객체 지향적 프로그래밍 언어로 보안성이 뛰어나며 컴파일한 코 드는 다른 운영체제에서 사용할 수 있도록 클래스(class)로 제공 HTML5

(Hyper Text Mark-up Language 5) y 복잡한 애플리케이션까지 제공할 수 있는 웹 애플리케이션 플 랫폼으로 진화한 HTML을 개선한 마크업 언어 〈표 2-9〉 빅데이터 활용기술 자료: [31] http://ko.wikipedia.org/wiki/(검색일자: 2014. 9. 29)

6. 기타기술

빅데이터 기타 기술로는 <표 2-10>과 같이 아파치, 자바, HTML5 등 이 있다. 〈표 2-10〉 빅데이터 기타기술