Ⅰ. 서론
1)
인터넷 이후 기업에 가장 큰 영향을 미칠 것으로
‘기대되는 분야’ (네이쳐, 2008), 미래 경쟁력을 좌우 하는 ‘21세기 원유’(가트너, 2011), 세계 개발의 새로
* 평택대학교 데이터정보학과 조교수(주저자) ** 호원대학교 사이버수사보안학부 부교수(교신저자)
운 가능성을 여는 ‘중요한 자산’(다보스포럼, 2012) 등 화려한 주목을 받으며 사회 전반에 본격적으로 확산 되고 있는 기술 분야는 빅데이터 분야이다. 수집된 빅데이터로부터 얼마나 많은 가치를 창출할 수 있을 지를 결정하는 핵심은 분석 기술이며 더 나아가 예측 기술을 바탕으로 가치를 극대화하는 최적화된 정보 사회를 지향하는 것이 진화된 지능화 사회의 단면이
스트리밍 빅데이터의 프라이버시 보호 동반 실용적 분석을 통한 지식 활용과 재사용 연구
백 주 련*ㆍ이 영 숙**
Research of Knowledge Management and Reusability in Streaming Big Data with Privacy Policy through Actionable Analytics
Paik JuryonㆍLee Youngsook
<Abstract>
The current meaning of “Big Data” refers to all the techniques for value eduction and actionable analytics as well management tools. Particularly, with the advances of wireless sensor networks, they yield diverse patterns of digital records. The records are mostly semi-structured and unstructured data which are usually beyond of capabilities of the management tools. Such data are rapidly growing due to their complex data structures. The complex type effectively supports data exchangeability and heterogeneity and that is the main reason their volumes are getting bigger in the sensor networks. However, there are many errors and problems in applications because the managing solutions for the complex data model are rarely presented in current big data environments. To solve such problems and show our differentiation, we aim to provide the solution of actionable analytics and semantic reusability in the sensor web based streaming big data with new data structure, and to empower the competitiveness.
Key Words : Streaming Bigdata, Association Rules Mining, Knowledge Management
아닐까 한다.
전통적인 빅데이터의 개념은 단순히 대량의 데이 터를 의미했지만 현재의 빅데이터의 개념은 데이터 양 (volume) 뿐만 아니라, 대량화되고 복잡해진 데이 터의 수집ㆍ저장ㆍ관리ㆍ분석을 수행하는 데이터베 이스 관리도구 및 해당 데이터의 가치를 추출하고 유 용한 결과를 분석하여 활용하는 모든 기술을 의미한 다. 수집된 데이터로부터 얼마나 많은 가치를 창출할 수 있는가를 결정하는 핵심은 분석 기술이며 더 나아 가 예측 기술을 바탕으로 가치를 극대화하는 최적화 된 정보 사회를 지향한다. 그러나, 대부분의 빅데이터 구조는 관계형 데이터 모델을 따르는 테이블 등과 같 은 단순원시 데이터 구조에 기반을 두기에, 대용량ㆍ 빠른 속도ㆍ 높은 다양성을 갖는 빅데이터를 완벽하 게 처리하기에는 뚜렷한 기술적, 물리적 한계를 갖는 다. 또한, 지금의 센서 네트워크에서는 데이터 상호교 환 (exchangeability)과 이질성 (heterogeneity)을 효과 적으로 처리ㆍ관리 가능하도록 하는 복잡한 데이터 모델 사용이 빠르게 증가하고 있는데, 해당 데이터 모델 처리 솔루션의 미비로 복잡한 구조의 데이터 처 리를 필요로 하는 애플리케이션 측면에서 수많은 에 러와 문제들이 야기되고 있는 상황이다[1].
이에 기존 빅데이터 스트림 관련 연구들과 뚜렷한 차이를 보이며 지금까지 체계적인 연구가 이뤄지지 않고 있는 복잡한 데이터 구조 (Complex Data Structure)의 스트리밍 빅데이터 분석과 활용을 고도 화된 스트리밍 新 빅데이터 기술로 해결할 수 있도록 본고에서는 센서 웹 기반 스트리밍 新 빅데이터를 대 상으로 하는 실용적 분석 기법 개발 및 시맨틱 재처 리 기술에 관하여 기술하고자 한다. 본 연구를 통하 여 반정형ㆍ비정형 新 빅데이터 분석의 핵심 기술을 확보하고 차세대 컴퓨팅 환경에 대비한 국제적 기술 경쟁력 제고 및 미래 지능화 사회에 이바지 하고자 한다.
Ⅱ. 관련연구
유수 글로벌 기업들이 10여 년 전부터 빅데이터의 중요성을 인지하고 스트리밍 빅데이터에 대한 연구 ㆍ개발을 시작하여 가치창출을 시도하고 있다. “스트 리밍 빅데이터” 처리 기술은 대량의 복잡한 구조의 데이터 영역으로 빠르게 확대되며 효과적으로 처리 할 수 있는 탁월한 분석 기술을 필요로 하는데, 이는 빅데이터 처리 시스템에서 가장 중요한 부분이 분석 한 데이터 간의 관계를 찾아서 의미 없는 데이터로부 터 의미를 찾아 가치 창출하는 것을 목적으로 하기 때문이다. 이를 위해 필수불가결한 기술 발전 요소로 주목받고 있는 것이 무공유 관계형 데이터베이스, MapReduce 프로그래밍 프레임워크, 클라우드 인프 라, 센서데이터의 시맨틱 어노테이션 등의 기술이다.
이러한 핵심 기술들은 높은 기술적 복잡도와 원천 기 술들로 인하여 선진국 유수 기업 (구글, 아마존, 페이 스북, 이베이, 애플 등)만이 관련 기술들을 보유하고 있다[2-3].
그러나, 국내에서 빅데이터를 활용하는 주체는 주 로 대기업, 은행 그리고 정부 차원으로 경영에 적용 하는 국내 기업 (삼성, LG, 현대, 다음카카오 등)은 10 여 개 안팎으로 소수이며, 활용하고 있는 대부분의 빅데이터 역시 SNS에 치중된 편으로 단지 합리적인 의사결정만을 위해 일회성으로 데이터를 소모하는 경향이 높았기에 빅데이터를 저장ㆍ관리ㆍ분석하는 기술에 필요한 지식기반이 아직까지는 취약한 실정 이다[4-5].
2.1 국외 연구개발 사례
2012년 3월, 오바마 행정부는 2억 달러 이상을 투 입하여 빅데이터 기술 개발을 본격적으로 시작하는
‘빅데이터 연구개발 이니셔티브 (Bigdata R&D
Initiative)’를 발표한다. 국립보건원 (NIH), 국방부 (DoD), 국립과학재단 (NSF), 에너지부 (DoE) 등 주요 연방 기관이 참여한 빅데이터 연구개발 이니셔티브 는, 복합적이면서도 그 크기가 방대한 디지털 데이터 군집에서 지식과 통찰력을 추출해내는 능력을 극대 화하여 현재 미국이 당면한 대부분의 문제들을 해결 하는 것을 목적으로 한다. 미 국립보건원의 경우, 기 업ㆍ기관들과의 파트너십을 통해 200TB 이상의 유전 자 데이터를 확보 후 다양한 질병 연구를 위한 데이 터 공유 및 분석을 위한 시스템 마련과 국립의학도서 관이 제공하는 의약품 검색 서비스인 PillBox 프로젝 트를 통해 의약품 오남용과 의료비용 절감 등을 위한 빅데이터 활용을 주된 내용으로 한다.
가까운 일본의 경우, 센서데이터를 활용한 지능형 교통안내 시스템을 구축하여 실시간 교통정보를 공 유, 최적의 교통 서비스 제공을 위해 건설성, 통산성, 운수성, 우정성 그리고 경찰청의 5개 정부부서에서 시스템을 마련하여 2015년 이후까지 4단계로 구분하 여 장기적 전략을 제시ㆍ개발하고 있다. <표 1>은 주 요 국가의 정부주도 연구개발 사례들을 보인다.
정부주도 뿐만 아니라 유수의 글로벌 기업 주도로 이미 스트리밍 빅데이터는 해외에서 연구ㆍ개발을 넘어 실용적인 활용기라고 해도 과언이 아니다. 이미 10여 년 전부터 구글ㆍ아마존ㆍ애플 같은 공룡 기업 들은 빅데이터의 중요성을 인지하고 연구ㆍ개발을 시작하여 2010년을 전후로 하여 가치창출 단계로 들 어섰다. 여기에는 빅데이터의 가장 큰 수혜자라 할 수 있는 페이스북의 성공도 존재한다.
구글, 아마존, 애플, 페이스북 등 거대 글로벌 기업 들은 천문학적 크기의 빅데이터를 축적하고 이를 분 석해 유용한 정보를 다시 사용자에게 제공하고 있다. 사용자들이 제공하는 정보들이 재가공 과정을 거쳐 거대한 데이터의 일부분이 되는 것이다. 전문가들은 빅데이터에 주목한 기업들이 향후 시장을 리드할 것
으로 전망하고 있으며 이는 이미 증명되었다. <표 2>
는 글로벌 기업들이 빅데이터를 어떻게 활용하는지 를 단적으로 보여준다.
2.2 국내 연구개발 사례
우리나라도 최근 빅데이터의 중요성을 인식하고 정부 차원에서 먼저 활발히 빅데이터 활용 방안을 마 련하고 있다. 국가정보화전략위원회는 2011년 11월
<표 1> 주요 국가 정부주도 연구 사례
국 가 현 황
미국
• 빅데이터 연구개발 이니셔티브
- 국세청: 탈세 및 사기범죄 예방 시스템 구축 - 국립보건원: 의약품 오남용과 의료비용 절감에
빅데이터 활용
- 에너지부: 확장형 데이터 관리ㆍ분석 및 시각화 기관(SDAVI)을 설립
- 국립과학재단: 핵심기술 및 전문 인력인 데이터 과학자 양성
영국
• 국민참여형 안전관리 플랫폼인 패치베이 (Pachube) 구현
- 전력, 환경 등과 관련된 모든 사물에 센서를 부 착
- 유비쿼터스 환경에서의 센서 데이터베이스 기술 의 발전
- 공유데이터를 기반으로 웹 프로그램, 스마트폰 앱 개발 등에 응용 및 활용
• The Foresight Horizon Scanning Center (HSC) - 정부의 혁신적 전략 및 중장기 미래 정책개발을
지원
- 해수면 상승으로 인한 잠재적 위함을 파악하여 100년 이후를 대비하는 위험관리 프로젝트 추진
일본
• 센서데이터를 활용한 지능형 교통안내 시스템 구축
- 도로 교통정보를 예측 후 사용자의 스마트폰으 로 송신
- 교통체증으로 인한 불필요한 에너지 낭비 방지 를 통해 에너지 효율 증대
싱가포르
• 국가위험관리시스템(RAHS, Risk Assessment &
Horizon Scanning) 구축
- 모든 국가적 차원의 위험요인과 기회요인을 선 제적으로 파악, 대응방안을 수립
- 공공서비스부와 국가안보조정사무국에서 위험 관리 계획 추친
- 전천후 국가 위험관리 체계로 발전
빅데이터를 활용한 스마트 정부 구현(안)을 발표하고, 2012년 7월에는 자료를 체계적으로 분석하여 재난・환 경문제 등에 사전대응하기 위한 ʻ빅데이터 마스터플 랜 추진현황 및 향후계획ʼ을 발표하였다. 2012년 방송 통신위원회는 한국정보문화진흥원, 한국정보통신진 흥협회(KAIT)와 공동으로 ‘빅데이터 국가전략 포럼’
을 창립하여 공공기관과 빅데이터 전문기관 등 산ㆍ 학ㆍ연 간의 제휴와 정보공유 및 협력을 통한 공공분 야의 가치창출 도모를 주 내용으로 하는 청사진을 발 표하였다. 또한 보건복지부의 사회복지통합관리망인 행복e음 고도화 프로젝트는 지방자치단체에서 집행
하는 120여 가지의 복지급여 및 서비스 이력 데이터 를 이용하여 정확한 복지대상자 선정과 효율적인 복 지행정의 변화를 기대하는 수용자중심의 복지서비스 구현 프로젝트를 추진 중이다.
국외 사례들에 비해 국내 연구들은 상대적으로 공 공정보 개방 등 정부 주도의 역할 중심으로 구성되어 있으며 민간 기업들의 빅데이터 연구 및 개발 참여 수준은 미흡하다는 지적이다. 실제로 빅데이터를 확 보해 경영 및 마케팅 등 실리적인 분야에 활용하는 국내 기업은 소수에 불가한 것으로 조사되고 있다. 세계적 수준의 IT 인프라, 기술 수용성이 높은 사용자 가 다른 국가들보다 월등히 많은 여건임을 고려할 때 국내기업들은 시대변화에 적극적으로 대응하고 새로운 패러다임에 대한 유동적인 대처가 한발 늦었 다고도 볼 수 있다. 소수의 대기업과 몇몇 금융권 위 주로 활용되는 빅데이터 역시 소셜 네트워크에서 발 생하는 텍스트 데이터에 편중되었기 때문에 일회성 데이터 사용으로 소모하는 경향이 높은 실정이다.
<표 3>은 국내 민간 기업들의 빅데이터 사례의 단면 을 보인다.
Ⅲ. 연구내용
3.1 연구의 필요성가트너에 의해 선정된 2014년 10대 전략적 기술 중 6위 ~ 8위는 데이터 및 분석에 대한 기술로써, 전략 적 빅데이터(Strategic Big Data), 실용 분석 (Actionable Analytics), 인메모리 컴퓨팅(Mainstream In-Memory Computing) 이 해당한다. 이는 기존 데 이터웨어하우스를 벗어나, 새로운 데이터 분석 기술 을 결합해 빅데이터를 실용적으로 분석하여 이용하 는 것이 중점을 이룰 것이며, 이 때 성능과 응답시간
<표 2> 글로벌 기업 빅데이터 활용 사례
업 체 현 황
구글
• 검색엔진 등 대부분의 서비스에 오래 전부터 예 외 없이 빅데이터 활용
• 하둡(Hadoo)의 모태인 맵리듀스(MapReduce) 솔루션 개발
• 외부 사용자의 빅데이터 서비스 이용을 위한 빅 쿼리(BigQuery) 제공
• 전 세계 도서관 서책들의 전자화를 표방하는 구 글 전자도서관 프로젝트 2005년부터 추진
아마존
• 빅데이터 저장분석 솔루션 NoSQL 데이터베이 스 서비스인 다이나모DB 출시
• 2013년 12월 고객구매결정 이전 상품을 발송하 는 예상배송 서비스 관련 특허 획득
페이스북
• 자사 플랫폼에 등록된 모든 데이터 분석 후 이 용자 성향 및 관심사항을 파악하여 맞춤형 광고 에 활용
• 인간의 사회적 상호작용의 방식 및 원인 규명 패턴을 수학적으로 연구
애플
• iPhone에 탑재된 Siri는 빅데이터 솔루션을 기반 으로 음성 인식뿐만 아니라 의미파악 능력
• 이용자의 질문이나 행동을 미리 예측해 최적의 답을 제시
자라
• 과거 데이터로부터 규칙성 분석 후 미래의 수요 및 리스크 추정의 대표적인 활용 예
• 전 세계 환경정보, 품목별 특징, 전시위치, 판매 실적 등을 실시간 집계하여 적정 재고를 산출 후이를 주문 가이드에 활용
월마트
• 소비 패턴 데이터 등을 활용하여 유통 효율성 재고 및 온/오프라인 매장의 연계 강화
• 웹 사이트에서 발생하는 거래 데이터를 이용한 재고 예측 조사 시스템 마련
을 향상 시킬 수 있는 인메모리 기술이 주력 되어야 함을 의미한다. 빅데이터의 실용적 분석에 대한 수요 의 급속한 증가는 센서 기술에서 파생되는 데이터의 증가 및 다원화가 주요 원인으로 지목되고 있으며 이 를 반영한 다각도의 데이터 저장 및 분석ㆍ 연구가 필요 할뿐만 아니라, 공개된 공공/학술 데이터, SNS 의 실시간 소셜 미디어 데이터, 민간/기업이 보유한 데이터, 비공개 정부 데이터 등의 수많은 데이터 중 상당 부분은 반정형ㆍ비정형 빅데이터로서 이들의 대한 다양한 분석 방법에 대한 연구가 절실하다. 왜 냐하면, 정형화된 데이터보다 객관성이 부족한 반정 형ㆍ비정형 데이터에 대한 부적절한 해석과 이로 인 해 왜곡된 정보를 도출할 가능성이 있으므로 객관성 을 높이는 데이터 해석 기법이 필수적이기 때문이다 [6].
빅데이터 파생이 단순 센서 네트워크에서 공유 가
능, 문법적 표준화를 통한 센서데이터 표현이 주를 이루는 센서 웹으로 이동하고 있는 추세이므로 이에 따라 상호운용성이 증대된 빅데이터를 통한 지식기 반 융복합 서비스 연구가 필요하며 흘려버리는 데이 터가 아닌 저장ㆍ분석하여 재사용할 수 있는 다양한 연구 기술 개발이 필요하다.
3.2 연구의 차별성
본 연구에서는 기존과는 다른 세 가지의 각도에서 접근하여 센서 웹 기반 스트리밍 新 빅데이터의 실용 적 분석 및 시맨틱 재처리 기술 개발을 목표로 한다. 첫째는 네트워크 측면으로, 센서 기술에서 파생되는 데이터의 급격한 증가 및 다원화의 원인인 센서 네트 워크 및 센서 웹으로부터 파생되는 실시간 스트리밍 빅데이터를 연구 주체로 한다. 센서 빅데이터의 경우 더 많은 데이터가 수집될수록 정확도와 유용성이 향 상되지만 증가하는 데이터들에 대한 실시간 처리를 가능하게 하는 인프라가 구축되어 있어야만하기 때 문에, 실시간 저장ㆍ분석을 가능하게 하는 전처리 작업이 없는 인프라와 대응 기술에 대한 심층 연구 가 필요하다. 둘째는 데이터 표현 측면으로, 향후 의 미기반 시맨틱 센서 웹으로의 용이한 확장을 위해 XML, RDF, SML 등의 반정형(Semi Structured)으로 표현된 데이터 처리를 우선으로 하며 최종적으로는 텍스트/이미지/동영상 등의 비정형(Unstructured) 데 이터로 확대한다. 마지막은 데이터마이닝 측면으로, 반정형(혹은 비정형) 데이터들 간의 의미 있는 연관 성들을 분석하여 실용적인 규칙으로 도출ㆍ재사용하 는 부분에 중점을 둔다. 이는 부적절한 법칙 도출을 최소화하고 도출된 부정확한 데이터에 대한 분석처 리과정이 보완 및 뒷받침되어야 하는 측면이다. 또 한 데이터로부터의 추론 및 과학적 모형화, 정보화, 미래 예측 그리고 의사결정에 이르기까지 필요한
<표 3> 국내 기업 빅데이터 개발 사례
국 가 현 황
삼성
• 트위터와 블로그에 업로드되는 비정형 텍스트 데이터를 수집ㆍ분석하여 SNS의 여론 파악하여 반영
• 미디어솔루션 센터 산하에 빅데이터 센터를 설 립 후 온라인 상 제품 관련 글들을 수집ㆍ분석
엘지
• SNS 및 웹페이지 분석 툴인 버즈(Buzz) 모니터 링 시스템 구축
• 자사 휴대폰에 빅데이터 분석 알고리즘으로 자 동분석, 오타율을 감소시키는 스마트 키보드 실 시
현대
• 자동차고객관계관리(VCRM) 데이터 분석 프로 젝트
• 데이터 분석 프로세스 정립과 분석 모델 개발을 바탕으로 인프라 구축 착수
IBK 기업은행
• 인터넷과 SNS 상의 기업은행 평판을 분석하여 마케팅 및 은행 이미지 관리 등에 활용
다음
• 실시간으로 파생되는 대량의 스트리밍 데이터 분석을 통한 실시간 개인화 서비스, 실시간 보 안 감시, 실시간 이상 행위 탐지 등의 서비스 제 공 목적
• Twitter에서 직접 개발한 오픈소스인 Storm 같 은 데이터 스트림 자체를 분석하는 로직 구현
연관성 도출을 위한 효과적인 방법론 정의가 요구 된다. 뿐만 아니라, 개인의 프라이버시를 침해하거 나 기밀누출의 가능성이 높은 규칙들의 경우, 정보 분석처리과정에서 자동으로 숨김(hiding)하여 제시 해주는 알고리즘 개발 또한 본 연구에서 중점을 두 는 부분이다.
3.3 연구기술
3.3.1 센서 웹 빅데이터 수집 및 저장기술
구조가 정의되지 않은 반정형ㆍ비정형 스트리밍 데이터의 실시간 분석의 어려움은 현재 빅데이터 분 석에 보편적으로 사용되고 있는 하둡(Hadoop)과 NoSQL 의 단점에 기인한다. 그렇기 때문에 일차적 으로, 데이터 스트림 자체를 대상으로 하여 실시간 으로 데이터를 처리하는 로직 구현이 필요하지만 빅 데이터 처리 플랫폼인 하둡의 기반 기술은 배치 (batch) 처리로 빅데이터를 분석하는 방식이기 때문 에 실시간 데이터 처리에는 치명적인 오류를 발생시 킬 가능성이 매우 높기 때문이다. 따라서 지속적ㆍ 대량으로 유입되는 스트리밍 빅데이터를 손실 없이 분석 가능한 로직과 기술 필요하며, 반정형ㆍ비정형 의 구조적 특징으로 모호성 증대 확률이 정형 데이 터보다 높기 때문에 데이터 잡음 제거를 위한 맞춤 기술 또한 필요하다. 더 나아가 시맨틱 지식기반 융 ㆍ복합 서비스 제공을 위해 온톨로지와 결부된 대량 의 센서 데이터를 발생시키는 시맨틱 센서 웹에서의 빅데이터 수집ㆍ저장 기술에 대한 연구 역시 병행되 어야 한다.
3.3.2 新빅데이터 모델링 기술
둘째로, 의미적 상호운용성과 융ㆍ복합을 통한 新
빅데이터 모델링 및 API 기술 개발 관련 연구들이다.
<그림 1>은 센서 네트워크의 진화와 그에 따라 필요 한 기술들을 나타낸다. 점차 지능적으로 변화해가는 네트워크를 통해 생성되는 빅데이터 분석 기술 또한 그에 따라 변화해야 함을 알 수 있다. 현재 센서 데이 터의 대다수는 데이터의 이질적 표현에 기반을 둔 사 일로(silo) 서비스 형태의 제공이라는 제약이 있으므 로 이를 표준화된 데이터로 모델링 하는 변환 기술이 필요하다. 또한 스트리밍 빅데이터의 문법수준 표준 화와 API 연계를 위한 모델링에 대한 심층 분석과 이 에 따른 응용 기술 역시 요구된다. 이에 따라 동일 센 서 데이터를 다수의 다양한 응용 서비스가 공동으로 활용 가능하도록 하는 센서 빅데이터 처리 프레임 워 크 연구가 이뤄지고 있으며 더 나아가 인간의 개입 없이 센싱 데이터의 정보 처리 및 교환을 위한 상호 지능적 자율적인 센서 웹에서의 정보 교환과 연동 기 술에 대한 관심이 높아지고 있다. 사물인터넷 (Internet of Things, 이하 IoT)과의 접목은 필수불가 결한 환경으로 시맨틱 지식기반 융ㆍ복합 서비스 제 공을 위한 온톨로지와 반정형ㆍ비정형 스트리밍 빅 데이터의 결부를 고려한 모델링 및 변환 기술들을 정 립하여 다양하고 새로운 애플리케이션 및 서비스 실
센서 네트워크
센서 웹
시맨틱 센서 웹
· 상호작용이 없는 네트워크
· 이질적인 데이터 표현
· 일회성 형태의 서비스 제공
· 공유 가능한 센서 네트워크
· 문법수준의 표준화로 센서 데이터 표현
· 표준 API 기반의 서비스 제공
· 웹에서 개방적인 네트워크
· 의미 수준의 센서메타데이터 표현
· 시맨틱 웹 기술 기반의 서비스 제공 가능 웹 개방적
/의미적
<그림 1> 센서네트워크의 지능화ㆍ의미화
현에도 대처 가능한 스트리밍 데이터 기술을 확립하 는 것이 본 연구의 주요 목표 중 하나이다.
3.3.3 가치정보 수립 및 재사용 기술
본 논문에서 주요하게 제안하는 세 번째 연구기술 은 개인 프라이버시 및 기밀보호의 기술적 대처를 동 반한 가치창출을 위한 의미 있는 정보 수립 및 재사 용에 관한 것이다. 구조가 정의되지 않은 반정형ㆍ비 정형 스트리밍 데이터의 실시간 분석을 통해서 이용 가능한 연관 정보 도출을 위해서는 우선 효율적인 가 공 및 인메모리 저장이 이루어진 후 비구조에 유사 정형성을 부여하여 빠른 정보 도출이 실행되어야 한 다. 이 때, 실시간 반정형ㆍ비정형 데이터의 세션화가 진행된다. 빠른 연관성 도출을 위해 추론 및 모형화, 정보화, 예측 등의 효과적인 해법들이 제시되며 개인 의 프라이버시를 침해하거나 기밀 누출의 가능성이 존재하는 규칙들의 경우 자동으로 선별 제공하는 알 고리즘이 작동되어야 한다[7]. 이 과정에서 가장 중요 한 부분은 부적절한 법칙 도출을 최소화하고 도출된 부정확한 데이터에 대한 분석처리과정에 대한 보완 이 반드시 이루어지도록 하는 기술이 개발되어야 한 다는 것이며 더 나아가 반정형ㆍ비정형 스트리밍 빅 데이터의 부정 패턴까지 도출 가능한 고급 알고리즘 에 대한 연구 또한 진행하고자 한다. <그림 2>는 개 인의 프라이버시를 보호하면서 스트리밍 빅데이터에 대한 의미정보의 도출과 사용ㆍ재사용이 진행되는 과정을 축약하여 보이는 도식화이며 <그림 3>은 실 시간 반정형ㆍ비정형 빅데이터로부터 연관규칙 도출 을 위해 적용하도록 연구된 방법의 일부를 보인다.
<그림 3>에서 보이는 방법을 간략히 설명하면 실 시간으로 유입되는 대량의 반정형ㆍ비정형 스트리밍 빅데이터를 트리 구조에서 각 노드들을 위치를 분리 하여 테이블에 저장 후 유용한 패턴을 보이는 노드들
만을 따로 저장하여 서브 트리로 재구성 후 해당 트 리로부터 유용한 연관규칙들을 도출하는 방법[8] 으 로 이 방식은 단일 DB 스캔만이 이루어지므로 실시 간 처리에 적합하다고 할 수 있다. 이는 해당 알고리 즘이 실시간 저장ㆍ분석을 가능하게 하는 전처리 작 업이 없는 인프라와 대응 기술을 바탕으로 하여 고안 되었기 때문이다. 또한 상호 연관성 도출을 위한 기 법을 개발함에 있어 민감한 정보 누출의 가능성이 존 재하는 규칙들의 경우, 자동으로 선별 제공하는 알고 리즘을 필수적으로 개발할 필요가 있다.
기술한 세 가지 주요 연구를 통해 최첨단 스마트 디바이스와 센서 네트워크 연동으로 양산되는 센싱 데이터 정보의 개방과 공유 그리고 재사용 기술에 대
대량의 정보를
담고 있는 스트리밍 빅데이터 자료 데이터정보
의미 정보 전달
의미 사전
분석된 정보
프라이버시에 따른 제공 재사용
<그림 2> 프라이버시 보호 동반 도출된 의미 정보 사용 및 재사용
<그림 3> 연관규칙 도출 방법 예
한 요구사항을 충족시키고 센서로부터 수집된 정보 를 다양한 센서 기반 응용 서비스 및 앱 제공을 위한 가상화 기술과 연계토록 하고자 한다.
Ⅳ. 효과 및 결론
유수 글로벌 기업들이 10여 년 전부터 빅데이터의 중요성을 인지하고 스트리밍 빅데이터에 대한 연구 ㆍ개발을 시작하여 가치창출을 시도하고 있다. 스트 리밍 빅데이터는 대용량의 반정형ㆍ비정형 데이터를 효과적으로 처리할 수 있는 탁월한 분석 기술을 필요 로 하는데 이는 빅데이터 처리 시스템에서 가장 중요 한 부분이 분석한 데이터 간의 관계를 찾아서 의미 없는 데이터로부터 의미를 찾아 가치 창출하는 것을 목적으로 하기 때문이다. 그러나 정형화된 데이터보 다 객관성이 부족한 반정형ㆍ비정형 데이터에 대한 부적절한 해석과 이로 인해 왜곡된 정보를 도출할 가 능성이 있으므로 객관성을 높이는 데이터 해석 기법 에 대한 연구는 필수불가결하다. 왜냐하면, 대부분의 빅데이터 분석 기술과 방법들은 기존 통계학과 전산 학에서 사용되던 정형 데이터들을 대상으로 하는 데 이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등을 따르고 있기 때문에 큰 용량, 빠른 속도, 그리고 높은 다양성을 갖는 빅데이터를 완벽하게 처리하기 에는 뚜렷한 한계가 있기 때문이다. 또한 센서로부터 파생되는 스트리밍 데이터로부터 가치를 창출하다 보면 데이터베이스 용량이 거대화될 것이고 이로부 터 유용 정보를 도출하려면 엄청난 양의 처리 성능이 요구되므로 기존 데이터마이닝이 아닌 새로운 기술 의 마이닝 기법이 필요하기에 본 논문은 센서 웹 기 반 스트리밍 빅데이터의 프라이버시 보호 동반 실용 적 분석을 통한 지식 활용과 재사용에 관련된 중요 필요 연구와 개발 기술들에 대하여 제시하였다. 선진
국의 경우 센서 데이터를 활용한 빅데이터 시스템이 구축되고 있는 상황이지만 국내의 경우 관련 연구가 미흡한 상황이기 때문에 본 연구를 통하여 반정형ㆍ 비정형 빅데이터 분석의 핵심 기술을 확보하고 차세 대 컴퓨팅 환경에 대비하여 국제적 기술 경쟁력 제고 및 미래 지능화 사회에 이바지하리라 사료된다.
참고문헌
[1] N. Hoeller, C. Reinke, J. Neumann, S. Groppe, C. Werner, and V. Linnemann, “Efficient xml data and query integration in the wireless sensor network engineering process,“ Int. J. Web Inf. Syst., vol. 6, 2010, pp. 319–358.
[2] 한국정보화진흥원 빅데이터 전략연구센터, “빅데 이터로 진화하는 세상 – Big Data 글로벌 선진 사 례,” 한국정보화진흥원, 2012년 5월 31일 발행.
[3] 이진형, “데이터 빅뱅, 빅 데이터(BIG DATA)의 동향,” 방송통신전파저널, 통권47호, 2012년 3월, pp. 43–55.
[4] 이상윤ㆍ윤홍주, “공공데이터를 활용한 국가정보 화 전략연구 – 시나리오 플래닝을 적용하여,” 한 국전자통신학회 논문지, 제7권, 제 6호, 2012년 12 월, pp. 1259–1273.
[5] 대한상공회의소, “빅데이터 활용현황 및 정책과 제 연구,” 연구보고서, 2014년 7월.
[6] 오세종ㆍ두일철, “포털사이트, SNS의 빅데이터를 이용한 신화소재의 브랜드 캐릭터와 연관어, 연관 도 분석,“ 디지털산업정보학회 논문지, 제11권, 제 1호, pp. 157-169.
[7] 최희식ㆍ조양현, “빅데이터 개인정보 취급에 따른 문제점 분석,” 디지털산업정보학회 논문지, 제10 권, 제 1호, pp. 89-97.
[8] J. Paik, J. Nam, U. M. Kim, and D. Won,
“Association rule extraction from xml stream data for wireless sensor networks,” Sensors, 14, 2014, pp. 12937–12957.
▪저자소개▪
백 주 련 Paik Juryon
2016년 3월~현재
평택대학교 데이터정보학과 조교수
2008년 2월 성균관대학교 컴퓨터공학과 (공학박사)
2005년 2월 성균관대학교 컴퓨터공학과 (공학석사)
1997년 2월 성균관대학교 정보공학과(이학사)
관심분야 : 데이터마이닝, 트리마이닝, 빅데이터
E-mail : [email protected]
이 영 숙 Lee Youngsook
2009년 3월~현재
호원대학교 사이버수사보안학부 부교수
2011년 8월 ~현재
호원대학교 사이버수사보안학부 학부장
2008년 8월 성균관대학교 컴퓨터공학과 (공학박사)
2005년 2월 성균관대학교 정보보호학과 (공학석사)
1987년 2월 성균관대학교 정보공학과(공학사)
관심분야 : 암호프로토콜 암호이론, 디지털 포렌식, 스마트폰 보안 E-mail : [email protected]
논문접수일: 2016년 8월 18일 수 정 일: 2016년 8월 30일 게재확정일: 2016년 9월 5일