• 검색 결과가 없습니다.

빅데이터의 개념 및 필요성

Ⅱ. 환경정책연구에서의 데이터 활용

2. 빅데이터의 개념 및 필요성

○ 빅데이터의 정의

- 3V의 특징을 가지는 데이터로 요약: 3V는 데이터의 크기(Volume), 데이터 생성 속도 (Velocity), 형태의 다양성(Variety)을 의미(그림 2-1 참조)

- 수십 기가바이트에서 펩타바이트의 크기와 다양한 형태를 가지는 싱글 컴퓨터에서 인 메모리 방식으로는 처리하기 어려울 정도의 대용량 데이터를 의미

- 빅데이터는 일반적으로 대용량의 데이터를 의미하지만 그 이외의 데이터 생성 속도가 빠르거나 비정형성이 높은 데이터의 경우에도 빅데이터의 범주에 포함됨

자료: GE리포트 코리아(2016.12.18).

<그림 2-1> 빅데이터의 특징: 3V

○ 빅데이터의 분류

- 데이터 형태에 따른 분류: 정형 데이터와 비정형 데이터로 분류

- 정형 데이터는 우리가 일반적으로 볼 수 있는 엑셀과 같은 툴로 만들어진 테이블 형태의 데이터 (데이터베이스에 저장된 형태)를 의미

- 비정형 데이터는 텍스트, 이미지, 동영상, 음성 등의 데이터를 포함(그림 2-2 참조) - 정형 데이터 중 사이즈가 큰 경우 또는 비정형 데이터 분석에는 빅데이터 분석 방법론의

활용을 고려

- 정형 데이터를 활용한 빅데이터 분석 사례: 컨볼루션 신경망을 활용한 미세먼지 예측, 한강 수질 예측 모형 개발(강성원 외, 2017)

- 기계학습 기반 환경 이슈 감성 분류기(강성원 외, 2018), 이미지를 활용한 미세먼지 오 염도 추정(진대용 외, 2018)은 비정형 데이터를 활용한 빅데이터 분석 사례에 해당 - 실질적으로는 빅데이터와 스몰데이터의 개념이 모호해진 상황이며 데이터를 활용하는

연구 전체를 빅데이터 연구로 칭하는 경우가 많음

자료: Searchbusinessanalytics(2018).

<그림 2-2> 비정형 데이터의 종류

○ 스몰데이터와 빅데이터의 정책적 활용에 있어서의 차이점

- 스몰데이터는 분석 없이 데이터 존재 자체만으로 매우 중요한 의미를 지니는 경우가 많 아 적극적인 데이터 공유를 통한 (증거로) 활용이 중요함(연구보고서에 나타난 많은 결 과들, 각종 환경 통계 지표 등이 이에 해당함)

- 스몰데이터를 만드는 많은 경우 부분 통계학자들이 목표/조사 모집단을 정의하고, 이 모 집단에 근접하기 위해 표본을 추출 및 데이터를 수집 및 결과를 도출하기 때문에 목표에 부합되는 정보를 얻을 수 있다는 장점이 있음

- 스몰데이터의 경우 현재에도 간단한 통계 분석과 함께 각종 정책에 활용되고 있는 상황 이지만 많은 사람들과의 내·외부 공유가 보다 적극적으로 이루어질 필요가 있음

- 빅데이터는 기존에는 의미 있는 정보로 활용하지 못했던 뉴스, SNS, 학술논문 등을 포 함한 텍스트 데이터, 이미지 데이터, 소리 데이터, 위성 데이터, 센서 데이터 등을 활용 해 의미 있는 정보를 변환하여 활용한다는 점이 핵심임

- 빅데이터를 활용하기 위해서는 복잡한 분석 과정이 필요하다는 단점이 있으며, 알고리 즘 구축 시 데이터에 기반하여 유연한 모델 구축을 통해 수치 예측, 패턴 분석, 추정 목 표를 달성할 수 있다는 장점이 있음

○ 정책연구에서 빅데이터 연구 도입의 필요성 및 가능성

- 빅데이터를 일상생활에 이용함으로써 발생되는 수많은 데이터들을 활용하여 경험을 통 한 더 풍부하고 깊은 통찰력을 얻을 수 있는 기회를 제공할 수 있을 뿐만 아니라 각종 지 표의 개발을 보완할 수 있음

- 빅데이터는 시의적절한 통계를 작성할 수 있는 잠재력을 지니고 있음. 기존의 각종 지표 는 정부 정책에 의해 독점적으로 수집되는 조사 자료와 행정 자료에 기초를 두고 있어 지속적인 결과 도출 및 정리가 어려움

- 높은 시간 해상도, 공간 해상도, 다양한 관점에서의 결과 도출이 가능함. 이를 통해 기존 에는 발견하기 어려운 새로운 인사이트를 도출하여 한 개의 지표로 활용이 가능함 - 빅데이터 분석을 위해서는 서버 등의 하드웨어 장비 설치, 초기비용 및 전처리와 알고리

즘 구축을 위한 노력이 필요하지만 구축이 완료되면 이를 통해 실시간/지속적으로 대부 분의 데이터 활용이 가능함

- 현재 빅데이터 분석 방법론은 급속도로 발전하고 있으며 새로 개발된 방법론을 적용함 에 따라 기존 결과와 다른 시각의 결과를 도출할 수 있음

- 2014년 미국 정부는 ‘기후 데이터 이니셔티브’를 통해 방대한 양의 기상 관련 데이터 분 석을 실시함으로써 기상 예측의 정확성을 향상시키고, 기후 변화에 따른 피해를 최소화 할 계획을 수립하였음4)

- 하지만 빅데이터는 만능이 아니며 스몰데이터를 통해 적합한 문제, 빅데이터 분석에 적 합한 문제, 의견 기반 연구가 적합한 문제를 잘 구분지어 연구를 수행할 필요가 있음

4) ITFIND - IT 지식포털(2014), “미국 공공 부문의 빅데이터 도입 정책에 대한 평가와 성과 제고를 위한 고려 요 인”, 검색일: 2019.10.10.