환경 빅데이터 분석 플랫폼 구축방안 - 환경 빅데이터 분석 및 서비스 개발(Ⅵ)

부 록 ∣ 93

부록 Ⅰ. 환경 빅데이터 분석 플랫폼 구축방안

1. 환경 빅데이터 분석 플랫폼

본 과제는 2017년부터 다양한 환경 빅데이터를 수집 및 분석하여 데이터의 수집-전처리 -분석-결과 도출 과정의 여러 분석 사례를 제시하였다. 데이터를 분석하기 위해서는 데이터 를 수집하여 저장하는 데이터 수집 플랫폼이 필요하다. 또한 데이터 수집 플랫폼에 저장된 데이터를 분석할 수 있는 데이터 분석 플랫폼도 필요하다.

연구환경의 데이터 전환은 데이터 수집 플랫폼을 통하여 필요한 데이터를 수집-저장-전 처리하는 것에서 시작한다. 더불어 데이터 전환을 가속화하기 위해서는 반드시 데이터 분석 플랫폼이 필요하다. 데이터브릭스는 데이터 분석 플랫폼을 대용량의 복잡한 동적 데이터를 분석하는 서비스와 기술로 구성된 생태계 시스템(ecosystem)으로 설명하고 있다.⁷⁾ 데이터 분석 플랫폼은 수집된 다양한 환경 데이터를 연구목적에 부합하도록 추출 및 가공하여 연구 목표에 따라 분석하거나 예측 등 모델링을 수행하도록 지원할 수 있어야 한다.

최근 우리나라에서는 공공 데이터와 데이터 기반 행정 등 정부 주도의 데이터 서비스가 확대되어 대량의 데이터가 난립하고 있다. 다양한 데이터 레이크와 환경정책 연구에 최적화 된 KEI-IDR 시스템과 같은 수집 플랫폼은 데이터를 분석하는 데 적합하지 않다. 따라서 데이터 분석을 수행하기 위한 데이터 분석 플랫폼이 갖추어야 할 필수 구성요소를 살펴보고 자 한다.

2. 환경 빅데이터 분석 플랫폼의 필수 구성요소

본 연구에서는 데이터 분석 플랫폼의 필수 구성요소로 데이터 분석기능, 데이터 시각화 서비스를 제안하였다. 다만, 데이터 저장소 또는 데이터 허브가 없는 경우에는 데이터 수집 플랫폼도 필수 구성요소에 해당한다.

데이터 분석기능은 이용 환경에 따라 서버 기반 분석기능과 PC 기반 분석기능으로 나눌

7) 데이터브릭스(Databricks)는 2013년 오픈소스 커뮤니티(Apache Spark)를 기반으로 설립된 데이터 분석 플랫폼 전문기업이다.

수 있다. 연구자가 PC를 조작하여 분석기능을 이용하더라도 실제 동작이 PC가 아닌 서버에 서 동작할 수도 있고, 일반적으로 처리성능이나 저장용량이 PC보다 월등하다. 또한 서버는 접속만 가능하다면 다양한 곳에서 이용할 수 있다.

이용 방법에 따라서는 웹 기반 그래픽형 데이터 분석기능, 웹 기반 코딩형 데이터 분석기 능, 웹 기반 복합형 데이터 분석기능, 콘솔 기반 데이터 분석기능으로 나눌 수 있다. 웹 기반 그래픽형 데이터 분석기능은 웹브라우저를 사용하여 태블로(Tableau), 키바나 (Kibana)와 같이 마우스 클릭만으로 분석을 수행할 수 있는 분석기능으로, 일반적으로 상 용 서비스나 소프트웨어에 해당한다. 웹 기반 코딩형 데이터 분석기능은 주피터 노트북 (Jupyter Notebook)이나 주피터 랩(Jupyter Lab), R스튜디오 서버(RStudio Server)와 같이 PC에서 웹브라우저 등을 이용해 적절한 분석 코드를 작성하고, 서버에서 실행한 후 과정과 결과를 PC에서 확인할 수 있는 기능이다. 웹 기반 복합형 데이터 분석기능은 웹 기반 그래픽형 데이터 분석기능과 웹 기반 코딩형 데이터 분석기능을 함께 제공하는 서비스 이다. 일반적으로 웹 기반 그래픽형 데이터 분석기능의 한계를 보완하기 위하여 웹 기반 코딩형 데이터 분석기능을 함께 제공한다. 콘솔 기반 데이터 분석기능은 분석에 사용할 데 이터나 시스템의 제약으로 서버상에서 직접 개인의 분석환경을 사용할 수 있는 기능이다.

데이터 처리와 분석 시스템 최적화 등 데이터 엔지니어링 같은 전문기술을 활용하여 대용 량, 고성능, 고정밀 등 활용범위가 넓다. 이러한 기능은 선행연구 결과를 복원할 때도 사용 한다. 그 외로 고성능 PC를 활용하여 개인의 분석환경을 PC에 구축해서 이용할 수도 있다.

데이터 시각화 서비스는 데이터 분석기능을 이용해 도출된 결과와 데이터 전처리 결과를 시각화하는 데 필요하다. 시각화는 간단한 차트나 그래프로부터 <부록 그림 1-1>과 같이 시공간적으로 복잡한 기능을 갖는 서비스까지 매우 다양하다. 예제는 아프리카, 아시아, 유럽, 북아메리카, 오세아니아, 남아메리카 등 공간적인 선택과 2000~2019년까지 20년 동안의 시간적인 선택을 통해 각 조건에 부합하는 전기보급률의 결과를 시각화할 수 있다.

또한 국가별로 도시 외 지역(rural)과 도시 지역(urban)의 인구 대비 전기보급률을 그래프 로 표시하고, 특정 시점의 결과를 표시한다.

부 록 ∣ 95

자료: Microsoft Power BI, “Analyzing the UN’s Sustainable Development Goals at Gartner Data

& Analytics Summit EMEA”, 검색일: 2022.11.9.

<부록 그림 1-1> UN 지속가능발전목표 분석화면

전술한 환경 빅데이터 분석 플랫폼의 필수 구성요소를 검토하여 환경 빅데이터 분석 플랫 폼 시범서비스를 구축하고, 환경정책 연구 분야에서 분석 플랫폼의 활용방안을 검토하였다.

3. 환경 빅데이터 분석 플랫폼의 활용방안: 환경 빅데이터 분석 플랫폼 시범서비스

환경 분야의 빅데이터 분석 플랫폼을 살펴보면 환경부의 환경 데이터 포털,⁸⁾ 한국수자원 공사와 한국환경연구원 등 산학연 컨소시엄의 환경 비즈니스 빅데이터 플랫폼 등이 있다.⁹⁾ 주로 데이터 수집 플랫폼을 중심으로 구축되었고, 데이터 분석기능과 데이터 시각화 서비스 는 고도화 사업을 통하여 단계별로 구축 중이다. 환경 데이터 포털은 태블로(Tableau),

8) 환경 데이터 포털은 환경부 및 산하기관, 협력기관에서만 접속이 가능하며, 한국환경공단을 통해 VPN과 같은 네트워크 구성이 필요하다.

9) 환경 비즈니스 빅데이터 플랫폼은 한국수자원공사, 한국환경연구원 등 20여 개 기관의 데이터 수집 플랫폼과 제한된 데이터 분석 플랫폼을 제공하는 대국민 서비스이다.

알플로우(R-Flow), 프로펫(Prophet)을 제공하고, 환경 비즈니스 빅데이터 플랫폼은 특화 된 데이터 분석학습 도구와 데이터 융합 도구를 제공한다. 특화된 도구는 <부록 그림 1-2>

와 같은 하수처리시설 슬러지 방출 정보와 댐 저수량 정보 등의 시각화 서비스를 의미한다.

자료: 환경 비즈니스 빅데이터 플랫폼, “하수처리시설 슬러지 반출정보”, 검색일: 2022.11.9.

<부록 그림 1-2> 하수처리시설 슬러지 반출정보

외부 분석 플랫폼은 환경정책연구에 직접적인 활용이 제한되기 때문에 본 연구에서는 환경 빅데이터 분석 플랫폼 시범서비스를 통하여 분석 플랫폼의 활용방안을 검토하였다.

환경 빅데이터 분석 플랫폼 시범서비스는 연구정보서비스, 주피터 노트북, R스튜디오 서버, 환경 관련 데이터 서비스, 개인의 분석환경으로 구성된다.

연구정보서비스는 오픈 데이터 맵, 텍스트 주제추출 서비스, 텍스트 키워드 파악 서비스 로 구성된다. 발표자료와 서비스 매뉴얼을 함께 제공한다. 오픈 데이터 맵은 KEI 보고서에 서 추출한 데이터들의 온라인 지도이다. 기후/대기, 물환경, 자연환경, 자원순환, 지구환경,

부 록 ∣ 97

환경보건, 환경영향평가, 환경정책, 기타 등 모두 9개의 카테고리로 웹주소, 데이터 서비스 명, 설명, 한글과 영문 키워드를 제공한다. 텍스트 주제추출 서비스는 텍스트 주제를 추출하 여 키워드 빈도, LDA 시각화, 주제 목록과 주제 분포, 동향 분석을 제공한다. KEI 연구보고 서 제목, 네이버 환경뉴스 제목, 환경부 보도자료 중 일부를 예제 데이터로 제공한다. 텍스 트 키워드 파악 서비스는 데이터 목록, 연관 분석, 네트워크 시각화, 네트워크 지표를 제공 한다. KEI 연구보고서 제목, 네이버 환경뉴스 제목, 기후변화 관련 지방정책의 명칭 일부를 예제 데이터로 제공한다.

주피터 노트북은 웹브라우저를 통해 파이썬 코드를 직접 사용할 수 있다. 개인의 분석환 경을 통해 주피터 노트북이나 주피터 랩을 이용할 수 있지만 본 주피터 노트북은 같은 환경 에서 동일한 파이썬 코드를 바로 실행할 수 있다.

R스튜디오 서버는 웹브라우저를 통해 R 코드를 바로 사용할 수 있다. PC에 R을 설치하 고, R스튜디오를 설치할 필요 없이 PC에 설치된 웹브라우저를 이용하여 R 코드를 바로 실행할 수 있다.

환경 관련 데이터 서비스는 데이터 수집 플랫폼의 일부로, 본 연구 및 데이터 활용 과제에 서 사용한 데이터셋을 제공한다. 데이터 수집 플랫폼은 KEI-IDR 시스템으로 전환하였다.

<부록 그림 1-3>의 KEI-IDR 시스템은 한국과학기술정보연구원에서 배포하는 연구 데이터 리포지토리 시스템인 NaRDA를 기반으로 구축하였다.

주: 외부 비공개.

자료: KEI-IDR 시스템, “홈페이지 메인화면”, 검색일: 2022.11.9.

<부록 그림 1-3> KEI-IDR 시스템 메인화면

개인 분석환경은 <부록 표 1-1>과 같이 모두 4대의 서버에 구축하였다. 2017년 도입한 분석 플랫폼1에는 앞서 언급한 환경 빅데이터 분석 플랫폼 시범서비스가 설치되어 있으며, 간단한 인공지능 모델링 학습이 가능한 M4 AI 분석기를 탑재하였다. 또한 2020년에 구축 한 분석 플랫폼2와 분석 플랫폼3은 환경매체 분석에 활용할 CNN, LSTM 등 인공지능 모델 링의 한계를 개선하기 위하여 RTX6000 AI 분석기를 탑재하였다. 특히 CNN과 같은 컨볼 루션(convolution) 분석 모델링은 대량의 메모리가 필요하므로 2개의 AI 분석기를 하나의 분석기로 활용할 수 있도록 구축하여 기존 4GB에서 최대 48GB까지 분석 플랫폼을 개선하

부 록 ∣ 99

였다. 2021년과 2022년에 걸쳐 구축한 분석 플랫폼4에는 위성영상 AI 모델링의 메모리 부족 문제를 개선하고자 최대 96GB까지 활용할 수 있도록 분석 플랫폼을 구축하였다.

<부록 표 1-1> 개인 분석환경 시스템 목록

구분 중앙처리장치 주기억장치 AI 분석기 저장용량

분석 플랫폼1 56-코어 384GB 1x NVIDIA M4 4GB 28TB(HDD)

분석 플랫폼2 40-코어 128GB 2x NVIDIA RTX6000 24GB 37TB(HDD) 분석 플랫폼3 40-코어 128GB 2x NVIDIA RTX6000 24GB 37TB(HDD) 분석 플랫폼4 64-코어 256GB 2x NVIDIA A40 48GB 4.4TB(SSD) 주: 저자 작성.

개인 분석환경은 <부록 그림 1-4>와 같이 CLI(Command Line Interface)를 제공하고, 콘솔 기반 데이터 분석기능을 이용할 수 있다. 예를 들어 Python의 virtualenv 명령어를 이용하여 개인 분석환경을 만들면 설치하고자 하는 버전의 Python과 라이브러리를 사용할 수 있다. 개인 분석환경은 연구자마다 다른 환경을 만들 수 있고, 같은 환경에서 선행연구 결과를 재생할 수 있다.

자료: 분석 플랫폼4에서 명령어 실행화면, 검색일: 2022.11.9.

<부록 그림 1-4> 분석 플랫폼4 개인 분석환경

문서에서 환경 빅데이터 분석 및 서비스 개발(Ⅵ) (페이지 109-143)