소결 - 환경 빅데이터 분석 및 서비스 개발

본 연구의 성과는 첫째, 과거 정보와 주변 지역 정보를 함께 활용할 수 있는 3차원 시공간 데이터 셋 구축이다. 초미세먼지 농도에 영향을 미치는 기상 및 지리 정보, 수송 및 확산 관련 데이터를 적용하였고, 측정소 데이터의 결측 문제를 해결하기 위해 ECMWF에서 제공 하는 재분석 데이터를 활용하였다. 둘째, 초미세먼지 특성과 남한지역의 계절적 및 지리적 특성을 고려한 그래프 네트워크 기반 예측 모델 성능을 확인한 것이다. 알고리즘은 GNN과 GRU 두 개의 딥러닝 모델을 결합 활용하였다. 입력값으로 활용된 그래프 데이터는 node attribute(초미세먼지 농도, 기상 및 지리 데이터), edge attribute(초미세먼지 운송량), Adjacency Matrix(거리: 3km, 고도: 1200m 미만 threshold 값 설정)로 구성하였다.

72시간 뒤 남한지역 측정소 초미세먼지 농도 값 예측 성능 비교 결과, 기존 시계열 예측 모델(MLP, LSTM, GRU)과 비교했을 때 Graph-GRU 모델이 RMSE 10.7122±0.1260로 가장 높은 성능을 보였다. 본 연구에서 구축한 성능이 가장 높았던 Graph-GRU 모델을 활용하여 계절별, 변수별 예측분석을 수행하였다. 계절별 예측 결과 미세먼지 농도가 낮은

여름, 가을철에 예측 정확도가 높고, 미세먼지 농도가 높은 봄, 겨울철에 예측 정확도가 낮았다. 변수별 예측 결과 모든 변수(기상, 지리, 공간, 시간) 활용 시 예측 정확도가 가장 높았고, 특히 공간정보(위도, 경도)가 초미세먼지 농도 예측에 영향이 가장 높음을 확인하였 다. 겨울은 난방 등 연료사용 증가가 주된 원인이 될 수 있으므로, 향후 대기오염 자료 및 토지피복자료 등을 추가하여 초미세먼지 농도 예측 정확도를 향상시킬 예정이다. 또한 Graph-GRU 모델의 정교화 및 남한지역 특성에 맞는 차별화 과정을 통해 모델의 예측 성능을 향상시킬 예정이다. 마지막으로 본 연구에서 개발한 예측모델을 다른 대기질 예측에 활용할 수 있도록 전이학습(Transfer Learning)을 수행할 예정이다.

본 연구에서 개발한 남한 특성을 고려한 중장기 초미세먼지 예측 모델은 실시간 대기질 중장기 예측 정보 제공에 활용될 수 있을 것으로 사료된다. 또한 선제적 대기오염 대응방안 수립 시 근거 자료로 활용 가능할 것으로 기대되며 나아가 초미세먼지 중장기 예측자료는 광광, 건설, 서비스 등 다양한 산업분야에 활용될 수 있을 것으로 사료된다.

제4장 환경 텍스트 감성분류기 구축 및 활용 ∣ 61

제4장

환경 텍스트 감성분류기 구축 및 활용

1. 서론

가. 연구 배경 및 목적

최근 환경이슈는 기후, 대기, 쓰레기, 보건 등 여러 매체들이 복합적으로 연관되어 나타나 고 있고, 시간이 지날수록 더 복잡해지고 주기는 짧아지고 있으며 국민들의 환경수요는 시 간이 지남에 따라 높아지고 있는 상황이다. 따라서 국민들의 다양한 목소리를 반영할 수 있고 보다 빠른 정책 수립을 위한 복합적인 정책 수립 체계의 구축이 필요하다. 특히 온라인 으로 생산되는 텍스트 등의 적극적인 분석을 통해 환경이슈와 관련된 텍스트들의 감성 추 이, 부정 감성의 원인, 잠재 이슈 발굴 등을 수행하여 정책 수립 및 평가 등에 반영하기 위한 노력이 필요하다. 해외 주요 국가 및 기업에서는 온라인 텍스트의 분석을 통해 국민 또는 소비자들의 인식을 보다 체계적으로 분석하고, 최신 요구사항들의 빠른 반영을 통해 정책 또는 실적 개선을 시도한 다양한 사례들이 나타나고 있다.¹⁴⁾ 온라인의 텍스트에 포함 된 의견이 모든 사람에 의견을 대변하지 않고 편향성이 존재하는 등의 문제가 존재할 수 있지만 환경이슈와 관련된 다양한 의견을 청취할 수 있는 좋은 매개체이므로 이를 활용하기 위한 노력이 필요하다.

따라서 본 연구에서는 ‘환경 빅데이터 분석 및 서비스 개발’ 2년 차 연구에서 기후변화로 인한 재난·재해(폭염, 한파, 폭우, 가뭄, 태풍 등) 관련 뉴스 댓글 및 트위터, 인스타그램 등의 SNS(Social Network Service) 텍스트를 중심으로 구축한 ‘기후변화 감성분류기’를

14) 박수지 외(2017).

환경 전체영역으로 확장 및 개선하여 환경이슈에 대한 국민의 관심도 및 감성(긍정 또는 부정)을 판별할 수 있는 감성분류기를 구축하였고, 실제 관련 데이터 수집을 통해 감성분석 을 수행하였다. 또한 사용자 친화적인(user-friendly) 웹 형태의 서비스 구축을 통해 연구 자들이 정책 수요 파악 및 분석에 활용할 수 있도록 하였다.

나. 연구 내용 및 범위

자료: 저자 작성.

<그림 4-1> 연구 범위 및 흐름도

본 연구에서 개발한 ‘환경 텍스트 감성분류기 구축 및 활용’ 프로세스는 <그림 4-1>과 같다. 1) 온라인 환경 텍스트를 수집 및 저장한다. 2) 기존의 ‘기후변화 감성 분석기’와 감성 사전의 조합을 통해 부정 또는 긍정일 가능성이 높은 텍스트를 학습데이터에 포함시키고, 준지도학습(semi-supervised learning)을 통해 환경 전체 분야에서 활용할 수 있는 감성 분류기로 재구축 한다. 3) 환경 분야별 테스트 데이터 구축을 통해 모형의 환경 전체영역 텍스트에 대한 성능을 검증한다. 4) 수집된 환경 텍스트의 정량적 변화를 분석하고, 감성분

제4장 환경 텍스트 감성분류기 구축 및 활용 ∣ 63

자료: 송영조(2012), p.5.

<그림 4-2> 공공정책 과정

SNS 텍스트 활용 및 감성분류의 활용을 통해 정책 수립 및 보완을 수행한 사례가 다수 나타나고 있다.

황영자(2015, p.127)에서는 SNS 데이터를 활용한 소비자성향 분석을 분석하였다. <그 림 4-3>과 같이 월 단위 감성지수와 경기지표와의 상관관계를 분석하였다. 분석 결과 소비 자 심리지수(CCSI)와의 상관계수는 0.713, 현재 경기판단에 활용되는 소비자동향지수 (CSI)와의 상관계수는 0.659, 경기동행지수 순환변동치(CCI Cycle)와의 상관관계는 0.611 로 매우 높은 상관성을 나타냈다. 또한 향후 경기를 소비자동향지수의 상관계수는 0.586, 경제심리지수(ESI 순환변동치)는 0.522, 경제심리지수(ESI 원계열)는 0.422를 나타내어 역 시 의미 있는 상관성을 나타냈다.

제4장 환경 텍스트 감성분류기 구축 및 활용 ∣ 65

자료: 황영자(2015), p.143.

<그림 4-3> 소셜미디어 감성지수와 경기지표

이는 SNS 데이터를 통해 도출된 감성 분석 결과는 기존의 공식 통계들과 높은 상관성을 나타내고 있는 부분들이 존재하며, 실시간 분석을 통해 공식통계보다 빠른 시일 내에 그리 고 더 짧은 시간을 주기로 값 도출을 수행하여 보다 빠르고 상세 추이분석에 활용할 수 있을 것으로 기대 할 수 있다. 추가적으로 네덜란드 통계청의 연구에서도 한국은행의 월간 소비자 심리지표와 소셜 미디어를 통해 구축한 감성 지수는 높은 상관성을 보이고 있음을 언급하였다.

송태민(2016)에서는 SNS 데이터를 활용하여 저출산 정책의 수요를 분석하였다. 2008년 부터 2015년까지 온라인 뉴스 및 SNS 데이터를 수집하였으며, 감성 사전 구축 및 이를 활용하여 감성분석, 키워드 네트워크 분석 등을 수행하였다. 감성분석 결과 고용문제, 양성 불평등 문제를 제외한 결혼출산 양육부담 경감, 근로시간, 보육시설, 아동보호, 청소년 지원 등 대부분의 정책에 대해서는 부정 감성이 나타났다. 또한 연관 키워드 분석을 통해 각 이슈

들에 영향을 미치는 요소들을 분석하였다. 예시로 저출산에 부정적인 요인은 핵가족화, 경

제4장 환경 텍스트 감성분류기 구축 및 활용 ∣ 67

<CNN모형> <LSTM 모형> <CNN-LSTM 모형>

자료: Park and Kim(2019), pp.147-148.

<그림 4-4> 감성분류 딥러닝 모형 1

최민성, 온병원(2019)에서는 <그림 4-5>와 같이 Bi-LSTM을 활용을 통해 대용량의 학습 데이터 자동 생성 방안에 대해 제시하였다. 실제 학습기를 구축할 시 많은 데이터가 요구되 는데 이런 데이터를 만들기 위해 사람이 직접 데이터의 레이블을 달아주는 것이 이상적이지 만 많은 시간과 노력이 필요하다. 이런 문제를 보완하기 위해 자동으로 레이블링 할 수 있는 방안을 제시하였다. 연구에서 제안한 방법론을 요약하면 각 문장을 구 단위로 나눈 다음 감성사전을 구 단위로 적용하여 감성점수를 스코어링 한 뒤 상위 점수 문장만 활용하여 분류기를 구축 및 예측을 통해 학습 데이터를 대량으로 확장하는 방법이다. 즉 기존의 사전 에서 긍정적 또는 부정적 구가 극단적으로 많이 들어간 문장들을 추출하여 학습데이터를 증강시키는 방법을 제시하였다.

<CNN-LSTM 모형>

자료: 최민성, 온병원(2019), p.804.

<그림 4-5> 감성분류 딥러닝 모형 2

제4장 환경 텍스트 감성분류기 구축 및 활용 ∣ 69

문서에서 환경 빅데이터 분석 및 서비스 개발 (페이지 83-93)