• 검색 결과가 없습니다.

환경 빅데이터 분석 및 서비스 개발(Ⅵ)

N/A
N/A
Protected

Academic year: 2023

Share "환경 빅데이터 분석 및 서비스 개발(Ⅵ)"

Copied!
143
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

환경 빅데이터 분석 및 서비스 개발 Ⅵ

Big Data Analysis: Application to Environmental Research and Service Ⅵ

홍한움 외

사업보고서 2022-05

(2)

연구책임자 홍한움(한국환경연구원 연구위원) 참여연구원 강성원(한국환경연구원 선임연구위원)

이동현(한국공학대학교 경영학부 조교수) 표종철(부산대학교 환경공학과 조교수) 고길곤(서울대학교 행정대학원 교수) 조윤랑(한국환경연구원 연구원) 한국진(한국환경연구원 선임전문원) 진대용(한국환경연구원 연구위원) 강선아(한국환경연구원 연구원)

연구자문위원 (가나다순)

공성용(한국환경연구원 선임연구위원) 신동원(한국환경연구원 연구위원) 안소은(한국환경연구원 선임연구위원)

유동현(인하대학교 데이터사이언스학과 부교수) 윤건(한신대학교 공공인재학부 교수)

이성호(이노디랩 대표)

이재범(국립환경과학원 대기질통합예보센터 연구관) 전동진(한국환경연구원 부연구위원)

ⓒ 2022 한국환경연구원 발행인 이 창 훈

발행처 한국환경연구원

(30147) 세종특별자치시 시청대로 370 세종국책연구단지 과학·인프라동

전화 044-415-7777 팩스 044-415-7799 http://www.kei.re.kr

인 쇄 2022년 12월 26일 발 행 2022년 12월 31일

등 록 제 2015-000009호 (1998년 1월 30일) ISBN 979-11-5980-654-4 93530 인쇄처 ㈜다원기획 044-865-8115

이 보고서를 인용 및 활용 시 아래와 같이 출처를 표시해 주십시오.

홍한움 외(2022), 「환경 빅데이터 분석 및 서비스 개발 Ⅵ」, 한국환경연구원.

값 7,000원

(3)

서 언

빅데이터를 수집하여 기계학습 알고리즘을 적용하는 빅데이터 연구는 예측의 오차를 축 소하고 비정형 자료의 패턴을 파악하여 정보를 추출하는 과제에서 획기적인 성과를 거두어 왔습니다. 본 연구는 이러한 빅데이터 연구의 장점을 환경정책 연구에 도입하려는 시도로, 올해로 6년 차가 되었습니다.

본 연구는 그동안 환경 오염 예측, 환경 텍스트 감성분석, 환경 이슈 상황판 구성 등에서 꾸준히 좋은 성과를 보여 왔습니다. 2020년부터는 6년간의 연구 성과를 취합하여 (가칭)환 경정책 모니터링 시스템을 설계하였고, 작년과 올해 세부 과제들을 통해 이렇게 설계한 환 경정책 모니터링 시스템의 구성요소를 강화해 왔습니다. 딥러닝을 활용한 미세먼지 및 녹조 예측에 있어 설명 가능성 요소를 강화하였고, 국가지속가능발전 관련 이슈 상황판을 구축하 였습니다. 그동안의 연구 성과를 뉴스레터 형태로 발신하기 위한 시도로서 발신 대상을 선 정하고 양식을 작성하였습니다. 본 연구의 결과가 환경 빅데이터 연구를 촉진하고 실제 환 경정책에도 활용할 수 있기를 기대합니다. 또한 내년부터 발신을 시도할 뉴스레터가 다양한 환경정책 연구에 도움이 될 수 있기를 바랍니다.

본 연구를 수행한 한국환경연구원 홍한움 박사, 진대용 박사, 강성원 박사를 비롯하여 한국산업기술대학교 이동현 교수, 서울대학교 고길곤 교수에게 깊은 감사를 표합니다. 또 한, 바쁘신 와중에도 자문을 통해 도움을 주신 한신대학교 윤건 교수, 이성호 Enno-D lab 대표, 이재범 국립환경과학원 대기질통합예보센터 연구관 , 유동현 인하대학교 교수에게도 깊이 감사의 뜻을 전합니다.

2022년 12월 한국환경연구원 원 장

이 창 훈

(4)
(5)

요 약 ∣ i

요 약

Ⅰ. 연구의 배경 및 목적

❏ 연구 목적: (가칭) 환경정책 모니터링 시스템 구축

ㅇ 환경정책 수요 파악, 정책 시의성 평가, 정책 유효성 평가의 주기적 반복 목적 ㅇ 환경오염 통합 예측 알고리즘, 실시간 환경 텍스트 분석 알고리즘, 질문중심 데이터

베이스로 구성

❏ 2022년 연구목표: (가칭) 환경정책 모니터링 시스템의 구성요소 강화 ㅇ 오염도 예측

- 대기 및 수질 오염도 예측에 설명 가능성 강화 ㅇ 질문중심 데이터베이스

- 국가 지속가능발전목표(K-SDGs)에 대한 이슈 상황판 구성 ㅇ 실시간 환경 텍스트 분석 알고리즘

- 환경 빅데이터 플랫폼 산출물

Ⅱ. 설명 가능한 인공지능 기반 새로운 미세먼지 예측 모듈 개발

❏ 연구 목적

ㅇ 연구 목적: 미세먼지 예측에 설명 가능한 인공지능 기법 도입 - 인공지능 예측 모형에 대한 투명성 및 신뢰성 확보

(6)

❏ 연구 방법

ㅇ 에어코리아, 기상청으로부터 데이터 수집 ㅇ 결측치공간보간으로 데이터 전처리

ㅇ Vision Transformer(ViT)를 이용한 attention score 및 shapely value 도출

❏ 높은 단기 예측 성능을 유지한 상태에서 설명 가능한 인공지능 예측 모형 구축 ㅇ Interpolated Convolutional Neural Network(ICNN)에 ViT를 결합

ㅇ attention score를 통해 특정 patch가 결과에 어느 정도 영향을 미쳤는지 추론 가능 ㅇ shapely value를 통한 변수 중요도 파악

ㅇ 인공지능 기반 미세먼지 예측에 대한 투명성 및 신뢰 가능한 설명력 제공

Ⅲ. 설명 가능한 딥러닝 모델을 활용한 담수 수계 부영양화 지수농도 산정

❏ 연구 목적

ㅇ 딥러닝 기반 모델 부영양화 지수농도 산정

ㅇ 설명 가능한 딥러닝 알고리즘을 활용한 부영양화 지표에 대한 수질 영향인자 비교분석

❏ 연구 방법

ㅇ 국가 하천수질 우심지역 선정(낙동강 달성보, 금강 백제보 수질 측정망 지점) ㅇ 입·출력자료 선정

- 독립변수: 수온, SS, TN, NO2, NO3, NH4, DO, PO4, BOD, pH, 전기전도도, 강수량, 유량

- 종속변수: 클로로필a, COD, TP

ㅇ 1-D CNN 예측 모형 구축 및 CBAM(Convolutional Block Attention Module)을 통한 설명 가능한 인공지능 예측 모형 구축

(7)

요 약 ∣ iii

❏ 예측결과 및 활용

ㅇ 부영양화 지표 예측 모형의 계절적 주기성 모사 가능 확인

ㅇ 설명 가능한 인공지능 기법을 통한 부영양화 현상의 주요 수질인자 파악

ㅇ 부영양화 지표 및 수질인자 분석정보를 활용한 수질관리 정책의 기초자료로 활용 가능

Ⅳ. K-SDGs 환경 분야 이행점검을 위한 질문중심 반응형 대시보드의 활용

❏ 연구 목적

ㅇ 정보공개 패러다임 측면에서 반응형 대시보드의 의미와 가능성 검토 ㅇ 세부목표별 이행점검을 위한 지표 도출 및 통계자료 연계

ㅇ K-SDGs 환경 분야 이행점검을 위한 SAS Viya Visual Analytics 기반 반응형 대시 보드 개발

❏ 질문중심 반응형 대시보드 구축

ㅇ K-SDGs 환경 분야의 세부목표별 이행점검을 위한 지표 도출 및 통계자료 연계 ㅇ SDGs 관련 통계자료에 대한 시계열 분석 절차 모듈화

ㅇ SDGs 이행 수준에 대한 목표 간 연계성 및 국가 간 유사성 분석

❏ 시사점

ㅇ 반응형 대시보드는 정보의 실질적 활용을 가능하게 하여 디지털 격차를 줄이는 데 기여하고 사회문제 해결에 도움을 줄 수 있음

ㅇ 사용자가 정보를 수집, 가공하여 질문에 답을 찾아가는 경험을 제공함으로써 정보공 개와 같은 절차적 가치에 대한 기여를 넘어 실질적 가치를 구현

(8)

Ⅴ. 환경 빅데이터 플랫폼 뉴스레터 개발

❏ 연구 목적

ㅇ 환경 빅데이터 플랫폼이 생성하는 정보를 연구자가 해석하여 뉴스레터 형태로 발신 ㅇ 뉴스레터는 생산된 정보를 전달하는 ‘재생’ 부분과 정보를 해석하는 ‘해석’ 부분으로

구성

ㅇ 빅데이터 분석의 주기성을 활용하여 단기간에 정보를 해석하고 주기적으로 발신하는 방식으로 작성

❏ 연구 내용

ㅇ 뉴스레터에 포함될 내용 선정 및 양식 작성(R Markdown)

ㅇ 알고리즘 완성도를 기준으로 ‘환경 텍스트 분석 알고리즘’, ‘녹조 예측 알고리즘’,

‘미세먼지 질문중심 데이터베이스’의 3개의 발신 대상 선정 및 발신 양식 선정 ㅇ 개별 뉴스레터 양식 내용을 요약하고 개별 뉴스레터 링크를 제공하는 cover letter를 작성

❏ 향후 계획

ㅇ 뉴스레터의 시험적인 발신과 수요자 반응을 파악하여 뉴스레터 발신을 상시화

Ⅵ. 결론 및 학술적 성과

❏ 환경정책 모니터링 시스템(가칭) 구성요소 확대 및 심화

ㅇ ‘환경오염 통합 예측 알고리즘’의 미세먼지 예측 및 녹조 예측 인공지능 알고리즘의 설명 가능성 강화

ㅇ ‘질문중심 데이터베이스’의 이슈 상황판 대상을 국가 지속가능발전목표(K-SDGs)로 확장

ㅇ 환경 빅데이터 플랫폼의 산출물을 뉴스레터 형태로 발신하기 위한 양식 선정

(9)

요 약 ∣ v

❏ 학술적 성과

ㅇ 미세먼지 예측 및 녹조 예측에서 높은 예측 성능을 유지하면서도 설명 가능성을 강화하여 예측 알고리즘에 대한 투명성 및 신뢰도 확보

ㅇ K-SDGs 환경 분야를 대상으로 정책평가 및 분석수행을 위한 질문, 방법론, 데이터의 유기적 연계를 도모하고 시계열 분석 자동화 프로그램 모듈 개발. 추가로, 국가 간 비교 및 목표 간 연계성 정보 추가 제공

ㅇ 환경정책 수요자 및 공급자에게 시의성 있는 정보전달을 위한 뉴스레터 형태의 환경 빅데이터 플랫폼의 산출물 개발

주제어: 빅데이터, 기계학습, 데이터베이스, 뉴스레터

(10)
(11)

|차례 |

요 약 ···ⅰ

제1장 서 론 ···1

1. 연구의 필요성 및 목적 ···1

2. 연구의 범위 ···3

3. 연구 내용 및 방법론 ···5

4. 보고서의 구성 ···6

제2장 설명 가능한 인공지능 기반 새로운 미세먼지 예측 모듈 개발 ···7

1. 서론 ···7

2. 방법론 ···8

3. 결과 ···15

4. 결론 ···19

제3장 설명 가능 딥러닝 모델을 활용한 담수 수계 부영양화 지수농도 산정 ···21

1. 서론 ···21

2. 방법론 ···22

3. 딥러닝 모델 성능 평가 ···30

4. 결론 ···38

제4장 K-SDGs 환경분야 이행점검을 위한 질문중심 반응형 대시보드의 활용 ···39

1. 서론 ···39

2. 정보공개 패러다임과 질문중심 반응형 대시보드 ···42

3. 질문중심 반응형 대시보드 구축 ···45

(12)

제5장 환경 빅데이터 플랫폼 뉴스레터 개발 ···64

1. 서론 ···64

2. 환경 텍스트 분석 알고리즘: 텍스트 정보추출 ···66

3. 환경오염 예측 알고리즘: 녹조 오염도 예측 ···70

4. 질문중심 데이터베이스: 미세먼지 질문중심 데이터베이스 ···74

5. 표지(cover letter) ···77

제6장 결론 및 시사점 ···79

참고문헌 ···83

부 록 ···91

Ⅰ. 환경 빅데이터 분석 플랫폼 구축방안 ···93

Executive Summary ···103

(13)

|표차례 |

<표 1-1> 환경 빅데이터 분석 및 서비스 개발 단계별 계획 ···4

<표 1-2> 환경 빅데이터 분석 및 서비스 개발 연차 계획 ···4

<표 2-1> IDW 보간 후 데이터의 기술통계 ···11

<표 2-2> 모델별 미세먼지 예측 성능 ···15

<표 2-3> PM10 단기 예측결과에 대한 shapely value ···18

<표 3-1> 2016~2021년 금강 부여 측정망 수질 인자 통계 ···24

<표 3-2> 2016~2021년 낙동강 현풍 측정망 수질 인자 통계 ···25

<표 3-3> 1D-CNN 모델 결과 비교 ···35

<표 4-1> 정부 운영과 정보공개 패러다임 ···42

<표 4-2> K-SDGs 환경부문 세부목표별 지표 ···46

<표 4-3> 데이터셋 현황 ···49

<표 4-4> 신재생에너지 총 발전량 분석변수 목록 ···53

<표 4-5> 온실가스 총 배출량 예측 분석변수 목록 ···55

<표 4-6> 군집분석 투입변수 목록 ···57

<표 4-7> 대한민국과 동일한 군집으로 분류된 국가 목록 ···58

<표 4-8> 목표 간 연계성 탐색변수 목록 ···60

<표 4-9> 환경 관련 목표에 대한 중요도 순위(상위 5개) ···62

<표 5-1> 환경 텍스트 정보추출 뉴스레터 textanalysis_0824.Rmd 파일 내용 ···68

<표 5-2> 녹조 예측 알고리즘 뉴스레터 algeapred_0824.rmd 파일 내용 ···73

<표 5-3> 질문중심 데이터베이스 뉴스레터 QbaseDB_htm_0824.rmd 파일 내용 ···76

<표 5-4> 표지 작성 coverletter_html.Rmd 파일 내용 ···78

(14)

<그림 1-1> 환경정책 모니터링 시스템 ···2

<그림 2-1> ICNN–ViT 모델 프레임워크 ···9

<그림 2-2> IDW 보간 후 patch 형태로 재가공한 데이터 ···12

<그림 2-3> ViT 예시 아키텍처 ···13

<그림 2-4> PM10 예측결과에 대한 attention score 시각화 ···16

<그림 2-5> PM10 단기 예측결과에 대한 shapely value 시각화 ···17

<그림 3-1> 금강 및 낙동강 수계의 수질 측정망 지점 위치 ···23

<그림 3-2> 부여 및 현풍의 수질변수 시계열 자료 ···26

<그림 3-3> 부영양화 지표 농도 산정을 위한 CNN 모델 구조 ···28

<그림 3-4> CBAM attention을 통한 Convolutional feature 조정 과정 ···29

<그림 3-5> multiple output 1D-CNN 기반 부영양화 지수 인자 COD, TP, Chl-a 산정 결과 ·· 31

<그림 3-6> multiple output 1D-CNN 기반 부여 및 현풍 지점 COD, TP, Chl-a 시계열 결과 ··32

<그림 3-7> single output 1D-CNN 기반 부영양화 지수 인자 COD, TP, Chl-a 산정 결과 ···33

<그림 3-8> single output 1D-CNN 기반 부여 및 현풍 지점 COD, TP, Chl-a 시계열 결과 ···34

<그림 3-9> multiple outputs 1D-CNN 기반 부여 및 현풍 지점 부영양화 지표 시계열 결과 ··36

<그림 3-10> single output 1D-CNN 기반 부여 및 현풍 지점 부영양화 지표 시계열 결과 ···36

<그림 3-11> CBAM 모듈을 활용한 부영양화 지표 산정의 영향 수질 인자 중요도 가시화 결과 ·· 37

<그림 4-1> K-SDGs 목표별 대시보드 일부 ···50

<그림 4-2> 신재생에너지 발전비율 예측 분석결과 ···53

<그림 4-3> 신재생에너지 발전량 분석결과 ···54

<그림 4-4> 온실가스 배출량 예측 분석결과 ···56

<그림 4-5> 대시보드 내 목표 7 국가 간 비교 페이지 ···59

<그림 4-6> 목표 15 달성도에 대한 베이지안 네트워크 분석 페이지 ···61

<그림 4-7> 목표 14에 대한 중요도 파악 페이지 ···61

(15)

<그림 5-1> 환경 텍스트 정보추출 알고리즘 뉴스레터 구성(예시) ···68

<그림 5-2> 녹조 예측 알고리즘 뉴스레터 구성(예시) ···72

<그림 5-3> 질문중심 데이터베이스 뉴스레터 구성(예시) ···76

<그림 5-4> 뉴스레터 표지 구성(예시) ···77

(16)
(17)

|약어 |

ARIMA Autoregressive integrated moving average(자기회귀 누적 이동평균) BOD Biological Oxygen Demand(생물학적 산소요구량)

CBAM Convolutional Block Attention Module(합성곱 블록 어텐션 모듈) CD Conductivity(전기전도도)

Chl-a Chlorophyll-a(클로로필a)

CNN Convolutional Neural Network(합성곱 신경망) COD Chemical Oxygen Demand(화학적 산소요구량) DO Dissolved Oxygen(용존산소)

DTN Dissolved Total Nitrogen(용존 총 질소) DTP Dissolved Total Phosphorus(용존 총 인)

GIS Geographic Information System(지리정보 시스템) IDW Inverse Distance Weighting(역거리가중법) LSTM Long Short-Term Memory(장단기 메모리) MLP Multilayer Perceptron(다층 퍼셉트론) NH3-N Ammonia Nitrogen(암모니아성 질소) NO3-N Nitrate Nitrogen(질산성 질소)

pH Potential of Hydrogen(수소 이온농도 지수) PO4-P Phosphate(인산염인)

RMSE Root Mean Square Error(평균 제곱근오차)

SDGs Sustainable Development Goals(지속가능발전목표)

SDSN Sustainable Development Solution Network(지속가능 발전해법 네트워크) SS Suspended Solid(부유물질)

TN Total Nitrogen(총 질소) TP Total Phosphorus(총 인)

(18)

XAI eXplainable Artificial Intelligence(설명 가능한 인공지능)

(19)

제1장 서 론 ∣ 1

제1장

서 론

1. 연구의 필요성 및 목적

본 연구는 2017년부터 진행하고 있는 계속 사업으로, 딥러닝(deep learning) 분석과 같은 빅데이터 연구방법을 환경연구에 적용하는 것을 목표로 한다. 세부적으로는 환경연구와 관련하여 주제선정, 데이터 수집 및 가공, 데이터 분석, 결과전달의 전 과정에서 빅데이터 분석기법을 도입하고, 환경 빅데이터 연구 인프라를 구축하며, 원 내외 빅데이터 서비스를 개발하는 것을 목적으로 한다. 주제선정 측면에서는 비정형 자료로부터 텍스트마이닝 분석을 통해 알려지지 않은 규칙성을 발견하여 연구주제 및 정책과제를 발굴한다. 데이터 수집 및 가공 측면에서는 연구주제 분석 관련 대용량 데이터를 자동으로 수집하고 축적하는 알고리 즘을 개발한다. 데이터 분석 측면에서는 딥러닝 예측 알고리즘과 같은 머신러닝 예측기법을 통해 불확실성이 큰 단기 예측의 정확도를 향상하고 지역별 특성을 반영한 예측치를 도출한 다. 마지막으로 연구결과를 새로운 데이터를 이용하여 주기적으로 업데이트하여 발신한다.

2017년부터 첫 3년은 기계학습 방법을 환경연구에 처음 적용하는 단계로 실험적인 연구 위주로 수행하였으며, 이 기간 동안 쌓은 연구성과를 바탕으로 2019년 <그림 1-1>과 같은 환경정책 모니터링 시스템(가칭)을 설계하였다. 환경정책 모니터링 시스템(가칭)은 크게 오염도 예측 부문, 이슈 분석 부문, 텍스트마이닝 부문으로 구성되어 있고, 수요 파악, 유효성 평가, 시의성 평가의 3단계를 통해 운용한다. 수요 파악 단계에서는 오염도를 예측하고 환경정책 의 수요자인 민간 텍스트를 대상으로 주제 및 키워드 분석, 감성분석을 수행하며, 수요자의 관심도가 높은 환경 이슈에 대한 데이터 분석 상황판을 제공하여 환경정책에 대한 수요를 파악한다. 이후 시의성 평가를 위해 공공 텍스트의 주제 및 키워드를 분석하여 환경정책

(20)

공급자의 정책이 수요에 맞게 대응하고 있는지를 평가한다. 마지막으로 정책 유효성 평가를 위해 정책 시행 전의 오염도 예측치와 정책 시행 후의 오염 실측치를 비교하고, 환경 이슈의 데이터 분석 상황판의 정책 시행 전후의 변화를 파악하며, 민간 텍스트의 감성분석결과 또한 정책 시행 전후의 변화를 비교한다.

자료: 강성원 외(2020), p.2.

<그림 1-1> 환경정책 모니터링 시스템

본 연구는 환경오염 예측 부문에서 2017년부터 우리나라의 미세먼지 농도를 KNN 공간 신경망, CNN 컨볼루션 신경망, Graph-GRU와 같은 딥러닝 알고리즘을 사용하여 예측하고, 분위수회귀(quantile regression) 분석을 통해 고농도 발생확률을 예측하였다. 2019년에 는 CNN 알고리즘을 이용하여 6개 대기오염물질(PM10, PM2.5, O3, CO, SO2, NO2)을 통합 예측하는 알고리즘을 개발하였다. 또한 2018년부터 RNN 순환신경망, CNN 컨볼루션 신 경망을 활용한 수질 녹조 예측 모형을 개발하였다. 환경이슈 분석 부문은 2018년 미세먼지, 2019년 기후변화, 2020년 탄소중립을 주제로 하여 질문중심 데이터베이스를 통한 이슈

(21)

제1장 서 론 ∣ 3

상황판을 제공하였다. 텍스트 분석 부문에서는 2017년 텍스트마이닝을 이용한 KEI 연구동 향 분석을 시작으로 2018~2020년 환경 텍스트에 대한 감성분류기를 구축하였고, 2021년 장기 저탄소발전전략 문서에 대해 텍스트 분석을 수행하였다.

2022년의 본 과제는 미세먼지 및 녹조오염도 예측에 있어 딥러닝 알고리즘의 약점으로 지적되어 온 설명 가능성을 강화하는 알고리즘을 개발하는 것을 첫 번째 목표로 한다. 또한 환경이슈 분석에서는 국가지속가능발전(K-SDGs)을 주제로 하여 이슈 상황판을 만드는 것 을 두 번째 목표로 한다. 마지막 목표는 연구결과의 주기적 발신을 위한 자동화된 뉴스레터 를 개발하는 것이다. 환경정책 모니터링 시스템(가칭)을 통해 개발한 알고리즘 중 텍스트 분석 알고리즘, 녹조 예측 알고리즘, 미세먼지 질문중심 데이터베이스를 대상으로 한다.

2. 연구의 범위

본 연구는 기계학습 방법을 환경연구에 적용하는 환경 빅데이터 연구를 주축으로 진행된 다. 환경 빅데이터 플랫폼 구축 외에 본 연구의 계속 사업으로 중요 목표였던 ‘원 내외 빅데이 터 서비스 개발’ 기능은 그동안 축적된 알고리즘 규모가 확대됨에 따라 이를 별도 과제로 분리하는 것을 추진하고 있다. 2020년부터 본 과제에서는 ‘환경 빅데이터 분석’에 집중하되, 그 영역을 ‘대용량 데이터를 사용하는 환경정책 연구’로 확대하였다(강성원 외, 2020).

<표 1-1>과 <표 1-2>는 본 계속 사업에서 ‘서비스 개발’은 축소하고 ‘대용량 데이터의 환경정책 연구’는 확대한 이후의 단계별 계획과 연차 계획을 나타낸 것이다. 본 연구는 환경 정책 모니터링(가칭) 시스템을 설계하는 제2기의 마지막 연도에 해당하는 연구로, 환경정책 모니터링(가칭) 시스템을 강화한다. 이 과정에서 딥러닝 예측 알고리즘에 설명 가능성 요소 를 강화하고 환경이슈 상황판의 주제를 보강하였다. 또한 축적된 알고리즘을 자동화된 뉴스 레터 형태로 발신할 수 있도록 내용 및 양식을 선정하였다. 이를 통해 기존 알고리즘의 정책 활용성 제고에 필요한 요소를 강화하였다.

(22)

<표 1-1> 환경 빅데이터 분석 및 서비스 개발 단계별 계획

구분 환경 빅데이터 연구

1기 성과 (2017~2019년)

․ 기계학습 중심 환경 빅데이터 연구 시행

․ 환경 빅데이터 플랫폼 설계: ‘(가칭) 환경정책 모니터링 시스템’ 설계

․ 원내 연구정보서비스: Open Data Map, 환경 텍스트 분석 서비스 원내 제공 2기

(2020~2022년)

․ ‘(가칭) 환경정책 모니터링 시스템’ 구축 지속

․ 인과분석이 가능한 다양한 통계적 기법 실험

․ 해석 가능한 기계학습(Interpretable machine learning) 기법 접목 3기

(2023~2025년)

․ ‘(가칭) 환경정책 모니터링 시스템’ 구축 지속

․ 시의성 중심 발신체계 개편 자료: 강성원 외(2020), p.5.

<표 1-2> 환경 빅데이터 분석 및 서비스 개발 연차 계획

구분 환경 빅데이터 연구  환경 빅데이터 연구 인프라 구축 환경 빅데이터 서비스 개발 1단계 환경 빅데이터 연구 시행 자료 및 알고리즘 축적/공개 원내 연구정보 서비스 2017년 환경위험 예측 알고리즘

개발 / 연구수요 파악:

전산화된 자료

1) 환경 분야 기초 데이터 수집방법

2) 자료 및 알고리즘 축적/공개  연구동향 파악 서비스

2018년 환경위험 예측 알고리즘 개발 / 연구수요 파악:

비정형자료

* 환경 빅데이터 플랫폼 설계 - 대용량 자료 저장-분석 기능 구비 - 자료 및 알고리즘 축적/공개 지속 - 환경 분야 기초 데이터 수집

1) 연구동향 파악 서비스 원내

2) Open Data Map 설계

2019년

환경정책 모니터링 시스템 구성요소 구축

1) 환경위험 예측 상시화 2) 딥러닝 중심 연구수요

분석 상시화

* 환경 빅데이터 플랫폼 설계 완료 - 자료 및 알고리즘 축적/공개 지속 - 환경 분야 기초 데이터 수집 1단계

완료

1) 연구동향 파악 서비스 2) Open Data Map 원내원내

2단계 환경정책 모니터링 시스템 구축

2020년 환경정책 모니터링 시스템 구축 시작: 분석방법론 다양화 2021년 환경정책 모니터링 시스템 구축 진행: 인과분석 기능 강화

- 해석 가능한 기계학습(Interpretable Machine Learning) 기법 활용 2022년 환경정책 모니터링 시스템 구축 지속

3단계 환경정책 모니터링 시스템 활용 및 심화

2023년 1) 환경정책 모니터링 시스템 활용: Data Journalism형 발신체계 설계/가동  2) 연간 기획연구 2건 이상

2024년 1) 환경정책 모니터링 시스템 활용: Data Journalism형 발신체계 1년 가동 2) 연간 기획연구 2건 이상

2025년 1) 환경정책 모니터링 시스템 활용: Data Journalism형 발신체계 1년 가동2) 연간 기획연구 2건 이상 자료: 강성원 외(2020), p.5.

(23)

제1장 서 론 ∣ 5

3. 연구 내용 및 방법론

2022년의 본 연구는 딥러닝 예측 알고리즘에서 설명 가능성을 강화한 오염도 예측 알고 리즘 2건, 국가지속가능성(K-SDGs)을 대상으로 하는 질문중심 반응형 대시보드 활용연구 1건, 환경 빅데이터 플렛폼의 산출물 연구인 뉴스레터 개발연구 1건을 수행하였다.

2017년부터 예측 알고리즘을 개발한 미세먼지를 대상으로 ‘설명 가능한 인공지능을 활 용한 새로운 미세먼지 예측 모듈 개발’ 연구를, 2018년부터 알고리즘을 개발한 녹조를 대상 으로 하는 ‘설명 가능 딥러닝 모델을 활용한 담수 수계 부영양화 지수농도 산정’ 연구를 수행하였다. 미세먼지 예측 연구에서는 에어코리아 및 기상청에서 미세먼지 및 기상 자료를 수집하여 결측 데이터에 대한 공간보간 과정을 거쳐 Vision Transformer(ViT)를 이용한 attention score를 도출하고 독립변수에 대한 중요도를 파악하기 위해 shapely value 분 석을 수행하였다. 녹조 예측 연구에서는 AI-Hub, 물환경정보 시스템, 국가수자원관리 종합 정보 시스템을 통해 데이터를 수집하고 시계열 수질, 유량, 강우 데이터 주기의 일원화 과정 을 거친 후 CBAM(Convolutional Block Attention Module)과 같은 모형을 선별하여 부영양화 지수농도 산정 예측 알고리즘을 개발하였다.

‘K-SDGs 환경 분야의 이행점검을 위한 질문중심 반응형 대시보드의 활용’ 연구는 2019 년부터 ‘미세먼지’, ‘기후변화’, ‘탄소중립’을 대상으로 수행한 질문중심 반응형 대시보드를 K-SDGs 환경 분야로 확장한 것이다. 정보공개 패러다임 측면에서 반응형 대시보드의 의미 와 가능성을 검토하고 세부목표별 이행점검을 위한 지표도출 및 통계자료를 연계하였다.

또한 시계열분석 절차를 모듈화하고 다변량분석을 통해 목표 간 연계성을 파악하고 지속가 능발전 정도가 유사한 국가를 파악하였다.

‘환경 빅데이터 플랫폼 뉴스레터 개발’은 계속 과제를 통해 개발해 온 알고리즘을 적용하 여 수요자에게 직접적인 산출물로 제공하기 위해 수행하였다. 뉴스레터는 환경 빅데이터 플랫폼을 통해 생산된 정보를 전달하는 재생 부분과 정보를 해석하는 해석 부분으로 구성한 다. 2022년은 뉴스레터에 포함될 내용을 선정하고 R Markdown 양식을 작성하였다. ‘환경 텍스트 키워드 분석 알고리즘’, ‘녹조 예측 알고리즘’, ‘미세먼지 질문중심 데이터베이스’의 3개 주제를 대상으로 하여 뉴스레터의 양식을 정하고 개별 뉴스레터 양식의 내용을 요약하 고 링크를 제공하는 커버레터(cover letter)를 작성하였다.

(24)

4. 보고서의 구성

본 보고서는 총 6개의 장과 1개의 부록으로 구성하였다. 제1장은 서론으로 본 연구의 전반적인 목적 및 연구범위, 내용을 소개한다. 제2장부터 제6장까지는 환경정책 모니터링 시스템(가칭)의 구성요소 및 산출물에 대한 연구성과이다. 제2장 설명 가능한 인공지능을 활용한 새로운 미세먼지 예측 모듈 개발’과 제3장 ‘설명 가능 딥러닝 모델을 활용한 담수 수계 부영양화 지수농도 산정’은 설명 가능한 인공지능을 활용한 오염도 예측 알고리즘 구 축에 대한 내용을 담았다. 제4장은 ‘K-SDGs 환경 분야 이행점검을 위한 질문중심 반응형 대시보드의 활용’에 대한 성과를 소개한다. 제5장은 환경정책 모니터링 시스템(가칭)의 산 출물과 관련된 ‘환경 빅데이터 플랫폼 뉴스레터 개발’의 결과를 소개한다. 제6장은 결론 부문으로 2022년의 연구성과를 제시하고 정책적 시사점을 제시한다. 마지막 부록에서는 환경 빅데이터의 수집 및 분석 플랫폼에 대한 구축 방안을 제안한다.

(25)

제2장 설명 가능한 인공지능 기반 새로운 미세먼지 예측 모듈 개발 ∣ 7

제2장

설명 가능한 인공지능 기반

새로운 미세먼지 예측 모듈 개발

1. 서론

한국이 위치한 동아시아 지역은 급속한 경제성장으로 인해 대기오염물질의 배출량이 증 가하면서 심한 대기오염 문제가 발생하고 있다(Koo et al., 2015). 이러한 대기오염의 주된 원인은 미세먼지 혹은 PM이라는 물질이다. 미세먼지는 호흡기를 통해 인체 내부로 쉽게 침투할 수 있으며, 유입되면 폐조직 및 인후를 손상시키고 폐암(Beeson, Abbey, and Knutsen, 1998; Raaschou et al., 2013; Zhou, Li, and Hu, 2017) 및 심혈계 질환 (Lee, B. J., B. Kim, and K. Lee, 2014) 등을 유발한다. 또한 역학연구에 따르면 고농도 미세먼지에 장기간 노출 시 사망률이 5%까지 상승할 수 있다는 분석결과가 있다 (Kihal-Talantikite et al., 2018).

미세먼지의 주요 구성성분으로는 SO2, CO, O3, NO2가 있으며(EPA, 2004; Harrison, Jones and Lawrence, 2004), 온도(Yi et al., 2010), 습도(Lu et al., 2015), 풍속(Zhao et al., 2014)과 같은 다양한 기상변수들에 영향을 받는다. 이러한 기상변수들은 계절에 따른 기단의 변화로 인한 변동성이 크며, 미세먼지 역시 영향을 받아 정확한 예측에 어려움 이 존재한다(Cobourn, 2010). 예측하기 힘든 미세먼지를 정확하게 예측하기 위해 Convolutional Neural Network(CNN)를 기반으로 예측을 시도한 연구가 있으며(Ma et al., 2017), 나아가 Interpolated Convolutional Neural Network (CNN) 방법론이 개발 되었다(Chae et al., 2021). 이를 통해 측정소가 없거나 외곽지역처럼 측정이 불가한 지역 까지 예측이 가능하게 되었다. 또한 시간정보를 반영하고, 변수 간 관계를 정량화하여 통계

(26)

적인 접근을 통해 미세먼지를 분석한 연구가 있다(Vlachogianni et al., 2011; vanov and Gocheva-Ilieva, 2013). 그러나 위에 연구들은 각 변수가 결과에 미치는 영향이나 어떤 메커니즘에 의해 결괏값이 도출되었는지에 대한 근거가 부족하다.

이에 본 연구는 미세먼지에 관련된 변수들의 공간적 다양성을 반영하는 ICNN 모델과 attention mechanism이 적용된 Vision Transformer(ViT) 모델을 결합하여 연구를 진 행하였다. 이를 통해 transformer encoder를 가진 ViT에서 추출한 attention score를 반영함으로써 모델의 결과가 어떤 grid에서 가장 큰 영향을 받았는지에 대한 합리적인 근거 를 추론하였다. 더불어 shapely value를 활용해 변수의 중요도를 파악하여 각 변수가 결과 에 미친 영향과 중요도를 추출하여 본 연구의 인공지능 모델이 예측한 결과에 대한 당위성 과 합리성을 제공하였다. 본 연구는 다음과 같은 차별점을 제시한다. 첫째, 영상처리 분야에 서 최근 활용하기 시작한 ViT를 미세먼지 예측에 우리가 아는 한 최초로 도입하여 활용 가능성을 탐색한다. 둘째, 미세먼지를 예측하는 인공지능 모델의 attention score와 shapely value를 이용하여 예측결과에 대한 해석을 제공하여 인공지능 모델의 설명 가능성을 높이고 모델의 결과에 대한 추론이 가능할 수 있는 연구를 수행하고자 한다.

2. 방법론

가. 자료

본 연구에서는 한국의 대기질 데이터와 기상 데이터를 이용하였다. 대기질 데이터는 한국 환경공단에서 제공하는 241개 좌표에서 측정한 시간별 PM10, PM2.5, SO2, NO2, CO, O3

데이터를 가용하였다. 데이터 수집 기간은 2018년 1월 1일 01시부터 2018년 12월 31일 24시까지이다. 본 모델은 매시간 단위의 다차원 데이터를 학습에 활용하기 때문에 학습에 많은 시간이 소요되는 부분이 있고 기타 변수의 영향을 최소화하기 위하여 Covid-19 이전 인 2018년 1년간의 데이터를 분석에 활용하였다. 변수별 결측값 비율은 각 2.24%, 2.19%, 2.11%, 2.31%, 3.47%, 4.33%이다. 기상 데이터는 한국기상청에서 제공하는 Automated Synoptic Observing System(ASOS) 관측소에서 수집한 기온, 강수량과 풍향, 풍속 데이 터를 사용하였다. 데이터 수집 기간은 위와 동일하다. 결측값 비율은 기온, 풍속, 풍향이

(27)

제2장 설명 가능한 인공지능 기반 새로운 미세먼지 예측 모듈 개발 ∣ 9

각각 약 0.0001%, 0.0011%, 0.0013%이다. 강수량의 경우 결측값이 약 90%를 넘지만, 0.05mm 미만과 실제 결측 유무에 대한 구분이 명확하지 않으므로 모두 0으로 대체하고 진행하였다.

나. 분석방법론

자료: 저자 작성.

<그림 2-1> ICNN–ViT 모델 프레임워크

<그림 2-1>은 ICNN-ViT 모델의 프레임워크를 나타낸다. 수집한 데이터를 Inverse Distance Weighting(IDW) 보간법을 이용하여 측정소 위치의 값들을 patch 형태로 대치 하였다. 보간이 완료된 데이터를 6:2:2로 나누어 training, validation, test 데이터로 할당 하였다. training은 ICNN-ViT 모델을 학습하는 데이터로, validation은 ICNN-ViT 모델 을 검증하는 데이터로 사용하였다. Test 데이터는 학습된 ICNN-ViT 모델을 통해 대기질의 변수를 예측하였고, 해당 모델의 성능을 평가하는 데 사용하였다. time-step은 ViT 모델의 특성을 반영하여 각각 1과 12로 모델을 설계하고 결과를 비교하였으며, lag는 1로 1시간

(28)

뒤의 미세먼지를 예측한다.

예측이 끝난 후 transformer encoder 부분에서 attention score를 추출한 후 patch 위치에 heat-map을 형성하여 어떤 patch가 결과에 대해 가장 큰 영향을 미쳤는지 시각화 를 진행하였다. 또한 shapely value를 추출하여 어떤 변수가 결괏값에 가장 큰 영향을 미쳤 는지 분석하였다.

다. IDW interpolation

Geographic Information System(GIS)을 기반으로 진행되는 공간보간은 주변 좌표에 서 존재하는 값을 기반으로, 존재하지 않는 값을 대치하는 기법이다. IDW는 수집되지 않은 위치의 좌푯값을 대치하기 위해 예측된 좌표의 값에 의존하는 보간기법이다. 본 연구는 40 by 28 patch에 보간을 진행했다. IDW의 보간공식은 아래와 같이 정의된다(Bartier and Keller, 1996).

  

  

∕

  

∕

식 (2-1)

식 (2-1)에서 는 추정하고자 하는 위치의 대치된 값이고, 는 관측된 위치에 존재하는 실제값이다. 의 거리이다. 는 가중 지수이며, 임의의 양의 실수이다. 보편적으 로 2를 사용한다. 본 연구는 수집한 측정소의 실제값과 대치를 위한 patch 좌표 사이의 간격을 유클리드 거리로 환산하여 보간을 진행하였다. <표 2-1>은 보간 후의 기상 변수별 기술통계이다.

(29)

제2장 설명 가능한 인공지능 기반 새로운 미세먼지 예측 모듈 개발 ∣ 11

변수 관측치 최솟값 평균 최댓값 표준편차

강수량(mm) 9,811,200 0.0000 0.1625 59.9830 0.8770

풍속(m/s) 9,811,200 0.0024 1.8300 19.1380 1.1318

풍향(deg) 9,811,200 0.2614 170.5800 359.5500 74.9370

기온(℃) 9,811,200 -23.8000 12.6550 40.2210 11.0760

SO2(ppm) 9,811,200 0.0006 0.0038 0.1434 0.0013

PM2.5(㎍/m3) 9,811,200 0.0672 23.0700 238.7610 14.7710 PM10(㎍/m3) 9,811,200 0.1430 41.7630 462.5470 24.1460

O3(ppm) 9,811,200 0.0001 0.0274 0.1753 0.0168

NO2(ppm) 9,811,200 0.0005 0.0199 0.1467 0.0106

CO(ppm) 9,811,200 0.0319 0.4678 5.2303 0.1672

자료: 저자 작성.

<표 2-1> IDW 보간 후 데이터의 기술통계

라. patches

본 연구는 대기오염 관측소 데이터를 다중 배열로 바꾸어 40 by 28 형태의 patch로 가공하였다. 하지만 한국의 대기오염 관측소의 위치는 수도권 지역에 집중되어 있다. 또한 대기오염 측정을 진행하는 관측소 간의 지리적 거리가 불일치하기 때문에 해당 측정소를 다중 배열로 변환하는 데에 제약이 있다. 다중 배열로 바꾸기 위해 집중된 지역의 데이터를 균등한 위치로 바꿔주기 위하여 일정한 간격의 분리된 patch를 생성하였다. 측정소에서 수집한 데이터를 기반으로 해당 데이터 내의 동, 서, 남, 북에서 가장 최끝단에 위치한 측정 소를 기반으로 patch를 구성하였다. 사각형의 각 세로거리, 가로거리는 약 403.6km, 280.84km이다. 이후 사각형을 동일한 크기의 patch로 나누기 위해 좌표를 기준으로 40 by 28 patch로 나누었다. 좌측 최상단에 위치한 patch를 (1,1), 우측 최하단 patch를 (40,28)로 명명하였다. 또한 각 patch의 크기는 가로 10.03×세로 10.09km이다. 그 후 ViT에 적용하기 위하여 zero padding을 추가하는 작업을 진행하였다. ViT의 경우 정방행 렬의 데이터를 요구하여 zero padding을 통해 <그림 2-2>와 같이 40 by 40의 정방행렬로 데이터를 변환하였다.

(30)

자료: 저자 작성.

<그림 2-2> IDW 보간 후 patch 형태로 재가공한 데이터

마. ViT

ViT는 vision 분야에서 attention을 적용한 모델이다. transformer encoder 부분을 가져와 계산 효율성과 확장성을 내포하고 있으며, 데이터가 클수록 더욱 좋은 성능을 보인 다. <그림 2-3>은 ViT 모델의 예시 아키텍처이다.

(31)

제2장 설명 가능한 인공지능 기반 새로운 미세먼지 예측 모듈 개발 ∣ 13

자료: 저자 작성.

<그림 2-3> ViT 예시 아키텍처

먼저 image 데이터를 설정한 patch 크기만큼 나눈다. 나눠진 patch들을 flatten하여 linear projection을 진행한다. 그 후 나눠진 각 patch들에 embedding을 적용하는 positional embedding을 통해 각 patch들에 일종의 index를 부여한다. 이는 위치 정보 를 반영하기 위함이다. embedding된 각 patch들은 transformer encoder에 forward되 는데, transformer encoder는 multi-head attention이 적용되어 있다. 그로 인해 각 embedded patch들은 각각의 영향력을 고려하여 학습이 진행된다.

바. shapely value

11개 독립변수의 결과에 대한 중요도를 파악하기 위해 여러 변수의 조합을 구성하고 해 당 변수의 유무에 따른 평균적인 변화를 얻어내어 값을 추출한다. 생성된 값과 평균값을 비교하여 각 변수의 예측 결괏값에 대한 영향력을 구한다. shapely value는 독립변수의

(32)

모든 가능한 조합에 대해서 한 가지 변수의 영향력을 종합적으로 합한 값으로 식 (2-2)를 통해 값을 구할 수 있다. 은 특정 변수의 shapely value, 는 관심 변수가 제외된 변수의 부분집합, 는 관심 있는 변수집합, 는 전체 변수의 부분집합이다(Mishra, 2016).

shapely value를 통해 구해진 영향력은 이후 시각화 자료로 변환한다.

 ⊆  

 

 ∪     식 (2-2)

사. 성능 평가

본 연구에서 제안한 모델의 성능을 측정하기 위해서 다음과 같은 평가지표를 사용하였다.

1) Root Mean Squared Error(RMSE)

RMSE는 직관적인 지표로 예측값과 실제값 사이의 평균오차를 의미하며 제곱오차에 의 한 값의 왜곡을 억제할 수 있다. RMSE는 0에 가까울수록 성능이 우수함을 의미한다. 본 연구에서는 RMSE를 통해 실제 대기질 변숫값 ICNN-ViT 모델이 예측한 대기질 변숫값 사이의 평균오차를 계산하여 모델의 성능을 측정하였다. RMSE는 식 (2-3)과 같이 정의할 수 있다.

  

 

식 (2-3)

는 대기질의 변수별 실제값이고, 는 대기질의 변수별 예측값이다. n은 테스트 데이 터의 개수를 의미한다.

(33)

제2장 설명 가능한 인공지능 기반 새로운 미세먼지 예측 모듈 개발 ∣ 15

3. 결과

Model time-step, lag RMSE RMSE/std

ICNN (1,1) 4.83 0.226

ICNN-ViT (1,1) 6.24 0.293

ICNN (12,1) 4.00 0.188

ICNN-ViT (12,1) 5.92 0.278

자료: 저자 작성.

<표 2-2> 모델별 미세먼지 예측 성능

<표 2-2>는 본 연구에서 제시한 ICNN-ViT와 ICNN 예측 모델의 time-step별 RMSE와 RMSE/std이다. Time-step은 1과 12로 1시간의 데이터를 활용한 모델과 12시간의 데이 터를 활용한 모델을 의미한다. lag는 1로 1시간 뒤 미세먼지 예측에 대한 결과이다. 기존 ICNN에 비해 ICNN-ViT의 예측 성능이 더 뛰어나지는 않은 것으로 판단된다. ViT의 경우 도 RMSE 및 표준편차 대비 RMSE를 비교해볼 때 높은 예측 정확도를 보였다. 이는 단지 대조군 ICNN이 시공간 정보가 효과적으로 학습되어 반영됨에 따라 뛰어난 예측 정확도를 보였기 때문이다. 한편 ViT를 활용하면 attention score가 추출 가능하기 때문에 설명 가능한 인공지능으로 활용할 수 있다. <그림 2-4>는 추출한 PM10 단기 예측에서 attention score를 1시간 간격으로 heat-map 형태로 시각화한 그림이다.

(34)

자료: 저자 작성.

<그림 2-4> PM10 예측결과에 대한 attention score 시각화

<그림 2-4>는 2018년 3월 5일 13:00~20:00까지의 예측결과에 대한 attention score 를 시각화한 것이다. 색이 빨간색에 가까울수록 attention score가 큰데, 이는 결과에 큰 영향을 미쳤음을 의미하고, 초록색에 가까울수록 결괏값에 영향을 적게 미쳤음을 의미한다.

zero padding을 적용한 부분은 초록색으로 표현된 것으로 미루어보아 zero padding이 정상적으로 적용되었음을 알 수 있다. 해당 그림에서 수도권과 부산 지역의 attention score가 높게 나왔음을 알 수 있다. 이는 인구수가 많은 수도권과 부산 지역에서 오염원의 배출량이 높을 수 있기 때문에 그에 따라 미세먼지가 높게 나온 것을 반영하였다고 볼 수 있다. 또한 전반적으로 주간에 비해 야간에 전체적인 score가 낮은 것으로 미루어보아 시간 이 지남에 따라 자동차 통행량이 줄어드는 것에 따른 현상으로 볼 수 있다.

(35)

제2장 설명 가능한 인공지능 기반 새로운 미세먼지 예측 모듈 개발 ∣ 17

자료: 저자 작성.

<그림 2-5> PM10 단기 예측결과에 대한 shapely value 시각화

<그림 2-5>는 time-step과 lag를 1로 PM10을 예측한, 즉 PM10 단기 예측을 진행한 ViT-ICNN 모델의 shapely value를 시각화한 것이다. x축은 shapely value를 의미하며, y축은 변수를 의미한다. 해당 그림에서 파란색은 예측결과에 있어 긍정적인 영향을, 빨간색 은 부정적인 영향을 의미하며, shapely value의 크기는 영향도를 의미한다.

(36)

변수 shapely value

강수량(mm)   ×  

풍속(m/s)   ×  

wind_y  ×  

wind_x  ×  

기온(℃)  ×  

SO2(ppm)   ×  

PM2.5(㎍/m3)   ×   PM10(㎍/m3)  ×  

O3(ppm)   ×  

NO2(ppm)  ×  

CO(ppm)   ×  

자료: 저자 작성.

<표 2-3> PM10 단기 예측결과에 대한 shapely value

<표 2-3>은 동일한 환경에서 진행한 shapely value의 측정값이다. NO2, O3, SO2, 풍향 의 경우 표에서 볼 수 있듯이 중요도가 상당히 작아 그림에서는 거의 없는 것으로 시각화되 어 있다. 영향도가 가장 큰 3개의 변수는 PM10, 기온, 풍속이며, 풍속을 제외한 PM10과 기온 변수는 부정적인 영향을 미쳤다. PM10 예측에 있어서 PM10이 가장 큰 영향을 미친 것으로 미루어보아 합리적인 결과로 추론할 수 있다. 기온의 경우 두 번째로 shapely value 가 크게 나온 것을 볼 수 있다. 이는 계절 변동에 따른 기온 변동과 지표면 가열에 연관이 있는 것으로 보인다. 즉, 이는 기온이 상승하여 지표면이 가열되면 대류가 변동하여 대기의 정체 수준이 달라지는 것이 반영된 결과로 추측된다. 세 번째로 큰 값은 풍속인데, 풍속 역시 대기의 정체 수준과 밀접한 연관이 있으므로 미세먼지에 직접적인 영향을 미치는 것으 로 보인다. 풍속이 증가할수록 미세먼지 농도는 점차 감소하는데(Chae, 2009), 이로 인해 shapely value 값이 음의 방향으로 크게 나온 것임을 알 수 있다. CO의 경우 PM10, PM2.5

를 제외한 대기질 데이터 중 shapely value가 가장 크게 나타났다. 이는 CO가 미세먼지 농도와 큰 상관관계가 있을 뿐만 아니라 영향력을 가진다는 점에(Won et al., 2021) 기인

(37)

제2장 설명 가능한 인공지능 기반 새로운 미세먼지 예측 모듈 개발 ∣ 19

한 것으로 볼 수 있다. 미세먼지 농도에 영향을 주는 강수의 경우 부정적인 영향을 미쳤다는 점에서는 합리적이지만 영향력은 크지 않은 것을 볼 수 있다. 이는 비가 오는 날 자체가 적기 때문에 감소에 영향을 미쳤지만, 전체 미세먼지 예측에서의 영향을 미친 정도는 낮은 것으로 해석할 수 있다.

4. 결론

본 연구에서는 설명 가능한 인공지능으로 평가받는 attention 계열의 인공지능 방법론 중 최근 많은 주목을 받고 있는 ViT를 활용한 미세먼지 예측을 우리가 알고 있는 한 최초로 수행하였다. 또한 인공지능 모델의 설명 가능한 투명성을 높이기 위해 attention score 와 shapely value를 활용하여 지역별 영향과 변수별 영향도를 살펴보았다.

세부적으로 정방행렬로 전처리를 진행한 데이터를 ICNN-ViT 모델에 forward하여 예측 을 진행한 후 transformer encoder 부분에서 추출한 attention score와 shapely value 를 이용하여 모델의 설명력을 확보하는 예측을 진행하였다. 그 결과 기존 ICNN에 비해 time-step과 lag가 1인 단기 예측에서 높은 예측력을 보일 수 있었고, attention score와 shapely value를 이용해 모델 결과에 대한 해석을 제공할 수 있었다.

본 연구는 크게 두 가지 기여점이 있다. 첫째, ViT를 활용한 미세먼지 예측의 최초 연구로 ViT와 attention 모듈이 미세먼지 예측에서 효과적으로 활용될 수 있다는 가능성을 확인하 였다. 특히 높은 예측 성능을 보임과 동시에 설명이 가능하다는 측면에서, 특히 정책적 도입 측면에서 유용하게 활용될 수 있을 것으로 보인다. 둘째, 인공지능 모델에 대한 투명성과 신뢰성을 제공할 수 있다. 기존 인공지능 모델은 예측결과에 대한 설명 가능성을 제공하기 힘들었다. ICNN 모델의 구조와 ViT를 결합한 ICNN-ViT 모델을 통해 transformer encoder에서 attention score를 추출하고 예측결과에 대해 특정 patch가 어느 정도 영향 을 미쳤는지 공간정보를 고려한 추론이 가능해졌다. 또한 shapely value를 이용하여 모델 예측결과에 어떤 변수가 어떤 영향을 미쳤는지도 알 수 있었다. 아울러 정책적 측면에서도 비상저감조치와 조기경보 등 국가적 예방조치의 결정 근거로 인공지능 예측모델을 활용할 수 있다. 이를 통해 인공지능의 신뢰성과 투명성도 제고할 수 있을 것으로 예상한다.

(38)

하지만 본 연구에는 몇 가지 한계점이 존재한다. 첫째, ViT 구조로 인한 정방행렬 변환이 필요하다는 점이다. ViT 구조를 가져온 ICNN-ViT의 경우 기존 40X28 형태로는 예측이 불가능한 한계점이 존재하여 zero padding을 적용한 40×40 크기의 가공 이미지 형태로 예측을 진행하여야 한다. 둘째, 차원 축소 문제이다. 현재 데이터가 forward될 때 batch, 40, 40, time-step, number of variables 형태로 5차원이다. 이러한 데이터가 CNN 구조 를 통과하며 차원이 축소되어 특정 차원이 뭉개지는 현상이 발생해 중·단기 예측에서 기존 ICNN 모델보다 성능이 떨어지는 한계점이 존재한다.

향후 연구에서는 다지점 예측에 대한 문제를 단순화할 필요가 있다. 현재 다지점 예측을 위해 다지점 데이터로 학습을 진행하는데, 이로 인해 차원 문제가 발생하였고, 따라서 현재 의 attention score는 40 by 40 patch에 대한 attention score가 추출되었다. 향후 연구 에서는 단일 지점에 대한 예측으로 변형하거나 다른 방법을 고려하여 독립변수별 attention score를 추출한다면 해석력이 향상될 것으로 기대한다. 마지막으로 시계열 정보 에 대한 해석력을 갖춘다면 미세먼지 예측 메커니즘 이해도를 보다 높일 수 있을 것으로 예상한다.

(39)

제3장 설명 가능 딥러닝 모델을 활용한 담수 수계 부영양화 지수농도 산정 ∣ 21

제3장

설명 가능 딥러닝 모델을 활용한 담수 수계 부영양화 지수농도 산정

1. 서론

전 지구적인 이상 기온 현상과 산업화 및 도시화로 인한 과다한 영양염 유입으로 담수 수계의 부영양화 현상이 빈번히 발생하고 있는데, 이는 조류 대발생을 야기하여 수질 악화 를 초래하고 있다(Rabalais et al., 2009). 수질 악화에 따라 수변 이취미 문제, 정수장 응집장애 및 여과지 폐쇄, 용수의 이용과 공급 지장과 같은 사회·경제적 손실이 증가하고 있다(Kim et al., 2002). 이에 효율적인 수질 관리 방안을 마련하여 부영양화로 인한 수질 악화를 예방하고 피해를 최소화해야 하지만 하천별, 계절별, 지역별로 수질 특성이 복잡한 양상을 보이기 때문에 수질, 수리, 수문, 기상 등 다양한 측면의 현상들을 복합적으로 고려 하여 수질 관리 정책을 마련해야 한다.

4차 산업혁명의 빅데이터와 인공지능 시대가 도래하면서 담수 수질 관리에도 많은 변화가 이루어지고 있다. 수질 모니터링 기법에서도 기존의 현장 모니터링뿐만 아니라 센서 기기의 고도화를 통한 실시간 수질 모니터링과 원격탐사기법을 활용한 면단위 수질 모니터링 등 수질 데이터 획득의 다각화가 진행되고 있다. 이러한 다차원의 데이터를 효율적으로 처리하기 위해 데이터 기반 모델들이 활용되고 있으며, 특히 딥러닝 기법이 빅데이터를 처리하기 위한 방안으로 떠오르고 있다. 딥러닝 기법 중 합성곱 신경망(CNN: Convolutional Neural Network) 모델과 장단기 메모리(LSTM: Long Short-Term Memory) 모델이 다차원 이미지 데이터와 시계열 데이터를 처리하여 수질 예측에 많이 활용되고 있다. 국내외 연구들에서 두 모델을 활용하여 조류(Cho and Park, 2019; Maier, Keller, and Hinz., 2021), 총 인(Song and Kim, 2020; Wang et al., 2017), 화학적 산소요구량(Wang et al., 2019;

(40)

Ye et al., 2019)과 같은 다양한 수질 인자들을 예측하는 연구를 진행하였다. 또한 설명 가능 한 인공지능(XAI: Explainable Artificial Intelligence)을 활용하여 환경 현상에 대한 원 인 분석 연구들도 활발히 진행하고 있다. Park et al.(2022)는 XGBoost 모델에 XAI를 적용하여 조류 예측에 대한 영향인자 분석 연구를 수행하였다.

수질 악화의 원초적인 원인이 되는 부영양화 현상을 선제적으로 관리하기 위해서는 부영 양화 지표의 정확한 예측이 필수적이다. 하지만 딥러닝을 활용한 부영양화 지표 수질 인자 산정에 대한 연구가 미흡한 실정이다. 따라서 본 연구에서는 1D-CNN 모델을 구축하여 부영양화 지표인 화학적 산소요구량, 총 인 그리고 클로로필a의 농도를 산정하고, XAI 모델 인 Convolutional Block Attention Module(CBAM)을 적용하여 부영양화 원인 인자를 분석하는 연구를 수행하고자 한다.

2. 방법론

가. 연구 대상 지역

본 연구의 연구 지역은 금강과 낙동강을 대상으로 하였다. 금강과 낙동강은 대한민국의 국가 하천이며 충청도와 경상도 및 강원도 일부 지역의 음용수, 공업용수, 농업용수로 활용 되고 있다. 하지만 해당 하천들에서 여름철 오염원 유입과 높은 기온 및 느린 유달시간으로 인한 수체의 부영양화로, 독성 남조류 대발생 현상이 매년 관측되고 발생의 정도도 점점 커지고 있다. 따라서 본 연구에서는 금강에서 수질 악화에 취약한 백제보의 수질 측정망 지점(부여)과 낙동강의 달성보의 수질 측정망 지점(현풍)을 대상으로 연구를 수행하였다 (그림 3-1 참조).

(41)

제3장 설명 가능 딥러닝 모델을 활용한 담수 수계 부영양화 지수농도 산정 ∣ 23

자료: 저자 작성.

<그림 3-1> 금강 및 낙동강 수계의 수질 측정망 지점 위치

나. 데이터

본 연구에서는 백제보의 부여 수질 측정망 지점과 달성보의 현풍 수질 측정망 지점의 2016~2021년까지 수질 데이터를 물환경 정보시스템에서 취득하였다. 총 6년 기간 동안 부여는 274개, 현풍은 233개의 데이터로 총 507개의 데이터를 획득하였다. 해당 데이터는 수온(WT: Water Temperature), 용존산소(DO: Dissolved Oxygen), 생물학적 산소요구 량(BOD: Biological Oxygen Demand), 총 질소(TN: Total Nitrogen), 총 인(TP: Total

(42)

Phosphorus), 수소농도이온 지수(pH: Potential of Hydrogen), 전기전도도(CD:

Conductivity), 용존 총 질소(DTN: Dissolved Total Nitrogen), 암모니아성 질소 (NH3-N: Ammonia Nitrogen), 질산성 질소(NO3-N: Nitrate Nitrogen), 용존 총 인 (DTP: Dissolved Total Phosphorus), 인산염인(PO4-P: Phosphate), 부유물질(SS:

Suspended Solid), 화학적 산소요구량(COD: Chemical Oxygen Demand), 클로로필 a(Chl-a: Chlorophyll-a)와 같은 수질 인자들로 이루어져 있다. 개발 수질 인자의 통계와 시계열 변화는 <표 3-1>과 <표 3-2> 그리고 <그림 3-2>와 같다.

수질 인자(부여) 최소 최대 평균 표준편차

WT(℃) 1.9 32.1 16.5 7.7

DO(mg/L) 4.7 17.4 11.7 2.6

BOD(mg/L) 0.7 7.1 3.0 1.4

TN(mg/L) 1.3 7.2 3.4 1.2

TP(mg/L) 0.017 0.33 0.076 0.041

pH 6.7 9.6 8.1 0.6

CD(microS/cm) 125 676 381.9 102.4

DTN(mg/L) 1.2 6.9 3.2 1.2

NH3-N(mg/L) 0.008 2.2 0.23 0.36

NO3-N(mg/L) 0.72 4.5 2.5 0.9

DTP(mg/L) 0.01 0.16 0.039 0.026

PO4-P(mg/L) 0 0.14 0.017 0.023

SS(mg/L) 1.4 231.8 14.4 20.1

COD(mg/L) 4.7 13.7 7.5 1.6

Chl-a(mg/m3) 3.5 178.8 51.2 38.3

자료: 저자 작성.

<표 3-1> 2016~2021년 금강 부여 측정망 수질 인자 통계

(43)

제3장 설명 가능 딥러닝 모델을 활용한 담수 수계 부영양화 지수농도 산정 ∣ 25

수질 인자 (현풍) 최소 최대 평균 표준편차

WT(℃) 2.8 32.4 17.3 7.6

DO(mg/L) 7.0 16.2 10.8 2.0

BOD(mg/L) 0.9 7.3 2.3 0.88

TN(mg/L) 1.6 6.1 3.3 0.81

TP(mg/L) 0.016 0.17 0.048 0.028

pH 6.9 9.2 7.94 0.41

CD(microS/cm) 147 794 400.5 124.2

DTN(mg/L) 1.5 6.0 3.2 0.80

NH3-N(mg/L) 0.01 0.97 0.14 0.13

NO3-N(mg/L) 0.54 5.5 2.5 0.76

DTP(mg/L) 0.006 0.12 0.030 0.024

PO4-P(mg/L) 0 0.11 0.016 0.025

SS(mg/L) 1.8 101 8.9 8.7

COD(mg/L) 4.8 12.7 7.0 1.2

Chl-a(mg/m3) 2.4 110.3 23.2 15.3

자료: 저자 작성.

<표 3-2> 2016~2021년 낙동강 현풍 측정망 수질 인자 통계

(44)

자료: 저자 작성.

<그림 3-2> 부여 및 현풍의 수질변수 시계열 자료

(45)

제3장 설명 가능 딥러닝 모델을 활용한 담수 수계 부영양화 지수농도 산정 ∣ 27

다. Convolutional Neural Network(CNN)

CNN 모델은 다차원 데이터를 효율적으로 처리 및 학습을 진행하여 분류, 탐지, 회귀 문제를 해결하는 데 많이 사용되고 있다(Xie et al., 2015). 다차원 데이터 특징 추출은 convolutional layer를 구성함으로써 수행되고, 이때 convolutional layer 내부의 다중 kernel을 통해 학습에 필요한 weight와 bias를 훈련한다. 이러한 CNN 모델의 데이터 특 징 추출은 다음 계산식으로 표현할 수 있다.

 

        

  

    식 (3-1)

식 (3-1)의 은 번째 convolution layer의 출력 특징, 은 번째 layer의 학습가중 치,   은   번째 layer의 출력 특징, 은 번째 layer의 편향, 와 는 kernel 픽셀,

과 은   번째 layer 출력 특징의 픽셀, 는 활성화 함수를 나타낸다.

convolutional 특징 추출을 중심으로 다양한 기법들을 추가하여 CNN 모델의 학습 성능 과 보편성을 재고할 수 있다. batch normalization은 입력값의 batch당 정규화를 수행하 여 모델 학습 시 발생할 수 있는 covariate shift 현상을 예방하고 일반화된 학습 성능을 구현할 수 있도록 한다.1) 그리고 average-pooling 또는 max-pooling와 같은 pooling layer를 통해 데이터 특징들을 효율적으로 추출하고 데이터 차원까지 줄임으로써 훈련 계산 속도를 향상시킬 수 있다.2) 또한 dropout layer를 설정하여 모델 성능의 과접합 (overfitting)을 방지하고 보편성을 재고할 수 있도록 하였다.3)

본 연구에서는 부여와 현풍 수질 측정망 지점의 12가지 수질 인자 시계열 데이터를 입력 자료로 구성하고, 해당 데이터의 특징을 추출하기 위해 1D-CNN 모델을 구축하였다(그림 3-3 참조). 부영양화 지표 수질 인자인 COD, TP 그리고 Chl-a를 한 번에 산정하는 multiple outputs 모델(그림 3-3(a) 참조)과 수질 인자 농도를 각각 산정하는 single

1) Ioffe and Szegedy(2015), pp.448-456: Hong et al.(2021), p.553에서 재인용.

2) Gholamalinezhad and Khosravi(2020): Hong et al.(2021), p.553에서 재인용.

3) Srivastava et al.(2014), pp.1929-1958: Hong et al.(2021), p.553에서 재인용.

참조

관련 문서

24-26 indicate the graphs showing the prediction results of the hydrogen concentration in the containment according to the elapsed time after the reactor

To ensure an accurate and reasonable prediction of shock response with relation to the fluid, such as explosion, sloshing, collision, grounding, capsize, flooding

 Predictions of chromatographic behavior based on product properties.  Prediction

플라즈마 반응기(plasma reactor)는 자동차의 전기 공급장치에서 전기를 사용함으로써 편리하고 효율적이다.. 1 1 1 1 Model Model Model Model diagram diagram

) Fine correction for a rolling hilly terrain ) Correction for an isolated ridge.. ¾ Comparison between Prediction Values and Measured of Field Strength. freq.. Example of

In order to assess the prediction of WAsP on Hangwon wind farm, real production from turbines and preditions WAsP has been compared.. After all this

Figure 4.10: Calculated MAPE on CPU utilization prediction attribute through HSTEL model 79 Figure 4.11: Comparison of actual and predicted memory utilization through HSTEL

▶ Summarizing Korean examples related to the current state of the change in jobs and the prediction of the future, caused by the deepening of the digital economy, and