• 검색 결과가 없습니다.

가. 연구 배경 및 목적

지난 수십 년간 산업의 급속한 발전은 심각한 대기오염 문제를 야기했다. 특히 2.5µm 미만 입자크기의 고농도 초미세먼지(PM2.5)는 국민의 건강과 환경문제에 악영향을 미치기 때문에 각별한 주의를 기울여 왔다(Renhe, Li, and Zhang, 2014, pp.26-27). 따라서 초미세먼지에 대한 예측의 중요성이 부각되고 있다. 환경부 국립환경과학원은 대기질통합 예보센터 운영을 통해 2013년부터 대기질 예보제를 시행하였고, 초미세먼지를 등급별 및 권역별로 예보하며 예측 정확도를 높이기 위한 노력을 수행하고 있다. 현재 전국 19개 권 역5)에 대해 4개 등급(좋음/보통/한때 나쁨/나쁨/매우 나쁨)6)으로 1~2일 뒤의 초미세먼지 농도를 예측하고 발표하고 있다. 또한 초미세먼지 농도를 2등급(높음/낮음)7)으로 주간 예보 하고 있지만 3일 뒤 초미세먼지 농도 예측의 신뢰도는 대부분 ‘낮음’8) 수준으로 예보하고 있다.9) 하지만 다양한 사회, 경제적인 수요로 정확도가 높은 중장기적 초미세먼지 농도 예 측이 요구되고 있다.

4) 본 연구는 Wang et al.(2020)이 개발한 PM2.5-GNN 모델을 남한지역에 적용한 연구임.

5) 수도권(서울, 인천, 경기북부, 경기남부), 강원권(영서, 영동), 충청권(대전, 세종, 충북, 충남), 호남권(광주, 전북, 전남), 영남권(부산, 대구, 울산, 경북, 경남), 제주권.

6) 단기 PM2.5(㎍/m3,일평균) 예측 등급 기준: 좋음(0~15), 보통(16~35), 나쁨(36~75), 매우 나쁨(76 이상).

7) 중장기 PM2.5(㎍/m3, 일평균) 예측 등급 기준: 낮음(0∼35), 높음(36 이상).

8) Airkorea는 초미세먼지 예보 신뢰도의 정보를 3단계(높음, 보통, 낮음)로 제공함.

9) Airkorea, “초미세먼지 주간 예보”, 검색일: 2020.10.11.

제3장 Graph-GRU를 활용한 중장기 초미세먼지 예측: 남한지역을 중심으로 ∣ 31

초미세먼지 장기예측을 위해 다양한 통계모델, 역학모델, 딥러닝(Deep Learning) 모델 연구가 활발하게 진행되고 있다. 특히 딥러닝 모델 최적화 기법들(Drop-out, Mini-batch 등)이 개발되어 순환 신경망(RNN: Recurrent Neural Network), 합성곱 신경망(CNN:

Convolutional Neural Network) 등의 발전된 신경망 모델이 개발되었다. 이러한 상황에 서 최근 딥러닝을 활용한 대기질 예측 연구가 활발하게 진행되고 있다. 하지만 여러 가지 이유로 중장기 고농도의 초미세먼지 예측정확도는 낮은 문제가 있다. 초미세먼지 농도는 오염원에 의해 생성되는 대기 배출 오염 물질, 기상 및 지리 정보 등 다양한 원인에 의해 영향을 받고, 풍속 및 풍향에 따라 수송 및 확산하는 복잡한 과정을 특징으로 한다(Zhang, Rui, and Fan, 2018).

이러한 초미세먼지는 72시간 안에 수백 킬로미터를 수송할 수 있는 광범위하고 오래 지 속되는 특징이 있다. 따라서 시간적, 공간적 과정을 모델링 할 때 초미세먼지 특성(도메인 지식)을 잘 활용할 필요가 있다(Wang et al, 2020). 기존 선행연구들은 대부분 초미세먼지 농도의 특징을 모델에 반영하지 않아 장시간의 광범위한 초미세먼지 농도를 예측하기 어렵 다는 연구의 한계가 있다. 따라서 본 연구에서는 초미세먼지 농도에 영향을 미치는 기상학(온 도, 습도 등) 및 지리정보(위·경도, 고도 등), 수송 및 확산(풍향, 풍속) 관련 데이터를 수집하여 과거 정보와 주변 지역 정보를 함께 활용할 수 있는 3차원 시공간(spatio-temporal) 데이터 셋을 구축하였다. 또한 측정소 기반 데이터는 기계 오작동 등의 문제로 결측치(missing value)가 많으므로 이를 해결하기 위해 본 연구는 유럽 ECMWF(European Centre for Medium-Range Weather Forecasts)의 위성데이터 기반 재분석 데이터를 활용하였다. 본 연구에서 구축한 데이터셋을 기반으로 초미세먼지 농도의 다양한 특성과 남한지역의 계절적 및 지리적 특성을 반영한 그래프 뉴럴 네트워크(Graph Neural Network) 및 게이트 순환 유닛(GRU: Gated Recurrent Unit) 기반 예측 모형을 개발하고자 한다.

나. 연구 내용 및 범위

본 연구는 초미세먼지 농도 값 예측 연구를 수행하기 위해 남한을 대상으로 하는 영역 (39.0°N 124.0°W 33.0°S 132.0°E)을 연구 대상으로 선정하였고, 남한지역의 측정소 초 미세먼지 농도 값을 예측하였다. 아래 <그림 3-1> 남한 지도에서 빨간색 점은 초미세먼지 측정소 위치를 의미한다.

주: 빨간색 점은 초미세먼지 측정소를 의미함.

자료: 저자 작성.

<그림 3-1> 2016년도 남한지역 대기측정소 위치

본 연구의 범위 및 흐름도는 아래 <그림 3-2>와 같다. 먼저 예측하고자 하는 측정소 기반 의 초미세먼지농도 값 데이터를 수집하고, PM2.5 농도에 영향을 미치는 기상 및 지리정보 데이터를 수집하였다. 수집한 데이터는 전처리(pre-processing) 과정을 거쳐 시공간 정보 를 담고 있는 3차원 매트릭스를 형태로 구축하였다. 이 때 공간 해상도(spatial resolution) 는 Grid가 0.125°(around 12.5km by 12.5km)로 시간 해상도(temporal resolution)는 3-Hourly, 3-Year(2015/1/1 to 2017/12/31)로 전처리 작업을 수행하였다. 최종적으로

제3장 Graph-GRU를 활용한 중장기 초미세먼지 예측: 남한지역을 중심으로 ∣ 33

전처리가 완료된 데이터를 train set, validate set 및 test set으로 분류하여 예측모델에 학습(training)시켰다.

본 연구에서 초미세먼지 농도 값 예측을 위해 활용한 모델은 기존 미세먼지 예측 선행연 구에서 주로 활용한 MLR(Multiple Linear Regression), LSTM(Long Short Term Memory) 및 GRU(Gated Recurrent Unit)와 2020년 KDD(Knowledge Discovery and Data mining)10)에서 소개된 Wang et al.(2020)이 제안한 Graph-GRU(Graph Gated Recurrent Unit)이다. 또한 초미세먼지 농도 값 예측 성능이 가장 좋은 모델을 최종 선정하여 추가 분석을 진행하였다. 추가 분석은 계절별(봄, 여름, 가을, 겨울) 및 변수별(기 상학, 지리학)로 분류하여 예측분석을 수행하였다.

자료: 저자 작성.

<그림 3-2> 연구 범위 및 흐름도

다. 방법론

본 연구는 초미세먼지 예측을 위해 그래프 뉴럴 네트워크(GNN: Graph Neural Network) 를 활용하였다. 그래프 뉴럴 네트워크는 데이터를 직접 분석할 수 있어서 최근에 다양한 분야 에서 많이 연구되고 있다. 본 절에서는 그래프 이론과 GNN의 형태와 원리 및 실제 응용 사례 에 대해 살펴보았다.

10) KDD2020, “PM2.5-GNN”, 검색일: 2020.10.11.

1) 그래프의 정의 및 표현방법

그래프(graph)는 원으로 표시된 노드(node)와 선으로 표현된 에지(edge)로 이루어져 있 는 연결 관계를 갖고 있는 자료 구조이다. 노드는 Vertex라고도 하며, 그래프는 수학적으로 개체 간의 관계를 나타내는데 쓰이며 G=(V, E)와 같이 정의된다(Kipf and Welling, 2016, p.1). V는 노드의 집합, E는 두 노드를 잇는 에지의 집합을 의미한다. 그래프는 주로 인접행 렬(adjacency matrix)로 표현된다. 노드의 개수가 n개일 때 인접행렬의 크기는 nxn이다.

머신러닝에서 그래프를 분석할 때 노드들의 특징을 feature matrix로 표현하며 feature의 개수가 f일 때 feature matrix의 차원은 nxf이다.

자료: Ouyang, B. et al.(2016) 바탕으로 저자 작성.

<그림 3-3> 그래프 뉴럴 네트워크 구조

대표적인 예로는 아래 그림의 소셜 그래프(social graph), 3D Mesh, 분자 그래프 (molecular graph) 등이 있다. 그래프는 유클리디안(euclidean) 공간에 존재하지 않으므 로 기존의 좌표계로 표현하기 어렵다. 이러한 특징으로 그래프 구조를 해석하는 것은 시계 열 데이터, 이미지 및 음성과 같은 데이터를 해석하는 것보다 어렵다.

제3장 Graph-GRU를 활용한 중장기 초미세먼지 예측: 남한지역을 중심으로 ∣ 35

자료: 저자 작성.

<그림 3-4> 그래프 예시: Social Graph, 3D Mesh, Molecular Graph

2) GNN을 이용한 미세먼지 예측 연구 검토

GNN을 활용하여 미세먼지를 예측하는 연구는 최근 중국에서 활발히 연구되고 있다. Qi et al.(2019)는 중국지역의 초미세먼지 예측을 위해 Graph Convolutional Networks and Long Short-Term Memory Networks(GC-LSTM) 하이브리드 모델을 개발하였다.

구체적인 GC-LSTM 구조는 아래 <그림 3-5>와 같다. 먼저 2015년 1월 1일부터 2016년 4월 1일까지의 기상(온도, 습도, 풍속 등), 시간 및 공간 데이터가 입력데이터로 활용된다.

이후 Input Layer, 시공간 분석(spatiotemporal processing) 및 Output layer를 거쳐 초미세먼지 농도 값을 예측한다. 본 연구에서 기존 예측모델과 성능 비교 결과, 72시간 뒤 예측에서 RMSE 값이 MLR는 69.32, FNN은 58.00, LSTM은 46.40, GC-LSTM은 38.83으로 가장 높은 성능을 보였다. 하지만 본 연구는 바람의 방향성을 고려하지 않은 비방향 그래프를 기반으로 모델을 학습시켰다. 초미세먼지 운송 프로세스의 모델링에 바람 의 방향 변수는 높은 영향이 있으므로 그래프에서 풍향을 고려할 필요가 있다(그림 3-6 참조).

자료: Qi et al.(2019), p.6.

<그림 3-5> GC-LSTM 구조

Wang et al.(2020)는 풍향과 풍속 변수를 활용하여 초미세먼지 운송량을 적용한 그래프 기반 모델인 PM2.5-GNN을 개발하였다. PM2.5-GNN 모델의 그래프 데이터에서 노드 속성 에는 예측에 사용한 변수들(행성 경계층(PBL) 높이, K지수, 풍속, 2m 상공 온도, 상대 습도, 강수량, 표면 압력)이 포함된다. 에지 속성에는 초미세먼지 운송량이 계산되어 입력된다.

초미세먼지 운송량은 풍량, 풍속, 거리 데이터가 활용되었다. 또한 인접 행렬에는 두 측정소 사이 거리가 300km 미만이고, 그 사이의 산이 1,200m 미만인 경우에만 측정소에서 다른 측정소까지 수송할 수 있다는 임계치를 설정해 주었다. 본 연구는 초미세먼지의 수직적 축 적과 날씨 영향의 확산까지 고려하여 모델링한 Wang et al.(2020)의 GNN기반 초미세먼 지 예측모델을 활용하여 남한지역 초미세먼지 농도 예측 연구에 적용하였다.

자료: Wang et al.(2020), p.1.

<그림 3-6> 초미세먼지 특성

제3장 Graph-GRU를 활용한 중장기 초미세먼지 예측: 남한지역을 중심으로 ∣ 37 Air pollution PM2.5 ㎍/m³ 320 stations Hourly(2015~2019)

Airkorea Boundary layer height m

Total precipitation mm

Geographic DEM(Digital Elevation Model) m 30m×30m 23-SEP-2014 USGS Land Covering Map unitless 30m×30m Yearly(1998~2019) 환경부 주: 본 연구에서 활용한 데이터는 빨간색 박스로 표시함.

자료: 저자 작성.

관련 문서