• 검색 결과가 없습니다.

본 과제에서는 2015년 3월 1일 ~ 2017년 3월 3일까지를 training 자료로 두었고, training 자료를 통해 구한 예측모델을 2017년 3월 4일 ~ 2020년 5월 29일까지의 test 자료에 적용하여 그 예측력을 평가하였다. 앞서 언급한 바와 같이 봄철에 해당하는 3~5월 자료만 사용하였다. 따라서 training data의 time point 수는 1,100개이며, test data의 time point 수는 2,140개이다.

가. Results of Three Stage Model

Binary 자료에 대한 예측력은 다음과 같은 2 by 2 confusion matrix로 정리할 수 있다.

Prediction

Negative Positive

True Negative True Negative False Positive Positive False Negative True Positive 자료: 저자 작성.

‘매우 나쁨’을 positive로 놓고 결과를 도출했을 때, 한 해의 데이터 중에서 ‘매우 나쁨’인 경우가 아닌 경우에 대해 상대적으로 드물고 ‘매우 나쁨’인 경우를 바르게 예측하는 것이 더 중요하다는 점을 고려해 본 과제에서는 다음의 지표를 평가지표로 설정하였다.

제2장 미세먼지 고농도 현상 발생확률 추정 ∣ 17

지역 Sensitivity Specificity FN FP

제2장 미세먼지 고농도 현상 발생확률 추정 ∣ 19

<표 2-5> 영등포구에 대한 예측의 confusion matrix

Prediction

Negative Positive

True Negative 1806 235 2041

Positive 5 72 77

1811 307

자료: 저자 작성.

자료: 저자 작성.

<그림 2-4> 관악구의 test data 결과 시계열 그림

관악구의 예측그림은 위 <그림 2-4>와 같고, time point를 줄여서 2018년 4월 16일부터 2018년 5월 28일까지에 대해 네 개의 지역(강북구, 강서구, 관악구, 광진구)에 대한 예측 그림을 다시 그려보았다(그림 2-5 참조). 모든 지역에서 PM2.5 참값의 시계열 패턴을 제안한 모델이 잘 예측함을 확인할 수 있었다. 일부 지역에서는 예측치가 참값에 비해 상대적으로 매우 크게 예측되기도 하였지만, binary 자료로 변환함으로써 이러한 over-estimation 문제는 자동으로 해결되었다.

자료: 저자 작성.

<그림 2-5> (시계방향) 강북구, 강서구, 관악구, 광진구의 2018년 4월 16일~2018년 5월 28일의 예측치

또한 LASSO quantile regression의 결과 coefficient들 값은 아래 <표 2-6>~<표 2-7>

과 같다. 0으로 표시된 계수들은 선택되지 않은 변수들을 의미한다.

<표 2-6> LASSO quantile regression으로 얻어진 regression coefficients 지역precipitationtemperaturehumiditywind speedwin directionCONO2O3PM10SO2 -0.0040.0000.001-0.0040.0200.0100.0620.00200.004 0.0000.0010.0000.0000.0000.00400.0050.0020 0.0000.0020.001-0.0020.0000.0110.0080.0040.0020 -0.004-0.002-0.001-0.0010.0000.013-0.0030.0040.0020 -0.602-0.9502.0010.278-0.0699.822-1.2045.6742.0010 0.0000.0000.0010.0000.00100.0020.00200.003 -0.0050.0020.001-0.0020.0000.00100.0080.0020 0.0000.0000-0.0020.0000.0050.00100.0020 0.0040.0020.001-0.0080.0000.00200.0110.0020 -0.0070.0010.001-0.0020.0000.0480.0230.0940.0010 -0.0010.0010.001-0.0040.0000.01300.0010.0020 0.0040.0000.0000.0000.0000.0240.0090.0130.0020 -0.0010.0010.000-0.0010.00200.0360.00200.003 0.0000.0010-0.0030.0000.00000.0010.0020 -0.007-0.0010-0.0100.0000.00900.0220.0020 -0.0080.0040.001-0.0010.0000.0460.0010.0950.0010 0.0000.0000.001-0.0020.0000.03900.0020.0020 0.000-0.002-0.004-0.0010.0000.0250.0210.0050.0020 -0.0010.0000-0.0010.0000.000000.0020 0.000-0.0020-0.0010.0000.000000.0010 -0.002-0.00200.0000.0000.011000.0030 0.027-0.02300.0030.088-0.0810.5740.03900.055 -0.0020.0030.001-0.0020.0000.0240.0110.0320.0020 -0.002-0.0010-0.0030.0000.00600.0080.0020 -0.0020.0010.001-0.0010.0000.0060.0030.0060.0010 자료: 저자 작성.

제2장 미세먼지 고농도 현상 발생확률 추정 ∣ 21

<표 2-7> LASSO qauantile regression으로 얻어진 regression coefficients: lag variable PM2.5lag 1 precipitationlag 1 temperaturelag 1 humiditylag 1 wind speedlag 1 win directionlag 1 COlag 1 NO2lag 1 O3lag 1 PM10lag 1 SO2 -0.0050.000-0.001-0.001-0.0070.0200-0.0010-0.0040.000 0.004-0.005-0.0010.000-0.0020.0000.0000.0020-0.0010 0.004-0.007-0.0010.000-0.0020.000-0.0010.0000-0.0010 0.004-0.0100.0020-0.0010.0000.0030.0020-0.0010 2.3922.0191.2980-0.465-0.060-8.72200-0.5510 -0.0120.0010.000-0.004-0.00300-0.00100.0000.000 0.002-0.006-0.001-0.001-0.0040.0000.0000.00200.0000 0.003-0.0020.0000-0.0020.000-0.00100-0.0010 0.005-0.011-0.002-0.001-0.0070.0000.00800.000-0.0010 0.003-0.0050.000-0.0010.0000.000-0.0030.00700.0000 0.003-0.018-0.001-0.001-0.0010.0000.00000.001-0.0010 0.003-0.014-0.0010.0000.0000.000-0.00400-0.0010 -0.006-0.0010.000-0.0010.0040.0070.000-0.0010-0.0010.001 0.003-0.0080.00000.0000.0000.00000.001-0.0010 0.003-0.0020.0010-0.0070.000-0.0010.0080-0.0010 0.003-0.007-0.003-0.001-0.0040.000-0.0110.02200.0000

PM2.5lag 1 precipitationlag 1 temperaturelag 1 humiditylag 1 wind speedlag 1 win directionlag 1 COlag 1 NO2lag 1 O3lag 1 PM10lag 1 SO2 0.004-0.0120.0000.0000.0000.0000.00000-0.0010 0.004-0.0320.001-0.0180.0000.000-0.0130.0330.001-0.0010 0.004-0.0120.0000-0.0030.0000.00100-0.0010 0.003-0.0120.00200.0010.000000-0.0010 0.003-0.0070.00200.0000.0000.00000-0.0010 -0.0920.011-0.206-0.005-0.0131.4390-0.02000.027-0.023 0.003-0.014-0.002-0.001-0.0050.000-0.0030.0010-0.0010 0.003-0.0040.001-0.001-0.0030.0000.0090.0140-0.0010 0.003-0.0060.000-0.001-0.0010.0000.000000.0000

<표 2-7>의 계속 자료: 저자 작성.

제2장 미세먼지 고농도 현상 발생확률 추정 ∣ 23

해석을 위해 regression coefficients에 대해서, 선택된 개수, 선택된 경우 중 PM2.5

제2장 미세먼지 고농도 현상 발생확률 추정 ∣ 25

Yang et al., 2017). 반면 기온(temperature) 그리고 습도(humidity)는 시차를 주었을 때 계수의 부호가 역전하는 결과를 보여주었다. 반면 강수량의 경우에는 시차에 상관없이 모두 음의 부호를 갖는 것을 확인할 수 있었다.

대기질 요인은 한 시점 시차를 준 PM2.5가 대부분 지역에서 양의 계수를 가지며 선택 되었고, PM10는 선택된 21개 지역 모두 공통적으로 계수가 양수를 갖고 있었는데, 기존의 연구 결과와 일치한다고 해석할 수 있을 것이다(Maraziotis et al., 2008; Rojas and Galvis, 2005). 하지만 한 시점 차이를 준 PM10에 있어서는 선택된 25지역 중에 23지역이 음의 부호를 가져 상반된 결과를 나타낸다.

많은 지역에서 NO2 그리고 SO2 변수 및 시차를 추가한 변수가 선택이 되지 않은 것으로 미루어 보았을 때, 다른 변수들에 비해서 상대적으로 PM2.5의 extreme quantile의 추정에 영향력이 없다고 할 수 있다.

나. 예측 구간

본 연구의 목적은 extreme quantile에 대한 추정을 통하여 ‘매우 나쁨’ 상태를 분류해 내는 것이기 때문에 extreme quantile의 성능 자체에는 무게를 두고 있지 않지만, conditional quantile의 대략적인 예측의 변동을 추정하기 위하여 예측 구간(prediction interval)을 추정하였다.

Three Stage Model 자체는 복수 개의 quantile regression을 통하여 외삽(extrepolation) 을 수행할 뿐 부가적으로 신뢰 구간(confidence interval) 및 예측 구간(prediction interval)은 도출되어 있지 않다. 따라서 별도의 분포 및 이론적 가정을 필요로 하지 않는 비모수 부스트랩(Non-Parametric Bootstrap)을 통하여 예측 구간을 추정하였다. 총 100회 의 부스트래핑(bootstrapping)이 수행되었고, 구간의 추정 방법에는 percentile method가 사용되었다.

자료: 저자 작성.

<그림 2-6> 강북구의 봄철 일부 기간의 참값(검정 실선), 예측치(붉은 실선) 및 95% 신뢰구간(붉은 구간)

제2장 미세먼지 고농도 현상 발생확률 추정 ∣ 27

자료: 저자 작성.

<그림 2-7> 관악구의 봄철 일부 기간의 참값(검정 실선), 예측치(파란 실선) 및 95% 신뢰구간(파란 구간)

서울 내 25개 구에서 무작위로 추출한 강북구와 관악구의 2개 연도(2017 및 2018년)의

제2장 미세먼지 고농도 현상 발생확률 추정 ∣ 29

<표 2-9> 모델 성능 비교

Model Sensitivity Specificity FN FP

Proposed Model 0.923 0.880 0.077 0.120

RF 0.650 0.998 0.350 0.002

SVM 0.733 0.995 0.267 0.005

MNMG 0.810 0.990 0.003 0.185

자료: 저자 작성.

나머지 세 모델과 비교 했을 때 본 연구에서 제안한 모델은 상기 표와 같이 가장 중요한 지표인 민감도(Sensitivity)에서 가장 우수한 성능을 갖는 것을 알 수 있었다.

제3장

Graph-GRU를 활용한 중장기

초미세먼지 예측: 남한지역을 중심으로 4)

관련 문서