• 검색 결과가 없습니다.

환경 빅데이터 분석 및 서비스 개발

N/A
N/A
Protected

Academic year: 2021

Share "환경 빅데이터 분석 및 서비스 개발"

Copied!
257
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

30147 세종특별자치시 시청대로 370 세종국책연구단지 B동(과학·인프라동) 8~11층 TEL. 044-415-7777 FAX. 044-415-7799 http://www.kei.re.kr

사업보고서 · 2020-07

본 책자는 환경표지 인증을 받은 용지로 인쇄되었습니다.

사업보고서 2020-07

지속가능발전을 선도하는 세계 초일류 환경정책연구기관

한국환경정책·평가연구원

한국환경정책·평가연구원은 환경정책 및 기술의 연구개발과 환경영향평가의 전문성, 공정성 제고를 통하여 환경문제의 예방과 해결에 기여하기 위하여 설립된 국책연구기관으로서 21세기 환경선진국 실현을 선도하는 세계 속의 환경전문연구기관으로 발전하기 위해 노력하고 있습니다.

강성원 (연구책임)

미국 럿거스, 뉴저지 주립대학 경제학 박사 한국환경정책·평가연구원 선임연구위원(현) swkang@kei.re.kr

진대용

한국환경정책·평가연구원 부연구위원(현) dyjin@kei.re.kr

홍한움

한국환경정책·평가연구원 부연구위원(현) hwhong@kei.re.kr

고길곤

서울대학교 행정대학원 교수(현) kilkon@snu.ac.kr

임예지

중앙대학교 응용통계학과 조교수(현) yaeji@cau.ac.kr

강선아

한국환경정책·평가연구원 연구원(현) sakang@kei.re.kr

김도연

한국환경정책·평가연구원 연구원(현) dykim@kei.re.kr

저자약력

ㆍ환경 빅데이터 연구 및 서비스 개발 Ⅲ (2019) ㆍ환경 빅데이터 연구 및 서비스 개발 Ⅱ (2018) ㆍ환경 빅데이터 연구 및 서비스 개발 (2017)

Ⅳ환경 빅데이터 분석 및 서비스 개발 연구실적

환경 빅데이터 분석 및 서비스 개발

Big Data Analysis: Application to Environmental Research and Service Ⅳ

강 성 원 외

환경 빅데이터 분석 및 서비스 개발

Big Data Analysis: Application to Environmental Research and Service Ⅳ

(2)

연구책임자 강성원 (한국환경정책·평가연구원 선임연구위원) 참여연구원 고길곤 (서울대학교 행정대학원 교수)

임예지 (중앙대학교 응용통계학과 교수) 장기복 (한국환경정책·평가연구원 선임연구위원) 진대용 (한국환경정책·평가연구원 부연구위원) 홍한움 (한국환경정책·평가연구원 부연구위원) 한국진 (한국환경정책·평가연구원 선임전문원) 강선아 (한국환경정책·평가연구원 연구원) 김도연 (한국환경정책·평가연구원 연구원)

연구자문위원 (가나다순)

김종률 (대통령비서실 선임행정관)

신동원 (한국환경정책·평가연구원 부연구위원) 윤 건 (한신대학교 공공인재학부 교수) 이동현 (한국산업기술대학교 경영학부 교수) 이성호 (Inno D-Lab 대표)

전호철 (한국환경정책·평가연구원 부연구위원) 하종식 (한국환경정책·평가연구원 연구위원)

ⓒ 2020 한국환경정책·평가연구원 발행인 윤 제 용

발행처 한국환경정책·평가연구원

(30147) 세종특별자치시 시청대로 370 세종국책연구단지 과학·인프라동

전화 044-415-7777 팩스 044-415-7799 http://www.kei.re.kr

인 쇄 2020년 12월 26일 발 행 2020년 12월 31일

등 록 제 2015-000009호 (1998년 1월 30일) ISBN 979-11-5980-459-5 93530 인쇄처 호정씨앤피 02-2277-4718

이 보고서를 인용 및 활용 시 아래와 같이 출처를 표시해 주십시오.

강성원 외(2020), 「환경 빅데이터 분석 및 서비스 개발 Ⅳ」, 한국환경정책·

평가연구원.

값 9,000원

(3)

서 언

빅데이터를 수집하여 기계학습 알고리즘을 적용하는 빅데이터 연구는 예측의 오차를 축 소하고 비정형 자료의 패턴을 파악하여 정보를 추출하는 과제에서 획기적인 성과를 거두고 있습니다. 본 연구는 이러한 빅데이터 연구의 장점을 환경정책 연구에 도입하려는 시도입 니다.

2020년도에 본 연구는 2019년도에 고안한 ‘(가칭)환경정책 모니터링 시스템’의 구성요 소를 확대하고 심화하는 작업을 수행하였습니다. 그 과정에서 초미세먼지 고농도 현상을 예측하는 Quantile Regression 모형, 초미세먼지 농도를 예측하는 Graph-GRU 딥러닝 모형, 환경 전 부문의 SNS 자료를 수집하여 감성을 분류하는 환경 텍스트 감성분석기를 개발하였습니다. 그리고 2019년에 도입한 ‘질문기반 데이터베이스’를 기후변화 이슈에 적 용하여 기후변화 관련 주요 이슈와 관련된 데이터 분석 결과를 실시간으로 갱신하여 확인할 수 있는 ‘기후변화 관련 질문중심 데이터맵’을 구축하였습니다. 이러한 연구 결과가 빅데이 터 연구 방법론을 이용한 환경정책연구를 촉진하는 계기가 되기를 기대합니다.

끝으로 본 연구를 수행한 한국환경정책·평가연구원 강성원 박사, 장기복 박사, 진대용 박사, 홍한움 박사, 서울대학교 고길곤 교수, 중앙대학교 임예지 교수에게 감사의 뜻을 표합 니다. 바쁘신 와중에도 자문을 통해 연구에 도움을 주신 김종률 대통령 비서실 선임행정관, 한국산업기술대학교 이동현 교수, 이성호 Inno D-Lab 대표, 한신대학교 윤건 교수, 한국환 경정책·평가연구원 신동원 박사, 전호철 박사, 하종식 박사에게도 깊이 감사드립니다.

2020년 12월 한국환경정책·평가연구원 원 장

윤 제 용

(4)
(5)

요 약 ∣ i

요 약

Ⅰ. 서론: 연구의 필요성 및 목적

❏ 정책수요 파악, 정책 시의성 평가, 정책 유효성 평가에 사용할 수 있는 ‘환경정책 모니 터링 시스템(가칭)’ 구축

ㅇ 환경정책 모니터링 시스템: 기계학습의 장점인 예측의 정교함 및 실시간 데이터 수집- 분석-결과 갱신 가능성을 환경정책 연구에 접목

ㅇ 환경오염 통합예측 알고리즘, 실시간 환경 텍스트 분석 알고리즘, 질문중심 데이터베 이스 3개 분석도구로 구성

- 환경오염 통합예측: 다양한 환경오염물질 오염도 예측 주기적 반복 - 실시간 환경 텍스트 분석: 환경 텍스트 정보추출 및 감성분석 주기적 반복 - 질문중심 데이터베이스: 주요 환경이슈 목록 - 이슈 관련 데이터 분석을 연계하여

주기적으로 결과 실시간 업데이트

ㅇ 정책수요 파악: 환경오염 예측 알고리즘의 예측치, 환경정책 수요자 텍스트 분석 결과, 환경이슈기반 데이터 분석 결과를 사용하여 환경정책 개입이 필요한 부문을 파악 ㅇ 정책 시의성 평가: 민간 텍스트 분석 결과와 환경정책 생산자 텍스트 분석 결과를 비교하

여 정책 공급자의 대응이 정책 수요자의 관심과 조응하는지 여부를 진단

ㅇ 정책 유효성 평가: 환경오염 예측 알고리즘의 정책 시행 전 예측치와 시행 후 실측치, 정책시행 전후 질문중심 데이터맵 분석 결과, 정책시행 전후 민간 텍스트 감성분류 결과 비교

❏ 2020년 연구목표: ‘환경정책 모니터링 시스템’ 의 복잡성 및 인과관계 분석기능 부족 을 해소하는 방향으로 연구내용을 확장

(6)

ㅇ 1기 (2017~2019년) 연구의 성과를 계승하면서 기계학습 방법론의 약점인 모형의 복잡성 및 인과관계 분석기능 부족을 해소하는 방향으로 연구 확장

- 1기 ‘기계학습 방법론’ 적용 연구 → 2기 ‘대용량 데이터’를 이용한 환경정책 연구 - 방법론: 1기 ‘기계학습’ → 2기 기계학습 + 전통적 통계학 기법(Frequentist/

Bayesian)

∙ 모형의 단순화: 개별 변인이 분석 결과에 미치는 영향력 분석 기능 강화

∙ 중장기 예측이 가능한 연구, 인과분석이 가능한 연구 추구

❏ 연구내용: 환경정책 모니터링 시스템 구성요소 연구 4건, 개별연구 2건 수행 ㅇ 환경정책 모니터링 구성요소: 기존 구성요소의 방법론 및 분석 대상 확대

- 환경오염 예측 (2건): ‘미세먼지 고농도 현상 발생확률 추정’/‘Graph-GRU 모형을 이용한 초미세먼지 오염도 추정 및 예측’

- 환경 텍스트 분석: ‘환경 텍스트 감성 분석기 구축 및 활용’

- 질문 중심 데이터베이스: ‘기후변화 이슈 분석 및 질문중심의 데이터맵 도출’

ㅇ 개별연구: 수용체 연구 1건, 신재생에너지 연구 1건 추진 - 수용체 연구: ‘대기오염이 COPD 환자 사망에 미치는 영향’

- 신재생 에너지 연구: ‘태양광 발전 발전량 예측 알고리즘 구축’

Ⅱ. 미세먼지 고농도 현상 발생확률 추정

❏ 서울지역 25개 측정소 초미세먼지 오염도가 ‘매우 나쁨’(76 이상)이 될 경우를 예측하 는 Qunatile Regression 기반 통계모형 개발

ㅇ Qunatile Regression 모형을 Extreme value가 많은 자료에 적합하게 조정 - Extreme Conditional Qunatile Regression Model + Variable Selection

(LASSO)

(7)

요 약 ∣ iii

❏ 서울시 대기질 및 기상 정보를 이용하여 2015~2020년 봄 4시간 평균(1일 6개 시간 대) PM2.5 오염도 예측

ㅇ 설명변수: 동시간대 및 1시간 이전 CO, SO2, NO2, O3, PM10 오염도, 강수량, 온도, 습도, 풍향, 풍속/1시간 이전 PM2.5 오염도

ㅇ 2015/01/01~2018/03/04 자료로 추정한 모형으로 2018/03/04~2020/05/29 예측

❏ 측정소에 따라 Sensitivity 88.9%~100.0%을 달성하면서 False Positive는 6.0%

~17.1%로 억제

ㅇ Sensitivity = 매우 나쁨 예측/실제 매우 나쁨, False Positive = 매우 나쁨 예측/실제 나쁨 이하 측정

ㅇ 강동구(88.9%)를 제외한 24개 측정소에서 Sensitivity 90% 이상

❏ RandomForest, Supporting Vector Machine, GRU 대비 11.3%p Sensitivity 향상

ㅇ 강서구 예측의 Sensitivity RandomForest(65%) < SVM(73.3%) < GRU(81.0%)

< 본 연구 구축 모형(92.3%)

❏ 동시간대 CO 오염도, O3 오염도, PM10 오염도, 풍향, 1기 전 초미세먼지 오염도가 높을 경우에는 초미세먼지 매우 나쁨 발생 확률이 증가하는 경향 발견

❏ 동시간대 강우량 및 풍속, 1기 전 강수량 및 풍속이 높을 경우에는 초미세먼지 매우 나쁨 발생 확률이 하락하는 경향 발견

(8)

Ⅲ. Graph-GRU 모형을 이용한 초미세먼지 오염도 추정 및 예측

❏ PM2.5 농도에 영향을 미치는 기상 및 공간정보 데이터를 반영하는 Graph-GRU 알고 리즘 개발

ㅇ 과거 정보(temporal data)와 공간정보(spatial data)를 함께 활용할 수 있는 3차원 학습데이터세트 구축

- 예측대상: 남한지역 측정소 포함 0.125° × 0.125° Grid (12.5km × 12.5km)의 3-Hour PM2.5 오염도 평균값

- 입력자료: 대기오염 오염도, 기상, 고도

∙ training set: 2015/01/01~2015/12/31

∙ validation set: 2016/01/01~2016/12/31

∙ test set: 2017/01/01~2017/12/31 ㅇ 알고리즘: Graph – GRU 알고리즘 활용

- Node attribute: 기상 및 지리정보, 대기오염

- Edge attribute: 측정소 간 미세먼지 오염물질 배출량의 영향

∙ 거리, 풍속, 풍향을 반영한 ‘영향’ 평가 함수 적용

- Adjacency Matrix: 거리: 300km, 고도: 1200m 미만 threshold 값 설정

❏ 3시간~72시간 이후 표준제곱근오차 4.05µg/m3 ~ 11.49µg/m3로 억제

ㅇ 과거 정보 표준제곱근오차 축소 효과는 0.12µg/m3, 공간정보 표준제곱근오차 축소 효과는 0.16µg/m3

Ⅳ. 환경 텍스트 감성분류기 구축 및 활용

❏ 환경 SNS 데이터 수집 – 감성분석 – 결과 발신을 주기적으로 반복하는 ‘환경 텍스트 감성분류기’ 구축

ㅇ 2018~2019년 개발 기후변화 감성분류기를 환경 전 분야로 확장–준지도 학습을 이용

(9)

요 약 ∣ v

하여 수집한 학습 데이터 14만 건을 추가하여 감성분류 정확도 제고

ㅇ 감성분류 결과의 추이를 시각화 하여 확인할 수 있는 web 기반 user interface 제공

❏ 준지도 학습을 이용하여 학습 데이터를 기존 5만 건에서 18만 건으로 확대하여 감성 분류 정확도 제고

ㅇ 학습데이터 추가: 환경 SNS 텍스트 650만 건을 수집하고 기존 기후변화 감성분류기 에 적용하여 긍정/부정 확률이 매우 높은 자료 14만 건을 추출

ㅇ 성능 향상: 기존 data 분류 정확도 1%p(78.7% → 79.7%) 향상

❏ 환경정책 분야별 감성분류 Precision 66%~92%, Recall 73%~81% 달성 ㅇ Precision = 실제 부정/부정 판정, Recall(Sensitivity) = 부정 판정/실제 부정 ㅇ 폐기물 분야는 Precision, Recall이 모두 낮아서 지도학습을 통한 정확도 제고 필요

❏ 기간, 검색어를 특정하여 구분한 SNS 데이터의 감성분류 결과를 실시간으로 확인할 수 있는 web 기반 user interface를 구축

ㅇ ‘부정’ 감성의 SNS 데이터로부터 키워드 빈도 및 네트워크를 추출하여 ‘부정’ 감정의 원인을 파악할 수 있는 기능을 부여

Ⅴ. 기후변화 이슈 분석 및 질문중심의 데이터맵 도출

❏ 위계별로 정리한 기후변화 이슈와 각 이슈 관련 데이터 분석을 연계하고 데이터 분석 결과를 실시간으로 업데이트 하는 데이터맵 구축

ㅇ 텍스트 분석에서 이슈를 도출하는 이슈 선정 모듈과 데이터를 연계하는 데이터 분석 모듈을 구축

(10)

❏ 이슈 선정 모듈: 기후변화 관련 텍스트 수집 → 주제 추출 → 질문 식별 → 질문 구조화 수행

ㅇ 텍스트: 2012~2019년 연구보고서/고위공직자 연설문/보도자료/국회회의록 /국회기후변화포럼/Dbpia논문 국문 초록/네이버 신문(12개 일간지)

ㅇ 주제추출: 상관토픽모형(CTM)을 사용한 10개 주제식별 및 주제 간 관계 도출 ㅇ 질문식별: 텍스트 랭크(TextRank)로 추출한 중요 문장을 정제하여 개별 질문 도출 ㅇ 질문 구조화: 개별 질문을 주제에 할당하고 주제 간 관계를 반영하여 질문을 구조화

- 주제 간 관계: 상관토픽 모델링 상관계수, 동적 시간 와핑(dynamic time warping) 시계열 패턴 유사도, 전문가 설문조사 반영

- 5개 범주로 재분류: 기후변화 공동대응/기후변화 적응/온실가스 감축/에너지와 환경/도시환경과 시민

❏ 데이터 분석 모듈: 명제화 된 이슈에 대한 정보를 제공할 수 있는 data source와 분석모형 연계

ㅇ 관련 자료의 실시간 update가 가능하도록 자료 원천과 직접 연계하는 방식을 사용 ㅇ 시계열 자료의 절대 추세 및 계절변동 조절 추세 분석

Ⅵ. 대기오염이 COPD 환자 사망에 미치는 영향

❏ 사망 전 1년, 5년 간 대기오염 노출이 COPD 환자 사망위험에 미치는 영향 분석 ㅇ 분석대상: 2009~2018년 전국 40세 이상 COPD 환자

ㅇ 분석기법: Kriging과 Cox Proportional Hazard model

- Kriging을 사용하여 측정소 오염도 자료로부터 읍면동 오염도 추정

❏ 국민건강보험공단 맞춤형 DB와 대기오염 측정 데이터를 결합하여 데이터 생성 ㅇ 환경오염 관련 독립변수: event 발생/종료 1년 전, 5년 전 거주지 평균 PM10, O3,

(11)

요 약 ∣ vii

NO2 오염도

- PM10: 일평균, O3: 일별 최고 8시간 평균, NO2: 일평균 (O3, NO2의 경우 ppb를

㎍/m3으로 변환)

ㅇ 개인 특성 관련 독립변수: 성별, 연령, 소득, 동반질환지수, COPD 외래중증악화, BMI, 흡연

ㅇ 종속변수: 사망을 1, 생존을 0으로 표기한 사망 여부

❏ 사망 전 1년, 5년 간 O3 오염도가 높은 지역에서 산 COPD 환자는 사망위험이 소폭 증가하였음을 확인

ㅇ Hazard Ratio of O3: 1.003(1년), 1.004(5년)

Ⅶ. 딥러닝 기반 태양광발전량 예측

❏ 기상정보를 활용하여 영암 F1 발전소 태양광발전량 예측 LSTM 알고리즘 개발 ㅇ 1시간, 12시간 평균 낮 시간대 발전량을 예측: 주기성이 심한 비정상(non-stationary)

시계열

❏ 1시점 이전 태양광발전량 및 기상정보를 입력자료로 사용

ㅇ 기상정보: 목포 기상관측소 시간별 기온, 강수량, 습도, 일사량, 전운량

ㅇ 2017.1.1~2019.6.30 자료 중 2017.1.1~2018.6.30 자료를 학습자료로 사용하여 모형을 추정하고 2018.7.1~2019.6.30 자료를 예측

❏ RNN 기반 LSTM 알고리즘을 사용하여 모형을 구축하고 직전 3시점 이동평균(Moving Average) 및 ARIMA 모형과 예측력 비교

❏ 1시간 예측 평균제곱근오차를 표준편차의 36.9%, 12시간 평균 예측 평균제곱근오차 는 표준편차의 51.1%로 억제

(12)

ㅇ 직전 3시점 이동평균 예측오차/표준편차의 71%, ARIMAX 예측오차/표준편차의 45% 수준으로 예측오차/표준편차를 억제

Ⅷ. 연구성과 및 정책적 시사점

❏ 연구성과: 환경정책 모니터링 시스템 구성요소 구축 및 신규 성과 축적 ㅇ 환경오염 종합예측 시스템 구성요소 확대 및 심화

- 환경오염 종합예측 알고리즘: 설명 가능성을 보완하고 예측 시차를 연장하여 활용 가능성을 제고

∙ ‘미세먼지 고농도 발생확률 추정’: coefficient estimation이 가능하면서 예측성 과가 Deep Learning 모형과 경쟁력 있는 Quantile Regression 모형을 개발

∙ ‘Graph-GRU 모형을 이용한 초미세먼지 오염도 추정 및 예측’: 12시간 예측오차를 2019년 개발 CNN 기반 모형의 1시간 예측오차와 유사한 7.64g/m3로 유지 - 실시간 환경 텍스트 분석 알고리즘: 환경 전 분야 실시간 SNS 감성 분석 및 부정

감성 원인 분석 가능

- 질문중심 데이터맵: 미세먼지에 이어 기후변화로 적용 범위를 확대 – 정책 현황 파악 상황판 기능

ㅇ 3개 알고리즘, 1개 질문중심 데이터맵 신규 구축

– 초미세먼지 고농도 현상 예측 Quantile Regression 모형, 초미세먼지 오염도 예측 Graph-GRU 모형, 태양광발전량 예측 RNN 모형/기후변화 Data Map ㅇ 텍스트 분석 인프라 확장: 실시간 환경 텍스트 분석 Web Interface 개발

❏ 정책적 시사점: 환경정책 모니터링 기능을 강화하였고 대기오염 건강위험을 정량화하 였으며 신재생에너지 발전 인프라의 기초를 제공

ㅇ 환경정책 모니터링 기능 강화: 정책 현황 파악 및 선제적 정책개입 관련 정보 제공 기능 강화

(13)

요 약 ∣ ix

- 실시간 환경 텍스트 분석: 국민 감성이 부정적인 환경정책 분야를 실시간으로 파악 가능

- 기후변화 질문중심 데이터맵: 기후변화 현황 실시간 파악 기능 제공 - ‘기후변화 상황판’ 기능

- 초미세먼지 오염도 예측의 시차를 연장하고 기초적 인과분석 기능 확보

∙ Graph-GRU 모형: 예측 시차를 연장하여 선제적 정책 개입이 가능한 시차를 확보

∙ Quantile Regression 모형: 향후 오염원 및 정책 관련 Data를 추가하면 정책영 향 분석 도구로 활용 가능

ㅇ 대기오염 장기노출의 건강위험을 정량화 하여 대기오염 억제정책의 정량적 편익 도출 근거 마련

ㅇ 태양광발전량 예측 기능을 강화하여 신재생에너지 발전에 필요한 스마트 그리드 구축 인프라 제공

주제어 : 빅데이터, 기계학습, 데이터베이스, 텍스트마이닝, 생존분석

(14)
(15)

|차례 |

제1장 서 론 ···1

1. 연구의 필요성 및 목적 ···1

2. 연구의 범위 ···4

3. 연구 내용 및 방법론 ···6

4. 보고서의 구성 ···8

제2장 미세먼지 고농도 현상 발생확률 추정 ···9

1. 연구 목적 ···9

2. 데이터 ···10

3. 방법론 ···13

4. 결과 ···16

제3장 Graph-GRU를 활용한 중장기 초미세먼지 예측: 남한지역을 중심으로 ···30

1. 서론 ···30

2. 데이터 수집 및 전처리 ···37

3. 예측모델 구축 및 평가 ···50

4. 소결 ···59

제4장 환경 텍스트 감성분류기 구축 및 활용 ···61

1. 서론 ···61

2. 환경 텍스트 감성분류기 구축 ···69

3. 환경감성분류기를 활용성 강화를 위한 웹 앱 구축 ···78

4. 소결 ···88

(16)

2. 토픽모델링을 활용한 질문의 주제 선정 ···96

3. 질문의 식별과 질문의 구조화 ···112

4. 질문 중심 데이터맵의 구현 ···121

5. 요약 및 결론 ···138

제6장 대기오염이 COPD 환자 사망에 미치는 영향 ···142

1. 서론 ···142

2. 방법론 ···143

3. 결과 ···149

4. 결론 ···159

제7장 딥러닝 기반 태양광발전량 예측 ···160

1. 서론 ···160

2. 선행연구 ···162

3. 영암 태양광발전량 자료 특성 ···163

4. 영암에프원 태양광발전량 예측 모형 구축 ···170

5. 소결 ···178

제8장 요약 및 시사점 ···179

1. 연구 결과 요약 ···179

2. 정책적 시사점 ···184

참고문헌 ···187

(17)

부 록 ···197

Ⅰ. 키워드 검색식 ···199

Executive Summary ···205

(18)

<표 1-1> 환경 빅데이터 분석 및 서비스 개발 단계별 계획 ···5

<표 1-2> 환경 빅데이터 분석 및 서비스 개발 연차 계획 ···5

<표 2-1> 분석을 위해 사용된 변수 목록 ···10

<표 2-2> 지역별 예측 결과 ···17

<표 2-3> 강남구에 대한 예측의 confusion matrix ···18

<표 2-4> 서초구에 대한 예측의 confusion matrix ···18

<표 2-5> 영등포구에 대한 예측의 confusion matrix ···19

<표 2-6> LASSO quantile regression으로 얻어진 regression coefficients ···21

<표 2-7> LASSO qauantile regression으로 얻어진 regression coefficients: lag variable ···22

<표 2-8> regression coefficients 결과 정리 표 ···24

<표 2-9> 모델 성능 비교 ···29

<표 3-1> 남한지역 초미세먼지 예측에 활용 가능한 데이터 요약 ···37

<표 3-2> 변수 기술통계 ···42

<표 3-3> Node Feature Matrix ···47

<표 3-4> 실험 세팅 요약 ···55

<표 3-5> 72시간 뒤 초미세먼지 예측 성능 비교표 ···57

<표 4-1> 트위터 데이터 검색식 예시 ···70

<표 4-2> 기후변화 데이터에 대한 성능 측정: 준지도학습을 통한 성능향상 효과 ···73

<표 4-3> 환경 카테고리별 테스트 성능 분석: threshold가 0.5인 경우 ···75

<표 4-4> 환경 카테고리별 테스트 성능 분석: threshold가 0.7인 경우 ···76

<표 5-1> 설문조사 목적 및 내용 ···95

<표 5-2> 설문조사 응답자 특성 ···95

<표 5-3> 텍스트 정보 선정 및 수집 ···96

(19)

<표 5-4> 전체 문서의 토픽 및 키워드 ···100

<표 5-5> 전체 문서의 토픽 간 상관관계 ···101

<표 5-6> 자료원별 토픽 및 키워드 ···103

<표 5-7> 각 자료원의 토픽 간 상관관계 ···105

<표 5-8> 토픽의 중요도 판단도 ···108

<표 5-9> 자료 원천별 토픽의 중요도 판단도 ···108

<표 5-10> 자료 원천별 문장추출 결과 ···113

<표 5-11> 주제별 중요 문장과 질문도출(예시) ···116

<표 5-12> 기후변화 질문별 중요성에 대한 인지도 ···118

<표 5-13> 주제의 재구조화 ···119

<표 5-14> 계절별 평균 기온과 감염병(제1군, 2군) 발병 간 상관계수 ···137

<표 6-1> WHO AQ guideline ···146

<표 6-2> Charlson Comorbidity Index ···147

<표 6-3> 연구 대상자의 특성 ···149

<표 6-4> 생존분석 결과(1년 노출) ···155

<표 6-5> 생존분석 결과(5년 노출) ···156

<표 7-1> 한국서부발전(주) 영암에프원 태양광발전량 낮 시간대 발전 실적 요약통계량 ····164

<표 7-2> 한국서부발전(주) 영암에프원 태양광발전량 발전 실적 시간대별 요약통계량 ···166

<표 7-3> 한국서부발전(주) 영암에프원 태양광발전량 발전 실적 오전/오후별 요약통계량 · 168

(20)

<그림 1-1> 환경정책 모니터링 시스템 ···2

<그림 2-1> 서울시 대기 및 기상 자료 관측 구역 ···11

<그림 2-2> 사용된 변수들의 시계열 그림 ···11

<그림 2-3> 사용된 변수들의 상관관계 ···12

<그림 2-4> 관악구의 test data 결과 시계열 그림 ···19

<그림 2-5> (시계방향) 강북구, 강서구, 관악구, 광진구의 2018년 4월 16일~ 2018년 5월 28일의 예측치 ···20

<그림 2-6> 강북구의 봄철 일부 기간의 참값(검정 실선), 예측치(붉은 실선) 및 95% 신뢰구간(붉은 구간) ···26

<그림 2-7> 관악구의 봄철 일부 기간의 참값(검정 실선), 예측치(파란 실선) 및 95% 신뢰구간(파란 구간) ···27

<그림 3-1> 2016년도 남한지역 대기측정소 위치 ···32

<그림 3-2> 연구 범위 및 흐름도 ···33

<그림 3-3> 그래프 뉴럴 네트워크 구조 ···34

<그림 3-4> 그래프 예시: Social Graph, 3D Mesh, Molecular Graph ···35

<그림 3-5> GC-LSTM 구조 ···36

<그림 3-6> 초미세먼지 특성 ···36

<그림 3-7> 초미세먼지 측정소별 Nan 값 비율 ···38

<그림 3-8> ERA5 데이터 예시(2metre temperature) ···39

<그림 3-9> DEM 데이터 전처리 결과 ···41

<그림 3-10> 3차원 시공간 학습용 데이터 ···42

<그림 3-11> 변수 그래프 ···43

<그림 3-12> 변수 분포도 ···44

<그림 3-13> 변수 상관관계 ···45

(21)

<그림 3-14> 월별 초미세먼지 농도 값 ···46

<그림 3-15> 시간별 초미세먼지 농도 값 ···46

<그림 3-16> 미세먼지 운송모델 ···48

<그림 3-17> 그래프 구조 ···50

<그림 3-18> Graph-GRU 모식도 ···51

<그림 3-19> GNN 구조 ···52

<그림 3-20> GRU 구조 ···52

<그림 3-21> GRU Cell ···53

<그림 3-22> Graph-GRU 구조 ···54

<그림 3-23> 비교 모델: MLP, LSTM, GRU ···54

<그림 3-24> 2x2 Contingency Table ···56

<그림 3-25> 예측 성능 비교 그래프 ···57

<그림 3-26> Graph-GRU 기반 72시간 뒤 초미세먼지 예측 성능 비교(서울 중구) ···58

<그림 3-27> Graph-GRU 이용한 계절별 및 변수별 예측 성능 ···59

<그림 4-1> 연구 범위 및 흐름도 ···62

<그림 4-2> 공공정책 과정 ···64

<그림 4-3> 소셜미디어 감성지수와 경기지표 ···65

<그림 4-4> 감성분류 딥러닝 모형 1 ···67

<그림 4-5> 감성분류 딥러닝 모형 2 ···68

<그림 4-6> 환경 감성분류기 구축의 흐름 ···69

<그림 4-7> 환경 텍스트 데이터 수집 ···71

<그림 4-8> 감성분류기 모형의 구조 ···72

<그림 4-9> 환경 감성분류기를 활용한 예측 ···74

<그림 4-10> BERT 모형의 두 가지 과정 ···77

<그림 4-11> 환경 텍스트 감성 분석 서비스 메인화면 ···79

<그림 4-12> 네이버 환경뉴스 댓글 데이터 로드 ···80

<그림 4-13> 트위터 텍스트 데이터 로드 ···81

(22)

<그림 4-16> 네이버 환경뉴스 부정감성 댓글에 대한 키워드 빈도수 분석 ···84

<그림 4-17> 트위터 부정감성 텍스트에 대한 키워드 빈도수 분석 ···85

<그림 4-18> 키워드 네트워크 분석: 네이버 환경뉴스 부정감성 댓글 ···86

<그림 4-19> 키워드 네트워크 분석: 트위터 부정감성 텍스트 ···87

<그림 5-1> 텍스트 정보 선정 및 수집 ···94

<그림 5-2> LDA 모형 ···98

<그림 5-3> CTM 모형 ···99

<그림 5-4> 전체 문서의 토픽 간 상관관계 ···102

<그림 5-5> 전체 문서 토픽의 시간적 변화 ···110

<그림 5-6> 전체 문서 토픽의 DTW 결과 ···111

<그림 5-7> 질문 간 관계를 반영한 질문 맵(예시) ···120

<그림 5-8> 데이터맵의 구성 ···122

<그림 5-9> 기온 변화 추세 ···123

<그림 5-10> 분석 자료에 대한 이해(기온 데이터) ···124

<그림 5-11> 기온 변화 추세 ···125

<그림 5-12> 지역별 기온 변화 추세 ···126

<그림 5-13> 지역별 기온 변화 추세(여름철, 겨울철) ···127

<그림 5-14> 강수량, 장마일수의 변화추세 ···128

<그림 5-15> 일조시간 변화추세 ···129

<그림 5-16> 일사량 변화추세 ···130

<그림 5-17> 자연재난 및 산사태 발생 현황 ···131

<그림 5-18> 멸종위기 야생 동식물 지정 종 수의 변화 ···132

<그림 5-19> 멸종위기 야생 동식물 지정종수의 변화 ···133

<그림 5-20> 개발제한구역 해제면적 현황 ···134

<그림 5-21> 경지면적 변화 추세 ···135

(23)

<그림 5-22> 조림, 숲 가꾸기, 국립공원 면적 변화 추세 ···136

<그림 5-23> 계절별 평균 기온 추세와 감염병(제1군, 2군) 발병 추세 ···137

<그림 5-24> 연도별 제2군 감염병 고위험 지역의 변화 ···138

<그림 6-1> 연구 대상자 ···144

<그림 6-2> 2009~2013년 PM10 분포 ···151

<그림 6-3> 2009~2013년 O3 분포 ···152

<그림 6-4> 2009~2013년 NO2 분포 ···153

<그림 6-5> 연평균 대기오염 농도 ···154

<그림 6-6> 사망원인별 Hazard ratio(1년 노출) ···158

<그림 7-1> 한국서부발전(주) 영암에프원 태양광발전량 낮 시간대 발전 실적 시계열 그림 ···163

<그림 7-2> 한국서부발전(주) 영암에프원 태양광발전량 낮 시간대 발전 실적 상자 그림 ··· 164

<그림 7-3> 한국서부발전(주) 영암에프원 태양광발전량 낮 시간대 발전 실적의

자기상관함수(ACF) 및 부분자기상관함수(PACF) ···165

<그림 7-4> 한국서부발전(주) 영암에프원 태양광발전량 발전 실적 시간대별 상자 그림 ···167

<그림 7-5> 한국서부발전(주) 영암에프원 태양광발전량 발전 실적 오전/오후별 상자 그림 ···168

<그림 7-6> 기상변수와 영암에프원 태양광발전량 산점도 및 상관계수 ···169

<그림 7-7> 영암에프원 태양광발전소 위치 ···170

<그림 7-8> 기상관측소 위치 ···171

<그림 7-9> 영암에프원 태양광발전량 RNN 예측 모형 구조 ···173

<그림 7-10> 영암에프원 태양광발전량 시간대별 RNN 예측모형 결과 및 잔차 그림 ···· 174

<그림 7-11> 영암에프원 태양광발전량 RNN 시간대별 예측모형의 RMSE 및

표준편차 대비 RMSE ···175

<그림 7-12> 영암에프원 태양광발전량 RNN 월별 예측모형의 RMSE 및

표준편차 대비 RMSE ···176

<그림 7-13> 영암에프원 태양광발전량 반(半)일별 RNN 예측 결과 및 잔차 그림 ···177

<그림 7-14> 영암에프원 태양광발전량 RNN 시간대별 예측모형의 오전/오후별 RMSE 및 표준편차 대비 RMSE ···178

(24)
(25)

제1장 서 론 ∣ 1

제1장

서 론

1. 연구의 필요성 및 목적

본 연구는 2017년부터 시작된 계속사업으로서, 환경연구에 기계학습(Machine Learning) 연구 방법론을 접목하여 환경정책 개발 가능성을 모색하는 연구이다. 2017년부터 2020년까 지는 본 연구의 제1기 연구 기간에 해당한다. 제1기에서는 기계학습 연구 방법론의 환경정책 적용 가능성을 모색하는 실험적인 연구를 주로 수행하였다. 그 결과를 바탕으로 2019년 연구 에서는 환경정책 수요 파악, 정책 시의성 평가, 정책 유효성 평가를 주기적으로 반복하는 ‘(가 칭) 환경정책 모니터링 시스템 구축’을 본 연구의 구체적인 목표로 설정하였다. 2020년 연구 는 환경정책 모니터링 시스템 구축에 필요한 연구를 지속한다. 동시에 제1기 연구에서 확인된 기계학습의 약점인 인과분석 기능 부족을 보완하기 위해서, 본 연구의 영역을 ‘기계학습 방법 론을 활용한 환경정책 연구’로부터 ‘대용량 데이터를 이용한 환경정책 연구’로 점차 확대하기 로 한다. 반면 제 1기에는 병행하였던 ‘환경 빅데이터 분석’, ‘환경 빅데이터 플랫폼 구축’,

‘빅데이터 서비스 개발’ 3개 중요 목표 중 ‘환경 빅데이터 분석’ 부문에 보다 집중하기로 한다.

‘환경정책 모니터링(가칭) 시스템’은 ‘환경오염 통합예측 알고리즘’, ‘실시간 환경 텍스트 분석 알고리즘’, 그리고 ‘질문 중심 데이터베이스’ 3개 분석도구로 구성된다. 환경오염 통합 예측 알고리즘은 다양한 환경오염물질 오염도의 예측을 주기적으로 반복한다. 실시간 환경 텍스트 분석 알고리즘은 환경 관련 텍스트의 정보추출 및 감성분석을 주기적으로 반복한다.

‘환경 관련 텍스트 정보추출’은 환경정책 공급자 작성문서 및 환경정책 수요자 작성문서에 자연연어 분석 기법을 적용하여 키워드 발생빈도, 키워드 네트워크 등을 파악하는 기능을 의미하고, ‘환경 관련 텍스트 감성분석’은 환경과 관련된 SNS 데이터에 딥러닝 기반 감성분

(26)

석기를 적용하여 그 감성을 긍정 및 부정으로 분류하는 기능을 의미한다. 마지막으로 질문 중심 데이터베이스는 주요 환경이슈 관련 이슈의 네트워크를 구축하고 이슈 네트워크를 구성하는 각각의 이슈에 대해서 관련된 데이터 및 분석 결과를 연계하여 이를 실시간으로 업데이트하는 방식의 데이터베이스를 의미한다.

환경정책 모니터링 시스템의 운용 방식은 다음과 같다. 수요파악 단계에서는 환경오염 예측 알고리즘의 예측치, 환경정책 수요자 텍스트 분석 결과, 환경이슈기반 데이터 분석 결과를 사용하여 환경정책 개입이 필요한 부문을 파악한다. 그리고 정책 시의성 평가 단계 에서는 시행 이전부터 시행 기간까지 민간 텍스트 분석 결과와 같은 기간 환경정책 생산자 텍스트 분석 결과를 비교하여 정책 공급자의 대응이 정책 수요자의 관심과 조응하는지 여부 를 진단한다. 마지막으로 정책 유효성 평가 단계에서는 환경오염 예측 알고리즘의 정책 시 행 전 예측치와 시행 후 실측치를 비교하고, 정책시행 전후 환경이슈기반 데이터 분석 결과 를 비교하고, 정책시행 전후 민간 텍스트 감성분류 결과를 비교한다. 이를 그림으로 나타내 면 <그림 1-1>과 같다.

자료: 저자 작성.

<그림 1-1> 환경정책 모니터링 시스템

(27)

제1장 서 론 ∣ 3

이와 같은 환경정책 모니터링 시스템의 장점은 기계학습 방법론을 사용하기 때문에 예측 치가 정교하고, 데이터 수집-분석-결과 갱신을 새로운 데이터 갱신 주기에 맞추어 반복적으 로 수행할 수 있다는 점에 있다. 반면 기계학습 모형이 복잡하기 때문에 개별 변수가 환경정 책 목표인 환경오염 오염도 및 국민 감성에 미치는 영향을 구별하기 어렵고, 인과관계 분석 기능이 제한적이라는 약점이 있다. 이 두 가지 약점은 환경정책 모니터링 시스템의 정책 유효성 평가에 대한 신뢰성을 약화시킬 수 있다.

2020년부터는 환경정책 모니터링 시스템의 구성요소 구축을 지속하는 동시에, 모형의 복잡성 및 인과관계 분석기능 부족을 해소할 수 있는 방향으로 연구내용을 확장하려고 한 다. 이를 위해서 제1기에서는 ‘기계학습 방법론’으로 데이터 분석 방법을 한정하였다면, 제2기부터는 ‘대용량 데이터’ 분석이 가능하고 주기적인 결과 재생이 가능한 모든 통계적 방법론을 활용하기로 한다. 특히 예측의 정확도를 크게 해치지 않는다면 모형을 단순화하여 개별 변수의 영향력을 판별할 수 있도록 시도하고, 인과분석이 가능한 기존의 통계적 방법론 을 폭넓게 활용하여 인과분석 기능을 보완하려고 한다. 또한 2021년부터는 기존의 기계학습 방법론을 사용하되 개별 변수의 영향을 정량화하는 ‘해석 가능한 기계학습’ (Interpretable machine) 기법을 적용하기 시작하여, 개별 변수의 영향을 파악하기 어려운 약점을 해소하 려고 한다.

반면 2기와 3기의 중요 목표였던 ‘환경 빅데이터 플랫폼 구축’ 및 ‘원내외 빅데이터 서비 스 개발’ 기능은 점진적으로 별도의 과제로 분리하고자 한다. 2017년 본 연구가 시작할 때 표방하였던 3가지 주요 연구목표는 ‘환경 빅데이터 분석’, ‘환경 빅데이터 플랫폼 구축’,

‘원내외 빅데이터 서비스 개발’ 3가지였다. 이 중 ‘환경 빅데이터 분석’은 대용량 데이터를 분석하여 데이터의 패턴을 파악하는 ‘데이터 과학(Data Science)’의 영역이고, ‘환경 빅데 이터 플랫폼 구축’ 및 ‘원내외 빅데이터 서비스 개발’은 ‘데이터 공학(Data Engineering)’

의 영역이다. 데이터 공학은 데이터 과학에서 개발한 분석기법을 다양한 분야에서 사용할 수 있는 패키지(package)로 구성하는 과제를 담당한다. 구체적으로 데이터 공학은 데이터 수집-전처리-분석-결과 발신을 자동화하여 실시간으로 분석 결과를 갱신하고 사용할 수 있는 작업을 수행한다. 이미 1기에서 수행한 분석 알고리즘이 상당 수 축적되었고, 이들을 package 로 구성하는 작업은 새로운 알고리즘을 구축하는 작업과 병행하기 어려울 정도로

(28)

규모가 확대되었다. 따라서 본 과제에서는 ‘환경 빅데이터 분석’에 집중하되, 그 영역을 ‘대 용량 데이터를 사용하는 환경정책 연구’로 확대하기로 한다.

2. 연구의 범위

본 연구는 기계학습 방법론을 환경연구에 적용하는 환경 빅데이터 연구를 주축으로 진행 된다. 그리고 환경 빅데이터 연구의 성과를 활용하는 환경 빅데이터 인프라 구축 및 환경 원내외 빅데이터 서비스 개발은 점진적으로 축소하여 별도의 과제로 분리하기로 한다. 본 과제 연구의 초기에는 본 과제의 연구 범위를 제1기에는 환경 빅데이터 연구, 제2기에는 환경 빅데이터 인프라 구축, 제3기에는 원내외 빅데이터 서비스 개발로 설정하였다. 그러나 연구의 성격이 ‘대용량 데이터 활용 환경정책 연구’로 변화함에 따라서 환경 빅데이터 연구 는 지속적으로 수행하기로 하고, 환경 빅데이터 플랫폼 구축 및 원내외 빅데이터 서비스 개발은 점차 별도의 과제로 이관하기로 한다.

제2기에서는 환경정책 모니터링 시스템에 포괄할 알고리즘 개발을 지속한다. 제1기와는 달리 개별 모형의 영향 분석이 가능하고 인과관계 분석이 가능한 기존의 통계학적 방법론을 폭넓게 활용하려고 한다. 그리고 2021년부터는 기계학습 방법론을 적용하는 연구에도 해석 가능한 기계학습(Interpretable Machine Learning)의 성과를 채용하여 개별 변수의 영향 분석을 시도하려고 한다. 그리고 환경정책 모니터링 시스템에 포괄하기 어려운 연구의 경우 에는 개별 연구의 영역으로 수행하여 중장기적으로 환경정책 모니터링 시스템을 확장하는 후보군(群)을 확보하려고 한다.

제3기에서는 환경정책 모니터링 시스템을 본격적으로 가동하면서, 환경정책 모니터링 시스템에 포괄할 수 있는 알고리즘 개발은 지속하려고 한다. 우선 제2기까지 축적된 알고리 즘을 실시간 재생 가능한 package 형태로 개편하여 환경정책 모니터링 시스템을 구성하여 가동한다. 그리고 환경정책 모니터링 시스템이 생산하는 정보를 해석하여 주기적으로 결과 를 전달하는 데이터 저널리즘(Data Journalism)형태의 발신을 시도한다. 동시에 대용량 데이터를 활용하는 환경정책 연구를 지속하여 환경정책 모니터링 시스템의 구성을 점진적 으로 확대한다. 각 단계별 환경 빅데이터 연구의 주요 내용은 다음 <표 1-1>과 같고, 각 단계의 연차계획은 <표 1-2>와 같다.

(29)

제1장 서 론 ∣ 5

<표 1-1> 환경 빅데이터 분석 및 서비스 개발 단계별 계획

구분 환경 빅데이터 연구

1기 성과 (2017~2019)

․ 기계학습 중심 환경 빅데이터 연구 시행

․ 환경 빅데이터 플랫폼 설계: ‘(가칭) 환경정책 모니터링 시스템’ 설계

․ 원내 연구정보 서비스: Open Data Map, 환경 텍스트 분석 서비스 원내 제공 2기

(2020~2022)

․ ‘(가칭) 환경정책 모니터링 시스템’ 구축 지속

․ 인과분석이 가능한 다양한 통계적 기법 실험

․ 해석 가능한 기계학습(Interpretable machine learning) 기법 접목 3기

(2023~2025)

․ ‘(가칭) 환경정책 모니터링 시스템’ 구축 지속

․ 시의성 중심 발신체계 개편 자료: 강성원 외(2018), p.4.

<표 1-2> 환경 빅데이터 분석 및 서비스 개발 연차 계획

구분 환경 빅데이터 연구  환경 빅데이터 연구 인프라 구축 환경 빅데이터 서비스 개발 1단계 환경 빅데이터 연구 시행 자료 및 알고리즘 축적/공개 원내 연구정보 서비스

2017 환경위험 예측 알고리즘 개발 / 연구수요 파악: 전산화된 자료

1) 환경 분야 기초데이터 수집방법

2) 자료 및 알고리즘 축적/공개  연구동향 파악 서비스

2018 환경위험 예측 알고리즘 개발 / 연구수요 파악: 비정형자료

* 환경 빅데이터 플랫폼 설계 - 대용량 자료 저장-분석 기능 구비 - 자료 및 알고리즘 축적/공개 지속 - 환경 분야 기초데이터 수집

1) 연구동향 파악 서비스 원내 2) Open Data Map 설계

2019

환경정책 모니터링 시스템 구성요소 구축

1) 환경위험 예측 상시화 2) 딥러닝 중심연구수요 분석 상시화

* 환경 빅데이터 플랫폼 설계 완료 - 자료 및 알고리즘 축적/공개 지속 - 환경 분야 기초데이터 수집 1단계

완료

1) 연구동향 파악 서비스 원내 2) Open Data Map 원내

2단계 환경정책 모니터링 시스템 구축

2020 환경정책 모니터링 시스템 구축 시작: 분석 방법론 다양화 2021 환경정책 모니터링 시스템 구축 진행: 인과분석 기능 강화

- 해석 가능한 기계학습(Interpretable machine learning) 기법 활용 2022 환경정책 모니터링 시스템 구축 지속

3단계 환경정책 모니터링 시스템 활용 및 심화

2023 1) 환경정책 모니터링 시스템 활용: Data Journalism 형 발신체계 설계/가동  2) 연간 기획연구 2건 이상

2024 1) 환경정책 모니터링 시스템 활용: Data Journalism 형 발신 체계 1년 가동 2) 연간 기획연구 2건 이상

2025 1) 환경정책 모니터링 시스템 활용: Data Journalism 형 발신 체계 1년 가동 2) 연간 기획연구 2건 이상

자료: 저자 작성.

(30)

3. 연구 내용 및 방법론

2020년 본 연구는 ‘(가칭) 환경정책 모니터링 시스템’ 구축에 필요한 구성요소를 개발하 는 4건의 연구와 환경정책 모니터링 시스템으로 포괄하기 어려운 2건의 개별 연구를 수행한 다. 환경정책 모니터링 시스템 구성요소를 개발하는 연구로는 개별 변수의 영향 분석이 가 능한 모형으로 미세먼지 오염도를 예측하는 ‘미세먼지 고농도 현상 발생확률 추정’, 네트워 크로 연결된 데이터를 분석하는 Graph Convolution Network 알고리즘을 적용하여 미세 먼지 오염도 예측의 정확도를 제고하는 ‘딥러닝을 이용한 초미세먼지 오염도 추정 및 예측:

남한지역을 중심으로’, 환경관련 텍스트 감성분석 알고리즘을 개발하는 ‘환경 텍스트 감성 분석기 구축 및 활용’, 기후변화와 관련된 시의성 있는 이슈를 우선 파악하고 그에 적합한 데이터 분석을 연계하여 분석 결과를 주기적으로 갱신하는 ‘기후변화 이슈 분석 및 질문중 심 데이터맵’ 연구를 수행한다. 개별연구로는 건강보험 데이터를 활용한 ‘대기오염이 COPD 환자 사망에 미치는 영향’ 연구와 딥러닝 모형을 이용하여 태양광 발전의 발전량을 예측하는 ‘딥러닝 기반 태양광발전량 예측’ 연구를 수행한다.

‘미세먼지 고농도 현상 발생확률 추정’ 연구는 서울지역 초미세먼지 오염도가 ‘나쁨’ 이 상으로 악화될지 여부를 예측하는 통계적 방법론을 개발한다. 이 연구에서는 모형 구성이 간단하고 개별 변수의 영향력 파악이 용이한 기존의 통계학적 모형을 사용하여, 개별 변수 의 영향력 파악이 어려운 딥러닝 모형의 약점을 극복하고자 한다. 본 연구에서 사용하는 방법론은 극한치가 많은 분포의 추정에 적합하도록 확대 개편한 Quantile Regression 모형이다.1)

‘딥러닝을 이용한 초미세먼지 오염도 추정 및 예측: 남한지역을 중심으로’ 연구는 Graph Convolution Network 모형을 적용하여 측정소의 초미세먼지 오염도를 예측하는 알고리 즘을 개발하는 연구이다. 이 연구에서 사용하는 Graph Convolution Network 모형은 측정소와 측정소 간 관계를 network로 파악하고, 각 측정소 간의 연계 여부를 지리 및 고도를 활용한 지표를 사용하여 결정한다. 그리고 각 측정소에 관계된 대기오염, 기상, 위성 사진, 지리, 그리고 오염원 정보를 반영하여 측정소별 초미세먼지 오염도를 예측한다. 제1

1) Wang, Li, and He(2012), pp.1453-1464.

(31)

제1장 서 론 ∣ 7

기에 본 연구에서 개발한 컨벌루션 네트워크 모형을 활용한 미세먼지 오염도 예측 알고리즘 은 측정소별 오염도를 전국적인 그리드를 포괄하는 오염도로 전환하는 전처리 작업 부담이 큰 약점이 있었다. Graph Convolution Network 모형을 활용하면 이러한 약점을 극복할 수 있다.

‘환경 텍스트 감성 분석기 구축 및 활용’ 연구는 2018~2019년 본 연구에서 개발한 기후 변화 SNS 감성분석 알고리즘을 환경 전 분야로 확대한다. 우선 학습 데이터를 기존의 SNS 5만 건에 준지도학습을 활용하여 수집한 14만 건을 추가하고, 분석 대상도 기후변화 관련 SNS에서 환경 전 분야 관련 SNS로 확대한다. 그리고 데이터 수집 및 전처리 과정을 자동화 하여 실시간으로 분석 결과를 자동 갱신할 수 있도록 개편한다. 감성분석 알고리즘은 2019 년에 개발한 CNN-BiLSTM 앙상블 알고리즘을 우선 사용하되, BERT 기법을 사용하여 정 확도를 제고할 수 있는지 여부를 점검한다.

‘기후변화 이슈 분석 및 질문기반 데이터맵 구축’ 연구는 2019년 수행한 미세먼지 관련 질문중심 데이터맵 구축 연구를 기후변화 부문으로 확대하는 연구이다. 이 연구는 이슈분석 모듈 구축 및 데이터 분석 모듈 구축의 두 단계 과정을 수행한다. 이슈분석 모듈 구축 단계 에서는 기후변화 이슈와 관련된 국회회의록, 연구기관 보고서, 유관기관 보도자료, 대통령 연설문, 학술논문, 언론 등의 광범위한 텍스트를 분석하여 기후변화 관련 이슈를 도출하고, 이를 위계화된 네트워크로 구축한다. 그리고 ‘데이터 분석 모듈’ 단계에서는 산재되어있는 기후변화 관련 국내 90여 개 데이터를 이슈 네트워크를 기준으로 재분류하고, 이슈에 대한 데이터 수집 및 분석 결과를 실시간으로 확인할 수 있는 형태로 조직한다.

‘대기오염이 COPD 환자 사망에 미치는 영향’ 연구는 개별연구로 진행한다. 이 연구는 1년, 3년, 5년간 대기오염 노출이 COPD 환자의 사망에 미치는 영향을 생존분석(Survival analysis) 기법을 이용하여 분석한다. 이 연구는 건강보험 맞춤형 자료를 사용하는데, 이 자료는 외부 활용에 제약이 있기 때문에 환경정책 모니터링 시스템에 직접 활용하기 어렵 다. 따라서 이 연구는 개별연구로 시행한다.

‘딥러닝 기반 태양광발전량 예측’ 연구는 RNN 계열 모형을 이용하여 시도별 태양광발전 량을 예측하는 알고리즘을 개발하는 연구이다. 이 연구는 태양광의 지역별 발전량을 기상 및 전 시점 발전량을 이용하여 예측한다. 현재 환경정책 모니터링 시스템에서 모니터링 하

(32)

는 지표들은 ‘환경 위험’에 관련된 정보를 제공하는 지표들이라서, 이 연구에서 예측하는 태양광발전량과는 약간 차이가 있다. 따라서 이 연구는 개별연구로 시행한다.

4. 보고서의 구성

본 보고서는 8개 장으로 구성된다. 제1장은 서론으로 본 연구를 소개한다. 제2장부터 제5장까지는 ‘(가칭)환경정책 모니터링 시스템’ 관련 연구 4건의 연구 성과를 수록한다. 제6 장과 제7장은 개별연구 2건의 연구 성과를 수록한다. 제8장은 연구결과를 요약하고 정책적 시사점을 제시한다.

(33)

제2장 미세먼지 고농도 현상 발생확률 추정 ∣ 9

제2장

미세먼지 고농도 현상 발생확률 추정

1. 연구 목적

세계보건기구(WHO)는 초미세먼지가 심혈관계 및 호흡기 질환을 포함하여 건강에 미치 는 부정적 영향을 인지하여 2005년 대기질 권고 기준 개정을 통해 초미세먼지 저감의 중요 성을 강조하였고 이에 대한 사회적 공감을 얻었다(WHO, 2006). 그러나 한국환경공단에서 에어코리아(http://www.airkorea.or.kr/index)를 통해 전국단위의 PM2.5 자료를 측정 및 제공하는 시기는 2015년부터로, 미세먼지(PM10) 측정 자료가 2001년부터 제공되는 것 에 비하여 비교적 최근이다. 따라서 그동안의 미세먼지 연구는 상대적으로 PM10 자료에 집중되어왔다. 본 연구에서는 PM2.5 농도에 대한 다각적 분석의 필요성을 인지하여, 5년간 서울 25개 측정소에서 시간별로 측정된 PM2.5 및 대기 환경 자료를 바탕으로 고농도 초미세 먼지 발생 현상을 추정하는 통계적 예측모형을 개발하는 것을 목표로 한다.

기존의 통계적 방법들은 주로 자료의 평균적인 변화를 예측하는 것을 목적으로 한다면, quantile 분석은 임의의 분위 별 변동을 파악할 수 있어서 더욱 종합적인 분석이 가능하다는 강점이 있다. 특히 미세먼지 분석에서는 주로 고농도 값의 관측에 관심이 있다. 따라서 높은 분위 수에서의 quantile regression 모형을 이용하면 고농도 상황에 영향을 주는 공변량에 대해 효과적으로 이해하고 예측할 수 있을 것이라 기대한다. 본 연구는 여기에서 더 나아가서 극단 quantile 값의 추정에 효과적인 3-stage-model과 penalized regression을 이용한 변수 선택 등 최신의 통계 기법들을 적극 결합하여 고농도 초미세먼지 발생 예측의 성능을 높이는 것을 목적으로 한다. 최종적으로 한국환경공단에서 제공하는 기준을 바탕으로 초미세먼지 수치의

‘매우 나쁨 (PM2.5 ≥ 76)’ 여부를 이진 분류하는 작업을 수행하여 그 성능을 확인하고자 한다.

(34)

2. 데이터

가. 데이터 구성

본 과제에서 사용한 기상 및 대기변수는 아래 <표 2-1>과 같다. 2015.1.1 시점을 시작으 로 2020.5.29 시점까지의 매시간 측정된 변수들을 사용하였다. 관측 지점은 아래 <그림 2-1>과 같다. 강서구 지역에 한해서 주어진 자료의 시계열 그림을 그려보면 아래 <그림 2-2>와 같이 그려지며, 변수들끼리의 상관관계 또한 <그림 2-3>과 같이 구해진다. 상관계 수 값을 보면, 대기질 관련 변수들 간의 상관관계는 높은 양의 값을 가짐을 확인할 수 있다.

<표 2-1> 분석을 위해 사용된 변수 목록

Data Variables Unit 자료 출처

Meteorological Data

Precipitation Hourly

기상자료개방포털2) Temperature Hourly

Win Speed Hourly Win Direction Hourly Humidity Hourly

Air Pollution Data

PM2.5 Hourly

Airkorea3) PM10 Hourly

SO2 Hourly

NO2 Hourly

CO Hourly

O3 Hourly

자료: 저자 작성.

2) 기상자료개방포털, “종관기상관측(ASOS) 자료”, 검색일: 2020.10.11.

3) Airkorea, “최종확정 측정자료 데이터”, 검색일: 2020.10.11.

(35)

제2장 미세먼지 고농도 현상 발생확률 추정 ∣ 11

자료: 통계청, 통계지리정보(SGIS), “2010년 센서스용행정구역경계(시군구)”, 검색일: 2020.5.3.

<그림 2-1> 서울시 대기 및 기상 자료 관측 구역

자료: 저자 작성.

<그림 2-2> 사용된 변수들의 시계열 그림

(36)

자료: 저자 작성.

<그림 2-3> 사용된 변수들의 상관관계

나. 데이터 가공

본 연구는 제시한 위 표를 바탕으로 초미세먼지 집중 기간인 ‘봄 철’을 겨냥한 4시간 평균 모델링을 위해 데이터를 다음과 같이 가공하였다. 전체 자료 중 3,4,5월에 해당하는 자료만 사용하였으며, 모든 지역의 변수에 대해 4시간을 단위로 평균을 구해 하루 6개 시간 대를 갖도록 하였다.

또한 lag 1 (한 시점 이전)의 자료가 영향을 줄 것으로 예상하였으므로, 모든 변수들의 lag 1 값을 독립변수로 추가적으로 사용하였다.

각 변수들에 대한 결측치 처리는 다음과 같다.

- 결측이 있는 경우에 가장 먼저, 결측치가 연속한 4개의 시간 이하로 나타나면 선형 보간법을 사용한다.

- 결측치가 연속한 4개의 시간 초과 6개 이하로 나타나면, 거리가 5km 이하인 결측이

(37)

제2장 미세먼지 고농도 현상 발생확률 추정 ∣ 13

없는 장소 중 최근거리의 측정값으로 보간하였다.

- 위 방법으로 채워지지 않는 경우 제거하였다.

다. 추가 데이터

미세먼지 예측에 있어서 유용한 예측변수로 사용 가능성이 있는 자료는 아래와 같으나, 여러 한계로 인해 본 과제에서는 사용이 불가하였다.

- 대기오염원 자료: 국내의 공장 등에서 발생하는 대기오염원 자료도 유용한 예측변수로 사용될 수 있으나, 현재는 yearly 자료만 공개된 상태

- 중국 미세먼지 자료: daily 자료만 제공. hourly 자료는 공개된 자료가 없음. daily 예측에는 사용할 수 있지만, 본 과제에서는 충분한 데이터를 사용해야 하므로 사용하지 않았음.

3. 방법론

가. Binary Classifier through Extrapolating the Intermediate Extreme Quantiles

본 연구에서는 고농도 초미세먼지 집중기간인 봄철의 매우 나쁨(>=76)에 대한 상태 예측 을 위해 먼저 Three Stage Model(Wang and Li, 2013)을 선행하여, conditional extreme quantiles를 추정하고 임계치(Threshold) 76을 기준으로 이진 분류를 수행하였 다. 또한 일반적인 quantile regression을 base model로 사용한 Wang and Li(2013)와 다르게 LASSO quantile regression(Wu and Liu, 2009)을 사용함으로써 서로 상관성이 높은 설명변수들 간의 다중공선성을 해결함과 동시에 해석을 용이하게 하였다.

모델은 총 네 단계로 구성된다. 가장 먼저 종속 변수에 대한 power transformation parameter인 를 추정한다. 이어서 앞 과정에서 추정된 를 통해 box-cox transformation을 종속 변수에 적용해 conditional intermediate quantiles를 적합한다.

적합된 모형들을 통해 test samples의 예측을 구한다. 결과 값에 Hill's estimator와

(38)

Weissiman's estimator를 적용해 각 sample의 conditional extreme quantile을 추정한 다. 마지막으로 임계치 76을 기준으로 이진분류를 수행한다. 자세한 방법론은 다음과 같다.

STEP Ⅰ

Three Stage Model은 extreme quantile regression에서 일반적인 선형성 가정이 가져 오는 불안정성과 부정확함을 극복하기 위하여 power transformation을 적용한 quantile regression 모형을 base model로 가정하였다.

   xi  xiT , 식(2-1)

여기서  대신 아래의 수식을 통해 transform된 값을 사용하였다.

  



 

  ≠  log     

. 식(2-2)

본 연구에서는 변수선택을 가미하기 위하여 일반적인 quantile regression 대신 LASSO quantile regression을 적용하여 power transformation parameter인 를 아래와 같 이 추정하였다.

 arg min

  

Rnxi   

식(2-3) 여기서,

  

  

≤  

yj  xjTLA SSO ≤ 

   arg min

  

yj  xiTb  

j   P

bj

식(2-4)

이다. 이때, LASSO penalty parameter인 는 마다 cross-validation기법을 사용 하여 추정하였다(Tibshirani, 1996).

(39)

제2장 미세먼지 고농도 현상 발생확률 추정 ∣ 15

STEP Ⅱ

앞의 과정에서 추정한 을 통해 종속변수에 power transformation을 적용한다. 그 후 아래 수식으로 conditional quantile 값을 얻는다.

j  x  

 

xTLA SSOj

식(2-5)

이 때, 사용되는 quantile  값은    ,   …로 설정되며, 이때

    이고, 상수 는 0.1로 설정되었다.

또한 각 에 대하여 cross-validation을 통하여 최적의 LASSO parameter 를 추정 하는데, 본 연구에서 cross-validation의 evaluation metric으로 ‘RMSE’와 'F2 Score' 를 적용하였다. Train samples을 통해 모형 추정이 완료되면 test samples에 대한 예측이 이루어지고, 원래 스케일로 변환한다.

STEP Ⅲ

이번 절차에서는 위 STEP Ⅱ에서 구한  부터 까지의 conditional intermediate quantiles 값을 통하여 conditional extreme quantile, 에 대한 외삽(extrapolation) 을 수행한다. 단 여기서 →인 extreme quantile을 고려함으로써, 극단자료에 적합한 예측치를 구하고자 한다. 보다 구체적으로 Weissman's estimator를 이용하여 다음과 같 이 구한다(Weissman, 1978; Daouia et al., 2011).

 

  

    

   식(2-6) 이때 은 다음과 같이 정의한다(Hill, 1975).

 

 

  

log  

  

식(2-7)

(40)

STEP Ⅳ

마지막으로, 추정된 conditional extreme quantile 예측치 를 임계치에 의해 두 그룹으로 분류한다. 해당 임계치를 76㎍/㎥, 한국 환경공단(Korea Environment Corporation) 산하 Airkorea의 ‘매우 나쁨’ 기준으로 설정되었다.



i f i f  ≥     식(2-8)

4. 결과

본 과제에서는 2015년 3월 1일 ~ 2017년 3월 3일까지를 training 자료로 두었고, training 자료를 통해 구한 예측모델을 2017년 3월 4일 ~ 2020년 5월 29일까지의 test 자료에 적용하여 그 예측력을 평가하였다. 앞서 언급한 바와 같이 봄철에 해당하는 3~5월 자료만 사용하였다. 따라서 training data의 time point 수는 1,100개이며, test data의 time point 수는 2,140개이다.

가. Results of Three Stage Model

Binary 자료에 대한 예측력은 다음과 같은 2 by 2 confusion matrix로 정리할 수 있다.

Prediction

Negative Positive

True Negative True Negative False Positive Positive False Negative True Positive 자료: 저자 작성.

‘매우 나쁨’을 positive로 놓고 결과를 도출했을 때, 한 해의 데이터 중에서 ‘매우 나쁨’인 경우가 아닌 경우에 대해 상대적으로 드물고 ‘매우 나쁨’인 경우를 바르게 예측하는 것이 더 중요하다는 점을 고려해 본 과제에서는 다음의 지표를 평가지표로 설정하였다.

참조

관련 문서

- 넷째, 독일어 추모문은 고인의 업적을 알리고 이를 칭송 하는 점에서 제보기능이 중심을 이루며, 여기에 추모문에 따라, 특히 신문 추모문에서 고인에 대한

2002년 이후부터는 한반도 지역 기후에 대한 상세 기후예측 정보의 생산 및 위성, 해 양자료 활용 기술의 개발, 전지구 기후변동예측시스템 구축 등 이상기후 감시

본 프로그램은 학생들이 삶과 밀접한 에너지 및 환경 문제에 관심을 갖게 하 여, 사회 문제에서 과학의 중요성 인식하게 하고, 환경 문제를 주제로 한 프로 그램의

MAC주소 및 악성코드의 복사시간 실행시간을 텍스트 파일에 저장하는 악성코드 제작, 저장된 텍스트 파일을 서버로 전송하는 악성코드 제작 , USB가 인식되었을 시

본 프로그램은 학생들이 삶과 밀접한 에너지 및 환경 문제에 관심을 갖게 하 여, 사회 문제에서 과학의 중요성 인식하게 하고, 환경 문제를 주제로 한 프로 그램의

전국 도서관이 보유하고 있는 정보를 활용한 도서관 분야 빅데이터 분석 및 활용에 대한 요구사항 증대..

쾌적한 근무환경 조 성을 위한 청사 환경 개선 실적. 성과중심의 합리적 인사시스템 구축 및

이러한 분석을 위해 인터넷에서 파생 되는 단어들에 대해 웹 크롤링(Crawling) 통 한 텍스트 데이터를 추출하고 텍스트 마이닝과 오피니언 마이닝을 통해 의미부여