2019, 30
(1)
,67–76
방향성 그래피컬 모델을 이용한 미세먼지 이동 경로 추정
†
ᄇ ᅡ ᆨ건웅
1
1서울시립대 통계학과
ᄌ ᅥ
ᆸᄉ ᅮ 2018ᄂ ᅧ ᆫ 12ᄋ ᅯ ᆯ 27ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 15ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 17ᄋ ᅵ ᆯ
요 약
ᄇ
ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅴ ᄆ ᅩ ᆨᄌ ᅥ ᆨᄋ ᅳ ᆫ ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄂ ᅦᄐ ᅳᄋ ᅯᄏ ᅳᄅ ᅡᄀ ᅩ ᄇ ᅮ ᆯ ᄅ ᅵᄂ ᅳ ᆫ ᄇ ᅡ ᆼᄒ ᅣ ᆼᄉ ᅥ ᆼ ᄇ ᅵᄉ ᅮ ᆫᄒ ᅪ ᆫ ᄀ ᅳᄅ ᅢᄑ ᅵᄏ ᅥ ᆯ ᄆ ᅩᄃ ᅦ ᆯ (directed acyclic graphical model; DAG model)ᄋ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵ ᄆ ᅵᄉ ᅦᄆ ᅥ ᆫᄌ ᅵ (PM-10)ᄋ ᅴ ᄋ ᅵᄃ ᅩ ᆼ ᄀ ᅧ ᆼᄅ ᅩᄅ ᅳ ᆯ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄒ ᅡᄂ ᅳ ᆫ ᄀ ᅥ ᆺ ᄋ
ᅵᄃ ᅡ. ᄋ ᅵᄅ ᅳ ᆯ ᄋ ᅱᄒ ᅡᄋ ᅧ ᄋ ᅧ ᆫᄉ ᅩ ᆨᄒ ᅧ ᆼ ᄌ ᅡᄅ ᅭᄃ ᅳ ᆯ ᄋ ᅴ ᄀ ᅪ ᆫ ᄀ ᅨᄆ ᅡ ᆼᄋ ᅳ ᆯ ᄎ ᅡ ᆽᄋ ᅳ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄌ ᅥ ᆼᄀ ᅲᄇ ᅮ ᆫ ᄑ ᅩ ᄇ ᅡ ᆼᄒ ᅣ ᆼᄉ ᅥ ᆼ ᄇ ᅵᄉ ᅮ ᆫᄒ ᅪ ᆫ ᄀ ᅳᄅ ᅢᄑ ᅵᄏ ᅥ ᆯ ᄆ ᅩᄃ ᅦ ᆯ (Gaussian DAG model)ᄋ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄆ ᅩᄃ ᅦ ᆯᄋ ᅴ ᄒ ᅡ ᆨᄉ ᅳ ᆸ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳᄅ ᅩᄂ ᅳ ᆫ ᄌ ᅦᄋ ᅣ ᆨ ᄀ ᅵᄇ ᅡ ᆫ ᄌ ᅥ ᆸᄀ ᅳ ᆫᄇ ᅥ ᆸᄀ ᅪ ᄌ ᅥ ᆷᄉ ᅮ ᄀ ᅵᄇ ᅡ ᆫ ᄌ ᅥ ᆸᄀ ᅳ ᆫ ᄇ ᅥ
ᆸᄋ ᅳ ᆯ ᄆ ᅩᄃ ᅮ ᄉ ᅡᄋ ᅭ ᆼ ᄒ ᅡᄂ ᅳ ᆫ ᄒ ᅩ ᆫ ᄒ ᅡ ᆸᄒ ᅧ ᆼ max-min hill climbing (MMHC) ᄋ ᅡ ᆯᄀ ᅩᄅ ᅵᄌ ᅳ ᆷᄋ ᅳ ᆯ ᄉ ᅡᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᆻᄋ ᅳᄆ ᅧ, ᄋ ᅵᄅ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅢ ᄆ
ᅵᄉ ᅦᄆ ᅥ ᆫᄌ ᅵᄋ ᅴ ᄋ ᅵᄃ ᅩ ᆼ ᄀ ᅧ ᆼᄅ ᅩᄀ ᅡ ᄇ ᅮᄇ ᅮ ᆫᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄀ ᅨᄌ ᅥ ᆯᄉ ᅥ ᆼ ᄑ ᅮ ᆼ ᄒ ᅣ ᆼᄀ ᅪ ᄋ ᅵ ᆯᄎ ᅵᄒ ᅡ ᆷᄋ ᅳ ᆯ ᄒ ᅪ ᆨ ᄋ ᅵ ᆫᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄋ ᅮᄅ ᅵ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅴ ᄀ ᅧ ᆯᄀ ᅪᄂ ᅳ ᆫ ᄎ ᅬ ᄀ ᅳ ᆫ ᄉ
ᅥᄋ ᅮ ᆯ ᄉ ᅵᄋ ᅦᄉ ᅥ ᄀ ᅩᄅ ᅧᄌ ᅮ ᆼᄋ ᅵ ᆫ ᄀ ᅩ ᆼ ᄀ ᅵ ᄌ ᅥ ᆼᄒ ᅪᄐ ᅡ ᆸ ᄀ ᅥ ᆫᄉ ᅥ ᆯ ᄉ ᅡᄋ ᅥ ᆸᄋ ᅦᄉ ᅥ ᄌ ᅥ ᆨᄌ ᅥ ᆯᄒ ᅡ ᆫ ᄌ ᅥ ᆼᄒ ᅪᄐ ᅡ ᆸ ᄋ ᅱᄎ ᅵᄅ ᅳ ᆯ ᄉ ᅥ ᆫᄌ ᅥ ᆼᄒ ᅡᄂ ᅳ ᆫ ᄃ ᅦ ᄃ ᅩᄋ ᅮ ᆷ ᄋ ᅵ ᄃ ᅬ ᆯ ᄀ ᅥ ᆺᄋ ᅳᄅ ᅩ ᄀ
ᅵᄃ ᅢᄒ ᅡ ᆫᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄀ ᅨᄌ ᅥ ᆯᄉ ᅥ ᆼ ᄑ ᅮ ᆼ ᄒ ᅣ ᆼ, ᄇ ᅡ ᆼᄒ ᅣ ᆼᄉ ᅥ ᆼ ᄇ ᅵᄉ ᅮ ᆫᄒ ᅪ ᆫ ᄀ ᅳᄅ ᅢᄑ ᅵᄏ ᅥ ᆯ ᄆ ᅩᄃ ᅦ ᆯ, ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄂ ᅦᄐ ᅳᄋ ᅯᄏ ᅳ, ᄆ ᅵᄉ ᅦᄆ ᅥ ᆫᄌ ᅵᄋ ᅴ ᄀ ᅧ ᆼᄅ ᅩ.
1. 서문 ᄆ
ᅵ세먼지는대기 중에 체류 시간이 길어 호흡기나 심장질환이 있는어린이나 노약자의 건강에 직간접 ᄌ
ᅥᆨ으로 해로운영향을주는것으로 보고되고 있다 (Choe와 Lee, 2015; Wang 등, 2016). 이에 따라 우 ᄅ
ᅵ나라도 수도권지역을 중심으로 미세먼지 농도를 줄이고자 하는노력이 지속적으로 진행되고 있으며, ᄆ
ᅵ세먼지의 발생원인과 그 경로를파악하는연구가활발히 이루어지고 있다 (Park과 Shin, 2017; Lee와 Baek 2014; Lee 등, 2017; Sohn과 Kim, 2015).
ᄐ ᅳ
ᆨ히 중국과학원지구환경연구소의 최근연구 결과에 의하면, 공기 정화탑이 미세먼지 농도를감소시 ᄏ
ᅵ는효과를가지고 있다고 한다. 따라서 서울시내에 공기정화탑 건설은효과적인 저감 조치가될수 있 ᄋ
ᅳ며, 적절한 공기 정화탑의 건설 위치를선정하는것이 매우 중요한 문제가된다. 이때 미세먼지의 이 ᄃ
ᅩ
ᆼ경로망을이용하여 적합한 공기 정화탑의 위치를정한다면 공기 정화탑 주변 지역뿐만 아니라광범위 ᄒ
ᅡᆫ 지역의 미세먼지 농도까지 줄이는효과가 있을것이다.
ᄒ
ᅡ지만 미세먼지는 국내요인과 해외요인이 복합적으로 작용하여 발생함에 따라 경로 분석이 용이하지 ᄋ
ᅡ
ᆭ다. 국내에서 발생하는 공사장이나 차량에 의해 형성되는 먼지와 같은 1차 오염물질로 인한 요인과 ᄃ
ᅢ기로 배출된오염물질이 상호 반응하여 생성되는 2차 오염물질로 인한 요인 뿐아니라, 이웃나라에서 ᄋ
ᅩ는 미세먼지 등해외 요인까지 더해짐에 따라 복잡성이 가중되기 때문이다. 이러한 복잡성으로 인해 ᄆ
ᅵ세먼지의 이동경로를파악하는 분석이 그 필요성에 비해 매우 제한적으로 이루어지고 있다 (Park과 Shin, 2017; Lenschow 등, 2016). 따라서 본연구는, 경로 분석의 어려움을극복하고 서울시 지역구별
†
ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ 2018ᄂ ᅧ ᆫᄃ ᅩ ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄀ ᅭᄂ ᅢᄒ ᅡ ᆨᄉ ᅮ ᆯᄋ ᅧ ᆫᄀ ᅮᄇ ᅵᄋ ᅦ ᄋ ᅴᄒ ᅡᄋ ᅧ ᄌ ᅵᄋ ᅯ ᆫ ᄃ ᅬᄋ ᅥ ᆻᄋ ᅳ ᆷ.
1
(02504) ᄉ ᅥᄋ ᅮ ᆯ ᄃ ᅩ ᆼ ᄃ ᅢᄆ ᅮ ᆫ ᄀ ᅮ ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢᄅ ᅩ 163, ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.
E-mail: [email protected]
ᄃ
ᅢ기 오염 측정소에서 제공하는미세먼지 농도 데이터 (PM-10)를이용하여 미세먼지 경로를파악하고 ᄌ
ᅡ 한다.
ᄆ
ᅩ든지역구 사이의 오염물질 혹은 질병의 이동경로를 분석하기 위한 대표적인 방법으로는주어진 변 ᄉ
ᅮ들이 만들어내는 확률적 시스템을찾는베이지안 네트워크 (Bayesian network) 혹은방향성 비순환 ᄀ
ᅳ래피컬 모델 (directed acyclic graphical model; DAG model)이 있다 (Lauritzen, 1996; Spirtes ᄃ
ᅳᆼ, 2000). 이를 통해 지역구 사이의 미세먼지 농도의 연관성을 설명하는 방향성 그래프 (directed graph)를추정하면, 서울시의 미세먼지 이동경로와 그 연관성을 쉽게 파악할 수 있다.
보
ᆫ연구에서는다변수 정규분포 (multivariate Gaussian) 데이터들의관계망을찾을수 있는정규분 ᄑ
ᅩ 방향성 비순환그래피컬 모델 (Gaussian DAG model)을이용하여, 미세먼지의 이동경로를파악하 ᄋ
ᅧᆻ다. 또한, 미세먼지의 평균 농도가 높을 때와 낮을 때로 구분하여 미세먼지의 농도에 따라 그 이동 겨
ᆼ로가 다름을확인하였고, 미세먼지의 이동경로가 부분적으로 계절풍의 방향과 일치함을확인하였다.
ᄋ
ᅮ리가 찾은미세먼지 이동경로망은최근서울시에서 고려중인 공기 정화탑 건설 사업에서 적절한 정화 ᄐ
ᅡᆸ 위치를선정하는데 도움을 줄것으로 기대한다.
보
ᆫ연구의 구성은다음과 같다. 2절에서는방향성 그래피컬 모델의 이론적 배경을설명하고, 3절에서 느
ᆫ 본연구의 방법론에 대해 설명한다. 4절에서는연구에 사용된데이터를소개하고, 미세먼지 이동경 ᄅ
ᅩ를 분석한다. 5절에서는연구의 결과를요약하고 결론을맺는다.
2. 이론적 배경 및 연구 방법 ᄋ
ᅵ 절에서는 논문의 전개에 필요한 그래프 이론의 몇 가지 개념과 용어를간단히 소개하고, 미세먼지 겨
ᆼ로 분석에 적합한 정규분포 그래피컬 모델과 그 추정 방법에관해 설명한다.
2.1. 방향성 비순환 그래피컬 모델의 기본 용어 ᄇ
ᅡᆼ향성 비순환그래피컬 모델 G는 (V, E)로 표현되며, 이때 V = {1, 2, .., p}는노드 (node)들의 집합 ᄋ
ᅵ고, E ⊂ V × V 는노드 간 선 (edge)들의 집합이다. 노드 j로부터 k로 가는선의 경우 j → k 혹은 (j, k) ∈ E로 표현한다. 노드 j의 부모 집합 (parents set)은 Pa(j) := {k ∈ V | (k, j) ∈ E},그 반대를 ᄌ
ᅡ식 집합 (children set) Ch(j) := {k ∈ V | (j, k) ∈ E}, 그리고 j → ... → k인 경우 k를 j의 자손이라 ᄀ
ᅩ 하고 그 집합을 De(j)라고 표현한다. 마지막으로 j → ℓ ← k의 구조는브이-구조 (v-structure)라고 ᄒ
ᅡᆫ다.
ᄀ
ᅳ래프에 대응하는 확률벡터는 X := (Xj)j∈V으로 표기하고, 그래프의 결합확률분포는 P(G) = P(X1, X2, ..., Xp)으로 한다. 또한 노드 j ∈ V 에 대하여, P(Xj | XS)는 확률벡터 XS가 주어질 ᄄ
ᅢ Xj의 조건부확률분포를의미한다. 그렇다면 그래프의 결합밀도함수는 인수분해정리 (factorization theorem)에 의하여 다음과 같다 (Lauritzen, 1996):
fG(X1, X2, ..., Xp) =
p
Y
j=1
fG(Xj| XPa(j)). (2.1)
ᄋ
ᅵ때 fG(Xj| XPa(j))는 XPa(j):= {Xk: k ∈ Pa(j)}가 주어질 때의 Xj의 조건부밀도함수이다.
2.2. 방향성 비순환 그래피컬 모델의 기본 개념 ᄇ
ᅡᆼ향성 비순환 그래피컬 모델은 베이지안 네트워크라고도 불리며, 최근 복잡한 도메인에서 변수들 ᄉ
ᅡ이의 확률적 의존성을 분석하기 위한 강력한 데이터 마이닝 방법으로 주목받고 있다. 따라서 방향