• 검색 결과가 없습니다.

토양측정망10)의 운영에 따라 2,000개소 지점의 중금속, 일반 항목의 토양산도 등에 대한 지목별 토양오염 농도가 조사되었다(표 3-3 참조). 토양측정망에 대한 조사주기는 격년제로 운영11)하기 때문에 매년 1,000개소의 결과로 보고되고 있으며, 본 연구에서는 2019년 및 2020년 조사결과를 취합하여 총 2,000개소 지점의 중금속 농도(Cu, As, Pb, Zn, Ni, Cd, 6개 물질)를 토대로 환경질지수를 구축하였다(그림 3-3 참조).

자료: 저자 작성.

<그림 3-3> 2019~2020년 토양측정망 시료채취 지점분포(2,000개소 지점)

10) 토양측정망의 운영 및 조사는 「토양환경보전법」 제5조·제6조, 「토양환경보전법 시행규칙」 제2조·제5조, 토양측정망 설치 및 운영계획(환경부고시 제2020-37호)에 따르며 조사결과는 토양측정망 및 토양오염실태 조사 결과로 국립환경과학원 토양지하수정보시스템(https://sgis.nier.go.kr)에서 공지되고 있다.

11) 토양측정망에 대한 조사주기는 오염부하에 의한 급격한 토양질의 변화가 일어나지 않는 토양특성을 고려하여 격년제로 운영되고 있다.

2) 토양오염 축적지수(Igeo: geoaccumulation index)

토양환경 분야의 환경질지수는 Müller(1979)가 제안한 토양오염 축적지수를 활용하였으 며, 이는 EPA 방법론인 주성분 분석과 비교되었다. 토양오염 축적지수는 토양오염물질의 배경농도 대비 지점별 관측된 오염농도의 비율을 측정하여 인간활동에 의한 영향 정도를 정량화한 값으로 정의된다. 토양오염 축적지수의 산정식은 <표 3-4>와 같고, 다중의 오염물 질을 종합하여 표준화한 결과로 표현되므로 <표 3-5>에 따라 지점별 오염 정도를 지시하는 데 유용하다(Müller, 1981). 축적지수를 산정하기 위해 총 2,000개소 지점의 6개 중금속 항목(Cu, As, Pb, Zn, Ni, Cd)에 대한 농도가 활용되었다. 중금속 오염농도에 대한 축적지 수 산정을 위해서는 배경농도에 대한 사전정보가 필요하며, 이는 토지피복도에 따른 측정망 자료를 분류하고 자연영향이 우세한 지점자료의 통계분포(상위 문턱 값)를 활용하였다.

<표 3-4> 토양환경 분야의 환경질지수 산정방식(토양축적지수)

환경질지수(EQI): 토양축적지수(goeaccumualtion index)

토양환경 분야

․ Cij(mg/kg) = 조사지점(i)에서 토양오염물질(j)의 농도(조사결과)

․ Bij(mg/kg) = 토양오염물질(j)의 전국 자연배경농도

․ 1.5 = 일부 인간영향, 배경수준의 지역적 차이 등을 보정하기 위한 상수 자료: Müller(1979), pp.778-783을 토대로 저자 작성.

<표 3-5> 토양오염 누적지수 범주에 따른 오염평가

축적지수 범주 오염평가

Igeo<0 Unpolluted

0<Igeo<1 Unpolluted to moderately polluted 1<Igeo<2 Moderately polluted 2<Igeo<3 Moderately to strongly polluted

3<Igeo<4 Strongly polluted

4<Igeo<5 Strongly polluted

5<Igeo Extremely polluted

자료: Müller(1981), pp.156-164를 토대로 저자 작성.

3) 토양 중금속 배경농도

우리나라 토양측정망은 측정 목적에 따라 지목을 배경농도 조사지점, 오염영향지점, 타 매체 연계지점으로 구분하여 측정 항목의 농도를 보고하고 있다.12) 이에 따라 국립환경과학 원(2004, 2005)은 배경농도 조사지점의 자연활동에 해당하는 조사결과를 토대로 중금속 항목에 대한 평균적인 자연 배경농도를 도출한 바 있다(표 3-6 참조). 이에 따르면 우리나라 토양 내 중금속의 자연 배경농도는 아연(Zn), 니켈(Ni), 납(Pb), 구리(Cu), 비소(As), 카드뮴 (Cd) 순으로 나타난다. 한편, 조사지점(전체 조사지점의 약 24%에 대한 자연 배경농도가 조사지점에 해당)이 지목 분류에 따라 정의되기 때문에 지질 및 토지피복 등 오염을 대표하 는 배경농도를 추정하는 데 한계가 있다. 또한 조사결과에 따른 중금속 농도분포에 대한 통계적 해석이 미흡하여 배경농도의 범위를 설정하기 위한 명확한 기준이 없다. 예를 들어 배경농도 조사지점의 평균농도의 신뢰성에 대한 통계적 검토가 필요하다.

본 연구에서는 2년간의 토양측정망 조사결과를 토지피복(오염원분포)에 따라 분류분석을 수행하고(기계학습 참조) 자연 및 인위적인 활동에 영향을 받는 농도분포를 구분하였다.

이를 토대로 통계적 배경농도를 추정하여 토양오염 축적지수로 환경질지수를 산정하였다.

<표 3-6> 국내 토양의 중금속 배경농도 문헌 값

토양오염 중금속 항목 평균 자연 배경농도(mg/kg)

카드뮴(Cd) 0.3

구리(Cu) 15.3

비소(As) 6.83

납(Pb) 18.4

아연(Zn) 54.3

니켈(Ni) 17.7

자료: 국립환경과학원(2004, 2005)을 토대로 저자 작성.

12) 배경농도 조사지점은 자연(토양 오염영향이 적은 지역)과 인간활동(오염영향이 적은 인간활동지역) 지점으 로, 오염영향 지점은 도로(도로 비산먼지 영향지역), 철도(철도 비산먼지 영향지역), 산업단지(산단 비산먼지 영향지역) 지점, 타 매체 연계지점은 하천주변 토양(하천수질토양 측에 따른 토양질 변화 지점), 지하수수질 (국가지하수측정망 인근지역) 조사지점으로 세부적으로 구분된다.

4) 기계학습

전술한 바와 같이 환경질지수의 공간정보(도면) 구축에는 환경질(오염농도)을 관측한 지 점 이외의 농도분포를 추정할 필요가 있다. 예를 들어 전년도 연구(한국환경연구원, 2021a) 에서는 대기질 오염농도 예측을 CMAQ 모델링으로 수행하고(예측 변인 공간정보 구축) 이를 대기오염물질 측정망 자료와 결합하여 환경질지수 도면을 구축한 바 있다. 따라서 예 측 변인 공간정보를 구축하고 이를 토대로 관측지점 이외의 농도를 추정하기 위한 다양한 방법론이 필요하다(대기환경 분야 측정망의 경우 기계학습 및 지구통계 기법이 적용됨).

금회 토양환경 분야 환경질지수의 공간정보는 기계학습을 통해 구현되었다. 기계학습 과 정은 토양측정망 자료(2,000개소) 중 배경농도를 대표하는 조사지점을 파악하기 위해 우선 사용되었으며 그 결과를 토대로 토양오염 축적지수의 산정과 공간정보 구축이 수행되었다 (그림 3-2 참조). 기계학습을 위한 예측 변인은 전국 토지피복도(세분류 30m 픽셀)13) 및 지질도(1:25만)14)를 활용하였다. 여기서 토지피복도 변인은 조사지점의 영향반경에 따른 버퍼(buffer)를 통해 서로 다른 거리(50, 100, 200, 500, 1000m)에 따른 면적으로 할당하 였다. 지질도의 경우 지질 항목에 따른 농도분포 순위에 따른 명목 변인(categorical variable)으로 전환하여 활용하였다. 본 사례연구에서 수행된 기계학습은 배경농도 추정을 위한 분류분석과 공간정보 구축을 위한 회귀분석을 위해 사용되었으며 각각의 분석을 위한 주요 목표는 다음과 같다.

ㅇ 분류분석: 토양측정망 중금속 농도자료를 토지피복도 예측 변인에 따라 배경농도 및 인간영향으로 분류하고, 이를 통해 배경농도의 통계분포를 획득하여 토양오염 축적지수 (환경질지수) 산출

ㅇ 회귀분석: 토양측정망별로 산정된 토양오염 축적지수(환경질지수)를 전국 규모의 공간 토양측정망 중금속 오염농도에 대한 기계학습의 훈련과 검증을 위해 토양측정망 자료를 훈련자료(training data: 70%) 및 시험자료(test data: 30%)로 나누어 구성하였다. 본

13) 토지피복도 세분류 공간정보는 환경부의 환경공간정보 서비스(https://egis.me.go.kr/api/land.do)에서 취득하였으며 22개 토지피복 항목에 대한 buffer 반경에 따른 면적을 산출하여 예측 변인으로 활용하였다.

14) 1:25만 광역지질 공간정보는 한국지질자원연구원의 지오빅데이터 오픈플랫폼 정보(https://data.kigam.re.

kr/)에서 취득하였으며 지질연대, 지질단위, 암상종류에 해당하는 명목을 예측 변인으로 활용하였다.

연구의 기계학습(분류분석 및 회귀분석)은 R Package caret을 통해 수행되었으며, 서 로 다른 알고리즘으로 Logistic Regression(LR), Naive Bayes(NB), Random Forest(RF), Artificial Neural Network(ANN)이 사용되었다. 훈련자료의 검증은 10-fold cross validation을 사용하였고, 모델에 대한 검증은 시험자료의 분류결과를 토대로 민감도, 정확도, 특수도 등의 파라미터를 통해 확인하였다(회귀분석의 경우 RMSE로 확인). 알고리즘에 대한 상세한 방법은 Kuhn et al.(2020)을 참고할 수 있으 며, 각각의 방법론에 대한 주요 특징은 <표 3-7>과 같다. 보고서 상에서 기계학습 과정 에서 예측 변수 선택, 파라미터 최적화, 민감도분석 과정에 대한 방법론은 생략하고 주 요 결과만 요약하기로 한다.

<표 3-7> 토양측정망 중금속 농도자료에 적용된 기계학습 알고리즘

축적지수 범주 LR

Logistic Regression(LR)

․ 로지스틱 회귀분석은 이진의 종속변수(0, 1)에 대한 로지스틱 함수를 피팅하는 방법으로 분류분석에 이용하며 주로 특정 이벤트(예, 오염)가 발생할 확률을 산정하는 데 활용함

Naive Bayes(NB)

․ Naive Bayes는 대표적인 분류(판별)분석 알고리즘으로, Bayes의 정리를 기 반으로 특정 클래스에 속할 사후 확률을 예측함. 이론적으로 확률분포에 기반 하므로 단순하지만 대부분의 분류학습에 널리 활용됨

Random Forest(RF)

․ Random Forest는 분류분석 및 회귀분석 등 모든 학습에 적용되며, 의사결정 트리에서 시작하여 여러 알고리즘을 결합한 앙상블 학습방법에 해당, 개별 분 류기의 정확도가 낮을 경우 다른 분류기와 결합하면 우수한 결과를 도출함

Artificial Neural Network(ANN)

․ 인공신경망(ANN)은 분류분석 및 회귀분석 등 모든 학습에 적용되며, 알고리즘 은 일련의 유닛(뉴런)이 배열된 레이어가 다층으로 연결되어 학습에 따른 연결 강도(가중치)를 업테이트하는 방식으로 작동, 고차원 데이터에서 비선형 관계를 모델링하거나 변수 간 상호관계에 대한 이해가 어려운 경우 유용함 자료: Kuhn et al.(2020), p.7을 토대로 저자 작성.

나. 토양환경 분야 환경질지수 산출결과

토양환경 분야 환경질지수는 토양측정망의 중금속 농도의 통계적 특성을 반영하여 사전 처리 과정을 거쳤으며, 기계학습(분류분석)을 통해 배경농도를 추정하여 토양오염 축적지수 를 산정하였다. 결과적으로 측정망 조사지점별 축적지수와 지질 및 토지피복 관계에 관한 회귀분석을 통해 전국 규모의 환경질지수 도면을 산출하였다.

1) 토양측정망 자료의 통계적 특성

<그림 3-4>는 토양측정망(2019년 1,000개소 지점)에서 획득한 중금속(비소 및 카드늄) 의 로그 농도분포를 보여주는 히스토그램이다. 정규성 검정(normality test)결과 로그 농도 단위에서 농도분포는 정규분포를 따르지 않는다. 이는 낮은 농도범위에서 불검출자료가 존 재하고, 고농도 범위에서 이상치(outliers)가 존재하기 때문이다. 예를 들어 비소의 경우 불검출자료(좌측 검열자료: left-censored samples)가 433개소 지점에서 관측되며 이상 치는 48개소 지점에서 관측된다.

자료: 저자 작성.

<그림 3-4> 토양측정망 중금속(비소 및 카드늄) 농도의 통계적 분포(히스토그램)

결과적으로 우리나라 토양측정망 중금속 농도분포의 통계적 성질은 다음과 같다.

Ÿ (비정규성) 농도분포가 정규분포(normal) 및 로그 정규분포(log-normal)에 부적합 Ÿ (비대칭성) 이상치(outliers)를 포함하여 우측(양) 방향으로 긴 꼬리를 지닌 왜도(skewn

ess)를 지닌 분포를 지님

Ÿ (좌측 검열) 검출한계(LOD: limit of detection) 또는 정량한계(QOD: limit of quatif ication) 미만의 불검출시료(ND: not-detected)에 해당하는 좌측 검열자료(left-censor ed vlalue)를 포함함

현재 토양측정망 운영결과는 토양측정망 및 토양오염 실태조사로 발간되고 있으나 위와 같은 통계적 특성으로 인해 자료의 분석이 수행되지 못하는 실정이다. 예를 들어 중심측도 및 분산(평균값 및 표준편차)은 이상치와 좌측 검열자료에 따라 상당한 영향을 받을 수 있으 며, 통계적 분포에 대한 가정 없이는 통계적 추세분석이 어렵다. 따라서 토양측정망 운영결 과를 토대로 배경농도(background level) 및 오염 추세(trend)를 확인하기 위해서는 보다 엄밀한(robust) 토양처리(통계량 계산)가 요구된다. 또한 현행 조사지점 목적에 따른 분류 체계(배경농도 및 인간영향 조사지점)에 대한 명확한 기준이 부재하기 때문에 조사지점 목 적에 맞는 정확한 운영 목적(예: 배경농도 및 인간영향)의 정의와 조사지점 선정방법이 필요 하다. 본 연구에서는 환경질지수 산정 사전에 격년(2019 및 2020년) 동안 구축된 토양 중금속 농도분포에 대한 통계처리를 수행하였으며 이는 정규성 검정(로그 변환), 이상치 탐색(필터), 좌측 검열자료 치환, 통계량 산정 순으로 수행되었다(그림 3-5 참조, Bolks, DeWire, and Harcum, 2014).

자료: Bolks, DeWire, and Harcum(2014), pp.1-28을 토대로 저자 작성.

<그림 3-5> 토양측정망 중금속 농도자료의 통계처리 절차

2) 토양 중금속의 배경농도 추정

국내 토양측정망의 배경농도 조사지점을 대상으로 중금속 항목에 대한 배경농도가 보고 된 바 있다(표 3-6 참조). 전술한 바와 같이 배경농도 설정과 관련된 명확한 기준이 없는 실정으로, 본 연구에서는 토지피복에 따른 농도분포를 분류하고 이를 토대로 중금속별 배경 농도를 재산정하여 축적지수를 산출하고자 한다. 배경농도 재설정을 위해 토지피복 기반의 예측 변인이 구축되었고 이를 토대로 기계학습(LR, NB, RF, ANN)이 수행되었다.

예측 변인은 구성은 토지피복도 세분류(30m 픽셀 라스터 도면)를 토대로 조사지점 반경 (50, 100, 200, 500, 1000m)에 따른 버퍼 분석을 수행하고 총 22항목 중 15항목(주거지 역, 공업지역, 상업지역, 위락시설지역, 교통지역, 공공시설지역, 시가화 건조지역, 농업지 역, 산림지역, 초지, 습지, 나지, 수역)에 대한 면적을 도출하였다. 또한 토양오염을 야기하 는 주요 오염원으로 판단되는 공업지역 및 교통지역에 대해서는 개별 픽셀로부터 최인접 거리를 추가로 산출하여 예측 변인으로 활용하였다. 따라서 배경농도 분류분석에 사용된 예측 변인은 공업지역 및 교통지역 거리를 포함하여 5개 거리 버퍼에 따른 토지피복 15항목 으로 총 77개로 구성되었다. 나아가 축적지수 예측(회귀분석)을 위해 1:25만 지질도의 카테 고리 정보(지질시대, 지질단위, 암석 3개 항목)를 추가로 구축하였다. <그림 3-6>은 토양측 정망 중금속 분류학습에 사용된 예측 변인 구축결과 중 공업지역 거리, 교통지역 거리, 1km 버퍼 산림면적, 1km 버퍼 도시면적에 해당한다.

분류학습을 위한 중금속 농도 입력자료는 전처리(이상치 제거 등)를 통해 총 2,000개소 중 1,913개소의 조사지점으로 구성되었다. 이 중 70%에 해당하는 1,340개소의 자료는 학 습(훈련)용으로 활용되었고, 나머지 30% 573개는 시험자료로서 모델 검증에 활용되었다.

중금속 농도는 초기의 조사목적 분류에 따라 배경농도 및 인간영향 조사지점에 해당하는 binary code(0, 1)로 변환하였다. 학습(훈련) 과정 전 버퍼 크기에 따른 예측 변인에 대한 변수 중요도(feature importance)를 Boruta 패키지를 활용하여 적정 버퍼 크기를 결정하 였다(Kursa and Rudnicki, 2010). 수 중요도 분석결과 1,000m의 버퍼에서 가장 높은 중요도 정보가 관찰됨을 확인할 수 있었으며 과적합 문제를 방지하기 위해 토지피복 관련 변수들 중 1,000m 버퍼 크기를 가지는 변수만을 선별하여 분류 모델에 예측 변인으로 사용 하였다.

: . <그림 3-6> 토양측정망 중금속 분류(기계학습)를 통한 예측 변인 구축 도면(공업지역 거리, 교통지역 거리, 1km 버퍼 산림 1km 버퍼 도시면적에 대한 30m 픽셀 라스터)

토양측정망의 학습 모델은 교통지역 및 공업지역에 대한 거리를 포함해서 1,000m 버퍼 토지피복 15개 항목을 예측 변인(총 17개 변인)으로 하여 서로 다른 분류학습 알고리즘을 적용하여 수행되었다. 분석결과는 토양측정망의 예측 변인으로 재분류된 배경농도와 인간 영향 조사지점의 중금속 농도분포를 제공한다. <표 3-8>은 훈련과정을 통해 얻은 분류모형 4가지를 시험자료에 적용하여 검증한 결과(정확도, 민감도, 특수도, 정밀도)에 해당한다.

검증단계에서 random forest(RF) 모형의 적합도가 가장 높은 것으로 평가되었으며, 정확 도(상위 95% 정확도 포함)뿐 아니라 데이터의 불균형 문제와 관련한 Kappa value 등에서 높은 추정결과를 보이는 것이 확인되었다. 결과적으로 RF 분류모형을 토대로 배경농도 및 인간영향 조사지점을 재분류하였다. 기계학습 분석결과(RF 분류모형), 재산정된 훈련자료 의 농도분포에 대해 배경농도(G1) 및 인간영향(G2) 조사지점을 비교하면 배경농도가 인간 영향 농도보다 유의하게 낮음을 확인할 수 있다(그림 3-7 참조).

<표 3-8> 기계학습 알고리즘별 시험자료에 대한 검증결과(정확도, 민감도, 특수도, 정밀도)

축적지수 범주 LR NB RF ANN

accuracy 0.80 0.72 0.80 0.74

accuracy upper CI

(95%) 0.83 0.75 0.84 0.77

p-value 0.00 0.52 0.00 0.17

Sensitivity 0.46 0.71 0.52 0.71

Specificity 0.94 0.72 0.92 0.75

Precision 0.74 0.50 0.71 0.53

자료: 저자 작성.

금회 적정 버퍼 크기(1,000m)에 따른 토지피복 항목별 면적자료를 구축하고 토양측정망 의 배경농도 및 오염영향 지역을 분류하는 RF 모형을 도출하였다. 제안된 분류모형은 배경 농도 측정망과 오염영향 지역을 유의하게 구분한다(정확도 80% 이상). 따라서 배경농도 조사지점은 인간의 영향이 최소화된 토양측정망 조사지점을 지시하며 이를 통해 전국 규모 의 중금속 배경농도의 도출이 가능하다. 본 연구에서 배경농도 조사지점의 평균 상위 95%

신뢰구간(95% UCL)을 배경농도 문턱 값으로 제안하며 그 결과는 <표 3-9>에 수록하였다.

자료: 저자 작성.

<그림 3-7> 기계학습으로 분류된 배경농도(G1) 및 인간영향(G2) 조사지점의 중금속 (아연, 구리, 납) 농도분포 비교결과

<표 3-9> 기계학습(분류모형)으로 도출된 배경농도 조사지점의 통계량 및 배경농도 문턱 값 (평균의 95% UCL)

(단위: mg/kg)

통계량 Cu As Pb Zn Ni Cd

Min. 0.85 0.35 2.7 15.9 0.09 0.002

P10 5.3 1.82 9.5 37.8 4.5 0.04

P25 8.8 3.03 12.5 50.7 7.2 0.09

P50 14.8 4.8 16.1 68.2 10.9 0.13

P75 24.5 7.14 23.6 90.5 18.2 0.18

P90 34.3 9.44 32.4 115 26.4 0.28

Max. 128.9 23.43 68 256.4 62.6 1.05

Mean 18.16 5.47 19.01 74.5 13.64 0.16

95% UCL 19.3 5.76 19.86 77.42 14.45 0.17

SD 13.59 3.42 10.04 34.56 9.55 0.13

CV 74.87 62.48 52.82 46.38 70.03 82.83

주: Min.: 최솟값, Max.: 최댓값, P10-90: 10-90 percentile, 95% UCL(Upper Confidence Limit): 평균의 상위 95% 신뢰구간, SD: 표준편차, CV: 변동계수, Mean: 평균

자료: 저자 작성.

3) 토양환경 분야 환경질지수 구축

국내 토양측정망의 배경농도 조사지점을 대상으로 중금속 항목에 대한 배경농도가 보고 된 바 있지만(표 3-6 참조), 배경농도 설정과 관련된 명확한 기준이 부재한 실정이다. 이에 본 연구는 토지피복에 따른 농도분포를 분류하고 이를 토대로 6개 중금속 항목(Cu, As, Pb, Zn, Ni, Cd)의 배경농도를 산정하여 지점 전체(1,913개소)에 대한 축적지수를 산출하 였다. <표 3-4>에 따른 축적지수 산정결과를 EPA 환경질지수 방법론인 주성분 분석과 비교 하였다. <그림 3-8>에서 주성분 1(전체 분산의 54.3%를 설명)에 따라 중금속의 농도가 증 가하고 있으며 이를 지시하는 주성분 점수와 축적지수는 함께 증가하고 있다. 따라서 축적 지수 및 주성분의 분석결과가 유사함을 볼 수 있다.

축적지수는 대부분 0 미만의 값을 갖고 있으며, 조사지점(배경농도 및 인간영향)별 축적지 수의 농도분포를 비교하면 인간영향 지점에서 다소 높은 경향이 존재하지만, 개별적인 중금 속의 농도분포와 달리 통계적으로 유의한 차이가 없다(그림 3-8 참조). 따라서 토양측정망으 로 관측된 우리나라 토양오염 분포는 미미한 인간영향을 받는 것으로 판단할 수 있다.

자료: 저자 작성.

<그림 3-8> 주성분 분석결과 및 토양오염 축적지수 비교결과와 배경농도(Group 1) 및 인간 영향(Group 2)의 토양오염 축적지수 비교결과

: . <그림 3-9> 기계학습(회귀분석)을 통해 구축된 전국 규모의 토양환경 분야의 환경질지수 공간도면 및 예측

본 연구에서는 토양측정망(총 2,000개소 중 1,913개소)에 대한 토양오염 축적지수를 기반 으로 토양환경 분야의 환경질지수를 제안하고자 한다. 토양오염 축적지수는 기존의 산정방법 론인 주성분 분석(주성분 점수) 결과와 매우 유사하며 토양의 인간영향 정도를 정량적으로 평가하는 데 유용할 것으로 판단된다. 최종적으로 토양오염 축적지수(환경질지수)의 전국 공 간정보를 구축하기 위해 Random Forest(RF)를 토대로 회귀분석이 수행되었다. 회귀분석은 분류분석에서 사용된 예측 변수(공업지역과의 거리, 교통지역과의 거리, 1000m 버퍼 토지피 복 15개 항목의 면적)와 지질도(1:25만 지질도 내 지질시대, 지질단위, 암상의 3개 항목 카테 고리), 나아가 분류분석과 마찬가지로 70%에 해당하는 1,340개소의 자료는 학습(훈련)용으 로 활용되었고, 나머지 30% 573개는 시험자료로서 모델 검증에 활용되었다.

<그림 3-9>는 기계학습을 통해 구현된 토양환경 분야 환경질지수의 공간도면에 해당한 다. 기계학습에서 도출된 RF 회귀모형은 훈련자료에 대해 매우 정확한 예측결과를 도출하 였지만(RMSE 0.72, R2 0.95), 시험자료(검증자료)에 대해서는 선형성은 보이지만 부정확 한 결과를 보여주었다(RMSE 0.53, R2 0.14). 이러한 결과는 분류분석과 달리 모델이 훈련 자료를 과적합(over-fitting)한 것을 의미하며 이는 구성된 예측 변인이 환경질지수(토양오 염 축적지수)를 예측하는 데 한계가 있음을 말해준다. 현재 많은 환경 분야에서 기계학습을 통한 농도예측이 수행되지만 대부분 국지적인 영역에서 결과를 도출하고 있다. 이는 공간적 상관성에 대한 설명이 가능할 때 기계학습의 효과가 발생하기 때문이다. 따라서 광역 규모 에서의 예측을 높이기 위해서는 공간적인 자기상관성(auto-correlation)을 고려한 내삽기 법(intepolation)을 함께 적용할 필요가 있다. 향후 토양환경 분야의 중금속 농도 및 축적지 수 예측을 위해 내삽법과 결합된 기계학습 모델을 구축하여 환경질지수 공간정보의 정확도 를 향상시키기 위해 노력하고 있다.

본 사례연구에서는 토양측정망의 통계처리 및 도면작성을 위한 일련의 절차를 제시하였 으며 현재 기술 수준에서 토양오염 축적지수를 활용한 환경질지수를 구축하였다. 해당 결과 는 정확도에 대한 정확한 기술과 함께 지역환경정보시스템에서 제공할 예정이다. 환경질지 수는 토지피복(도심지역)에 따라 토양오염의 축적지수가 다소 증가하는 공간적 패턴을 보여 주고 있지만, 오염 정도는 미미한 수준이다. 따라서 인간활동의 토양오염의 영향 추세를 확인하기 위한 추가적인 연구가 필요한 실정이다.

관련 문서