Deep learning model in water-environment field

(1)

1)

Received 14 August 2020, revised 12 October 2020, accepted 18 November 2020.

*

Corresponding author: Sang-Soo Baek (E-mail: [email protected])

∙ 표종철 (박사후연구원 / Jongcheol Pyo (Postdoctoral Researcher) 울산 울주군 언양읍 유니스트길 50 울산과학기술원, 44919

50, UNIST-gil, Eonyang-eup, Ulju-gun, Ulsan 44919, Republic of Korea

∙ 박상훈 (박사 과정 / Sanghun Park (Ph. D. Student) 울산 울주군 언양읍 유니스트길 50 울산과학기술원, 44919

50, UNIST-gil, Eonyang-eup, Ulju-gun, Ulsan 44919, Republic of Korea

∙ 조경화 (부교수 / Kyung-Hwa Cho (Associate Professor) 울산 울주군 언양읍 유니스트길 50 울산과학기술원, 44919

50, UNIST-gil, Eonyang-eup, Ulju-gun, Ulsan 44919, Republic of Korea

∙ 백상수 (박사후연구원 / Sang-Soo Baek (Postdoctoral Researcher) 울산 울주군 언양읍 유니스트길 50 울산과학기술원, 44919

50, UNIST-gil, Eonyang-eup, Ulju-gun, Ulsan 44919, Republic of Korea

This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

수 환경 분야에서의 딥러닝 모델 적용사례

Deep learning model in water-environment field

표종철･박상훈･조경화･백상수

^*

Jongcheol Pyo･Sanghun Park･Kyung-Hwa Cho･Sang-Soo Baek

^*

울산과학기술원 도시환경공학부

Urban and Environmental Engineering, Ulsan National Institute of Science and Technology

ABSTRACT

Deep learning models, which imitate the function of human brain, have drawn attention from many engineering fields (mechanical, agricultural, and computer engineering etc). The major advantages of deep learning in engineering fields can be summarized by objects detection, classification, and time-series prediction. As well, it has been applied into environmental science and engineering fields. Here, we compiled our previous attempts to apply deep learning models in water-environment field and presented the future opportunities.

Key words: Convolutional neural network, Deep Learning, Multi-dimensional image, Water-environment

주제어: 합성곱 신경망, 딥러닝, 다차원 이미지, 수환경

(2)

1. 서 론

최근, 딥러닝 기법의 빠른 발전 속도와 함께 공학 계에서의 응용분야도 점차 넓어지고 있다. 이러한 딥 러닝 기법은 인공지능 기법(Artificial Intelligence, AI) 중 가장 고도화된 기법으로 인간의 뇌에서 일어나는 현상을 컴퓨터상으로 모의하는 것으로 주된 내용으로 한다. 이를 통해 비정형 자료로부터 특징을 추출하고 이를 기반으로 판단까지 수행하는 것이다. Fig. 1은 Artificial Neural Network(ANN) 기법을 예시로 보인 것 이며, AI 기법의 가장 기본적인 원리와 구조를 담고 있다. 입력 층(Input layer)의 입력 자료인 X

1

과 X

2

이 가중치(w)와 곱해져서 은닉 층(Hidden layer)으로 전달 된다. 이는 다시 가중치와 곱해져서 마지막으로 출력 층(Output layer)으로 전달되게 된다. 은닉 층과 출력 층에는 정보 처리 단위인 뉴런들로 구성이 되며, 뉴런

에서 가중치로 처리된 입력 자료 신호는 시그모이드 와 같은 활성화 함수(Activation function)를 통해 비선 형 신호로 다음 은닉 층에 전달된다 .

최근 공학 계에서 활용되고 있는 기법은 크게 두 가지로 나눌 수 있으며, 합성곱 신경망(Convolutional Neural Network, CNN)과 순환 신경망(Recurrent Neural Network, RNN)이 이에 해당된다. 합성곱 신경망의 특 징은 다량의 convolutional filter의 가중치를 활용하여 이미지자료에서 주요한 부분의 특징들을 더욱 자세하 게 추출하고 이를 기반으로 객체를 판별하는데 활용 되고 있다 (Krizhevsky et al., 2012). 예를 들면, 남조류 이미지를 합성곱 신경망을 활용하여 자동으로 판별하 는 기술이 있다. 반면, 순환 신경망은 연속적 자료들 을 기반으로 하여 학습하고자 할 경우에 활용된다 (Mikolov et al., 2011). 하천에서 발생하는 시계열 자료 를 기반으로 예측하는 연구에 활용되고 있다. 환경 분

Fig. 1. Schematic diagram of artificial neural network and convolutional neural network.

(3)

야에서 취득되는 데이터의 양이 복잡해지고 빅데이터 화가 됨에 따라 이러한 데이터의 특징을 효율적으로 처리하고 추출할 수 있는 딥러닝 모델을 개발하여 수 환경 분야에 적극적인 응용이 필요하다. 따라서, 본 논문에서는 환경분야에 딥러닝을 활용하여 시도한 연 구 중 주로 합성곱 신경망을 기반으로 한 연구들을 소개할 예정이다.

2. 적용 사례

2.1 딥러닝 기법을 이용한 유해 남조류 자동판별과 개 체 수 산정

유해 조류는 하천 수질에 큰 영향을 미치며, 특히 남 조류는 인간과 수생태계에 영향을 주는 마이크로시스 틴을 배출한다. 마이크로시스틴은 어류와 수생 동물에 대하여 간독성을 일으켜, 수생태계 건강에 위협을 준다.

그렇기때문에, 유해조류 개체군의 지속적인 모니터링, 예측 및 관리가 필수적이다. 특히 정확한 조류 발생의 규모를 파악하기 위해서는 현미경을 통한 조류 종 분류

와 세포 수 산정이 중요하다 (Cheung et al., 2013). 현재 의 조류 분류와 세포 수 산정 방식은 고도의 전문지식이 필요할 뿐만 아니라, 작업자가 현미경을 통하여 모든 세포의 분류를 직접 진행하여야 한다 . 즉, 조류 분석은 많은 시간을 필요로 함과 동시에 작업자의 주관적인 판 단이 개입되는 문제점이 있다 (Alverson et al., 2003). 최 근 , 이러한 문제점 개선을 위해 딥러닝 기술을 활용하는 방안이 화두가 되고 있다. 딥러닝은 고화질 이미지와 빅데이터에 사용할 수 있는 기술 중 하나이며, 특히 이 미지의 특징 추출과 분석에 용이함을 보여주고 있다.

이러한 장점 때문에 , 이 기술은 미생물 동정의 대안으로 등장하여, 빠르고 정확하게 종 분류 및 세포 수 산정이 가능하다고 한다 (Ciresan et al., 2012). 이에, 해당 연구 에서는 딥러닝 기법의 한 종류인 Fast Region Convolutional Neurual Network (R-CNN)와 합성곱 신경 망을 이용하여 5종의 남조류를 분류하고 세포 수 산정 을 실시하였다 (Baek et al., 2020).

앞서 언급한 Fast R-CNN은 하나의 이미지에서 2개 이상의 물체 분별이 가능하며, 단순히 물체의 분별뿐 만 아니라, 분별된 물체의 위치 또한 파악 가능하다

Fig. 2. Algal classification of the Fast R-CNN (Modified from Baek et al., 2020).

(4)

(Girshick et al., 2015). 이 두 모델을 이용하면, 조류 종 분별 뿐 만 아니라 세포 수 산정도 가능하다. 수샘플 은 낙동강 함안보와 금강 백제보에서 채취하였으며, 채취한 샘플은 광학현미경을 이용하여 이미지를 산출 하였다. 산출된 이미지는 Fast R-CNN 모델에 남조류 종을 분류하는 학습에 사용되었다. Fast R-CNN 모델 을 통해 산출된 결과는 다시 한번 합성곱 신경망을 이용하여 세포 수를 산정하였다. 종 분류에 적용된 남 조류 종은 총 5종이며, 적용된 종은 Microcystis aeruginosa, Microcystis wesenbergii, Dolichospermum, Oscillatoria, 그리고 Aphanizomenon이다.

Fig. 2은 학습된 Fast R-CNN 모델을 이용하여 산출 한 남조류 판별 결과이다. 학습된 모델은 조류 종 판 별 뿐 만 아니라 판별된 종의 위치까지 잘 파악함을 보여준다. 파란색 박스 안 숫자는 종 분류 결과의 신 뢰도를 의미하며, 숫자가 1에 가까울수록 높은 신뢰도 를 가짐을 의미한다. Microcystis aeruginosa, Microcystis wesenbergii, Dolichospermum, Oscillatoria, 그리고 Aphanizomenon의 종 분류에 대하여, 각각 0.929, 0.973, 0.829, 0.890의 평균 정밀도 값을 산출하였으며, 이는 모델이 종이 혼재되어있어도, 모델이 잘 분류를 할 수 있음을 의미한다. Fig. 3는 Microcystis 종의 세포 수

산정의 결과이다. Microcystis 종의 세포 수 산정을 위 한 학습 데이터 셋에서 결정 계수(R

²

)의 값은 0.775로 나타났고, root mean square error (RMSE)의 값은 26 (cells)로 나타났다. 검증 데이터 셋에서 R

²

값은 0.854 로 나타났고, RMSE는 23 (cells)로 나타났다. 세포 수 산정 시 세포가 중첩되고 흐릿한 영역이 존재하기 때 문에, 세포 수가 50 이하와 250 이상의 세포를 가진 이미지에 대해 약간의 과소 혹은 과대하게 산정되었 다. 이 연구에서는 딥러닝이 남조류 분류 및 세포 수 산정에 적용 가능성을 보여주었고, 모델 결과 또한 사 람과 비슷할 정도의 성능을 보여주었다 . 향후, 남조류 외에 녹조류, 규조류에도 적용하여, 하천 내 녹조관리 및 모니터링에 기여할 것으로 보인다.

2.2 딥러닝 기법을 이용한 초분광 영상처리를 통한 조류 농도 산정

근래에 지구 온난화 현상과 오염 물질의 수계 유출 로 인해 담수계의 유해 남조류 대발생 현상이 빈번해 지고 있으며, 이로 인해 수자원의 수질 및 수생태계 건강성 악화가 야기되고 있다 (Paerl and Huisman, 2009). 유해 남조류 발생으로부터 수자원을 효율적으

Fig. 3. Microcystis cell count performance of CNN model using algal classification of Fast R-CNN (Modified from Baek et

al., 2020).

(5)

로 관리하기 위해 원격탐사 기법이 도입되어 조류의 공간적인 분포와 생체량을 파악하고 있다 (Simis et al., 2005). 특히, 높은 공간 해상도와 분광 해상도를 가지는 초분광 센서 활용은 상대적으로 수체의 크기 가 작은 우리나라 담수 수계에 분포하는 남조류의 세 밀한 검출에 적합하다. 하지만, 시 공간적으로 끊임없 이 변하는 수체의 분광특성을 단일 또는 다수의 파장 대만을 이용하여 수체의 유해 조류를 산정하여 일반 화하기에는 불확실성이 있다 (Le et al., 2009). 따라서, Pyo et al. (2019)는 공간적 그리고 분광적으로 방대한 이미지 데이터에서 조류의 분광 데이터를 효율적으로 처리하여 산정할 수 있는 딥러닝 기법을 적용하고자 하였다. 해당 연구에선 초분광 이미지를 입력 자료로 활용하여 합성곱 신경망 회귀 모델을 구축하여 조류 생체량 지시색소인 클로로필a (Chorophyll-a)와 남조류 생체량 색소인 피코시아닌(Phycocyanin)을 산정하고 성능을 검증하고자 하였다.

연구 대상 지역은 대한민국 4대강 중 하나인 금강의 중류에 위치한 백제보 이다. 2016년과 2017년에 걸쳐 총 9번의 현장 샘플링과 조류 추출실험 그리고 항공 초 분광 이미지 촬영이 진행되었다. Fig. 4은 해당 연구에 서 사용된 입력 자료와 합성곱 신경망 모델 구조이다.

입력 자료는 초분광 이미지를 활용하여 구축되었다.

MODTRAN 6 모델의 시뮬레이션을 통해 생성된 5가지 대기 인자들 (i.e. total flux, diffusion transmittance, dicrect transmittance, spherical albedo, and path radiance)과 수체

의 광량 정보를 담고 있는 초분광 이미지의 Digital Number (DN)값을 채널로 쌓는다. 이후 수체의 조류 색 소 관측 지점을 중심으로 이미지를 일정한 크기로 segment하여 입력 자료를 구축한다. 총 입력 자료 중에 서 70%는 모델의 학습에 사용하였고 30%는 모델 검증 데이터로 사용하였다 . 채택된 모델 구조는 각각 두 개의 convolutional layer와 batch normalization layer를 적용하 였고, 마지막에 한 개의 max-pooling layer를 적용하여 초분광 이미지 입력 자료의 공간적 그리고 분광적 특징 추출을 진행하였다. 그리고 추출된 이미지 특징을 클로 로필a와 피코시아닌 색소별로 두 개의 fully connected layer를 적용하여 한 모델에서 동시에 두 가지 색소 농도 를 산정하였다 . 합성곱 신경망 모델 학습은 관측 색소와 산정된 색소와의 차이를 최소화시키는 방향으로 진행 하였고, 손실 함수는 평균 제곱 오차 (mean square error) 를 적용하였다.

해당 연구에서

합성곱 신경망 모델은 유의미한 클

로로필a와 피코시아닌 훈련과 검증 성능을 보였다. 클 로로필a와 피코시아닌 훈련 결과는 각각 결정계수 0.75와 0.90으로 확인되었고, 검증 성능 또한 0.73과 0.86을 보였다. 합성곱 신경망 모델의 훈련 결과는 원 격탐사 분야에서 널리 사용되는 분광 알고리즘 결과 들 (결정계수: 0.70-083)과 비교해서 비슷하거나 향상 된 정확도를 보였으며, 알고리즘의 검증 결과 (결정계 수: 0.29-0.38)에 비교하여 더욱 정확한 성능을 보였다.

이는 합성곱 신경망 구조에서 클로로필a와 피코시아

Fig. 4. CNN structure; input layer by atmospheric correction parameters and digital number, two convolutional layers, and

two fully connected layers for phytoplankton pigment estimation using CNN model (Modified from Pyo et al., 2019).

(6)

닌의 특성을 복잡한 수체의 공간 및 분광적 특성에서 효율적으로 추출하였기 때문으로 사료된다. 또한, 분 광 알고리즘의 경우 클로로필a와 피코시아닌 산정에 사용되는 분광 파장대가 각각 다르기에 알고리즘을 색소별로 구성해야 하는 반면 합성곱 신경망 모델의 경우 두 색소를 동시에 산정하기 때문에 모델의 효율 성 측면에서도 개선될 수 있음을 시사하였다. 그리고 훈련된 합성곱 신경망 모델을 초분광 이미지 입력 자 료의 관측 지점 이외의 픽셀에 적용하여 테스트를 진 행하였고 클로로필a와 피코시아닌 농도 지도를 생성 하였다 (Fig. 5). RGB 이미지와 비교하였을 때 합성곱

신경망 모델에서 생성된 조류의 공간분포가 실제 조 류의 공간분포를 정확하게 모사하고 있음을 확인하였 다. 또한, 지도 내에 산정된 색소의 농도 구배 또한 관 측 농도와 비교하였을 때 유의미한 범위를 나타내는 것을 확인하였다. 결론적으로, 합성곱 신경망 모델이 이미지 분류와 객체 탐지뿐만 아니라 환경 이미지 데 이터와 함께 활용하였을 때 유해조류를 유의미하게 산정할 수 있고 신뢰성 있는 조류 농도 지도도 함께 제공할 수 있는 것으로 판단하였다 . 이는 현재 적용되 고 있는 분광 알고리즘을 대체할 수 있는 기술로 활 용이 될 수 있을 것 사료 되고 있다.

Fig. 5. Chlorophyll-a and phyocyanin concentration map compared to actural spatial distribution of algae on August 12

^th

and

24

^th

in 2016 from trained CNN model (Modified from Pyo et al., 2019).

(7)

2.3 딥러닝 기법을 이용한 막오염 및 수투과도 예측

막 여과 공정에서 발생하는 막 오염은 여과되지 않 은 오염 물질이 여과막 표면에 부착 및 생장하여 오 염층을 형성하는 현상이다. 막 오염이 형성되면 막을 투과하는 여과수의 투과도가 감소하게 되며, 이는 단 위 시간당 생산량을 줄임과 동시에 운전압력을 상승 시켜 공정의 에너지 효율을 떨어뜨리게 만든다. 따라 서 막 오염을 사전에 예측하고 대응하는 것을 통해 공정 효율을 제고시키는 것이 공정 최적화를 위한 과 제이며, 이를 위한 많은 예측 기술이 개발되고 있다.

막 오염 예측을 위한 기술은 막 여과 공정 전·후단에 서 측정할 수 있는 공정 및 수질 정보 (수투과도, 압 력, 온도, 이온 농도 등)를 수학적/수치모델에 활용하 여 개발되었다 (Hoek et al., 2002; Wu et al., 2011). 하 지만 막 오염 현상은 수많은 인자로부터 기인한 복합 적인 현상이기 때문에 막 오염의 간접적인 지표인 수 질 정보와 단순한 구조의 예측 모델을 활용하여 현상 을 모의하기에 한계점이 존재한다. 이러한 한계점을

극복하기 위해 Park et al. (2019)의 연구에서는 막 오 염을 실시간으로 관측할 수 있는 광 간섭 단층촬영기 (Optical coherence tomography, OCT)를 활용하여 여과 막 공정 동안의 실시간 막 오염 이미지 자료를 확보 하였고 CNN에 기반한 딥러닝 모델을 구축하여 시간 에 따른 막 오염의 진행 과정과 수투과도 변화를 모 의하였다.

역삼투막(Reverse osmosis, RE-SHF, Toray, Japan)과 나노여과막(NE90, Toray, Japan)의 막 오염 예측을 위 해 해당 모델은 10 mgC/L의 humic acid (Sigma-Aldrich, USA)와 10 mM의 calcium chloride(Sigma-Aldrich, USA) 수용액을 20 bar에서 24시간 운전하여 확보한 데이터 를 바탕으로 구축하였으며 합성곱 신경망의 세부 구조 는 Fig. 6과 같다. 모델 입력 자료는 초기 막 오염 정보 를 제공하는 OCT 이미지와 이에 상응하는 공정 정보 (이미지 획득 지점, 여과막 정보, 예측 시간, 초기 수투 과도)로 구분된다. 막 오염 이미지 자료(Input 1)는 합 성곱 신경망(Convolutional filter + Batch normalization +

Fig. 6. Illustration of CNN model structure and input; (a) feature extraction, (b) fouling thickness, (c) input preparation, and

(d) output preparation (Modified from Park et al., 2019).

(8)

CReLu layer)를 거쳐 주요한 특징을 추출하여 구축된 특징맵(Feature map)으로 변환된다. 특징맵은 이미지 자료가 가지는 많은 정보 중 학습에 사용될 주요 특징 을 추출하여 모델의 학습 속도를 효과적으로 줄임과 동시에 불필요한 정보를 제거함으로써 예측 정확성을 향상시키는 역할을 한다. 이후 막 오염 이미지로부터 추출된 특징맵과 공정 정보는 결합되어 막 오염 예측 과 수투과도 예측을 위한 각각의 신경망으로 전달된 다. 두 종류의 학습 자료를 학습 네트워크에 함께 제공 함으로써 합성곱 신경망을 기반으로 구축된 학습 네트 워크에서는 막 오염 층의 변화를 예측하기 위해 막 오 염 정보뿐만 아니라 수투과도 정보를 함께 고려하였으 며, 또한 수투과도 변화 예측을 위해 막 오염 층에 대 한 정보를 상호보완적으로 고려하였다. 이를 통해 기

존 막 오염 모델에서 고려할 수 없었던 실제 막 오염 현상을 예측 모델에 반영하여 수투과도 변화를 예측하 였다.

Fig. 7는 공정에 따른 막 오염 두께와 수투과도 변 화를 합성곱 신경망 모델과 기존 수학적 막 오염 모 델의 예측 정확성을 비교한 결과이다. 비교를 위해 활 용한 수학적 모델은 Faridirad model (Faridirad et al., 2014), pore & cake filtration model (Ho and Zydney, 2000)로 막 오염 두께를 입력변수로 활용하는 대표적 인 예측 모델이다. 모델 비교를 위해 각각 7개, 4개의 최적화된 모델 파라미터들을 수학적 모델에 활용했음 에도 불구하고, 합성곱 신경망 모델이 타 수학적 모델 과 비교해 가장 높은 예측 정확성(R

²

=0.99)을 나타내 고 있음을 확인할 수 있다. 특히 막 오염 두께 예측에

Fig. 7. CNN performance for estimating permeate flux and fouling thickness (Modified from Park et al., 2019).

(9)

서 큰 우수성을 입증하였으며, 이는 수학적 모델에서 막 오염 층에 대한 두께 정보를 예측 자료로 활용할 수 있었지만, 막 오염 층의 두께가 수투과도에 미치는 영향이나 수투과도의 변화가 막 오염 층의 성장에 미 치는 영향을 모사하는 것에 한계가 있음을 보여준다.

또한, 여과막에 종류에 따라서 수학적 모델의 예측 정 확성은 차이를 보였으나, 합성곱 신경망 모델은 이미 지를 기반으로 막 오염 현상 자체적으로 학습하여 향 후 변화에 대한 예측을 진행하였기에 특정한 수학적 인 관계식에 얽매이지 않고 역삼투 공정, 나노 여과막 공정 모두에서 높은 정확성을 보여주었다. 또한, 이미 지 기반의 합성곱 신경망 모델은 막 오염이 형성되는

과정을 예측하여 3차원 이미지를 통해 나타냄으로써

기존 모델과 큰 차별성을 보여주었다 (Fig. 8). 이는

이미지 자료를 기반으로 향후 일어날 막 오염 현상을

예측함으로써 막 표면에 형성되는 막 오염층의 성장

과정을 시각적으로 모사할 수 있음을 의미한다. 막 오

염 형상에서 나타나는 차이점은 해당 모델의 목적이

막 오염층이 평균 두께를 예측하는 것이기 때문으로

사료되지만, 관측 자료에서 막 오염이 심각하게 형성

된 지역을 대상으로 예측 자료에서 또한 막 오염 층

이 두껍게 형성되는 경향이 있는 것을 확인하였다. 이

는 향후 이미지 자료와 합성곱 신경망 기법을 활용한

연구가 수행될 경우, 정밀한 막 오염예측을 통해 제

Fig. 8. Comparing observed and simulated 3D fouling images from the trained CNN model (Modified from Park et al., 2019).

(10)

막, 스페이서, 모듈화 연구 등 다양한 막 오염 연구 분 야에 기여할 것으로 기대한다.

2.4 딥러닝 기법을 이용한 토양 내 중금속 농도 산정

토양 내 중금속 오염은 광산 활동, 산업 폐기물, 그 리고 농업 비료 등에 의해 유발된다. 중금속으로 오염 된 토양으로 인해 토양의 물리, 생물, 화학적 불균형 이 발생하고 이는 토양 내에 서식하는 유기체의 성장 과 번식에 악영향을 끼친다 (Arroyo et al., 2014; Liu et al., 2013). 이는 먹이 사슬에 따라 생물농축으로 이어 지고 결국 인간에게 부정적인 영향을 미치게 된다. 토 양 내 중금속 농도를 파악하기 위해서 사용되는 크로 마토그래피와 원자분광학 방법은 정확한 결과를 제공 하지만 많은 분석비용이 요구되고 분석 시간도 많이 소요되는 단점이 있다 (Wei et al., 2019). 이러한 한계 를 보완하기 위해 최근 토양의 가시광에서부터 근적 외선까지의 반사도 스펙트럼을 측정하여 간편하게 중 금속 농도를 산정하는 연구들이 소개되고 있다 (Pandit et al., 2010; Shi et al., 2014). 해당 연구들은 특 정 중금속과 상관관계가 높은 파장대를 선별하여 회 귀식 또는 경험식을 활용하여 토양내 중금속 농도를 산정하고 있다. 하지만, 토양 내 토질, 입자의 크기 및 모양, 수분함량, 그리고 전기전도도 등의 물리 화학적 특성에 따라 중금속 종류와 함량이 달라지기 때문에 특정 파장을 이용하여 중금속 농도를 산정한 연구는 해당 지역에만 지엽적으로 활용될 가능성이 많다 (Kemper and Sommer, 2002). 따라서, 토양의 반사도 스펙트럼 데이터 특징을 효율적으로 추출하고 활용하

기 위해, Pyo et al. (2020)은 합성곱 신경망 모델을 적 용하여 토양 내 특정 중금속 함량을 산정하는 방법을 제시하였다.

Fig. 9은 해당 연구에서 사용한 입력자료와 합성곱 신경망 모델 구조를 나타낸다. 입력 자료는 광미 지역 에서 채취한 토양을 field spectroradiometer로 일정한 간 격을 두고 측정하여 4x5 크기의 픽셀로 이미지화하였 다. 측정된 토양 반사도 데이터는 노이즈 파장대를 제 거하고 second-order differential transformation을 통해 파장대별 피크를 강조하고자 하였다. 구축된 입력 자 료에서 70%는 모델 훈련 자료로 나머지 30%는 검증 자료로 활용하였다. 해당 연구에선 합성곱 신경망 모 델은 두 가지 방법으로 활용을 하였다 . 입력 자료의 전 체 파장대를 입력 자료로 활용하는 방법과 convolutional autoencoder를 사용하여 입력 자료의 차원을 축소하고 특징들이 함축된 데이터를 입력 자료로 활용하는 방법 으로 실험을 진행하였다. 합성곱 신경망 모델은 2개의 convolutional layer, batch normalization, 그리고 max-pooling layer를 사용하여 입력 자료의 특징을 추 출하였고, 두 개의 fully connected layer를 사용하여 동 시에 세 가지 중금속 구리(Cu), 납 (Pb), 비소 (As)를 산 정하였다. Convolutional autoencoder의 원리는 convolutional layerr와 같지만 구조는 encoder와 decoder 부분으로 구성되어있다. Encoder에서는 입력값의 차원 을 축소하여 압축된 특성을 갖도록 한다. 그리고 decoder에서는 압축된 특성을 다시 복원시켜 원 데이 터와 같아지도록 학습이 된다. 해당 연구에서는 encoder 부분에 압축된 이미지 특징을 앞서 설명한 합

Fig. 9. Soil reflectance spectra input measurement and CNN model structures with convolutional autoencoder (Modified

from Pyo et al., 2020).

(11)

성곱 신경망 구조의 입력값으로 사용하여 세 가지 중 금속 산정 학습을 진행하였다. 합성곱 신경망 모델 학 습은 관측된 중금속과 산정된 중금속과의 차이를 최소 화시키는 방향으로 진행하였고, 손실 함수는 평균 제 곱 오차(mean square error)를 적용하였다.

Convolutional autoencoder와 합성곱 신경망 모델의 학습 결과는 구리가 0.95의 결정계수를 보였고, 납은 0.96, 비소가 0.86으로 확인되었다. 그리고 해당 모델의 검증 결과는 구리, 납, 비소 순으로 결정계수가 0.74, 0.82, 0.82로 확인되었다 (Fig. 10). 이와 비교하여 차원 축소 없이 전체 토양 반사도 데이터를 입력 자료로 활 용한 CNN 모델은 구리, 납, 비소 순으로 0.87, 0.93, 0.76의 훈련 결정계수 결과를 나타내었고, 0.76, 0.88, 0.79의 검증 결과를 보였다. 이러한 결과를 통해, 전체 반사도 스펙트럼에는 중금속과 관계가 없는 파장대들도 함께 모델에 사용되기 때문에 convolutional autoencoder 로 입력값을 효율적으로 줄이고 압축하는 것이 모델의 성능 향상에 기여하였을 것으로 사료하였다. 또한, 기 존의 머신러닝 기법인 인공신경망 모델과 랜덤포레스 트(RF)의 결과와 비교하였을 때 합성곱 신경망 모델의 토양 내 구리, 납, 비소 산정 성능이 더욱 정확한 것으 로 확인하였다. 일반적인 머신러닝에 비해 딥러닝 모 델이 복잡한 데이터의 특징 추출과 학습에 유리하고

다중 변수 산정에도 좋은 성능을 보이기 때문으로 사 료된다. 따라서, 해당 연구는 convolutional autoencoder 과 합성곱 신경망 모델의 토양 중금속 산정 성능을 검 증하였고, 이는 향후 원격탐사 기법과 딥러닝 기술을 활용한 토양 내 중금속 탐지 및 정량화 연구에 기여할 것으로 기대한다.

3. 결 론

앞선 언급된 예제들은 딥 러닝기법이 수 환경 분야 에서 적용될 수 있는 가능성 정도를 보여준 사례라고 할 수 있다 . 이미지와 같은 다차원 데이터의 활용이 딥러닝 모델의 적용성을 가능성을 열어 주었다. 이를 통해, 입력자료의 차원과 데이터의 양을 통한 특징 추 출이 딥러닝 모델의 성능을 좌우할 수 있음을 확인하 였다. 더 나아가, 딥러닝 모델을 응용하여 수 환경 시 스템의 시간적 혹은 공간적 변화를 예측할 뿐 아니라, 이를 제어할 수 있는 최적 조건 산출하는 등의 향후 연구에 대한 필요성을 인지하였다 . 그러나 아직 수환 경분야에 축적된 데이터양이 한정적이기 때문에 한국 전체 수계에 보편적으로 적용하여 활용할 수 있는 딥 러닝 모델 개발에 대한 한계가 있는 실정이다. 하지만, 앞선 사례를 통해 딥러닝의 수환경분야의 활용 잠재 Fig. 10. Training and validation results of Cu, Pb, and As concentrations using convolutional autoencoder and CNN model

(Modified from Pyo et al., 2020).

(12)

성을 확인하였기 때문에 데이터를 충분히 확보한다면 범용 모델 개발과 활용이 가능 할 것으로 기대한다.

사 사

이 논문은 정부(미래창조과학부)의 재원으로 한국 연구재단의 지원을 받아 수행된 해양극지 기초 원천 기술 개발 사업임 (NRF-2016M1A5A1027457)

References

Alverson, A.J., Manoylov, K.M., and Stevenson, R.J. (2003).

Laboratory sources of error for algal community attributes during sample preparation and counting, J.

Appl. Phycol., 15(5), 357-369.

Arroyo, M.D.M.D., Hornedo, R.M.D.I., Peralta, F.A., Almestre, C.R., and Sanchez, J.V.M. (2014). Heavy metals concentration in soil, plant, earthworm and leachate from poultry manure applied to agricultural land, Rev. Int. de Contam. Ambient., 30(1), 43-50.

Baek, S.S., Pyo, J., Pachepsky, Y., Park, Y., Ligaray, M., Ahn, C.Y., Kim, Y.H., Chun, J.A., and Cho, K.H. (2020).

Identification and enumeration of cyanobacteria species using a deep neural network, Ecol. Indic., 115, 106395.

Cheung, M.Y., Liang, S., and Lee, J. (2013). Toxin-producing cyanobacteria in freshwater: a review of the problems, impact on drinking water safety, and efforts for protecting public health, Res. J. Microbiol., 51(1), 1-10.

Cireşan, D.C., Meier, U., and Schmidhuber, J. (2012).

“Transfer learning for Latin and Chinese characters with deep neural networks”, The 2012 international joint conference on neural networks (IJCNN)(pp. 1-6), IEEE., Brisbane, Australia.

Faridirad, F., Zourmand, Z., Kasiri, N., Moghaddam, M.K., and Mohammadi, T. (2014). Modeling of suspension fouling in nanofiltration, Desalination, 346, 80-90.

Girshick, R. (2015). Fast R-CNN object detection with Caffe, Microsoft Research.

Hoek, E.M., Kim, A.S., and Elimelech, M. (2002). Influence of crossflow membrane filter geometry and shear rate on colloidal fouling in reverse osmosis and nanofiltration separations, Environ. Eng. Sci., 19(6), 357-372.

Ho, C.C., and Zydney, A.L. (2000). A combined pore blockage

and cake filtration model for protein fouling during microfiltration, J. Colloid Interface Sci., 232(2), 389-399.

Kemper, T. and Sommer, S. (2002). Estimate of heavy metal contamination in soils after a mining accident using reflectance spectroscopy, Environ. Sci. Technol., 36(12), 2742-2747.

Krizhevsky, A., Sutskever, I., and Hinton, G.E. (2012).

“Imagenet classification with deep convolutional neural networks”, Advances in neural information processing systems(pp. 1097-1105), NIPS, Nevada, Unisted States.

Le, C.F., Li, Y.M., Zha, Y., Sun, D., and Yin, B. (2009).

Validation of a quasi-analytical algorithm for highly turbid eutrophic water of Meiliang Bay in Taihu Lake, China, IEEE Trans Geosci Remote Sens, 47(8), 2492-2500.

Liu, G., Tao, L., Liu, X., Hou, J., Wang, A., and Li, R.

(2013). Heavy metal speciation and pollution of agricultural soils along Jishui River in non-ferrous metal mine area in Jiangxi Province, China, J. Geochem.

Explor, 132, 156-163.

Mikolov, T., Kombrink, S., Burget, L., Černocký, J., and Khudanpur, S. (2011). Extensions of recurrent neural network language model. In 2011 IEEE international conference on acoustics, speech and signal processing (ICASSP) (pp. 5528-5531). IEEE.

Paerl, H.W., and Huisman, J. (2009). Climate change: a catalyst for global expansion of harmful cyanobacterial blooms, Environ. Microbiol. Rep., 1(1), 27-37.

Pandit, C.M., Filippelli, G.M., and Li, L. (2010). Estimation of heavy-metal contamination in soil using reflectance spectroscopy and partial least-squares regression, Int.

J. Remote Sens., 31(15), 4111-4123.

Park, S., Baek, S.S., Pyo, J., Pachepsky, Y., Park, J., and Cho, K.H. (2019). Deep neural networks for modeling fouling growth and flux decline during NF/RO membrane filtration, J. Membr. Sci., 587, 117164.

Pyo, J., Duan, H., Baek, S., Kim, M.S., Jeon, T., Kwon, Y.S., Lee, H., and Cho, K.H. (2019). A convolutional neural network regression for quantifying cyanobacteria using hyperspectral imagery, Remote Sens. Environ., 233, 111350.

Pyo, J., Hong, S., Kwon, Y., Kim, M.S., and Cho, K.H.

(2020). Estimation of heavy metals using deep neural

(13)

network with visible and infrared spectroscopy of soil, Sci. Total Environ., 140162.

Shi, T., Chen, Y., Liu, Y., and Wu, G. (2014). Visible and near-infrared reflectance spectroscopy—An alternative for monitoring soil contamination by heavy metals, J.

Hazard. Mater., 265, 166-176.

Simis, S.G., Peters, S.W., and Gons, H.J. (2005). Remote sensing of the cyanobacterial pigment phycocyanin in turbid inland water, Limnol. Oceanogr, 50(1), 237-245.

Wei, L., Yuan, Z., Yu, M., Huang, C., and Cao, L. (2019).

Estimation of arsenic content in soil based on laboratory and field reflectance spectroscopy, Sensors, 19(18), 3904.