1)
Received 14 August 2020, revised 12 October 2020, accepted 18 November 2020.
*
Corresponding author: Sang-Soo Baek (E-mail: [email protected])
∙ 표종철 (박사후연구원 / Jongcheol Pyo (Postdoctoral Researcher) 울산 울주군 언양읍 유니스트길 50 울산과학기술원, 44919
50, UNIST-gil, Eonyang-eup, Ulju-gun, Ulsan 44919, Republic of Korea
∙ 박상훈 (박사 과정 / Sanghun Park (Ph. D. Student) 울산 울주군 언양읍 유니스트길 50 울산과학기술원, 44919
50, UNIST-gil, Eonyang-eup, Ulju-gun, Ulsan 44919, Republic of Korea
∙ 조경화 (부교수 / Kyung-Hwa Cho (Associate Professor) 울산 울주군 언양읍 유니스트길 50 울산과학기술원, 44919
50, UNIST-gil, Eonyang-eup, Ulju-gun, Ulsan 44919, Republic of Korea
∙ 백상수 (박사후연구원 / Sang-Soo Baek (Postdoctoral Researcher) 울산 울주군 언양읍 유니스트길 50 울산과학기술원, 44919
50, UNIST-gil, Eonyang-eup, Ulju-gun, Ulsan 44919, Republic of Korea
This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
수 환경 분야에서의 딥러닝 모델 적용사례
Deep learning model in water-environment field
표종철・박상훈・조경화・백상수
*
Jongcheol Pyo・Sanghun Park・Kyung-Hwa Cho・Sang-Soo Baek
*울산과학기술원 도시환경공학부
Urban and Environmental Engineering, Ulsan National Institute of Science and Technology
ABSTRACT
Deep learning models, which imitate the function of human brain, have drawn attention from many engineering fields (mechanical, agricultural, and computer engineering etc). The major advantages of deep learning in engineering fields can be summarized by objects detection, classification, and time-series prediction. As well, it has been applied into environmental science and engineering fields. Here, we compiled our previous attempts to apply deep learning models in water-environment field and presented the future opportunities.
Key words: Convolutional neural network, Deep Learning, Multi-dimensional image, Water-environment
주제어: 합성곱 신경망, 딥러닝, 다차원 이미지, 수환경
1. 서 론
최근, 딥러닝 기법의 빠른 발전 속도와 함께 공학 계에서의 응용분야도 점차 넓어지고 있다. 이러한 딥 러닝 기법은 인공지능 기법(Artificial Intelligence, AI) 중 가장 고도화된 기법으로 인간의 뇌에서 일어나는 현상을 컴퓨터상으로 모의하는 것으로 주된 내용으로 한다. 이를 통해 비정형 자료로부터 특징을 추출하고 이를 기반으로 판단까지 수행하는 것이다. Fig. 1은 Artificial Neural Network(ANN) 기법을 예시로 보인 것 이며, AI 기법의 가장 기본적인 원리와 구조를 담고 있다. 입력 층(Input layer)의 입력 자료인 X
1과 X
2이 가중치(w)와 곱해져서 은닉 층(Hidden layer)으로 전달 된다. 이는 다시 가중치와 곱해져서 마지막으로 출력 층(Output layer)으로 전달되게 된다. 은닉 층과 출력 층에는 정보 처리 단위인 뉴런들로 구성이 되며, 뉴런
에서 가중치로 처리된 입력 자료 신호는 시그모이드 와 같은 활성화 함수(Activation function)를 통해 비선 형 신호로 다음 은닉 층에 전달된다 .
최근 공학 계에서 활용되고 있는 기법은 크게 두 가지로 나눌 수 있으며, 합성곱 신경망(Convolutional Neural Network, CNN)과 순환 신경망(Recurrent Neural Network, RNN)이 이에 해당된다. 합성곱 신경망의 특 징은 다량의 convolutional filter의 가중치를 활용하여 이미지자료에서 주요한 부분의 특징들을 더욱 자세하 게 추출하고 이를 기반으로 객체를 판별하는데 활용 되고 있다 (Krizhevsky et al., 2012). 예를 들면, 남조류 이미지를 합성곱 신경망을 활용하여 자동으로 판별하 는 기술이 있다. 반면, 순환 신경망은 연속적 자료들 을 기반으로 하여 학습하고자 할 경우에 활용된다 (Mikolov et al., 2011). 하천에서 발생하는 시계열 자료 를 기반으로 예측하는 연구에 활용되고 있다. 환경 분
Fig. 1. Schematic diagram of artificial neural network and convolutional neural network.
야에서 취득되는 데이터의 양이 복잡해지고 빅데이터 화가 됨에 따라 이러한 데이터의 특징을 효율적으로 처리하고 추출할 수 있는 딥러닝 모델을 개발하여 수 환경 분야에 적극적인 응용이 필요하다. 따라서, 본 논문에서는 환경분야에 딥러닝을 활용하여 시도한 연 구 중 주로 합성곱 신경망을 기반으로 한 연구들을 소개할 예정이다.
2. 적용 사례
2.1 딥러닝 기법을 이용한 유해 남조류 자동판별과 개 체 수 산정
유해 조류는 하천 수질에 큰 영향을 미치며, 특히 남 조류는 인간과 수생태계에 영향을 주는 마이크로시스 틴을 배출한다. 마이크로시스틴은 어류와 수생 동물에 대하여 간독성을 일으켜, 수생태계 건강에 위협을 준다.
그렇기때문에, 유해조류 개체군의 지속적인 모니터링, 예측 및 관리가 필수적이다. 특히 정확한 조류 발생의 규모를 파악하기 위해서는 현미경을 통한 조류 종 분류
와 세포 수 산정이 중요하다 (Cheung et al., 2013). 현재 의 조류 분류와 세포 수 산정 방식은 고도의 전문지식이 필요할 뿐만 아니라, 작업자가 현미경을 통하여 모든 세포의 분류를 직접 진행하여야 한다 . 즉, 조류 분석은 많은 시간을 필요로 함과 동시에 작업자의 주관적인 판 단이 개입되는 문제점이 있다 (Alverson et al., 2003). 최 근 , 이러한 문제점 개선을 위해 딥러닝 기술을 활용하는 방안이 화두가 되고 있다. 딥러닝은 고화질 이미지와 빅데이터에 사용할 수 있는 기술 중 하나이며, 특히 이 미지의 특징 추출과 분석에 용이함을 보여주고 있다.
이러한 장점 때문에 , 이 기술은 미생물 동정의 대안으로 등장하여, 빠르고 정확하게 종 분류 및 세포 수 산정이 가능하다고 한다 (Ciresan et al., 2012). 이에, 해당 연구 에서는 딥러닝 기법의 한 종류인 Fast Region Convolutional Neurual Network (R-CNN)와 합성곱 신경 망을 이용하여 5종의 남조류를 분류하고 세포 수 산정 을 실시하였다 (Baek et al., 2020).
앞서 언급한 Fast R-CNN은 하나의 이미지에서 2개 이상의 물체 분별이 가능하며, 단순히 물체의 분별뿐 만 아니라, 분별된 물체의 위치 또한 파악 가능하다
Fig. 2. Algal classification of the Fast R-CNN (Modified from Baek et al., 2020).
(Girshick et al., 2015). 이 두 모델을 이용하면, 조류 종 분별 뿐 만 아니라 세포 수 산정도 가능하다. 수샘플 은 낙동강 함안보와 금강 백제보에서 채취하였으며, 채취한 샘플은 광학현미경을 이용하여 이미지를 산출 하였다. 산출된 이미지는 Fast R-CNN 모델에 남조류 종을 분류하는 학습에 사용되었다. Fast R-CNN 모델 을 통해 산출된 결과는 다시 한번 합성곱 신경망을 이용하여 세포 수를 산정하였다. 종 분류에 적용된 남 조류 종은 총 5종이며, 적용된 종은 Microcystis aeruginosa, Microcystis wesenbergii, Dolichospermum, Oscillatoria, 그리고 Aphanizomenon이다.
Fig. 2은 학습된 Fast R-CNN 모델을 이용하여 산출 한 남조류 판별 결과이다. 학습된 모델은 조류 종 판 별 뿐 만 아니라 판별된 종의 위치까지 잘 파악함을 보여준다. 파란색 박스 안 숫자는 종 분류 결과의 신 뢰도를 의미하며, 숫자가 1에 가까울수록 높은 신뢰도 를 가짐을 의미한다. Microcystis aeruginosa, Microcystis wesenbergii, Dolichospermum, Oscillatoria, 그리고 Aphanizomenon의 종 분류에 대하여, 각각 0.929, 0.973, 0.829, 0.890의 평균 정밀도 값을 산출하였으며, 이는 모델이 종이 혼재되어있어도, 모델이 잘 분류를 할 수 있음을 의미한다. Fig. 3는 Microcystis 종의 세포 수
산정의 결과이다. Microcystis 종의 세포 수 산정을 위 한 학습 데이터 셋에서 결정 계수(R
2)의 값은 0.775로 나타났고, root mean square error (RMSE)의 값은 26 (cells)로 나타났다. 검증 데이터 셋에서 R
2값은 0.854 로 나타났고, RMSE는 23 (cells)로 나타났다. 세포 수 산정 시 세포가 중첩되고 흐릿한 영역이 존재하기 때 문에, 세포 수가 50 이하와 250 이상의 세포를 가진 이미지에 대해 약간의 과소 혹은 과대하게 산정되었 다. 이 연구에서는 딥러닝이 남조류 분류 및 세포 수 산정에 적용 가능성을 보여주었고, 모델 결과 또한 사 람과 비슷할 정도의 성능을 보여주었다 . 향후, 남조류 외에 녹조류, 규조류에도 적용하여, 하천 내 녹조관리 및 모니터링에 기여할 것으로 보인다.
2.2 딥러닝 기법을 이용한 초분광 영상처리를 통한 조류 농도 산정
근래에 지구 온난화 현상과 오염 물질의 수계 유출 로 인해 담수계의 유해 남조류 대발생 현상이 빈번해 지고 있으며, 이로 인해 수자원의 수질 및 수생태계 건강성 악화가 야기되고 있다 (Paerl and Huisman, 2009). 유해 남조류 발생으로부터 수자원을 효율적으
Fig. 3. Microcystis cell count performance of CNN model using algal classification of Fast R-CNN (Modified from Baek et
al., 2020).
로 관리하기 위해 원격탐사 기법이 도입되어 조류의 공간적인 분포와 생체량을 파악하고 있다 (Simis et al., 2005). 특히, 높은 공간 해상도와 분광 해상도를 가지는 초분광 센서 활용은 상대적으로 수체의 크기 가 작은 우리나라 담수 수계에 분포하는 남조류의 세 밀한 검출에 적합하다. 하지만, 시 공간적으로 끊임없 이 변하는 수체의 분광특성을 단일 또는 다수의 파장 대만을 이용하여 수체의 유해 조류를 산정하여 일반 화하기에는 불확실성이 있다 (Le et al., 2009). 따라서, Pyo et al. (2019)는 공간적 그리고 분광적으로 방대한 이미지 데이터에서 조류의 분광 데이터를 효율적으로 처리하여 산정할 수 있는 딥러닝 기법을 적용하고자 하였다. 해당 연구에선 초분광 이미지를 입력 자료로 활용하여 합성곱 신경망 회귀 모델을 구축하여 조류 생체량 지시색소인 클로로필a (Chorophyll-a)와 남조류 생체량 색소인 피코시아닌(Phycocyanin)을 산정하고 성능을 검증하고자 하였다.
연구 대상 지역은 대한민국 4대강 중 하나인 금강의 중류에 위치한 백제보 이다. 2016년과 2017년에 걸쳐 총 9번의 현장 샘플링과 조류 추출실험 그리고 항공 초 분광 이미지 촬영이 진행되었다. Fig. 4은 해당 연구에 서 사용된 입력 자료와 합성곱 신경망 모델 구조이다.
입력 자료는 초분광 이미지를 활용하여 구축되었다.
MODTRAN 6 모델의 시뮬레이션을 통해 생성된 5가지 대기 인자들 (i.e. total flux, diffusion transmittance, dicrect transmittance, spherical albedo, and path radiance)과 수체
의 광량 정보를 담고 있는 초분광 이미지의 Digital Number (DN)값을 채널로 쌓는다. 이후 수체의 조류 색 소 관측 지점을 중심으로 이미지를 일정한 크기로 segment하여 입력 자료를 구축한다. 총 입력 자료 중에 서 70%는 모델의 학습에 사용하였고 30%는 모델 검증 데이터로 사용하였다 . 채택된 모델 구조는 각각 두 개의 convolutional layer와 batch normalization layer를 적용하 였고, 마지막에 한 개의 max-pooling layer를 적용하여 초분광 이미지 입력 자료의 공간적 그리고 분광적 특징 추출을 진행하였다. 그리고 추출된 이미지 특징을 클로 로필a와 피코시아닌 색소별로 두 개의 fully connected layer를 적용하여 한 모델에서 동시에 두 가지 색소 농도 를 산정하였다 . 합성곱 신경망 모델 학습은 관측 색소와 산정된 색소와의 차이를 최소화시키는 방향으로 진행 하였고, 손실 함수는 평균 제곱 오차 (mean square error) 를 적용하였다.
해당 연구에서
합성곱 신경망 모델은 유의미한 클로로필a와 피코시아닌 훈련과 검증 성능을 보였다. 클 로로필a와 피코시아닌 훈련 결과는 각각 결정계수 0.75와 0.90으로 확인되었고, 검증 성능 또한 0.73과 0.86을 보였다. 합성곱 신경망 모델의 훈련 결과는 원 격탐사 분야에서 널리 사용되는 분광 알고리즘 결과 들 (결정계수: 0.70-083)과 비교해서 비슷하거나 향상 된 정확도를 보였으며, 알고리즘의 검증 결과 (결정계 수: 0.29-0.38)에 비교하여 더욱 정확한 성능을 보였다.
이는 합성곱 신경망 구조에서 클로로필a와 피코시아
Fig. 4. CNN structure; input layer by atmospheric correction parameters and digital number, two convolutional layers, and
two fully connected layers for phytoplankton pigment estimation using CNN model (Modified from Pyo et al., 2019).
닌의 특성을 복잡한 수체의 공간 및 분광적 특성에서 효율적으로 추출하였기 때문으로 사료된다. 또한, 분 광 알고리즘의 경우 클로로필a와 피코시아닌 산정에 사용되는 분광 파장대가 각각 다르기에 알고리즘을 색소별로 구성해야 하는 반면 합성곱 신경망 모델의 경우 두 색소를 동시에 산정하기 때문에 모델의 효율 성 측면에서도 개선될 수 있음을 시사하였다. 그리고 훈련된 합성곱 신경망 모델을 초분광 이미지 입력 자 료의 관측 지점 이외의 픽셀에 적용하여 테스트를 진 행하였고 클로로필a와 피코시아닌 농도 지도를 생성 하였다 (Fig. 5). RGB 이미지와 비교하였을 때 합성곱
신경망 모델에서 생성된 조류의 공간분포가 실제 조 류의 공간분포를 정확하게 모사하고 있음을 확인하였 다. 또한, 지도 내에 산정된 색소의 농도 구배 또한 관 측 농도와 비교하였을 때 유의미한 범위를 나타내는 것을 확인하였다. 결론적으로, 합성곱 신경망 모델이 이미지 분류와 객체 탐지뿐만 아니라 환경 이미지 데 이터와 함께 활용하였을 때 유해조류를 유의미하게 산정할 수 있고 신뢰성 있는 조류 농도 지도도 함께 제공할 수 있는 것으로 판단하였다 . 이는 현재 적용되 고 있는 분광 알고리즘을 대체할 수 있는 기술로 활 용이 될 수 있을 것 사료 되고 있다.
Fig. 5. Chlorophyll-a and phyocyanin concentration map compared to actural spatial distribution of algae on August 12
thand
24
thin 2016 from trained CNN model (Modified from Pyo et al., 2019).
2.3 딥러닝 기법을 이용한 막오염 및 수투과도 예측
막 여과 공정에서 발생하는 막 오염은 여과되지 않 은 오염 물질이 여과막 표면에 부착 및 생장하여 오 염층을 형성하는 현상이다. 막 오염이 형성되면 막을 투과하는 여과수의 투과도가 감소하게 되며, 이는 단 위 시간당 생산량을 줄임과 동시에 운전압력을 상승 시켜 공정의 에너지 효율을 떨어뜨리게 만든다. 따라 서 막 오염을 사전에 예측하고 대응하는 것을 통해 공정 효율을 제고시키는 것이 공정 최적화를 위한 과 제이며, 이를 위한 많은 예측 기술이 개발되고 있다.
막 오염 예측을 위한 기술은 막 여과 공정 전·후단에 서 측정할 수 있는 공정 및 수질 정보 (수투과도, 압 력, 온도, 이온 농도 등)를 수학적/수치모델에 활용하 여 개발되었다 (Hoek et al., 2002; Wu et al., 2011). 하 지만 막 오염 현상은 수많은 인자로부터 기인한 복합 적인 현상이기 때문에 막 오염의 간접적인 지표인 수 질 정보와 단순한 구조의 예측 모델을 활용하여 현상 을 모의하기에 한계점이 존재한다. 이러한 한계점을
극복하기 위해 Park et al. (2019)의 연구에서는 막 오 염을 실시간으로 관측할 수 있는 광 간섭 단층촬영기 (Optical coherence tomography, OCT)를 활용하여 여과 막 공정 동안의 실시간 막 오염 이미지 자료를 확보 하였고 CNN에 기반한 딥러닝 모델을 구축하여 시간 에 따른 막 오염의 진행 과정과 수투과도 변화를 모 의하였다.
역삼투막(Reverse osmosis, RE-SHF, Toray, Japan)과 나노여과막(NE90, Toray, Japan)의 막 오염 예측을 위 해 해당 모델은 10 mgC/L의 humic acid (Sigma-Aldrich, USA)와 10 mM의 calcium chloride(Sigma-Aldrich, USA) 수용액을 20 bar에서 24시간 운전하여 확보한 데이터 를 바탕으로 구축하였으며 합성곱 신경망의 세부 구조 는 Fig. 6과 같다. 모델 입력 자료는 초기 막 오염 정보 를 제공하는 OCT 이미지와 이에 상응하는 공정 정보 (이미지 획득 지점, 여과막 정보, 예측 시간, 초기 수투 과도)로 구분된다. 막 오염 이미지 자료(Input 1)는 합 성곱 신경망(Convolutional filter + Batch normalization +
Fig. 6. Illustration of CNN model structure and input; (a) feature extraction, (b) fouling thickness, (c) input preparation, and
(d) output preparation (Modified from Park et al., 2019).
CReLu layer)를 거쳐 주요한 특징을 추출하여 구축된 특징맵(Feature map)으로 변환된다. 특징맵은 이미지 자료가 가지는 많은 정보 중 학습에 사용될 주요 특징 을 추출하여 모델의 학습 속도를 효과적으로 줄임과 동시에 불필요한 정보를 제거함으로써 예측 정확성을 향상시키는 역할을 한다. 이후 막 오염 이미지로부터 추출된 특징맵과 공정 정보는 결합되어 막 오염 예측 과 수투과도 예측을 위한 각각의 신경망으로 전달된 다. 두 종류의 학습 자료를 학습 네트워크에 함께 제공 함으로써 합성곱 신경망을 기반으로 구축된 학습 네트 워크에서는 막 오염 층의 변화를 예측하기 위해 막 오 염 정보뿐만 아니라 수투과도 정보를 함께 고려하였으 며, 또한 수투과도 변화 예측을 위해 막 오염 층에 대 한 정보를 상호보완적으로 고려하였다. 이를 통해 기
존 막 오염 모델에서 고려할 수 없었던 실제 막 오염 현상을 예측 모델에 반영하여 수투과도 변화를 예측하 였다.
Fig. 7는 공정에 따른 막 오염 두께와 수투과도 변 화를 합성곱 신경망 모델과 기존 수학적 막 오염 모 델의 예측 정확성을 비교한 결과이다. 비교를 위해 활 용한 수학적 모델은 Faridirad model (Faridirad et al., 2014), pore & cake filtration model (Ho and Zydney, 2000)로 막 오염 두께를 입력변수로 활용하는 대표적 인 예측 모델이다. 모델 비교를 위해 각각 7개, 4개의 최적화된 모델 파라미터들을 수학적 모델에 활용했음 에도 불구하고, 합성곱 신경망 모델이 타 수학적 모델 과 비교해 가장 높은 예측 정확성(R
2=0.99)을 나타내 고 있음을 확인할 수 있다. 특히 막 오염 두께 예측에
Fig. 7. CNN performance for estimating permeate flux and fouling thickness (Modified from Park et al., 2019).
서 큰 우수성을 입증하였으며, 이는 수학적 모델에서 막 오염 층에 대한 두께 정보를 예측 자료로 활용할 수 있었지만, 막 오염 층의 두께가 수투과도에 미치는 영향이나 수투과도의 변화가 막 오염 층의 성장에 미 치는 영향을 모사하는 것에 한계가 있음을 보여준다.
또한, 여과막에 종류에 따라서 수학적 모델의 예측 정 확성은 차이를 보였으나, 합성곱 신경망 모델은 이미 지를 기반으로 막 오염 현상 자체적으로 학습하여 향 후 변화에 대한 예측을 진행하였기에 특정한 수학적 인 관계식에 얽매이지 않고 역삼투 공정, 나노 여과막 공정 모두에서 높은 정확성을 보여주었다. 또한, 이미 지 기반의 합성곱 신경망 모델은 막 오염이 형성되는
과정을 예측하여 3차원 이미지를 통해 나타냄으로써
기존 모델과 큰 차별성을 보여주었다 (Fig. 8). 이는
이미지 자료를 기반으로 향후 일어날 막 오염 현상을
예측함으로써 막 표면에 형성되는 막 오염층의 성장
과정을 시각적으로 모사할 수 있음을 의미한다. 막 오
염 형상에서 나타나는 차이점은 해당 모델의 목적이
막 오염층이 평균 두께를 예측하는 것이기 때문으로
사료되지만, 관측 자료에서 막 오염이 심각하게 형성
된 지역을 대상으로 예측 자료에서 또한 막 오염 층
이 두껍게 형성되는 경향이 있는 것을 확인하였다. 이
는 향후 이미지 자료와 합성곱 신경망 기법을 활용한
연구가 수행될 경우, 정밀한 막 오염예측을 통해 제
Fig. 8. Comparing observed and simulated 3D fouling images from the trained CNN model (Modified from Park et al., 2019).
막, 스페이서, 모듈화 연구 등 다양한 막 오염 연구 분 야에 기여할 것으로 기대한다.
2.4 딥러닝 기법을 이용한 토양 내 중금속 농도 산정