Deep learning-based de-fogging method using fog features to solve the domain shift problem

(1)

Domain Shift 문제를 해결하기 위해 안개 특징을 이용한 딥러닝 기반 안개 제거 방법

심휘보^†, 강봉순^††

Hwi Bo Sim^†, Bong Soon Kang^††

ABSTRACT

It is important to remove fog for accurate object recognition and detection during preprocessing because images taken in foggy adverse weather suffer from poor quality of images due to scattering and absorption of light, resulting in poor performance of various vision-based applications. This paper proposes an end-to-end deep learning-based single image de-fogging method using U-Net architecture. The loss function used in the algorithm is a loss function based on Mahalanobis distance with fog features, which solves the problem of domain shifts, and demonstrates superior performance by comparing qualitative and quantitative numerical evaluations with conventional methods. We also design it to generate fog through the VGG19 loss function and use it as the next training dataset.

Key words: De-fogging, Deep learning, Domain shift, U-net, Loss function

※ Corresponding Author : Bong Soon Kang , Address:

(49315) 37 Nakdong-Daero 550 beon-gil Saha-gu, Busan, Korea, TEL : +82-51-200-7703, E-mail : bongsoon@dau.

ac.kr

Receipt date : Aug. 10, 2021, Revision date : Sep. 24, 2021

Approval date : Sep. 27, 2021

††

Dept. of Electronics Engineering, Graduate School, Dong-A University

E-mail : [email protected]

††Dept. of Electronics Engineering Dong-A University

1. 서 론

안개와 같은 악조건의 날씨에서 촬영된 영상은 빛 의 산란과 흡수에 의해 영상의 품질이 낮아지고, vision-based application의 성능이 저하되기 때문에 전처리 과정에서 정확한 객체 인식 및 검출을 위해 안개를 제거하는 것은 중요하다.

안개가 낀 상황에서도 객체를 정확히 인식하기 위 해 단일 이미지 처리 기반 안개 제거 방법들이 다양 한 측면에서 활발히 연구되고 있다[1-7]. He et al.[1]

가 제안한 DCP(Dark Channel Prior)는 하늘이 아닌 영역의 픽셀은 적어도 하나의 색상채널에서 매우 낮 은 강도를 가지고 있다고 가정한다. 이러한 가정을 통해 대기 광 및 투과 맵을 추정하여 안개를 제거하

지만 하늘 영역의 경우는 적용되지 않으므로 하늘 영역에 Artifact가 발생하는 문제가 있다. Galdran[2]

은 DCP의 단점인 대비 및 채도를 정확하게 추정하기 위해 복잡한 패치별 계산이 필요한 점을 극복하기 위해 Laplacian 피라미드 분해 기법과 다중 노출 이 미지 융합을 활용하여 깊이 추정 없이 안개를 제거하 는 방법을 제안하였다. Galdran[2]의 안개 제거 방법 은 히스토그램 균등화로 인해 잔여 안개가 존재하는 문제점이 있다. 딥러닝 분야에서는 안개 제거를 위해 CNN기반 훈련을 통하여 매체 전송 맵을 복구하는 Cai et al.[3]의 DehazeNet과 Ren et al.[4]의 Multi- scale CNN이 제안되었다. 이러한 딥러닝 접근 방식 의 결과는 학습에 사용되는 데이터가 목표 대상을 얼마나 잘 대표하는지에 따라 달라진다. 하지만 참조

(2)

Fig. 2. Proposed autoencoder structure.

자료가 있는 학습 데이터 집합으로 훈련된 모델이 목표 대상의 데이터 분포를 충분히 대표하지 못하면 모델의 성능이 급격히 저하된다. 이로 인해 훈련된 모델은 다른 환경에서 재사용되기 어렵고, 사용자는 새로운 목표 대상이 생길 때마다 목표 대상에 맞는 참조자료를 새롭게 획득하여 훈련하는 절차를 반복 해야 하는 데이터 분포 변화(domain shift) 문제가 존재한다. 이러한 문제로 인해 Cai et al.[3], Ren et al.[4]의 안개 제거 방법은 학습 때 사용하지 않은 안 개 이미지에 적용 시 잔여 안개가 존재한다.

본 논문에서는 domain shift 문제 해결을 통해 잔 여 안개 및 Artifact가 존재하지 않는 U-Net [8] 구조 의 end-to-end 학습 가능한 딥러닝 기반 단일 이미 지 안개 제거 방법을 제안한다. 다양한 입력 이미지 에 의해 성능이 바뀌지 않도록 안개 유무에 따른 통 계적 안개 특징만을 이용한 Mahalanobis distance 기반 안개 제거 손실함수 _을 사용하여 domain shift문제를 해결한다. 또한 안개 생성 기능을 추가하 여 학습 데이터 집합 부족 문제를 해결한다. 평가는 정성적 및 정량적 평가를 통해 이전에 소개한 안개 제거 방법에 비해 제안한 모델이 동등 이상의 성능임 을 보인다. 본 논문의 구성은 다음과 같다. 2장에서 제안된 방법, 3장에서 학습, 4장에서 평가. 5장에서는 연구를 마무리한다.

2. 제안된 방법 2.1 구조

본 논문에서 제안한 모델은 딥러닝 기반 end-to- end 학습 가능한 U-Net 구조의 오토인코더 2개를 사용하여 안개 제거 및 생성하는 구조이다. Fig. 1은 제안한 모델의 전체 구조를 보여준다. 상단의 오토인 코더에서 _ 손실 함수를 통해 안개가 제거되고 아래 의 오토인코더에서 _ 손실 함수를 통해 안개를 생성 하는 구조이다. 손실 함수에 대한 설명은 2.2절에서 자세히 설명한다.

Fig. 1. Proposed model structure.

Fig. 2는 본 논문에서 제안하는 오토인코더 구성 도이며, 5단계 U-net 구조에서 shortcut connection 을 추가하여 degradation 문제를 해결한 구조이다.

U-net은 인코더-디코더 구조에 skip connection이 추가되어 정교한 픽셀 정보를 인코더에서 디코더로 정보를 전송함으로써 end-to-end로 segmentation 이 가능한 네트워크이다. 수축, 병목, 확장 세 부분으 로 구성되고, 모두 기본적으로 convolution layer, leaky ReLU layer, dropout layer를 포함한다. dropout layer는 과적합 문제를, leaky ReLU는 gradient vanishing 문제를 해결하기 위해서 삽입하였다.

(3)

수축은 pooling layer로 구성된 블록이 5번 반복하 여 이미지 사이즈가 작아지고, 복잡한 구조를 효과적 으로 학습하기 위해 반복할 때 마다 특징 수를 2배로 늘린다. 또한 각 convolution layer마다 shortcut connection을 더한다. 병목은 이미지 사이즈가 유지 되고 shortcut connection은 마지막 convolution layer에만 더해준다. 확장은 up-sampling layer로 구 성된 블록이 5번 반복되어 이미지 사이즈가 복원된 다. 마지막 출력 layer는 더 밝은 이미지를 위해서 sigmoid 활성화 함수 기능이 있는 layer를 사용한다.

convolution kernel size는  × 을 사용한다. 단, shortcut connection layer와 마지막 출력 layer의 convolution kernel size는  × 을 사용한다.

2.2 손실함수

제안된 모델의 안개 제거 손실함수 _은 총 Ma- halanobis distance 기반 손실 _, Huber 손실 _, SSIM(Structural SIMilarity Index)[9]손실 ^, 지 각 손실 _의 합을, 안개 생성 손실함수 _는 총 _,

_, _의 합을 최적화하여 최소화한다.

_____ (1)

____ (2)

_은 [10]에서 제안한 안개 유무에 따른 통계적 안개 특징 12가지 중 영상의 엔트로피(IE)를 제외한 11가지 특징을 기반으로 설계하였다. ^은 집계된 안개인식특징의 multi-variate Gaussian(MVG)[11]

모델을 호출하여 안개 유무에 따른 영상에서 추출한 MVG 사이의 Mahalanobis 유사거리측정을 통해 안 개 밀도를 예측한다. 안개 이미지에 대한 Mahalan- obis 유사 거리 측정 식은 다음과 같다.

______ (3)

^^^^{ }^^^^^^^{ }_ ^^^^{ }^^

는 안개 특징 11가지의 집합, _,  및 , 은 각각 안개 유무에 따른 이미지의 MVG모델 평균 벡 터 및 공분산 행렬이다.

_은 회귀 모델에 사용되는 손실함수로서 모든 지 점에서 미분할 수 있으면서 상대적으로 이상치에 강 력한 손실함수이다.

_











_ _^ ^ _^{≤ }

^ _ 

^  (4)

여기서 _는 입력 값, ^는 예측 된 결과 값, 는 함수 이동을 결정하는 매개변수이다. 본 논문에서는 이미지 회귀 범위를 0에서 1 사이의 중간인 0.5를 값 으로 사용한다.

SSIM[9]은 두 이미지 간의 휘도, 대비, 구조적 정 보 유사성을 측정하는 값이다. SSIM 값의 범위는 0 에서 1 사이의 값을 가지며, 1에 가까울수록 유사성 이 높다. _식은 아래와 같다.

_   (5)

_은 회색조 이미지용으로 설계되어서 _로 딥러닝 모델을 훈련하면 색상이 변할 수 있다. 이러 한 문제 해결을 위해 신경망을 다양한 손실함수와 조합하여 훈련한다.

지각 손실[12] _는 사전 훈련된 VGG19 모델을 사용하여 안개 이미지 I와 실제 이미지 J에서 추출한 특징 사이의 오차를 다음과 같이 계산한다.

__∈_^∥^^^^^{ }^^^^^^∥ (6)

여기서 _은 L개의 선택된 레이어 중 레이어 I의 특징 맵이다. 본 논문에서는 ImageNet 사전 훈련 가 중치 집합을 가진 VGG19모델 내에서 convolution layer1_2, convolution layer2_2, convolution lay- er3_4를 사용했다.

3. 학 습

Fig. 3은 딥러닝 학습 흐름을 나타낸다. Training Dataset을 Train Data와 Validation Data로 나누어 모델을 훈련 및 검증하고, Test Dataset에 Trained Model을 적용하여 생성된 result Data를 통해 모델 을 평가한다. Proposed Network의 경우 shortcut connection이 추가된 오토인코더에 손실함수가 적용 된 것을 의미하며, 모델의 성능을 검증하기 위하여 아래에서 설명하는 학습 데이터 및 Parameter 수치 를 적용하여 딥러닝 학습을 진행하였다.

3.1 학습 데이터

제안한 모델이 다양한 안개 이미지의 안개 특징을

(4)

Fig. 3. Deep Learning Flow Chart.

(a) (b) (c) (d) (e) (f)

Fig. 4. Image of fog generation and comparison of results with existing fog removal methods. (a) Hazy image, (b) He et al.[1], (c) Galdran[2], (d) Cai et al.[3], (e) Ren et al.[4], and (f) Proposed Method.

학습할 수 있도록 학습 데이터는 합성 및 실제 이미 지 데이터로 구성하였다. 합성 이미지는 대기 산란 모델을 사용하여 1,000개의 실외 이미지로 합성된 안 개 영상이고, 실제 이미지는 55쌍의 Dense Haze[13]

데이터 집합의 고해상도 이미지를 사용하며, 256×

256 크기의 작은 이미지 1,100개로 분할하여 생성하 였다. 학습 시 1,680개의 이미지 훈련 집합과 420개의 이미지 유효성 검사 집합으로 나누어 학습하였다.

3.2 Parameter Settings

제안한 모델은 Python 3.6 및 Tensorflow 1.14를 사용하여 설계하였다. 학습은 Intel Core i9-9900K CPU, 64GB DDR4 RAM 2,400MHz 및 NVIDIA

Titan RTX가 장착된 컴퓨터에서 수행하였다. convolution 가중치는 Glorot initialization을 통해 초기 화하였다. 모델의 고정 학습률은 0.00001, 배치크기 는 1, 총 epoch는 150으로 설정하였고, Adam opti- mizer 함수를 사용하여 학습하였다. 또한 early stopping 기능을 활용하여 효율적으로 훈련을 완료 하였다.

4. 평 가

본 장에서는 제안한 모델을 이전 안개 제거 방법 들[1-4]과 정성적 및 정량적 수치를 비교하여 평가한 다. 정성적 평가를 위한 Fig. 3은 왼쪽부터 안개 이미 지, He et al.[1], Galdran[2], Cai et al.[3], Ren et

(5)

Table 1. Average results of O-HAZE datasets.

Method Quantitative evaluation

MSE SSIM TMQI FSIMc

He[1] 0.0200 0.7709 0.8403 0.8423 Galdran[2] 0.0168 0.7877 0.8410 0.8468 Cai[3] 0.0266 0.6999 0.8413 0.7865 Ren[4] 0.0155 0.7997 0.8737 0.8553 Proposed 0.0139 0.8207 0.8868 0.8424

Table 2. Average results of I-HAZE datasets.

Method Quantitative evaluation

MSE SSIM TMQI FSIMc

He[1] 0.0535 0.6580 0.7319 0.8208 Galdran[2] 0.0336 0.7547 0.7613 0.8558 Cai[3] 0.0320 0.7115 0.7598 0.8482 Ren[4] 0.0223 0.7786 0.7819 0.8634 Proposed 0.0351 0.7520 0.7906 0.8333 al.[4] 안개 제거 방법 및 제안한 안개 제거 및 생성 방법의 결과 이미지이고, 평가 이미지는 IVC[14], O-HAZE[15], I-HAZE[16] 실제 데이터 집합으로 구 성하였다.

Fig. 3의 (b)는 DCP의 한계로 인해 하늘 부분에 아티팩트가 발생한다. (c)는 히스토그램 균등화로 인 한 잔여 안개가 존재한다. (d),(e)는 안개 및 안개 없 는 이미지 사이의 skip connection 없이 중간 전송 추정을 위해 딥 아키텍처만 사용하므로 신경망의 강 력한 잠재력을 활용할 수 없고, domain shift 문제가 존재하므로 잔여 안개가 존재한다. (f)는 안개 유무에 따른 통계적 특징만 이용하여 안개를 제거하므로 (b), (c), (d), (e) 와 비교하여 잔여 안개가 없는 것을 볼 수 있다.

정량적 수치평가 기준은 안개 제거 영상 품질평가 에 쓰이는 MSE(Mean Square Error), SSIM, TMQI (Tone Mapped Image Quality Index)[17], FSIMc (Featere SIMilarity Index extended to color image)[18]을 사용하였다. MSE는 원본 및 결과 영상 사이의 픽셀 값의 차이를 측정하는 것으로 수치가 낮을수록 좋다. SSIM, TMQI 및 FSIMc은 각각 구조 적 유사성, 영상품질 척도 및 색도에 대한 영상 평가 수치이며 높을수록 좋다. Table 1과 Table 2는 안개 제거 방법에 따라 O-HAZE, I-HAZE 데이터 집합으

로 검증한 정량적 평가 수치를 나타낸다. 굵은 숫자 는 각 분야에서 최고의 수치를 나타낸다.

본 논문에서 제안한 방법은 안개 특징 기반 손실 함수를 사용함으로써 정량적 평가 O-HAZE에서 MSE, SSIM, TMQI 수치가 최고치를 보이고, 정성 적 평가에서도 잔여 안개 없는 우수한 결과를 보인 다. I-HAZE에서도 잔여 안개가 없기 때문에 영상 품질 척도인 TMQI가 최고치가 나타난 것을 확인할 수 있다. 하지만 Fig. 3의 정성적 평가에서도 볼 수 있듯이 전체적으로 색상 변형이 발생한다. 특히 I- HAZE 결과 이미지에서 색상 변형이 두드러지게 발 생하는 단점이 있어 픽셀 값의 차이가 생기므로 MSE, FSIMc 수치는 동등 이하의 값이 나타난다.

5. 결 론

본 논문에서는 domain shift 문제 해결을 통해 잔 여 안개 및 Artifact가 존재하지 않는 U-Net 구조의 end-to-end 학습 가능한 딥러닝 기반 단일 이미지 안개 제거 방법을 제안하였다. domain shift 문제는 안개 유무에 따른 통계적 안개 특징 11가지를 이용한 Mahalanobis distance 기반 손실함수를 적용하여 해 결하였다. 제안한 안개 제거 방법은 정성적 평가에서 잔여 안개 및 Artifact 없이 안개가 제거되는 결과를 볼 수 있다. 또한 정량적 평가는 O-HAZE에서 다른 안개 제거 방법들에 비해 4가지 측정에서 우수한 결 과를 보인다. 하지만 특히 I-HAZE에서 색상 왜곡이 일어나는 단점이 존재한다. 향후 색상 보정 후처리 알고리즘을 통해 이러한 단점을 보완할 수 있는 연구 를 이어나갈 예정이다.

REFERENCE

[ 1 ] K. He, J. Sun, and X. Tang, “Single Image Haze Removal Using Dark Channel Prior,”

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 12, pp.

2341-2353, 2011.

[ 2 ] A. Galdran, “Image Dehazing by Artificial Multiple-Exposure Image Fusion,” Signal Processing, Vol. 149, pp. 135-147, 2018.

[ 3 ] B. Cai, X. Xu, K. Jia, C. Qing, and D. Tao,

"DehazeNet: An End-to-End System for

(6)

Single Image Haze Removal,” IEEE Transac- tions on Image Processing, Vol. 25, No. 11, pp. 5187-5198, 2016.

[ 4 ] W. Ren, S. Liu, H. Zhang, J. Pan, X. Cao, and M. Yang, “Single Image Dehazing via Multi- scale Convolutional Neural Networks,” 2016 European Conference on Computer Vision, pp. 154-169, 2016.

[ 5 ] C.S. No, Y.G. Kim, and U.P, Chong. “A Lab VIEW-based Video Dehazing Using Dark Channel Prior,” Journal of Korea Multimedia Society, Vol. 20, No. 2, pp. 101-107, 2017.

[ 6 ] D. Ngo, S. Lee, Q.-H. Nguyen, T. M. Ngo, G.- D. Lee, and B. Kang, “Single Image Haze Removal from Image Enhancement Perspec- tive for Real-Time Vision-Based Systems,”

Sensors, Vol. 20, No. 18, pp. 5170, Sep. 2020.

[ 7 ] S.E. Kim and I.K. Eom, “Single Image Dehaz- ing Using Adaptive Saturation Stretching,”

Journal of the Institute of Electronics and Information Engineers, Vol. 58, No. 7, pp.

39-48, 2021.

[ 8 ] O. Ronneberger, P. Fischer, and T. Brox, “U- Net: Convolutional Networks for Biomedical Image Segmentation,” 2015 Medical Image Computing and Computer- Assisted Inter- vention, pp. 234-241, 2015.

[ 9 ] Z. Wang, A.C. Bovik, H.R. Sheikh, end E.P.

Simoncelli, “Image Quality Assessment: from Error Visibility Tostructural Similarity,” IEEE Transactions on Image Process. Vol. 13, No.

4, pp. 600-612, 2014.

[10] L.K. Choi, J. You, and A.C. Bovik, “Refer- enceless Prediction of Perceptual Fog Density and Perceptual Image Defogging,” IEEE Transactions on Image Processing, Vol. 24,

No. 11, pp. 3888-3901, 2015.

[11] R.O. Duda, P.E. Hart, and D.G. Stork, Pattern Classification. USA: Wiley, 2000.

[12] J. Johnson, A. Alahi, and L. Fei-Fei, “Percep- Tual Losses for Real-Time Style Transfer and Super-Resolution,” 2016 European Con- ference on Computer Vision, pp. 694-711, 2016.

[13] C.O. Ancuti, C. Ancuti, M. Sbert, and R. Tim- ofte, “Dense-Haze: A Benchmark for Image Dehazing with Dense-Haze and Haze-Free Images,” 2019 IEEE International Conference on Image Processing, pp. 1014-1018, 2019.

[14] K. Ma, W. Liu, and Z. Wang, “Perceptual Eva- luation of Single Image Dehazing Algorithms,”

2015 IEEE International Conference on Image Processing (ICIP), pp. 3600-3604, 2015.

[15] C.O. Ancuti, C. Ancuti, R. Timofte, and C. De Vleeschouwer, “HAZE: A Dehazing Ben- Chmark with Real Hazyand Haze-Free Out- door Images,” 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), pp. 18-22, 2018.

[16] C. Ancuti, C.O. Ancuti, R. Timofte, and C. De Vleeschouwer, “I-HAZE: A Dehazing Bench- mark with Real Hazyand Haze-Free Indoor Images,” Advanced Concepts for Intelligent Vision Systems, pp. 620-631, 2018.

[17] H. Yeganeh and Z. Wang, “Objective Quality Assessment of Tone-Mapped Images,” IEEE Transactions on Image Process. Vol. 22, No.

2, pp. 657-667, 2013.

[18] L. Zhang, X. Mou, and D. Zhang, “FSIM: A Feature Similarity Index for Image Quality Assessment,” IEEE Transactions on Image Process. Vol 20, No. 8, pp. 2378-2386, 2011.

(7)

심 휘 보

2021년 동아대학교 전자공학과 공학사

2021년～현재 동아대학교 전자공 학과 석사 과정 관심분야 : 영상 신호처리, SoC

설계

강 봉 순

1985년 연세대학교 전자공학과 공학사

1987년 미국 University of Pennsylvania 전기공학 과 공학석사

1990년 미국 Drexel University 전기 및 컴퓨터 공학과 공 학박사

1989년～1999년 삼성전자 반도체 수석연구원 1999년～현재 동아대학교 전자공학과 교수 2006년～2011년 멀티미디어 연구센터 소장 2006년～2013년 2단계 BK21 사업팀장 2013년～2020 BK21 Plus 사업팀장

관심분야 : 영상신호처리, SoC설계 및 무선통신