요 약
ᄀ ᅢ
ᆨᄎ ᅦ ᄐ ᅡ ᆷᄉ ᅢ ᆨᄋ ᅳ ᆫ ᄌ ᅡᄋ ᅲ ᆯ ᄌ ᅮᄒ ᅢ ᆼ, ᄉ ᅵ ᆯᄉ ᅵᄀ ᅡ ᆫ ᄇ ᅩᄋ ᅡ ᆫ, ᄀ ᅥ ᆫᄉ ᅥ ᆯ ᄌ ᅡᄃ ᅩ ᆼ ᄒ ᅪᄋ ᅦᄉ ᅥ ᄒ ᅪ ᆯᄋ ᅭ ᆼᄃ ᅬ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄀ ᅵᄉ ᅮ ᆯ ᄅ ᅩᄉ ᅥ ᄀ ᅡ ᆨ ᄀ ᅪ ᆼ ᄇ ᅡ ᆮᄀ ᅩ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄏ ᅥ
ᆷᄑ ᅲᄐ ᅥ ᄇ ᅵᄌ ᅥ ᆫ ᄋ ᅳ ᆼᄋ ᅭ ᆼ ᄀ ᅵᄉ ᅮ ᆯ ᄋ ᅵᄃ ᅡ. ᄎ ᅬ ᄀ ᅳ ᆫ ᄃ ᅵ ᆸᄅ ᅥᄂ ᅵ ᆼᄋ ᅳ ᆯ ᄀ ᅵᄇ ᅡ ᆫᄋ ᅳᄅ ᅩ ᄒ ᅡ ᆫ ᄀ ᅢ ᆨᄎ ᅦ ᄐ ᅡ ᆷᄉ ᅢ ᆨ ᄆ ᅩᄃ ᅦ ᆯᄋ ᅵ ᄃ ᅳ ᆼ ᄌ ᅡ ᆼᄒ ᅡᄋ ᅧ ᆻᄀ ᅩ ᄃ ᅵ ᆸᄅ ᅥᄂ ᅵ ᆼ ᄀ ᅵᄉ ᅮ ᆯ ᄋ ᅴ ᄇ
ᅡ ᆯᄌ ᅥ ᆫᄀ ᅪ ᄒ ᅡ ᆷᄁ ᅦ ᄈ ᅡᄅ ᅳ ᆫ ᄉ ᅩ ᆨ ᄃ ᅩᄅ ᅩ ᄀ ᅢ ᆨᄎ ᅦ ᄐ ᅡ ᆷᄉ ᅢ ᆨ ᄆ ᅩᄃ ᅦ ᆯᄃ ᅳ ᆯ ᄃ ᅩ ᄇ ᅡ ᆯᄌ ᅥ ᆫᄒ ᅡᄀ ᅩ ᄋ ᅵ ᆻᄃ ᅡ. ᄀ ᅢ ᆨᄎ ᅦ ᄐ ᅡ ᆷᄉ ᅢ ᆨ ᄆ ᅩᄃ ᅦ ᆯᄃ ᅳ ᆯᄋ ᅳ ᆫ ᄃ ᅢᄋ ᅭ ᆼ ᄅ ᅣ ᆼ ᄏ ᅳᄀ ᅵᄋ ᅴ ᄋ ᅵ ᆸ ᄅ
ᅧ ᆨᄀ ᅡ ᆹᄋ ᅵ ᆫ ᄋ ᅵᄆ ᅵᄌ ᅵᄅ ᅳ ᆯ ᄎ ᅥᄅ ᅵᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅢ ᄀ ᅩ ᆼᄐ ᅩ ᆼᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ CNN (convolutional neural network)ᄅ ᅳ ᆯ ᄉ ᅡᄋ ᅭ ᆼ ᄒ ᅡ ᆫᄃ ᅡ. ᄒ ᅡ ᄌ
ᅵᄆ ᅡ ᆫ CNNᄋ ᅳ ᆫ ᄀ ᅢ ᆨᄎ ᅦᄋ ᅴ ᄏ ᅳᄀ ᅵᄋ ᅦ ᄉ ᅡ ᆼ ᄀ ᅪ ᆫᄋ ᅥ ᆹᄋ ᅵ ᄀ ᅩ ᆼᄐ ᅩ ᆼᄃ ᅬ ᆫ ᄑ ᅵ ᆯᄐ ᅥᄅ ᅳ ᆯ ᄉ ᅡᄋ ᅭ ᆼ ᄒ ᅡᄂ ᅳ ᆫ ᄆ ᅮ ᆫ ᄌ ᅦᄌ ᅥ ᆷᄋ ᅵ ᄋ ᅵ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄋ ᅩᄑ ᅳ ᄉ
ᅦ ᆺ (offset)ᄋ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅢ ᄀ ᅢ ᆨᄎ ᅦᄋ ᅦ ᄃ ᅢᄋ ᅳ ᆼ ᄒ ᅡᄂ ᅳ ᆫ ᄑ ᅵ ᆯᄐ ᅥᄅ ᅳ ᆯ ᄆ ᅡ ᆫᄃ ᅳᄂ ᅳ ᆫ Deformable convolutional networkᄅ ᅳ ᆯ Mask R-CNN ᄋ ᅦ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅢ ᄒ ᅡ ᆸᄉ ᅥ ᆼᄀ ᅩ ᆸ ᄂ ᅦᄐ ᅳᄋ ᅯᄏ ᅳᄋ ᅴ ᄆ ᅮ ᆫ ᄌ ᅦᄌ ᅥ ᆷᄋ ᅳ ᆯ ᄒ ᅢᄀ ᅧ ᆯᄒ ᅡᄀ ᅩ ᄀ ᅢ ᆨᄎ ᅦ ᄐ ᅡ ᆷᄉ ᅢ ᆨ ᄋ ᅡ ᆯᄀ ᅩᄅ ᅵᄌ ᅳ ᆷ ᄋ ᅴ ᄌ ᅥ ᆼᄒ ᅪ ᆨ ᄃ ᅩᄅ ᅳ ᆯ ᄂ ᅩ ᇁ ᄋ ᅵᄂ ᅳ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸ ᄋ
ᅳ ᆯ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡᄀ ᅩᄌ ᅡ ᄒ ᅡ ᆫᄃ ᅡ. ᄌ ᅦᄋ ᅡ ᆫ ᄃ ᅬ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆫ Pascal VOC ᄋ ᅪ COCO ᄃ ᅦᄋ ᅵᄐ ᅥᄅ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅢ ᄉ ᅥ ᆼᄂ ᅳ ᆼᄉ ᅵ ᆯᄒ ᅥ ᆷᄋ ᅳ ᆯ ᄉ ᅮᄒ ᅢ ᆼᄒ ᅡᄋ ᅧ ᆻ ᄀ
ᅩ, ᄀ ᅵᄌ ᅩ ᆫ ᄋ ᅴ Mask R-CNN ᄇ ᅡ ᆼᄇ ᅥ ᆸᄇ ᅩᄃ ᅡ ᄉ ᅥ ᆼᄂ ᅳ ᆼ ᄋ ᅵ ᄀ ᅢᄉ ᅥ ᆫᄃ ᅬᄂ ᅳ ᆫ ᄀ ᅧ ᆯᄀ ᅪᄅ ᅳ ᆯ ᄇ ᅩᄋ ᅧ ᆻᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄃ ᅵ ᆸᄅ ᅥᄂ ᅵ ᆼ, deformable convolutional networks, mask R-CNN, ᄀ ᅢ ᆨᄎ ᅦᄐ ᅡ ᆷᄉ ᅢ ᆨ.
1. 서론 커
ᆷ퓨터 비전은시각적 세계를 해석하고 이해하도록컴퓨터를학습시키는 인공지능 분야로서 컴퓨터 ᄇ
ᅵ전 모델이 카메라와 동영상에서 얻은 디지털 이미지를 딥러닝 모델을사용하여 객체를 식별하고 분 ᄅ
ᅲ한다. 컴퓨터 비전의 응용기술 중 하나인 객체 탐색은제품의 결함 여부를 실시간으로 식별하는 제 ᄌ
ᅩ업 (He 등, 2019), MRI, CAT 스캔, X 레이의 이미지를 검사하여 이상 징후를 감지하는의료분야 (Franzel 등, 2012), 차량의 파손상태를 일관적이고 정확하게 측정하는보험회사 (Ali와 Alwan, 2017), ᄒ
ᅢ충을탐색하는 농업 분야 (Lee와 Seok, 2018), 고객의 신원을정확히 식별하는 은행이나 카지노 같이 ᄇ
ᅩ안이 중시되는 분야 (Szczodrak와 Czyzewski, 2017)에서활용될수 있는기술로서 각광받고 있다.
ᄎ
ᅬ근 들어 딥러닝 기술의 발달로 객체 탐색 방법론들은빠르게 발전하고 있다. Girshick 등 (2015)은 ᄆ
ᅮ
ᆯ체가 존재할 영역을제안해주는영역 제안 (region proposal) 알고리즘을연결하여 객체 탐색을수행 ᄒ
ᅡ는 R-CNN방법을제안하였다. Girshick (2015)은 R-CNN의 복잡한 학습단계 대신, 한 번의 학습을 ᄋ
ᅱ한 CNN (convolutional neural network)을구축하고 객체 탐색을수행하는 Fast R-CNN을제안하 ᄋ
ᅧᆻ다. Ren 등 (2015)은 Fast R-CNN에 영역 제안 네트워크 (region proposal network, RPN)를추가하
†
ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ 2017ᄂ ᅧ ᆫᄃ ᅩ ᄌ ᅥ ᆼᄇ ᅮ (ᄀ ᅪᄒ ᅡ ᆨᄀ ᅵᄉ ᅮ ᆯᄌ ᅥ ᆼᄇ ᅩᄐ ᅩ ᆼᄉ ᅵ ᆫᄇ ᅮ)ᄋ ᅴ ᄌ ᅢᄋ ᅯ ᆫ ᄋ ᅳᄅ ᅩ ᄒ ᅡ ᆫᄀ ᅮ ᆨᄋ ᅧ ᆫᄀ ᅮᄌ ᅢᄃ ᅡ ᆫ - ᄎ ᅡᄉ ᅦᄃ ᅢᄌ ᅥ ᆼᄇ ᅩ · ᄏ ᅥ ᆷᄑ ᅲᄐ ᅵ ᆼᄀ ᅵᄉ ᅮ ᆯ ᄀ ᅢᄇ ᅡ ᆯ ᄉ
ᅡᄋ ᅥ ᆸᄋ ᅴ ᄌ ᅵᄋ ᅯ ᆫᄋ ᅳ ᆯ ᄇ ᅡ ᆮᄋ ᅡ ᄉ ᅮᄒ ᅢ ᆼᄃ ᅬ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅵ ᆷ (NRF-2017M3C4A7083281).
1
(06974) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄃ ᅩ ᆼ ᄌ ᅡ ᆨᄀ ᅮ ᄒ ᅳ ᆨᄉ ᅥ ᆨᄅ ᅩ 84, ᄌ ᅮ ᆼ ᄋ ᅡ ᆼᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅳ ᆼᄋ ᅭ ᆼᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄉ ᅥ ᆨᄉ ᅡᄌ ᅩ ᆯᄋ ᅥ ᆸ.
2
(04620) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄌ ᅮ ᆼ ᄀ ᅮ ᄑ ᅵ ᆯᄃ ᅩ ᆼ ᄅ ᅩ 1ᄀ ᅵ ᆯ 30, ᄃ ᅩ ᆼᄀ ᅮ ᆨ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.
3
ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (06974) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄃ ᅩ ᆼ ᄌ ᅡ ᆨᄀ ᅮ ᄒ ᅳ ᆨᄉ ᅥ ᆨᄅ ᅩ 84, ᄌ ᅮ ᆼ ᄋ ᅡ ᆼᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅳ ᆼᄋ ᅭ ᆼᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.
E-mail: [email protected]
ᄋ
ᅧ CPU 대신 GPU에서 계산을수행하면서 객체 탐색 속도를향상시킨 Faster R-CNN을제안하였다.
Redmon 등 (2016)은이미지 내의 경계박스 (bounding box)와 클래스확률 (class probability)을단일 ᄒ
ᅬ귀 문제 (single regression problem)로 간주하여 속도를향상시킨 You Only Look Once (YOLO)를 ᄌ
ᅦ안하였다. He 등 (2017)은 Faster R-CNN에서 이진 마스크 (binary mask)와관심영역 정렬 (Region of interest align, ROI align)을사용하여 성능을개선한 Mask R-CNN 방법을제안하였다.
ᄋ
ᅵ러한 기존의 객체 탐색방법들은큰 사이즈의 이미지 데이터를 처리하기 위해 공통적으로 CNN을 ᄉ
ᅡ용하고 있다. CNN은 인간의 시신경 구조를모방한 기술로 인공신경망 기법에 필터링 기법을적용함 ᄋ
ᅳ로써 입력 값으로 들어오는이미지를더욱효과적으로 처리하는기법이다. CNN은 행렬로 표현된필 ᄐ
ᅥ의 각 요소가 데이터 처리에 적합하도록스스로 학습하게 한다. 이런 CNN의 특징 때문에 이미지 분 ᄅ
ᅲ 알고리즘에 CNN를적용하게 되면 분류 정확도가 향상된다. 최근 CNN을발전시킨 새로운방법들 ᄋ
ᅵ 꾸준히 연구되고 있다. Dai 등 (2017)은객체에 맞는 필터를학습시키는 Deformable convolutional network를제안하였다. Wang 등 (2019)은 CNN의 중복성 문제를 직교성 정규화를 통해 해결하고 성 ᄂ
ᅳ
ᆼ을개선시킨 Orthogonal CNN를제안하였다. Shulman (2019)는시간적 순서를다루는경우 동일한 ᄌ
ᅩ
ᆼ류의 변형이 발생할 수 있다고 가정하고 Dynamic time warping과 유사한 알고리즘을사용하여 국소 ᄌ
ᅥᆨ으로 이탈 상태인 곳에서 필터와 입력 값을정렬하는 Dynamic time warp convolutional network를 ᄌ
ᅦ안하였다. Song 등 (2020)은 영상 잡음 제거를 위해 CNN과 디노이징 오토인코더 (denoising au- toencoder)를결합시킨 Convolutional denoising autoencoder를제안하였다.
ᄉ
ᅡ람은 특정 공간에서 물체들을 볼때 물체마다 똑같은시야를 통해 판단하지 않는다. 작은의자를 볼 ᄄ
ᅢ는 의자의 크기에 맞게 시야를 맞추고, 커다란 탁자를 볼 때는 탁자의 크기에 맞춰 시야를 형성한다.
ᄆ
ᅡᆫ약 작은의자를 볼때의 시야를이용해큰탁자를 본다면큰탁자를제대로 인식하지 못할 것이다. 객 ᄎ
ᅦ 탐색에 사용되는이미지는 Figure 1.1처럼 서로 다른크기의 객체를가지고 있다. 객체를탐색할 때 이
ᆯ반적인 CNN은 공통된 필터를 사용하기 때문에 크기가 서로 다른 객체들의 특징적인 정보를정확하 ᄀ
ᅦ 추출하기 힘들다. Dai 등 (2017)은사람이 객체의 크기에 맞춰 시야를형성하는것처럼 객체의 크기 ᄋ
ᅦ 맞는 필터를학습시키는 Deformable convolutional network를 Faster R-CNN방법에 적용해 성능 으
ᆯ향상시켰다.
Figure 1.1 Image consisting of objects with different sizes (Everingham et al., 2015)
보
ᆫ 논문에서는 객체 탐색의 Mask R-CNN 모형에 Deformable convolutional network를 적용시킨
2. 객체 탐색 기존 연구
2.1. 개념 및 용어 설명 개
ᆨ체 탐색은이미지 내에서 어떤 물체인지 분류하는 분류 (classification) 문제와 그 물체가 어디 있는 ᄌ
ᅵ 경계박스를 통해 위치 정보를나타내는 국소화 (localization) 문제를해결하는 것을의미한다. Fig- ure 2.1처럼 객체 탐색은이미지에 존재하는모든객체를탐색하기 때문에 일반적인 이미지 분류보다 더 ᄋ
ᅥ렵고 복잡하다. 객체 탐색은 일반적으로 3단계에 걸쳐 작업을수행한다: (1) 이미지나 영상으로부터 개
ᆨ체 후보 영역들을선택, (2) 각 후보들의 영역으로부터 특징을추출, (3)추출한 특징들을 분류기를이 ᄋ
ᅭ
ᆼ하여 객체 후보 영역의 클래스를 분류하고 경계박스 회귀분석과 같은후처리를 통해 국소화 성능을 높 ᄋ
ᅵ는과정을거친다. 객체 탐색 방법은후보 영역의 특징 추출할 때 이미지 데이터를 분석하는 CNN을 ᄉ
ᅡ용한다.
Figure 2.1 Example of object detection (Everingham et al., 2015)
여
ᆼ역 제안 방법은 입력 값에서 ‘객체가 있을 법한’ 영역을 빠른 속도로 찾아내는 알고리즘을의미한
ᄃ
ᅡ. Harzallah 등 (2009)은완전 탐색 (exhaustive search) 방법으로 Figure 2.2처럼 후보가될모든영 ᄋ
ᅧ
ᆨ을샅샅이 조사하는방법을사용하였다. 하지만 이 방법은 임의의 모든영역을조사하기 때문에 시간 ᄋ
ᅵ 오래 걸린다는단점이 있었다.
Figure 2.2 Example of applying the exhaustive search method. The image is originally from Uijlings et al.
(2013)
Alexe 등 (2012)은완전 탐색 방법의 단점을보완한, 데이터의 특성에 기반하여 후보가될 영역을바 ᄋ
ᅮᆫ딩 박스로 찾는방법인 분할 (segmentaion) 방법을제안했다. Figure 2.3처럼 고양이의 패턴이 비슷 ᄒ
ᅡᆫ 경우는색깔에 기반하여 후보 영역을찾고 Figure 2.4처럼 풀과 동물의 색깔이 비슷한 경우는패턴으 ᄅ
ᅩ 후보영역을찾는다.
Figure 2.3 The candidate areas can be distinguished by color. The original image is from Uijlings et al. (2013)
Uijlings 등 (2013)은완전 탐색과 분할 방법의 장점을합친 선택적 탐색 (selective search)을제안했
Figure 2.4 The candidate areas can be distinguished by pattern. The original image is from Uijlings et al.
(2013)
ᄃ
ᅡ. 이 방법은 분할에 동원가능한 모든방법을활용하여 seed를설정하고, 그 seed에 대하여완전 탐색 ᄇ
ᅡᆼ식으로 찾는것을 목표로 하는방법으로 최근객체 탐색에서 자주 사용되는기법이다.
2.2. R-CNN
Girshick 등 (2015)은영역 제안과 CNN을결합한 객체 탐색 방법으로 기존의 방법에 비해 성능향상 으
ᆯ보여준 R-CNN기법을제안하였다. 최근객체 탐색 기법들은 R-CNN방법을기반으로 속도와 정확 ᄃ
ᅩ를향상시키는방향으로 연구가 진행되고 있고 빠른 속도로 기법들이 발전하고 있다.
R-CNN 기법은 Figure 2.5과 같이 입력 이미지로부터 선택적 탐색을 이용하여 객체 후보 영역 약 2000개 정도의 영역 제안을추출한다. 각각의 제안들은 CNN의 입력값으로 들어가기 위해 균일한 크 ᄀ
ᅵ로 맞추고 이때 아핀 워핑 (affine warping)을 수행하게 된다. 추출된 특징은 선형 SVM (support vector machine)을이용하여 최종적으로 객체의 종류를 인식한다. R-CNN은영역 제안 추출을 통해 객 ᄎ
ᅦ의 국소화를수행하고, 추출된 특징의 선형 SVM을 통해 객체의 클래스를 인식하고 객체 검출을수행 ᄒ
ᅡ게된다. 객체 검출을수행한 후 경계박스 회귀분석을수행하면서 국소화 에러를 줄이는과정을수행 ᄒ
ᅡ게된다 (Girshick 등, 2015).