Robust Stereo Matching under Radiometric Change based on Weighted Local Descriptor

(1)

논문 2015-52-4-20

광량 변화에 강건한 가중치 국부 기술자 기반의 스테레오 정합

( Robust Stereo Matching under Radiometric Change based on Weighted Local Descriptor )

구 자 민^*, 김 용 호^*, 이 상 근^**^*

( Jamin Koo, Yong-Ho Kim, and Sangkeun Lee

^ⓒ

)

요 약

기하학적 특성이 주어진 두 개 이상의 카메라를 사용하거나 한 개의 카메라를 이동시켜가면서 스테레오 영상을 얻을 때에, 카메라 설정 값의 차이, 조명의 변화 등으로 인해 광량의 변화가 발생한다. 하지만 색상 유사도를 기반으로 한 기존의 스테레 오 정합 방법들은 정확한 대응점을 추정하지 못한다. 본 논문에서는 광량 변화에 강건하기 위한 방법으로 스테레오 영상에서 픽셀의 밝기 정보와 그라디언트 정보 및 텍스쳐 정보를 국부 기술자로 구성하는 새로운 방법을 제안하고, 엔트로피에 기반한 적응적 가중치를 국부 기술자에 부여하여 광량 변화에도 정확한 대응점을 추정할 수 있도록 한다. 제안하는 방법은 조명의 변 화, 노출 시간의 차이로 인해 광량 변화가 발생된 Middlebury의 실험 영상을 통해 실험되었으며, 광량 변화에 강건한 최근의 방법들과 비교하였다. 그 결과, 제안하는 방법은 전체 영역에서의 오정합 비율이 약 5 % 정도로 비교하는 방법들보다 낮게 발 생하여 가장 좋은 성능을 보여주었다.

Abstract

In a real scenario, radiometric change has frequently occurred in the stereo image acquisition process using multiple cameras with geometric characteristics or moving a single camera because it has different camera parameters and illumination change. Conventional stereo matching algorithms have a difficulty in finding correct corresponding points because it is assumed that corresponding pixels have similar color values. In this paper, we present a new method based on the local descriptor reflecting intensity, gradient and texture information. Furthermore, an adaptive weight for local descriptor based on the entropy is applied to estimate correct corresponding points under radiometric variation. The proposed method is tested on Middlebury datasets with radiometric changes, and compared with state-of-the-art algorithms. Experimental result shows that the proposed scheme outperforms other comparison algorithms around 5% less matching error on average.

Keywords : Stereo matching, radiometric change, illumination, camera exposure

* 학생회원, ^** 평생회원, 중앙대학교 첨단영상대학원 영상학과 (Department of Image Engineering, Graduate School of Advanced Imaging Science, Multimedia, and Film, Chung-Ang University)

※ 이 논문은 2014년도 미래창조과학부와 교육부의 재 원으로 한국연구재단에서 지원을 받아 수행된 연구 (No. NRF-2014R1A2A1A11049986 /

NRF-2014S1A5B6037633) 입니다.

Received ; December 2, 2014 Revised ; February 26, 2015 Accepted ; April 1, 2015

Ⅰ. 서 론

최근 3차원 영상뿐만 아니라, 3차원 프린터, 의료 기 기와 같은 넓은 분야에서 3차원 융합 기술들이 사용되 면서, 관련 연구 분야 역시 높은 관심을 받고 있다. 그 중에서도 3차원 기술과 밀접한 관련이 있는 스테레오 비전 분야가 재조명 받고 있다. 기본적으로 스테레오 비전은 인간의 양안시(binocular vision)와 같은 과정으

(2)

로 입력된 영상에서 3차원 정보를 추정하는 분야이다.

실제로 인간이 3차원 정보를 얻는 깊이(depth) 단서 에는 단안단서(monocular clues)와 양안단서(binocular clues)가 있다. 단안단서로는 객체의 크기 및 중첩, 운동 시차(parallax), 선형 원근법(linear perspective), 원근조 절(accommodation), 대기 원근법(aerial perspective) 등 이 있으며, 양안단서로 안구 수렴(ocular convergence), 입체적 융합(stereoscopic fusion)이 있다. 인간의 뇌에 서는 단안단서와 양안단서를 이용하여 깊이 지각(depth perception) 과정을 거쳐서 3차원 정보를 추정한다. 그 중에서도 가장 주요한 단서는 입체적 융합이며, 그 과 정에서 두 눈의 시차(retinal disparity)를 이용하여 각 망막에 맺힌 영상 간에서 깊이 정보를 해석하는 입체시 (stereopsis)가 가장 중요하다^[1].

스테레오 비전의 원리도 이와 같다. 스테레오 비전은 영상 획득, 카메라 모델링, 대응점 추출, 3차원 깊이 정 보 추출 등의 과정을 거친다. 영상 획득 과정에서는 기 하학적 특성이 주어진 두 개 이상의 카메라를 사용하여 동시간대에 촬영하거나, 한 개의 카메라를 수평 이동시 키면서 촬영하여 영상을 얻는다. 획득된 기준영상과 대 상영상에서 동일한 객체에 대해 대응점을 선택하고 추 출된 대응점에서의 변이 정보를 통해 3차원 정보를 추 정한다.

현재까지 연구되고 있는 대부분의 스테레오 정합 방 법들은 특정 위치에서의 픽셀 정보를 바탕으로 대응점 을 찾는다^[2]. 색상 항상성(color constancy)에 기반하여 스테레오 영상에서의 같은 객체는 동일한 색으로 지각 한다는 가정^[3]을 통해 대상 픽셀 중에서 가장 유사한 색상을 가진 픽셀을 대응점으로 선택한다. 대표적으로 식 (1)과 같이 기준(reference)영상과 대상(target)영상 에서 두 픽셀간의 밝기(intensity) 차를 이용하여 정합 비용을 구하는 AD(absolute differences) 방법을 많이 응용한다.

^′^



∈    ^_^′

₍₁₎

여기에서 _는 기준영상에 위치한 픽셀에서 각 색 상 채널의 밝기 값이고, 



^′



는 대상영상에서 탐색 범 위 에 위치한 픽셀의 각 색상 채널별 밝기 값이다. 기 준픽셀과 대상픽셀의 차분절대 값을 누적하여 구해진 정합 비용 값을 통해 시차 값을 결정한다.

(a) (b) (c)

그림 1. 광량 변화가 발생한 ‘Art’ 영상에서의 스테레오 정합 : (a) 노출(1)과 조명(1) 환경에서 획득된 기준영상, (b) 노출(2)와 조명(2) 환경에서 획득 된 대상영상, (c) 밝기 값 기반의 시차맵 결과 Fig. 1. Stereo matching of the ‘Art’ dataset under

varying radiometric change : (a) the reference image with exposure(1)-illumination(1), (b) the target image with exposure(2)-illumination(2), and (c) the resulting disparity map of intensity based method.

하지만 실제적인 스테레오 비전의 영상 획득 과정에 서는 다수의 카메라를 사용하는 경우에 각 카메라에서 의 설정 값이 정확히 일치하지 않아 조리개 노출시간의 차이, 색온도의 차이 등이 발생하며, 한 개의 카메라를 이동시키면서 촬영하는 경우에는 위치적으로 또는 시간 적으로 발생하는 조명의 변화로 인한 그림자나 반사영 역의 차이 등이 발생하는 문제점이 있다.

위와 같이 밝기 값을 기반으로 정합 비용을 구하는 스테레오 정합 방법들에서는 영상 획득 과정에서 조명 의 변화, 카메라 설정 값 등의 차이로 스테레오 영상이 변형되었을 경우, 그림 1과 같이 시차맵을 추정하지 못 하는 문제가 발생한다. 실제로 얻어진 스테레오 영상에 서는 기준영상과 대상영상에서 대응되는 픽셀의 밝기 값이 서로 달라짐으로써 정확한 대응점 탐색이 어렵기 때문이다. 따라서 이러한 문제를 해결하기 위해 스테레 오 영상에서 log-chromaticity 정보의 상관관계를 이용 하는 ANCC(adaptive normalized cross-correlation)^[4]와 그라디언트 정보를 이용하는 GradAdapWgt (gradient similarity based adaptive support-weight)^[5], CDFofGrad(cumulative distributions of gradients)^[6]와 같은 방법이 연구되었다. 먼저, ANCC 방법은 램버시안 반사율(Lambertian reflectance)을 가정하고 영상에서 색상 생성 모델을 추정한 뒤, 전역적인 광량 변화와 국 부적인 광량 변화에 불변한 log-chromaticity를 추정한 다. 다음으로 NCC(normalized cross-correlation)에 bilateral filter를 기반으로 구한 적응적 가중치를 부여 하여 정합 비용을 구한다. 하지만 ANCC 방법은 다수

(3)

의 조명 조건에서 획득된 영상이거나 영상에서의 객체 가 램버시안 반사 물체가 아닌 환경에서는 정확한 색상 생성 모델을 추정하기 어렵고, 전역적으로 정합 비용을 최적화하는 반복 수행이 필요하다는 단점이 있다.

이후로 연구된 GradAdapWgt, CDFofGrad와 같은 방 법들은 스테레오 영상에서 기준픽셀의 밝기 값과 주변 픽셀의 밝기 값 간의 그라디언트 정보를 통해 정합 비 용을 추정한다. GradAdapWgt 방법은 그라디언트 커널 을 이용하여 얻은 정보를 통해 그라디언트의 크기와 방 향을 연산하여 정합 오류를 구한다. 여기에 ASW (adaptive support-weight) 방법^[7]을 이용하여 가중치를 부여하고 최종 정합 비용을 구하여 시차 값을 결정한 다. CDFofGrad 방법은 영상에서 구해진 각 색상 채널 의 정보가 서로 독립적이라는 가정 하에 그라디언트 정 보의 누적 분포를 사용하여 정합 오류를 구한다.

CDFofGrad 방법에서도 마찬가지로 정합 오류에 ASW 방법을 이용한 영역 가중치를 부여하여 최종 정합 비용 을 구하고 시차 값을 결정한다. 하지만 GradAdapWgt, CDFofGrad와 같은 그라디언트 정보를 이용하는 방법 은 다음과 같은 문제가 있다. 첫째, 대상영상의 탐색 영 역 안에서 그라디언트 값이 연속적으로 비슷하게 발생 될 때에 정확한 대응점을 찾기 힘들다. 둘째, 밝기 값이 일정한 영역에서는 그라디언트 값이 매우 낮게 발생하 여 정확한 정합 비용을 구하기 어려운 문제가 있다.

본 논문에서는 영상의 광량 변화에도 강건한 대응점 추출 및 정합을 하기위해 스테레오 영상에서 픽셀의 밝 기 정보와 주변픽셀 간의 그라디언트 정보 및 텍스쳐 정보를 융합하여 기술자를 구성하고, 오정합의 가능성 을 줄이기 위해 구성된 기술자에 엔트로피 기반의 적응 적 가중치를 부여하여 최종적인 정합 비용을 구하는 방 법을 제안한다. 본 논문의 구성은 Ⅱ장에서 제안하는 방법에 대해 설명하고, Ⅲ장과 Ⅳ장에서는 각각 실험을 통하여 제안하는 방법의 성능을 평가하고 비교 분석하 여 결론을 맺는다.

Ⅱ. 제안하는 방법

그림 2는 제안하는 방법의 흐름도이다. 입력된 스테 레오 영상에서 광량 변화가 발생하였을 때, 각 영상에 서 픽셀의 밝기 정보, 그라디언트 정보^[5～6], 텍스쳐 정

보^[7～8]를 이용하여 국부 기술자를 생성하고, 엔트로피

그림 2. 제안하는 방법의 흐름도

Fig. 2. Flow chart of the proposed method.

정보를 이용하여 국부 기술자에 적응적으로 가중치를 부여한다. 다음으로 국부 기술자 간의 비유사도 (dissimilarity)를 연산하고 적응적 영역 가중치를 부여 하여 구한 정합 비용과 국부 기술자 간의 상관관계를 통한 정합 비용을 종합하여 최종 정합 비용을 구한다.

구해진 최종 정합 비용을 통해 대응점을 추정하고 시차 값을 결정하여 시차맵을 생성한다.

1. 국부 기술자 구성

본 논문에서는 영상의 광량 변화에 강건한 정합 결과 를 얻기 위해 국부 기술자(local descriptor)를 구성하는 방법을 제안한다. 제안된 국부 기술자 구성 방법은 영 상에서의 밝기 정보와 그라디언트 정보^[5～6] 및 텍스쳐

정보^[7～8]를 융합하여 구성한다.

국부 기술자는 다음 그림 3과 같이 17차원의 특징 벡 터로 구성한다. 특징 벡터는 해당 위치에 대한 픽셀의

그림 3. 국부 기술자의 구성 Fig. 3. Create local descriptor.

(4)

밝기 값, 그라디언트 값, 그라디언트의 방향 값, 누적된 그라디언트 값, 누적된 그라디언트 방향 값, 텍스쳐 값 으로 구성된다.

국부 기술자에서 1, 2, 3번의 특징 벡터는 픽셀의 밝 기 값으로 구성된다. 전체적으로 그라디언트 값이 낮게 발생되는 영역에서는 주변정보의 부족으로 정합 비용을 구하기 힘들기 때문에 CIELab 색상공간에서의 밝기 값 을 통해 보완한다. CIELab 색상공간은 인간의 색 지각 에 기반하여 정의되었으며, 다른 색 공간에 비해 장치 독립적이고 영상에서 색 오차를 나타내기에 적합한 특 성이 있다. 따라서 특징 벡터 1, 2, 3번은 CIELab 색상 공간에서의 각 , ,  채널의 밝기 값으로 구성한다.

다음의 특징 벡터들은 그라디언트 정보^[5～6]로 구성한 다. 기준픽셀과 주변픽셀의 밝기 값은 광량 변화에 있 어서 높은 확률로 편중(bias) 되는 정도가 일치한다. 따 라서 그라디언트 정보를 이용한다면 조명의 변화, 조리 개 노출 시간의 변화 등으로 변화된 스테레오 영상에서 도 강건한 정합 비용을 얻을 수 있다^[5].

4번에서 6번까지, 7번에서 9번까지의 특징 벡터는 식 (2), (3)과 같이 수직, 수평 방향의 그라디언트 값을 각

 채널 별로 구하여 구성한다.

_

∈   _     _   

(2)

_

∈  _    _  

(3)

다음의 10번에서 12번의 특징 벡터는 식 (4)와 같이 수직 방향과 수평 방향의 그라디언트 값을 이용하여 구 한 각 색상 채널에서의 각도 값이다.

∈     arctan





^^^^^^^^^

 ⁽⁴⁾

다음의 13번과 14번의 특징 벡터는 식 (5), (6)과 같 이 각각 그라디언트 값과 각도 값의 누적을 누적시켜서 구한다. 실제 조명 환경의 변화가 발생한 스테레오 영 상의 경우, 각 색상 채널에서의 밝기 값과 그라디언트 정보는 객관적으로 색상 항상성에 위배된다. 따라서, 조 명 변화에도 강건하게 정합 비용을 구할 수 있는 누적 된 그라디언트 정보를 특징 벡터로 구성한다^[6].

_{ }∈    

 

^_ _



 ₍₅₎

(a) (b)

그림 4. ‘Art’ 영상에서의 누적된 그라디언트 정보(a)와 BDIP를 통해 구해진 누적된 텍스쳐 정보(b) Fig. 4. The cumulative gradient information (a) and the

cumulative texture information (b) using BDIP of the ‘Art’ dataset.

_{  }∈    



^

₍₆₎

마지막으로 15번에서 17번의 특징 벡터는 식 (7)과 같이 BDIP(block difference of inverse probabilities)^[7～8]

통해 각 색상 채널에서 구한 텍스쳐 정보를 사용한다.

∈     __{ }_max

∈_

∈





_

(7)

여기에서 _는 영역  안에서의 픽셀의 개수이다.

BDIP를 이용한 방법은 국부적인 밝기 값 변화를 정규 화하여 사용하여 에지, 벨리와 같은 텍스쳐 정보를 추 출한다. BDIP는 국부 최대 밝기 값으로 정규화 하는 과 정을 통해 인간의 시각 기능과 같이 밝은 곳에서의 밝 기 변화보다 어두운 곳에서의 밝기 변화에 민감한 특징 이 있다. 본 논문에서는 BDIP를 이용하여 객체의 내부 와 같이 윤곽이 뚜렷하지 않아 구하기 어려운 그라디언 트 정보를 보완한다. 그림 4와 같이 그라디언트 정보와 BDIP를 통해 구해진 텍스쳐 정보로 에지와 벨리의 추 출 정도를 비교할 수 있다^[7～8].

2. 엔트로피를 이용한 적응적 가중치

국부 기술자가 픽셀의 밝기 정보, 그라디언트 정보 및 텍스쳐 정보를 사용하여 구성되면서, 영상에서 광량 의 변화가 발생한 부분에서 밝기 정보로 인한 오정합의 가능성이 오히려 높아질 수 있다. 따라서 본 논문에서 는 엔트로피를 이용하여 국부 기술자에 적응적으로 가 중치를 부여하여 문제를 해결한다.

(5)

(a)

(b)

그림 5. ‘Art’ 영상에서 노출(1)과 조명(1) 환경(a)과 노출 (2)와 조명(2) 환경(b)에서 획득된 기준 그레이 스케일 영상과 엔트로피 영상

Fig. 5. The reference gray scale image and entropy image of each one with exposure(1)- illumination(1) (a) and with exposure(2)- illumination(2) (b) of the ‘Art’ dataset.





  



log 

(8)

식 (8)과 같이 기준픽셀 주위의 일정 영역 안에서 엔 트로피를 구할 수 있다. 여기에서 는 히스토그램 (histogram)을 통해 구한 밝기 값 에 대한 확률 값이 다. 만약 영역 안의 픽셀이 모두 같은 밝기 값으로 이루 어져 있다면,  _{값은 0 이다.}  _{값이 낮은 것은 대} 부분 저주파 성분으로 이루어진 평평한 영역(flat region)임을 나타내고, 반대로  _{값이 높은 것은 영} 역에 고주파 성분이 섞인 에지나 벨리가 많이 존재하는 영역을 의미한다. 이렇게 엔트로피는 밝기 값의 변화에 민감하여 영상의 국부적인 복잡도를 추정할 수 있다.

그림 5에서 비교적 밝게 표현이 된 곳은 주변영역에 밝기 변화가 많아 복잡도가 높게 구해진 곳이며, 반대 로 어둡게 표현이 된 곳은 밝기 변화가 적어 복잡도가 낮게 구해진 곳이다. 본 논문에서는 이러한 엔트로피 정보를 이용하여 다음과 같이 국부 기술자의 적응적 가 중치를 부여한다.

_



^^^^ i f   

_ i f   ⋯

(9)

여기에서 _는 기준픽셀 에서 국부 기술자를 구성하는 각 차원의 특징 벡터이다. 본 논문에서는 기 준영상과 대상영상에서의 엔트로피 정보를 이용하여 각 각의 국부 기술자에 적응적으로 가중치를 부여하였다.



_은 CIELab 색상 정보에 부여되는 가중치로써 다 음 식 (10)과 같이 영상에서 구한 엔트로피 값을 이용 하여 결정된다. 엔트로피 값이 낮을수록 국부적으로 저 주파 성분이 대부분이며 밝기 변화가 적다. 따라서



_ 의 값을 크게 함으로써 색상 정보의 의존도를 높인다.

_   



^^max∈



 ⁽¹⁰⁾



_는 그라디언트 정보 및 텍스쳐 정보에 부여되는 가중치로써 다음 식 (11)과 같이 영상에서 구한 엔트로 피 값으로 결정된다. 엔트로피 값이 클수록 국부적으로 고주파 성분이 섞여있는 것을 의미하며 많은 에지 및 벨리가 존재한다. 따라서



_의 값을 크게 하여 그라디 언트 정보와 텍스쳐 정보의 의존도를 높이고 정합 비용 을 구한다.

_  max_∈_



(11)

식 (10)과 식 (11)에서



는 기준픽셀이며,



는  _영

상에서의 모든 픽셀이다.



__과



_는 0에서 1의 값을 가지며, 두 가중치 값의 합은 1 이다.

3. 최종 정합 비용을 통한 시차 값 결정

앞 절에서 구성한 적응적 가중치가 부여된 국부 기술 자를 통해 AD 기반의 정합 비용과 상관계수 기반의 정 합 비용을 상호 보완하여 최종 정합 비용을 결정하고 시차 값을 결정한다.

먼저 적응적 가중치가 부여된 국부 기술자를 통해 대 응점 검색을 위한 비유사도를 계산한다. 비유사도가 높 을수록 정합 오류 또한 높으며, 해당되는 두 픽셀이 대 응점일 확률이 낮다. 정합 오류는 식 (12)와 같이 기준 영역과 대응영역에서 가중치가 부여된 국부 기술자의 AD(absolute differences) 값을 통해 구한다.

^′^_{∈ dim}

 ^

^^^^{ }^^^^′^^

^ ⁽¹²⁾

(6)

여기에서 _는 기준영상에서 적응적 가중치가 부 여된 국부 기술자이고, _^′는 대상영상에서 적응적 가중치가 부여된 국부 기술자이다. dim은 국부 기술자 에 구성된 특징 벡터의 차원수를 나타내며, 각 특징 벡 터에서의 차분절대 값을 누적하여 정합 오류를 구한다.

다음으로 ASW(adaptive support-weight) 방법^[9]을 식 (13)과 같이 사용하여 영역 가중치를 부여하고 정합 비용을 계산한다. 기준픽셀 주변의 일정 영역 안에 위 치한 국부 기술자들 중에 색상의 유사도(similarity)와 도메인 상의 근접도(proximity)에 따라 좀 더 신뢰할 수 있는 국부 기술자에 가중치를 부여한다. 적응적으로 영 역 가중치가 부여된 국부 기술자를 통해 정합 비용을 구함으로써 정합 결과에서의 첨예도(sharpness)를 높일 수 있다^[9～10].

_′_  

∈ 



_′∈ ′_

  ′′_

∈ 



_′∈ ′_

  ′′_ ′_

(13)

여기에서 는 기준영상에서의 영역이고, ′_는 대상영상에서의 영역이다. ^는 다음과 같이 구한 영역 가중치이다.

 exp



^



^^

∆_

 _

∆_

 ⁽¹⁴⁾

∆_



^^_^^^ _^^^ _^

(15)

∆_



^^ _^^^ _^

₍₁₆₎

여기에서 ∆는 색상간의 유사도로 CIELab 색상 공간에서의 유클리디안 거리(Euclidean distance)이며,

∆_는 도메인 상에서 픽셀간의 거리 값을 유클리디안 거리로 구한다. 식 (14)에서 ^와 ^는 ^∆와 ^∆의 상대적인 중요도를 조절하는 파라미터이다.

다음으로 식 (17)과 같이 국부 기술자 간의 상관계수 (coefficient of correlation)를 통해 정합 비용을 구한다.

상관계수를 통해 정합 비용을 구하는 방법은 공분산 (covariance)과 표준편차(standard deviation)를 이용하 여 광량 변화에 의해 국부 기술자가 편중되는 현상에서

도 강건한 장점이 있다.

_



^′



^

· dim  _

_

′

 ′∈ ′





∈dim





^  _



^′   _



^′

  ₍₁₇₎

여기에서 _와 _^′는 각각 _와 _^′

의 평균값이다. 또한 은 영역 안에서의 픽셀의 개수 이며, dim은 국부 기술자에 구성된 특징 벡터의 차원수 이다. _와 _^′는 각각 _와 _^′의 표준 편차이다.

하지만 상관계수만을 이용한 정합 방법은 윤곽선 부 분에서 뭉뚱그려지는 효과(fattening effect)로 부정확한 결과를 초래한다. 따라서 본 논문에서는 앞에서 구한 AD 기반의 정합 비용과 상관계수를 통한 정합 비용을 식 (18)과 같이 종합하여 최종 정합 비용을 구한다.

′_ _′_ ^{ }^′_

₍₁₈₎

마지막으로, WTA(Winner-Takes-All) 방법^[2]을 사 용하여 탐색 영역 중에서 시차 값을 결정한다. WTA 방법은 식 (19)와 같이 탐색영역 안에서 계산된 최종 정합 비용들 중에 최소값을 갖는 대응 픽셀의 위치를 시차 값으로 결정한다.

_ arg_∈__′_

(19)

여기에서  ^m in ⋯ _{m ax} 이며,  값은 시 차 값이다. 영상 내 모든 픽셀에 대해 시차 값을 구하고 가깝고 먼 정도를 표현하여 시차맵을 구성한다.

Ⅲ. 실 험

실험은 Middlebury^[11]에서 제공하는 datasets을 사용 하여 진행하였다. Datasets의 스테레오 영상들은 3가지 의 조명환경을 변화시켜가면서 획득되었고, 각 조명환 경에서 노출레벨을 3가지로 달리하면서 획득되어, 시점 별로 총 9장의 영상으로 구성되어 있다.

본 논문에서는 그림 6과 같이 사용되는 기준영상을 조명(1)-노출(1)로 고정하고, 그림 7과 같이 대상영상에 서의 조명환경과 노출레벨을 각각 달리하면서 실험하였 다. 따라서 각각의 Dataset별로 6개의 시차맵을 얻고,

(7)

(a) (b) (c) (d) (e) (f)

그림 7. ‘Art’ 영상(위)과 ‘Aloe’ 영상(아래)의 대상영상 dataset : (a) 조명(1)-노출(0) 환경에서 획득된 대상영상, (b) 조명 (1)-노출(1) 환경에서 획득된 대상영상, (c) 조명(1)-노출(2) 환경에서 획득된 대상영상, (d) 조명(2)-노출(0) 환경에 서 획득된 대상영상, (e) 조명(2)-노출(1) 환경에서 획득된 대상영상, (f) 조명(2)-노출(2) 환경에서 획득된 대상영 상

Fig. 7. The target image of each one of the ‘Art’ dataset (up) and the ‘Aloe’ dataset (down) : (a) the target image with illumination(1)-exposure(0), (b) the target image with illumination(1)-exposure(1), (c) the target image with illumination(1)-exposure(2), (d) the target image with illumination(2)-exposure(0), (e) the target image with illumination(2)-exposure(1), and (f) the target image with illumination(2)-exposure(2).

Middlebury에서 제공된 ground truth 영상과 비교하여 평가하였다.

제안하는 방법과 기존의 방법들의 정량적인 성능 평 가를 위해 Scharstein^[2]이 제안한 방식으로 오정합 비율 (percentage of bad pixels) 를 계산하였다.

(a)

(b)

그림 6. ‘Art’ 영상(a)과 ‘Aloe’ 영상(b)의 기준영상과 ground truth 영상

Fig. 6. The reference image of each one of the ‘Art’

dataset (a) and the ‘Aloe’ dataset (b) and the ground truth.

_{ }







∈^_^{ }

₍₂₀₎

여기에서 _는 추정된 시차맵이고, __{는 ground} truth 영상이다.  영상에서의 모든 픽셀 에 대하여 계 산하며, 은  영상에서 모든 픽셀 의 개수이다. 

는 시차 값에서의 허용오차(tolerance)이다.

1. 엔트로피를 이용한 적응적 가중치 실험

제안하는 방법에서 엔트로피 정보를 이용한 적응적 가중치의 성능을 판단하기 위해 국부 기술자만을 사용 한 정합 결과와, 엔트로피를 이용한 적응적 가중치 방

(a) (b)

그림 8. ‘Art’ 영상에서의 엔트로피를 이용한 적응적 가 중치 방법을 사용하지 않은 정합 결과(a)와 사 용한 정합 결과(b)의 비교

Fig. 8. The comparison of using (a) or not using (b) that adaptive weight via entropy method of the

‘Art’ dataset.

(8)

(a) ill(1)-exp(0) (b) ill(1)-exp(1) (c) ill(1)-exp(2) (d) ill(2)-exp(0) (e) ill(2)-exp(1) (f) ill(2)-exp(2) 그림 10. ‘Art’ dataset에서의 비교 알고리즘과 제안하는 방법의 시차맵

(첫 번째 행부터 ANCC, GradAdapWgt, CDFofGrad, 제안하는 방법 순)

Fig. 10. The resulting disparity map of comparison methods and the proposed method of the ‘Art’ dataset.

(from the first row ANCC, GradAdapWgt, CDFofGrad, and the proposed method).

그림 9. ‘Art’ 영상에서의 엔트로피를 이용한 적응적 가 중치 방법을 사용하지 않은 정합 비용과 사용 한 정합 비용의 비교

Fig. 9. The comparison of matching cost using or not using that adaptive weight via entropy method of the ‘Art’ dataset.

법을 이용한 국부 기술자의 정합 결과를 비교하였다.

그림 8에서의 (a) 영상은 제안한 방법 중 엔트로피를 이용한 적응적 가중치 방법을 제외하고 색상 정보와 그 라디언트 정보 및 텍스쳐 정보로 구성된 국부 기술자만 으로 정합하여 구한 시차맵이며, (b) 영상은 적응적 가 중치 방법을 적용한 국부 기술자를 통해 구한 시차맵이 다. 국부 기술자에 적응적 가중치를 부여함으로써 부분

적으로 오정합이 생겼던 부분이 개선되는 것을 볼 수 있다. 또한 그림 9와 같이 정합 비용의 비교를 통해 시 차 값이 0으로 선택되면서 생긴 오정합이 엔트로피를 이용한 적응적 가중치가 부여되면서 정합 비용이 개선 되어 정확한 시차 값이 선택되는 것을 확인할 수 있다.

2. 성능 비교 평가

제안하는 방법과 기존의 광량 변화에 강건한 스테레 오 정합 방법들과 비교하였다. 실험을 위해 제안하는 방법에서의 파라미터는 35×35 크기의 윈도우를 사용하 였고, 와 는 각각 8.4와 19.8의 값을 사용하였다. 비 교 평가를 위한 ANCC, GradAdapWgt, CDFofGrad 방 법은 각각 논문에서 제시된 파라미터를 사용하였다.

그림 10은 ‘Art’ dataset에 대한 실험 결과이다. 제안 하는 방법이 기존의 방법들보다 광량 변화에 강건하게 시차맵을 구하였다. 특히, 석고상의 머리 부분에서 다른 방법들보다 더 높은 정합률을 보여주었으며, 객체의 윤 곽 부분에서 첨예도가 높은 결과를 얻었다. 그림 11은

‘Aloe’ dataset에 대한 실험 결과이다. 조명(1)-노출(0)

(9)

(a) ill(1)-exp(0) (b) ill(1)-exp(1) (c) ill(1)-exp(2) (d) ill(2)-exp(0) (e) ill(2)-exp(1) (f) ill(2)-exp(2) 그림 11. ‘Aloe’ dataset에서의 비교 알고리즘과 제안하는 방법의 시차맵

(첫 번째 행부터 ANCC, GradAdapWgt, CDFofGrad, 제안하는 방법 순)

Fig. 11. The resulting disparity map of comparison methods and the proposed method of the ‘Aloe’ dataset.

(from the first row ANCC, GradAdapWgt, CDFofGrad, and the proposed method)

(a) (b) (c)

그림 12. 제안하는 방법과 비교 방법들의 오정합 비율 비교 :

(a) ‘Art’ dataset, (b) ‘Aloe’ dataset, (c) ‘Art’와 ‘Aloe’ dataset에서의 평균

Fig. 12. The comparison of bad pixels percentage between the proposed method and methods of comparison : (a) the ‘Art’ dataset, (b) the ‘Aloe’ dataset, and (c) the average of ‘Art’ and ‘Aloe’ dataset.

환경에서 획득된 영상의 화분 부분에서는 제안하는 방 법에서 오정합이 발생한 것을 확인할 수 있지만, 그 외 의 부분과 다른 환경의 영상에서는 제안하는 방법이 배 경 및 객체 부분에서 오정합이 더 적게 발생되었다.

정량적인 비교 평가를 위해 ground truth를 기준으로

시차맵 결과에서의 오정합 비율을 구하였다. 시차 값에 서의 허용오차는 1의 값을 사용하였다. 그림 12와 같이

‘Art’ dataset과 ‘Aloe’ dataset에서의 제안하는 방법과 기존의 방법들에 대해 오정합 비율을 각각 비교하고 두 dataset에서의 평균치를 비교하였다. 제안하는 방법이

(10)

기존의 광량 변화에 강건한 스테레오 정합 방법보다 전 체 영역에서의 오정합 비율이 낮았으며, 광량 변화에 가장 강건한 결과를 보였다.

Ⅳ. 결 론

본 논문에서는 스테레오 영상을 취득하는 과정에서 발생할 수 있는 광량의 변화에 강건한 스테레오 정합 방법을 제안하였다. 기존의 단편적인 정보만을 사용하 는 스테레오 정합 방법들은 조명의 변화, 카메라 설정 값의 차이 등으로 광량이 변화된 스테레오 영상에서 정 확한 시차맵을 추정하지 못한다. 반면에 제안하는 방법 에서는 밝기 정보와 그라디언트 정보 및 텍스쳐 정보를 사용하여 스테레오 영상에서의 광량 변화에 강건한 성 능을 보였다. 또한, 엔트로피 정보를 이용한 적응적 가 중치를 부여하여 정확한 대응점을 추정할 수 있는 장점 이 있다.

실험 결과, 실제 노출 시간의 변화, 조명의 변화가 발 생하였을 때 획득된 스테레오 영상에서 평균적으로 약 4.772 %의 오정합 비율로 기존의 방법들에 비해 시차맵 을 정확히 추정하였다. 이는 실제 스테레오 비전 시스 템에서 발생할 수 있는 다양한 광량 변화에 대해 좀 더 강건하게 3차원 정보를 추정할 수 있음을 뜻한다.

향후에는 확률 모델을 통해 폐색영역에서의 정합 결 과를 개선하는 방법에 대해 연구를 진행할 예정이다.

REFERENCES

[1] D. Marr, Vision: A Computational Investigation into the Human Representation and Processing of Visual Information, San Francisco: W. H.

Freeman, 1982.

[2] D. Scharstein and R. Szeliski, “A taxonomy and evaluation of dense two-frame stereo correspondence algorithms,” International Journal of Computer Vision, vol. 47, no. 1, pp. 7-42, May 2002.

[3] G. D. Finlayson, S. D. Hordley, and P. M.

Hubel, “Color by Correlation: A Simple, Unifying Framework for Color Constancy,” IEEE Transactions on Pattern Analysis and Machine Intelligences, vol. 23, no. 11, pp. 1209-1221, Nov.

2001.

[4] Y. S. Heo, K. M. Lee, and S. U. Lee, “Robust Stereo Matching Using Adaptive Normalized Cross Correlation,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.

33, no. 4, pp. 807-822, Apr. 2011.

[5] L. De-Maeztu, A. Villanueva, and R. Cabeza,

“Stereo Matching using Gradient Similarity and Locally Adaptive Support-Weight,” Pattern Recognition Letters, vol. 32, no. 13, pp.

1643-1651, Oct. 2011.

[6] I. L. Jung, J. Y. Sim, C. S. Kim, and S. U. Lee,

“Robust stereo matching under radiometric variations based on cumulative distributions of gradient,” IEEE International Conference on Image Processing, pp. 2082-2085, Melbourne, VIC, Australia, Sep. 2013.

[7] Y. D. Chun, N. C. Kim, and I. H. Jang,

“Content-Based Image Retrieval Using Multiresolution Color and Texture Features,”

IEEE Transactions on Multimedia, vol. 10, no.

6, pp. 1073-1084, Oct. 2008.

[8] N. C. Kim, M. H. Kim, H. J. So, and I. H. Jang,

“Texture Classification Using Wavelet-Domain BDIP and BVLC Features With WPCA Classifier,” Journal of the Institute of Electronics Engineers of Korea, vol. 49, no. 2, pp. 102-112, Mar. 2012.

[9] K. J. Yoon and I. S. Kweon, “Adaptive Support-Weight Approach for Correspondence Search”, IEEE Transactions on Pattern Analysis and Machine Intelligences, vol. 28, no. 4, pp.

650-656, Apr. 2006.

[10] D. H. Ryu and T. G. Park, “Design of a Realtime Stereo Vision System using Adaptive Support-weight,” Journal of the Institute of Electronics Engineers of Korea, vol. 50, no. 11, pp. 90-98, Nov. 2013.

[11] http://vision.middlebury.edu/stereo

(11)

저 자 소 개 구 자 민(학생회원)

2013년 선문대학교 정보통신공학 과 학사 졸업.

2015년 중앙대학교 첨단영상대학 원 영상학과 석사 졸업.

<주관심분야 : 스테레오 비전, 컴퓨터 비전>

김 용 호(학생회원)

2008년 한서대학교 컴퓨터정보학 과 학사 졸업.

2010년 중앙대학교 첨단영상대학 원 영상학과 석사 졸업.

2010년～현재 중앙대학교 첨단영 상대학원 영상학과 박사 과정.

<주관심분야 : 그래프 정합, 패턴인식, 컴퓨터 비 전>

이 상 근(평생회원)-교신저자 1996년 중앙대학교 전자공학과

학사 졸업.

1999년 중앙대학교 전자공학과 석사 졸업.

2003년 조지아공과대학교 전기 및 컴퓨터 공학과 박사 졸업.

2003년～2008년 Samsung Information and System America, Irvine, CA. Staff Research Engineer.

2008년～현재 중앙대학교 첨단영상대학원 영상학 과 교수

<주관심분야 : 멀티미디어 신호 및 통신, 영상 압 축, 영상 개선 및 복구, 영상 검색, 컬러 보정>

Robust Stereo Matching under Radiometric Change based on Weighted Local Descriptor