비디오에서 양방향 문맥 정보를 이용한 상호 협력적인 위치 및 물체 인식
Collaborative Place and Object Recognition in Video using Bidirectional Context Information
김 성 호†·권 인 소1 Kim Sungho†·Kweon In So1
Abstract In this paper, we present a practical place and object recognition method for guiding visitors in building environments. Recognizing places or objects in real world can be a difficult problem due to motion blur and camera noise. In this work, we present a modeling method based on the bidirectional interaction between places and objects for simultaneous reinforcement for the robust recognition. The unification of visual context including scene context, object context, and temporal context is also. The proposed system has been tested to guide visitors in a large scale building environment (10 topological places, 80 3D objects).
Keywords:Place Recognition, Object Recognition, Bidirectional Context, Video Sequence
1. 서 론
방문객이 복잡한 건물을 둘러 보고 있다고 상상해 보 자. 그는 특정 위치나 물체에 대한 정보를 얻기 위해 안 내가 필요할 것이다. 이러한 안내 역할은 현재 컴퓨터 비전 기술이 접목된 안내 로봇이 수행할 수 있다. 로봇 머리에 있는 웹카메라는 주변 환경에 대한 영상 정보를 제공하며, 로봇의 자체 처리 장치나 네트워크 기반 서 버를 통해 처리된 후, 현재 로봇이 보고 있는 곳의 위치 나 물체 정보를 사람에게 제공하게 된다. 이와 같이 위 치와 물체 인식은 방문객용 안내 로봇이나 서비스 로봇 에게 매우 중요한 기능이다.
현재 컴퓨터 비전 기술로는 범용 위치 및 물체 분 류 (categorization) 성능이 매우 낮은 단계에 있지만, 특정 환경에서의 위치 및 물체 인식(identification)은 최근 강인 시각 특징량 기술(robust local feature)[1][2] 및 SVM, AdaBoost와 같은 강인 분류기의 도입으로 구현 가능하다[3].
그러나, 실제 비디오 영상에서 움직임에 의한 흐려짐, 카메라 잡음, 및 환경의 유사성에 의한 모호성으로 인 해 위치 및 물체 인식이 어렵게 된다. 그림 1은 환경의 유사성에 의해 위치 인식이 모호해지는 예를 보여준다.
최근, 문맥 기반 위치 및 물체 인식 기법에 대한 연구가 활발히 진행되고 있다. Torralba 등은 물체의 레이블과 위치에 대한 강한 사전 정보를 제공하는 기스트 (gist)를 활용하였으며, 시간 문맥(temporal context) 정보를 HMM (hidden Markov model)으로 모델링한 바 있다[5]. Murphy는 기스트 정보와 부스팅 (boosting) 정보를 트리구조로 결 합하여 장면, 물체 인식 기법을 제안하였다[6]. 이러한 접 근법은 장면 정보를 이용하여 물체 인식에서의 모호성 을 제거한다.
그림 1. 환경의 유사성에 의한 모호성 (지금 보는 곳이 어느 층 이지?). 이는 벽에 있는 액자를 구분하여 어느 층인지 분간할 수 있다.
※ 본 논문은 과기부 국가지정연구실사업 (M1-0302-00-0064), 정통부 (MIC) 선도기반기술개발사업 중, KIST 가 주관하는 상호 협력 하는 분신형 네크워크기반 휴머노이드 기술 과제의 지원으로 수행되었음.
† 교신저자:KAIST 전자전산학과([email protected])
1 KAIST 전자전산학과 교수([email protected])
인간 시각 시스템은 낮은 공간 주파수를 이용하여 위치 정보를 빨리 획득할 수 있다. 만약 위치가 모호할 경우, 인각 시각 시스템은 장면 속에 있는 물체 정보를 이용 하여 모호성을 제거한다. 이러한 양방향 상호작용 특성 에 기초하여 위치와 물체 인식에 강인한 기법을 제안한 다. 본 논문에서는 위치와 물체 사이에 존재하는 양방 향 문맥 정보의 상호 작용 특성[4]을 이용하여 위치와 물 체의 모호성을 동시에 없애는 기술에 초점을 맞춘다.
2. 비디오에서 위치 인식 2.1 위치 인식을 위한 그래프 모델
일반적으로 비디오 영상에서 위치 레이블은 잘 알려 진 HMM으로 추정할 수 있다[5]. 본 논문에서는 물체의 양방향 문맥 특성을 고려하여 기존 HMM을 확장한다.
그림 2와 같이 그래프 모델의 일종인 베이시안 넷 (Bayesian Net)을 이용할 경우, 확장 HMM에 대한 설명 이 가능하다. 위치에 대한 확률(belief)은 영상 입력 (M1), 물체 정보 (M2), 그리고 이전 위치 정보 (M4)에 의해 결정된다. 시간 t 에서 위치 노드는 세 가지 정보 즉, 영상으로부터 측정(likelihood) 되는 정보, 물체로부터 오는 하향식 정보, 이전 상태에서 오는 정보로부터 영 향을 받는다. 시간 t 에서 위치 레이블을 Qt∈{1,2, ,LNP}, 전체 영상 특징량을 z , 물체 레이블 벡터를 tG Ort, 위치 상태천이 행렬을 T q q( ', )로 정의할 때, 확장 HMM의 베이시안 표현은 식 (1)과 같다.
1: 1:
1 1
1 1 1 1 1
'
( | , )
( | ) ( | ) ( | , )
( | , ) ( ', ) ( ' | , )
t Gt t
G G
t t t t t t t
G G
t t t t t t
q
p Q q z O
p z Q q p Q q O p Q q z O where
p Q q z O T q q p Q q z O
− −
− − − − −
= ∝
= = =
= =
∑
=r
r r
r r
(1)
t t-1
Ort
Qt 1
Qt−
G
zt M1
M2
M4
t t-1
Qt 1
Qt−
G
zt M1
M4
t t-1
Ort
Qt 1
Qt−
G
zt M1
M2
M4
t t-1
Ort
Qt 1
Qt−
G
zt M1
M2
M4
t t-1
Qt 1
Qt−
G
zt M1
M4
그림 2. 비디오 시퀀스에서 위치 인식을 위한 기존 HMM (좌), 확장 HMM (우).
( tG| t )
p z Q =q (M )은 전체 영상으로부터 들어오는 1 상향식 메시지를 의미하며, (p Qt=q O| rt)
(M )는 물체 2 레이블 정보로부터 들어오는 하향식 메시지를 나타내며,
1 1
( t | tG , t ) p Q =q z− Or−
(M )는 이전 상태로부터 들어오는 4 메시지를 나타낸다. M 는 장면-물체 상관관계 행렬으2 로부터 계산된 물체 메시지를 결합하여 얻어진다. 식 (1)에서 중요한 점은 각각의 메시지를 어떻게 이용하는 가이다. 모든 메시지를 동시에 모두 결합하는 것은 계 산량 측면이나 성능 면에서 좋은 방법이 아니다. 상황 에 따라 세 가지 경우를 고려할 수 있다. 즉, 인식 시스 템을 초기화할 때나 이동 로봇이 kidnap되는 것과 같이 시간 문맥 정보가 전혀 없는 경우, 강한 흐려짐에 의해 정지 문맥이 쓸모 없지만 시간 문맥 정보는 있는 경우, 마지막으로 정지 문맥과 시간 문맥 정보가 모두 유용한 경우이다. 사전에 이와 같은 상황을 알 수 없기 때문에, 식 (2)와 같이 통계적 추정 방법을 제안한다. r 은 시간 문맥이 없는 경우 초기화할 확률을 나타내며(모드 1), α는 정적 문맥이 필요 없는 정상적인 추적 상태일 확 률을 나타낸다(모드 2). 그 외일 경우 위치 추정을 위해 모드 3이 선택된다. 매 프레임에 대해서 선택 확률에 의해 각 모드가 실행된다(본 논문에서는 최적 성능을 갖도록 모드 선택 확률값을 r=0.1, 0.8α= 와 같이 정 했다).
1: 1 2
1: 1 4
1: 1 2 4
1 ( ) : ( | , ) 2 ( ) : ( | , ) 3 (1 ) : ( | , )
t Gt t
t Gt t
t Gt t
Mode r p Q q z O M M Mode p Q q z O M M
Mode r p Q q z O M M M α
α
= ∝
= ∝
− − = ∝
r r
r (2)
2.2 입력 영상 측정 모델링 (M1)
위치 측정 (likelihood) 방법은 특징량의 종류에 따라 두 종류가 있다. [5]에서는 필터 뱅크의 반응 특성을 이 용하여 효과적으로 영상을 표현하였다. 본 논문에서는 위치-물체 인식 시스템을 위해 지역 특징량을 기본적으 로 사용한다[1],[2]. G-RIF (generalized robust invariant feature) 는 SIFT[1]의 일반화된 버전으로써, 일반 영상 혹은 물체 를 원형 파트 (convex part)와 코너 파트 (corner part)로 분 할한 후, 에지, 방향, 색조 (hue)의 지역 히스토그램으로 표현한다. COIL-100 DB에서 G-RIF를 이용한 물체 인식 은 SIFT를 이용한 방법보다 최대 20%의 성능 이득을 보인다[15].
M2
M4
위치 분류를 위해 [7]에서 제안된 “Bags of keypoints” 기 법을 이용하여 장면을 코드북 히스토그램 형태로 표현 한다. 비록 SVM 기반 분류기가 우수한 성능을 보여주 지만, 단순하면서 어느 정도 성능을 보여주는 naïve Bayes 기법을 선택한다. 물체 메시지와 이전 상태로부 터 오는 위치 정보가 이 분류기의 단점을 보완해주는 기능을 한다.
2.3 물체 메시지 모델링 ( )
직접적으로 물체 메시지를 계산하는 것은 쉽지 않다.
만약, 그래프 모델 을 사용한다면 근사화된 메시지를 추정할 수 있다 [8], [9]. 물체 개수 (N )와 물체 분포가 O 주어져있기 때문에 물체에서 위치 노드로 가는 메시지
M 는 식 (3)과 같이 계산 된다. 2
{ }
2
1
( ) ( | ) ( | )
( | ) max ( , ( )) ( ( ))
NO
t t t t ti
i
i i i
t t t t
k
M Q q p Q q O p Q q O
where p Q q O ψ q O k p O k
=
= = = = =
= ∝
r
∏
(3)
i( )
O k 는 3D 물체 (t Oti)를 위한 다중뷰(k 번째) 가설을 나타내며, p O k( ( ))ti 는 이 가설의 확률을 나타낸다.
( ,q O kti( ))
ψ 는 위치 레이블과 물체 레이블 사이의 상관 관계를 나타낸다. 이 상관관계는 레이블된 학습용 물체 의 특정 위치에 대한 빈도수를 이용하여 추정된다. 식 (3)은 BP (belief propagation)의 근사화된 모델로 볼 수 있 다. 추정의 정확도 때문에 Sum-Product 대신 Max- Product 기법이 이용된다. 실제로, 각 물체별 최대 메시 지 (p Q( t=q O| ti))가 결합되어 위치 노드로 메시지가 전 파된다.
2.4 시간 메시지 모델링 ( )
이전 위치 상태에서 현재 위치 상태로 전달되는 시간 메시지는 식 (4)와 같이 표현된다. 이 식은 HMM [5]과 동일하다. 위치 상태 천이 행렬 ( ', )T q q 는 물리적인 경 로를 지나가는 확률을 나타내며, 위치 인식 시에 인식 의 점프가 일어나는 것을 막아준다.
4 1 1
1 1 1
'
( ) ( | , )
( ', ) ( ' | , )
t t Gt t
t tG t
q
M Q q p Q q z O
T q q p Q q z O
− −
− − −
= = =
=
∑
=r
r (4)
3. 비디오에서 물체 인식
3.1 물체 인식을 위한 그래프 모델
일반적으로 비디오에서 물체 노드는 그림3 (c)와 같이 영상 측정 (M ), 위치에서 오는 메시지 (1 M ), 그리고 2 이전 상태에서 오는 메시지 (M4 )의 영향을 받는다.
Murphy 등은 그림 3 (a)와 같이 트리 구조 형태의 그래 프 모델을 이용하여 M 과 1 M 정보를 결합하는 수학2 적 프레임워크를 제안하였다 [6]. Vermaak 등은 그림3 (b)와 같이 다중 물체를 추적하기 위해 M 과 1 M 정4 보를 결합하는 기법을 제안하였다[10].
현재까지 알려진 모델에 의하면, 그래프 모델을 이용 하여 이러한 메시지를 통합하는 것은 제안된 모델이 처 음이다. 간단한 유도를 위해 물체가 상호 독립이라고 가정한다 (물체 간 상호 작용은 [14]을 참조). 이러한 가 정은 여러 물체들이 위치에 대해 조건부로 있기 때문에 수학적으로 타당하다. 따라서, 본 논문에서는 간단한 수 학적 표현을 위해 물체 하나에 대해서만 고려한다. 시 간 t 에서 물체 레이블과 자세로 구성된 하이브리드 상 태 변수를 ( , )Xt= Otθt 로 표현하자. 이 때 물체 자세는 물체 뷰에 대한 similarity 변환 변수를 나타낸다. [11]에 서 소개된 유도 결과에 의하면, 주어진 영상 측정과 위 치 정보로부터 물체에 대한 복잡한 사후 확률 분포는 식 (5)와 같이 샘플 (Monte Carlo)로 근사화된다.
1: 1:
1 1 1
1
( | , ) ( )
( | ) ( | ) ( | ) where
( | , )
N
i i
t t t t t t
i
i i i i
i i t t t t t t
t t i i
t t t
p X z Q w X X
p z X p X Q p X X
w w
q X X z δ
=
− −
−
≈ −
∝
∑
(5)식 (5)에서 보듯이, 가중치 (weight)는 중요도 샘플링 (importance sampling)을 이용하여 계산된다. 여기서
t
t-1 Qt
L
zt M1 M2 M4
1 1
{Ot−,θt−} { , }Otθt
static
q qtemp t
t-1
L
zt M1 M4
1 1
{Ot−,θt−} { , }Otθt
static
q qtemp
Qt
L
zt M1 M2
{ , }Otθt
static
q
(a) (b) (c)
t
t-1 Qt
L
zt M1 M2 M4
1 1
{Ot−,θt−} { , }Otθt
static
q qtemp
t
t-1 Qt
L
zt M1 M2 M4
1 1
{Ot−,θt−} { , }Otθt
static
q qtemp t
t-1
L
zt M1 M4
1 1
{Ot−,θt−} { , }Otθt
static
q qtemp
Qt
L
zt M1 M2
{ , }Otθt
static
q
(a) (b) (c)
그림 3. 비디오에서 물체 인식을 위한 그래피컬 모델. 제안된 모델 (c)에서 현재 물체 노드의 belief는 영상 측정 (M1), 위치 정보 (M2), 및 이전 상태 정보 (M4)로부터 계산된다.
( ti| ti1, )t q X X− z
( |t ti)
p z X 는 영상 측정 (M ), (1 p X Q 는 위치 문맥 ti| t) 정보 (M ), 그리고 2 p X( ti|Xti−1)는 이전 상태에서부터 제공되는 시간 문맥 정보 (M )를 나타낸다. 중요도 혹4 은 제안함수 (proposal function, q X( ti|Xti−1, )zt )는 식 (6) 과 같이 정의된다. 이 형태는 [12]에서 제안된 것과 거 의 유사한 형태이다. 파티클 필터 (particle filter)의 성능 은 제안함수 ( q )를 얼마나 잘 모델링 하는가에 달려있 다. 만약, 모션 사전 정보 (motion prior)만을 이용할 경우, 시스템은 물체의 나타남과 사라짐과 같은 다이나믹 현 상에 대처하지 못하게 된다. 따라서 믹스쳐 제안 함수 의 개념을 현재 시스템에 적용한다. qstatic이 정적 물체 인식 시스템에 의한 제안 함수를, ptemp이 기존의 모션 사전 정보를 나타낸다고 할 때, 최종 제안 함수는 식
Hypotheses (CFCMs) generation by Hough transform
Grouping hypotheses by object ID (m)
Select maximal hypothesis in each hypothesis group
s CFCM IDo
Obj. 1 Obj. 2
CFCM
…
~
binm opt
m m
bin opt
accept if N Th reject if N Th
π ⎧⎪⎨ ≥
⎪⎩ <
max
Obj. 1 Obj. 2 Accept or reject
objects based on Hough bin value ( )Nbinm
Hypotheses (CFCMs) generation by Hough transform
Grouping hypotheses by object ID (m)
Select maximal hypothesis in each hypothesis group
s CFCM IDo
Obj. 1 Obj. 2
CFCM
…
~
binm opt
m m
bin opt
accept if N Th reject if N Th
π ⎧⎪⎨ ≥
⎪⎩ <
max
Obj. 1 Obj. 2 Accept or reject
objects based on Hough bin value ( )Nbinm
(a)
(b)
그림 4. 가설 및 검증 기반 물체 인식 과정 (a) 및 결과 (b).
(6)과 같은 형태를 가진다. 위치 인식에서와 마찬가지로 상황에 대한 사전 정보를 모르기 때문에 다음과 같이 세 가지 형태의 샘플 생성 모드로 나눈다. 재초기화 모 드는 확률 ( r )로 선택되며 이 때 β= 이다. 정상적인 0 추적 모드는 확률 (α)로 선택되며 이 때 β= 이다. 마1 지막으로 하이브리드 추적 모드는 확률 ( 1 r− −α )로 선택되며, 이 때 0< < 이다. 만약, 시간 문맥 정보가 β 1 없을 경우, 정적 물체 인식에 의해서만 샘플이 생성되 며, 정상적인 추적 상태에서는 기존의 제안 함수를 이 용하여 샘플을 생성한다. 정적 문맥, 시간 문맥이 모두 이용 가능할 경우, 믹스처 확률 분포에서 샘플링한다.
1 1
( ti| ti , ) (1t ) static( ti| )t temp( ti| ti ) q X X− z = −β q X z +βp X X− (6)
3.2 제안함수 모델링 ( )
식 (6)에서 제안함수는 이전 물체 상태에서 오는 시간 문맥 (모션 사전 정보)과 입력 영상으로부터 제공되는 정적 문맥으로 구성된다. 시간 문맥은 식 (7)과 같이 모 델링되며, 이 때 물체 레이블과 자세는 서로 독립이라 고 가정한다.
( ) ( )
( ) ( )
1 1 1
( i| i ) ( i | i ) ( i | i )
temp t t temp t t temp t t
p X X− =p O O− p θ θ− (7)
여기서Ot( )i =Ot( )−i1, 0t> , θt( )i =θt( )−i1+ut , 그리고 u 는 t 가우시안 모션 분포이다. 시간 문맥은 정상적인 물체 추적 상태를 의미한다.
정적 제안 함수 qstatic(X z 는 입력 영상에서 추출ti| )t 한 특징량 (G-RIF)과 데이타베이스에 저장된 물체 특징 량 사이의 대응쌍으로부터 일반화된 Hough 변환 (similarity 변환 공간)을 통해 추정한다. 또한 3D 물체에 대한 확장성 있는 표현과 인식을 위해 [13]에서 제안한 공유 특징량과 뷰클러스터링 기법을 사용한다.
그림 4는 물체 인식 과정을 보여준다. 입력 영상에서 추출한 특징량과 DB 특징량과의 k-NNC (k-nearest neighbor classifier)를 이용하여 가능한 대응쌍을 만든다.
매칭쌍으로부터 클러스터뷰 ID (CFCM: common frame constellation model), 스케일 (11단계), 방향 (8단계) 공간 에 대해 Hough 변환을 통해 물체 가설을 생성한다. 이 때, 가설은 현재 가능한 물체 뷰들로 구성되기 때문에 한 물체당 다중 뷰샘플로 이루어진다. 물체 별 가설들 은 최적 문턱치[14]에 의해 결정된 빈값을 이용하여 선택
M1
M2
M4
되며, 최종적으로 각 물체들에 대해 입력 영상과 가장 잘 매칭되는 가설이 선택된다.
3.3 영상 측정 모델링 ( )
주어진 물체 샘플 (Xti=( , )Otiθti )에 대해, 영상 측정
1 ( |t ti)
M =p z X )는 정규화된 r-g 공간에서 칼라 히스토 그램의 유사도를 이용하여 모델링한다. 물체 모델의 칼 라 히스토그램은 앞서 설명한 제안 함수가 물체 레이블 과 물체 영역을 검출하여 주기 때문에 이를 이용하여 계산된다. 히스토그램을 사용하기 때문에 χ2 거리를 이용하여 유사도를 측정한다[3]. 모델의 칼라 히스토그램 은 다이나믹 환경 변화에 적응하기 위해 정적 제안 함 수에서 샘플링된 결과를 이용하여 업데이트한다.
3.4 위치 메시지 모델링 ( )
위치 노드에서 특정 물체로 가는 메시지는 식 (8)과 같이, 근사화된 BP와 max-product 기법을 이용하여 계산 된다.
2 (( ,ti ti| t) max{ ( ,ti t ) ( t )}
M =p O θ Q ∝ q ψ O Q =q p Q =q (8)
3.5 시간 메시지 모델링 ( )
식 (6)에서 시간 메시지 (M4=p X( ti|Xti−1))는 식 (7) 에서 제안 함수와 동일하다. 물체 샘플이 시간 문맥에 서만 선택될 경우, 가중치는 식 (6)에서 단순히 영상 측 정과 위치에서 물체로 오는 메시지의 곱으로만 표현 된다.
4. 실험 결과
4.1 양방향 상호 협력 특성 검증
첫째, 위치와 물체 인식의 상호 협력적인 특성을 검증 하기 위하여 모호한 영상을 이용한다. 그림 5 (a)와 같이 물체 자체의 정보만을 이용할 경우, 두 물체의 특징량 이 유사하여 구분하는 데 실패한다. 그러나, 위치로부터 물체로 가는 정보를 이용할 경우 그림 5 (b)와 같이 모 호한 두 물체를 구분할 수 있다. 점선은 위치의 모호성 을 제거하기 위해 물체에서 위치로 전달되는 메시지를 나타내며, 실선은 물체의 모호성을 제거하기 위해 위치 에서 물체로 전달되는 정보를 나타낸다(헤어드라이어,
(a)
(b)
그림 5. (a) 물체 자체 특징량만을 이용한 물체 인식 결과[4] (b) 위치와 물체의 상호작용 특성을 적용한 인식 결과.
probability
Location
Elevator in 4thfloor MAP solution
Wrong!!
probability
Location
probability
Location
Elevator in 4thfloor MAP solutionMAP solution Wrong!!
(a)
Message from objects
probability
Location
Correct!!
Message from objects
probability
Location
Correct!!
(b)
그림 6. (a) 영상 관측만 (M1)을 이용한 위치 인식, (b) 영상 측 정과 물체 메시지 (M2)를 동시에 이용한 위치 인식
드릴). 둘째, 그림 1과 같이 층이 다른 엘리베이터 위치 영상에 대해, 영상 측정만을 이용할 경우, 그림 6 (a)과 같이 오인식을 하게 된다. 그러나, 물체에서 제공하는 문맥 정보를 추가로 활용할 경우, 그림 6 (b)와 같이 올 바른 결과를 얻을 수 있다. 중앙 그래프는 측정 메시지 를, 오른쪽 그래프는 물체에서 오는 메시지를 나타내며 결합된 메시지 정보는 왼쪽 그래프와 같다(식 (2), 모드 1 참고).
4.2 빌딩 가이드를 위한 실제 환경에서 실험
제안된 상호 협력적인 위치-물체 인식 시스템의 성능 검증을 위해 KAIST 전기전자건물의 1층 로비에서 3층 연구실까지 방문객을 가이드 할 수 있도록 실험 데이터 를 구축하였다. 학습용 데이터의 구성 및 모델은 표 1 과 그림 7에 각각 나타나있다. 학습을 위해 120장을 캡 처한 후 10개의 위치에 대해서 레이블링을 하고, 80개의 물체에 대해 레이블링과 분할을 한다. 캠코더 (SONY- F717)로 촬영되었기 때문에 영상 자체에 잡음이 많고 모션 블러도 많다. 확장성 있는 물체 표현 기법으로 학
[표 1] 학습용 및 테스트용 데이터베이스 구성표 장면 (640*480) 물 체 역할
위치 개수 영상 개수 물체 개수 뷰 개수
학습 10 120 80 209
테스트 10 7,208 80 12,315
Training scenes (very blurry, noisy) Training scenes (very blurry, noisy)
Training objects (very blurry, noisy) Training objects (very blurry, noisy)
Training scenes (very blurry, noisy) Training scenes (very blurry, noisy)
Training objects (very blurry, noisy) Training objects (very blurry, noisy) Training objects (very blurry, noisy) Training objects (very blurry, noisy)
그림 7. 학습용 위치 영상 및 물체 영상
습한 후 물체 특징량은 42,433개에서 30,732개로 줄었으 며, 위치 특징량도 106,119개에서 62,610개로 줄었다. 학 습한 물체뷰의 개수는 260개에서 209개로 물체당 평균 2.61개의 다중뷰가 얻어졌다.
우선, 위치 인식에 대한 성능을 평가하였다. 앞서 언급하였듯이, 다음과 같이 네 종류의 메시지 결합이 가능하다. 영상 측정 (M1)만 있는 경우, 시간 문맥이 결합된 경우 (HMM: M1+M4), 정적 문맥만 있는 경우 (M1+M2), 그리고 전체 통합 문맥이 있는 경우 (proposed: M1+M2+M4)로 구분된다.
그림 8은 7,208 프레임에서 100프레임 간격으로 결과 를 샘플링 했을 때 위치 인식 결과를 나타낸다. 결과에 서 보듯이, 정지 문맥과 시간 문맥을 결합한 모델에서 오인식률이 현격히 낮아 지는 것을 알 수 있다.
그림 9는 정적 문맥만 사용할 경우, 정적과 시간 문 맥을 모두 사용할 경우, 그리고 시간 문맥을 사용할 경 우 물체 인식에 대해 전반적으로 비교한 것이다. 그래 프로부터 물체 인식률과 상대적인 처리 시간을 비교할 수 있다. 제안한 통합 문맥 기반 인식 기법이 정적 문맥 만 이용한 방법보다 향상된 인식률과 보다 적은 처리 시간을 갖는다는 것을 보여준다.
그림 10은 상호 협력적인 위치와 물체 인식 결과의 일부를 보여준다. 정적 문맥과 동적 문맥을 상호 보완 적인 위치 인식과 물체 인식에 접목함으로써 비디오 시 퀀스에서 상당한 가려짐이나 가변 물체 개수에 대해 강 인한 인식 특성을 보여준다.
Ground truth Recognized t-1 t
place object place
Ground truth Recognized t-1 t
place object place
그림 8. 영상 측정, 시간 문맥, 정적 문맥, 및 통합 문맥을 이용한 위치 인식
Static context only Full context Temporal context only 0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Performance Evaluation
Type of video interpretaton
Rate
Detection Rate Relative processing time
(a)
#688 #689 #701
#688 #689 #701
#688 #689 #701
#688 #689 #701
(b)
그림 9. (a) 물체 검출율과 상대적인 인식 시간 관점에서의 성 능 비교, (b) 위쪽 시퀀스는 정적 문맥만을 이용한 인 식 결과를 나타내며 아래쪽 시퀀스는 제안된 시스템을 이용했을 때 인식 결과.
#1778 #1818 #1926
#813 #846 #912
#2495 #2504 #2779
#1778 #1818 #1926
#813 #846 #912
#2495 #2504 #2779
그림 9. 로비와 엘리베이트 환경에서 상호보완적인 위치 및 물체 인식 결과 예
5. 결 론
본 논문에서는 비디오 시퀀스에서 위치와 물체 사이 의 상호 작용에 초점을 맞추면서 영상 문맥 정보를 모 델링하는 기법을 제안하였다. 우선, 위치의 모호성을 제
거하기 위해 물체로부터 위치로 가는 메시지를 모델링 하였다. 통합된 문맥 기반 위치 인식 시스템은 개선된 인식 결과를 보여주었다. 또한, 물체 인식을 위해 위치 메시지, 영상 측정 및 시간 문맥 정보를 확률 프레임워 크에서 결합되는 모델을 제안하였다. 이러한 구조의 물 체 인식 기법은 모호한 물체 인식을 제거하며, 계산량 도 줄이는 특성을 보여준다. 실제 빌딩 환경에서 위치- 물체 인식 실험을 통하여 양방향 상호 작용의 시너지를 검증하였다. 본 논문에서 제안된 문맥 기반 상호협력적 위치 및 물체 인식 시스템은 지능형 서비스 로봇 분야 나, 인간-컴퓨터 상호작용(HCI) 분야에도 활용될 것으로 보인다.
[1] D. G. Lowe, “Distinctive Image Features from Scale- Invariant Keypoints,” International Journal of Computer Vision, Vol. 60, No. 2: 91-110, 2004.
[2] S. Kim, I. S. Kweon, “Biologically Motivated Perceptual Feature: Generalized Robust Invariant Feature,” Lecture Notes in Computer Science, Vol. 3852 (ACCV’06), pages 305-314, 2006.
[3] C. Wallraven, B. Caputo, A. Graf, “Recognition with Local Features: the Kernel Recipe,” In IEEE International Conference on Computer Vision, pages, 257-264, 2003.
[4] M. Bar, "Visual Objects in Context,” Nature Reviews Neuroscience, 5:617-629, 2004.
[5] A. Torralba, K.P. Murphy, W.T. Freeman and M.A.
Rubin, “Context-based Vision System for Place and Object recognition,” In IEEE International Conference on Computer Vision, vol.1, pages 273-280, Nice, France, 2003.
[6] K. Murphy, A. Torralba, W. T. Freeman, “Using the Forest to See the Trees: A Graphical Model Relating Features, Objects, and Scenes,” NIPS, 2003.
[7] G. Csurka, C. R. Dance, L. Fan, J. Willamowski, C. Bray,
“Visual Categorization with Bags of Keypoints,” In European Conference on Computer Vision, 2004.
[8] M. I. Jordan, editor, Learning in Graphical Models, MIT Press, 1999.
[9] J. S. Yedidia, W. T. Freeman, Y. Weiss, "Understanding Belief Propagation and its Generalization," Exploring Artificial Intelligence in the New Milennium, Chap. 8, pp.
239-269, 2003.
[10] J. Vermaak, A. Doucet, P. Perez , “Maintanining Multi- Modality through Mixture Tracking,” In IEEE
International Conference on Computer Vision, 2003.
[11] B. Ristic, S. Arulampalam, N. Gordon, Beyond the Kalman, Filter-Particle Filters for Traking Applications, Artech Hous London, 2004.
[12] K. Okuma, A. Taleghani, N. D. Freitas, J. J. Little, and D.
G. Lowe, “A Boosted Particle Filter: Multitarget Detection and Tracking,” In European Conference on Computer Vision, 2004.
[13] S. Kim, I. S. Kweon, “Scalable Representation and Learning for 3D Object Recognition using Shared Feature- based View Clustering,” Lecture Notes in Computer Science, Vol. 3852 (ACCV’06), pp.561-570, 2006.
[14] E. Murphy-Chutorian, J. Triesch, "Shared Features for Scalable Appearance-based Object Recognition," In Workshop on Advance Computer Vision (WACV’05), 2005.-
[15] Z. Khan, T. Balch, F. Dellaert, “MCMC-Based Particle Filtering for Tracking a Variable Number of Interacting Targets”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 11: 1805-1819, 2005.
[16] S. Kim, K.-J. Yoon, and I. S. Kweon, “Object Recognition Using a Generalized Robust Invariant Feature and Gestalt's Law of Proximity and Similarity”, IEEE CVPR Workshop on Perceptual Organization in Computer Vision (POCV 06), 2006.
권 인 소 1981 서울대 기계설계학과
(학사)
1983 동대학원 (석사) 1990 Carnegie Mellon Univ.
Robotics Institute (박사) 1991-1992 일본 도시바 중앙
연구소 연구원 1992-현재 한국과학기술원 교수
관심분야 : 컴퓨터 비전, 3D 비전, 카메라 보정, 물체 인식, 물체 분류, SLAM
로봇 공학회 (KRS) 정회원
김 성 호 2000 고려대학교 전기전자전
파공학부 (학사) 2002 KAIST 전자전산학과
전기 및 전자공학전공 (석사)
2002~현재 동대학원 박사과정 관심분야 : 물체 인식, 영상 문맥, 지능 로봇 로봇 공학회 (KRS) 학생회원