Utilization of Visual Context for Robust Object Recognition in Intelligent Mobile Robots

(1)

지능형 이동 로봇에서 강인 물체 인식을 위한 영상 문맥 정보 활용 기법

Utilization of Visual Context for Robust Object Recognition in Intelligent Mobile Robots

김 성 호

^†

, 김 준 식

¹

, 권 인 소

²

Kim Sungho

^†

, Kim Jun-Sik

¹

, Kweon In So

²

Abstract

In this paper, we introduce visual contexts in terms of types and utilization methods for robust object recognition with intelligent mobile robots. One of the core technologies for intelligent robots is visual object recognition. Robust techniques are strongly required since there are many sources of visual variations such as geometric, photometric, and noise. For such requirements, we define spatial context, hierarchical context, and temporal context. According to object recognition domain, we can select such visual contexts. We also propose a unified framework which can utilize the whole contexts and validates it in real working environment. Finally, we also discuss the future research directions of object recognition technologies for intelligent robots.

Keywords :

Intelligent robot, Object recognition, Visual context, Spatial context, Hierarchical context, Temporal context.

1. 서 론

최근 지능형 이동 로봇 관련 자동 지도 생성 및 위치 추정 연구 (SLAM)가 활발히 진행되고 있는데, 이동 로봇 이 인간과의, 또는 주변 환경과 상호작용을 하기 위해서 는 물체 인식 또한 필수 요소 기술이다. 예를 들어, 가정 용 서비스 로봇에게 “식탁 위에 있는 빵을 갖고 와라”라 고 명령 했을 때, 이 로봇은 “식탁”, “빵”이 무엇인지 그 리고 어디에 있는지 인식해야 한다.

일반적으로 물체 인식 (object recognition)은 물체 구분 (identification)과 물체 분류 (categorization)를 총칭하지만 주로 전자를 의미한다. 물체 구분은 물체 각각을 서로 다 른 객체로 인식하는 것을 의미하며 물체 분류는 특정 기

준에 부합하는 물체들을 하나의 카테고리로 인식하는 것 을 뜻한다. 머그컵과 커피컵이 있을 때 물체 구분 관점에 서는 서로 다른 물체이지만 물체 분류 관점에서는 같은 컵에 해당한다(그림 1 참조).

Model Test

Identification

Categorization

Model Test

Identification

Categorization

그림 1. 물체 인식의 정의

과거 부품 조립을 위한 물체 인식은 제어된 환경에서 수행되었기 때문에 실용화에 크게 문제가 되지 않았지만, 지능형 이동 로봇을 위한 물체 인식 기술은 일반 환경에 서 로봇이 이동하면서 주변 물체를 인식 해야 하기 때문 에 매우 어려운 문제이다. 문제의 근본 원인은 크게 일반

※ 본 논문은 과기부 국가지정연구실사업 (M1-0302-00-0064), 정통부 및 정보통신연구진흥원의 정보통신선도기반기술개발사업의 연구 결과로 수행되었음.

†

교신저자：KAIST 전자전산학과([email protected])

1

KAIST 정보전자연구소 연구원([email protected])

2

KAIST 전자전산학과 교수([email protected])

(2)

성과 구분성의 어려움에 있다

^[1]

.

이동 로봇 환경에서는 깨끗한 배경, 고정된 조명 하에 서 물체를 보는 위치가 고정돼 있는 것이 아니라 배경이 복합하고 조명 조건도 다양하게 변하고 물체를 보는 위 치도 달라지게 된다. 물체를 학습할 때 이러한 요소들을 다 고려하면 좋겠지만, 실제로 제한된 정보만으로 학습을 한다. 따라서, 학습할 때 주어진 물체 정보에 정확히 부 합하지 않는 환경에 대해 얼마나 잘 대처하는가가 일반 성 (generalization)의 핵심 요소이다. 물체 구분 문제에서 는 동일한 물체를 기하학적, 광학적 변화에 대해서 동일 하게 인식해야 하고, 물체 분류 문제에서는 기하학적, 광 학적 변화 외에도 학습할 때 없었던 물체에 대해서도 동 일한 범주의 카테고리로 분류해야 하는 어려움이 있다.

구분성 (discrimination)이란 서로 다른 물체나 카테고리가 구분되어야 하는 것을 말한다. 실제 영상 획득 시, 영상 잡음, 가려짐, 흐려짐 현상 등에 의해서 물체가 모호하게 보이는 경우가 많다. 또한, 인식해야 할 물체가 많을 경 우 모호성은 더욱 증대된다. 이와 같은 환경에서 메모리 를 최소화하면서 물체를 구분하는 것은 매우 어렵다.

본 논문에서는 일반 환경에서 물체 인식 문제를 풀기 위해 영상 문맥 (visual context)을 정의하고, 이들간의 관 계를 표시하는 계층적 그래피컬 모델을 제안한다 (2장).

또한, 제안된 그래피컬 모델에서 문맥의 활용 범주에 따 른 물체 인식 시스템의 모델링 기법 및 특성에 대해 논 의한다 (3장). 마지막으로 결론과 앞으로 지능형 이동 로 봇에서 물체 인식 기법이 나아가야 할 방향을 전망한다 (4장).

2. 영상 문맥 정보 및 계층적 그래피컬 모델 이동 로봇 환경에서 획득되는 영상은 그림 2 (상)과 같 이 장면 (scene 또는 위치), 물체, 파트, 픽셀로 구성된다.

장면은 현재 카메라가 보고 있는 물리적 위치를 의미하며, 물체는 영상에 잡힌 각각의 객체를 나타낸다. 파트는 물 체를 구성하는 지역 영역을 의미하며, 픽셀은 rgb 값을 표현하는 최소 단위를 나타낸다. 이러한 영상의 구성 요 소들은 독립적으로 랜덤하게 존재하는 것이 아니라 특정 관계 (relation)를 이루며 물체와 관련된 정보를 제공한다.

특정 부분만을 보고도 옆에 무엇이 있는지, 어떤 부분에 속하는지 하는 정보를 예측할 수 있다. 이것이 바로 영상 문맥 (visual context)이다. 정지 영상에서만 볼 경우, 이 들의 관계 정보에 따라 공간 문맥 (spatial context)과 계 층 문맥 (hierarchical context)으로 구성되며, 시간 정보

까지 포함할 경우, 시간 문맥 (temporal context)으로 확 장된다. 이와 같은 영상 구성 요소들은 수학적으로 그림 2(하)와 같이 계층적 그래피컬 모델 (hierarchical graphical model)로 표현할 수 있다. 노드는 영상 구성 요 소를 나타내며, 연결선은 노드들 사이의 확률적 관계를 나타낸다.

공간 문맥은 수평적 영상 구성 요소들 사이의 관계를 의미한다. 공간 관계의 레벨에 따라 픽셀 문맥, 파트 문 맥, 물체 문맥으로 나눌 수 있다. 픽셀 문맥은 픽셀들 사 이에 밝기, 칼라, 에지 관계를 나타내며, 파트 문맥은 눈 밑에 코, 코 밑에 입과 같이 파트들 사이의 관계를 나타 낸다. 물체 문맥은 컴퓨터 모니터, 키보드, 마우스 등과 같이 객체들 사이의 관계를 의미한다 (그림 2 (하)에서 점 선).

Place Context

Part Context

Object Context

Pixel Context Place Context

Part Context

Object Context

Pixel Context

Image or scene Place context

Object context

Part context

Pixel Context 3.1

3.2 3.3 3.4

t ^3.5 t+1

Image or scene Place context

Object context

Part context

Pixel Context 3.1

3.2 3.3 3.4

t ^3.5 t+1

그림 2. 실제 환경에서의 영상 구성 요소 및 표현 (상) 영상으로부터 얻을 수 있는 문맥 정보, (하) 계층적 그래피컬 모델.

(3)

계층 문맥은 수직적 의미 구성 요소들 사이의 파트-전 체 (part-whole) 관계를 의미한다. 파트-전체의 레벨에 따 라 픽셀-파트, 파트-물체, 물체-장면으로 구분된다 (그림 2 (하)에서 실선). 픽셀-파트는 단순 픽셀 정보와 의미있는 파트와의 수직적인 관계를 나타내며, 파트-물체는 눈, 코, 입과 얼굴과의 관계와 같이 의미있는 파트와 전체 물체 와의 수직 관계를 나타낸다. 물체-장면은 식탁, 빵, 수저 등이 부엌에 있는 것과 같이 특정 위치와 이와 상관 관 계가 많은 물체 사이의 관계를 나타낸다

^[2]

.

시간 문맥 (temporal context)은 연속하는 영상 프레임 사 이의 영상 구성 요소들 관계를 의미한다 (그림 2 (하)에 서 화살표). 물체 인식을 시간 문맥으로 확장할 경우, 물 체 ID, 위치 정보를 이전 시간에서 정보로부터 추측 할 수 있기 때문에 보다 강인한 물체 인식을 할 수 있다.

3장에서는 문맥의 범주 별 물체 인식 특성과 장단점, 적용 한계에 대해 논의하도록 한다 (그림 2 (하) 섹션 표 시 참조).

3. 영상 문맥 범주에 따른 모델링 및 인식 특성

3.1. 픽셀 문맥

하나의 픽셀은 밝기 정보 혹은 R, G, B와 같은 칼라 정 보를 갖고 있다. 관심 픽셀 외에 주변 픽셀까지 고려하면 픽셀값의 변화량을 알 수 있다. 이와 같이 공간상의 여러 픽셀들이 모여서 제공하는 픽셀 문맥 정보는 특정 규칙 에 따라 모임으로써 패턴을 갖는다. 초기에는 영상 전체 의 픽셀 문맥을 주성분 분석법 (Principal Component Analysis)으로 압축하였다

^[3]

. 하지만 이와 같은 전역 물체 표현 기법은 배경 잡음이나 가려짐에 매우 약한 특성을 보인다. 최근, 지역 (local) 접근법으로 픽셀 문맥을 표현 하여 강인성을 높이는 방법이 제안되었다

^[4]

. 본 연구에서 는 일반성과 구분성을 동시에 만족하도록 하는 지역 영 상 패치 검출 및 표현 기법에 대해서 소개하도록 한다.

지역 제니케 모멘트 (Local Zernike Moment)

제니케 모멘트는 영상을 다차원 기저 함수 (polynomial basis function)에 투영할 때 생기는 변수로 표현한다. 퓨리 에 변환과 거의 같지만 기저 함수 종류가 다르다. 평면 공간 상의 픽셀 관계를 변수 공간 (parameter space)에서 보기 때문에 영상의 공간 주파수 정보가 변수에 저장되 어 구분성을 갖게 한다. 차수별로 정의된 변수를 하나의 벡터로 만들 경우 영상을 표현하는 기술자 (descriptor)가 된다. 제니커 모멘트 자체는 잡음에 강인하고 모멘트의 크기를 취할 경우, 평면 회전에 불변인 특성이 있어 예전

부터 문자 표현에 주로 이용되었다. 문자 기술에서는 분 할된 문자에 대해 전역으로 제니케 모멘트를 추출하지만, 물체 인식 문제에서는 물체가 배경과 구분되기가 매우 어렵기 때문에 지역 접근법을 이용한다. 즉, 해리스 (Harris) 코너점을 중심으로 하는 패치를 검출한 후 모멘 트를 추출한다.

이 때, 조명의 밝기가 변하게 되면 그림 3의 좌측과 같 이 모멘트값이 밝기에 비례하는 문제가 생긴다. 그러나,

Z 모멘트로 정규화를 할 경우, 그림 3의 우측 그래프

00

와 같이 조명에 강인한 특성을 갖게 된다. 스케일 변화에 대한 문제는 스케일스페이스 영상을 구축하여 모멘트를 추출한다.

Without illumination invariant With illumination invariant Without illumination invariant With illumination invariant

그림 3. 조명 밝기에 강인한 제니케 모멘트

ON-LINE

Input Scene

Interesting Points

Zernike Moments

Probabilistic Voting

Verification

End Model DB Image

Interest Points in Scale Space

Zernike Moments OFF-LINE

Generate DB

Recognition

ON-LINE

Input Scene

Interesting Points

Zernike Moments

Probabilistic Voting

Verification

End Model DB Image

Interest Points in Scale Space

Zernike Moments OFF-LINE

Generate DB

Recognition

그림 4. 제니케 모멘트와 보팅을 이용한 물체 인식 시스템

지역 제니케 모멘트, 보팅 및 호모그래피를 이용한 검 증을 결합할 경우 그림 4와 같이 간단한 물체 인식 시스 템을 구축할 수 있다

[5],[12],[13],[18]

. 모델 획득 단계에서는 각 물체당 한 장의 영상에 대해 스케일 스페이스를 구축한 후 이로부터 코너점을 검출한다. 코너점을 중심으로 영상

(4)

패치를 만든 후 제니케 모멘트를 추출한다. 특징량들 사 이의 관계를 독립으로 간주 하고 있기 때문에 물체 별로 저장만 하면 된다.

인식 단계에서도 마찬가지 특징량을 추출하고, NNC (nearest neighbor classifier)로 어느 물체의 특징량인지 모델 에서 검색한 후, 보팅이 가장 많이 된 순으로 검증을 한 다. 입력 영상과 모델 영상 사이에 호모그래피 관계가 성 립할 경우, 물체 내의 특징량이 공간적으로 부합이 되므 로 인식된 것으로 판단한다. 지역 제니케 모멘트는 29차 원의 특징량 벡터 크기만으로 SIFT

^[6]

(128차원)와 유사한 매칭 특성을 보여준다.

일반화된 강인 특징량 (G-RIF: Generalized Robust Invariant Feature)

픽셀 문맥을 불변성과 구분성 관점에서 보다 발전 시 킨 방법이 G-RIF이다

^[7]

. 우선, G-RIF는 물체를 원형 파트 (convex part)와 코너 파트 (corner part)로 분할한다. 원형 파트는 의미있는 파트로 물체를 나누고 코너 파트는 원 형 파트를 잇는 역할을 한다. 지역 제니케 모멘트에서는 스케일 스페이스를 적용하여 스케일에 따라 패치를 추출 하였지만 최근 제안된 자동 크기 선택 이론 (automatic scale selection)을 적용할 경우, 크기 변화에 관계없이 패치 를 추출할 수 있다

^[8]

. 그림 5 (a)는 제안된 물체 분할 기법 을 나타낸다. 기본적으로 가우시안 스케일스페이스 피라 미드를 만든 후, 해리스 코너점과 DoG 점을 추출한다.

이 점들을 중심으로 스케일스페이스 상에서 자동 크기 선택 이론을 적용하여 패치의 크기를 결정한다. 그림 5 (b)는 제안된 기법을 적용한 예를 보여준다. 결과에서 보 듯이, 상호 보완적인 물체 분할이 됨을 알 수 있다. 또한 이 기법은 인간의 시각 집중 특성에 근거한다.

이와 같이 추출된 패치에 대해서 일반성과 구분성을 동시에 고려하여 특성화 하는 것은 매칭에 있어서 매우 중요하다. 이것은 픽셀 문맥을 적절히 활용하면 해결할 수 있다. Sub-divide & disorder 라고 불리는 이 기법은 패치 를 서브 영역으로 나누며 (sub-divide), 서브 영역 내에서 는 픽셀 문맥 정보를 이용하지 않고 (disorder) 서브 영역 사이에 문맥 정보를 활용하는 기법이다. Sub-divide에 의 해 구분성이 보장되며, disorder에 의해서 영상의 가변성을 흡수한다. 이 기법은 지역 히스토그램 (localized receptive field histogram)으로 구현한다. 그림 6은 지역 히스토그램 기법을 독립 특징맵 (에지 크기, 방향, 칼라)에 적용한 후 통합하여 패치 기술자 (descriptor) 를 만드는 과정을 보여 주고 있다. 상호보완적 물체 분할 및 지역 히스토그램에 의한 기술자 생성 (G-RIF)은 SIFT의 일반화된 것으로 볼

수 있으며, 그림 7 (a)에서 보듯이 COIL-100 DB에 대해 G-RIF를 이용한 인식률이 SIFT를 이용한 경우보다 최대 20%이상 높게 나옴을 알 수 있다. 그림 7 (b)는 35도 시점 에서 G-RIF와 SIFT의 매칭 특성을 보여주고 있다. G-RIF 가 보다 많은 점에서 안정적으로 매칭함을 알 수 있다.

Gaussian Scale-space

Image Pyramid Subtract between Scale-space images:

DoG Subtract within

Scale-space image:

Ix, Iy

Local Maxima:

(x, y, scale)

Tuning locations, scales

Location, scale selection by MAX

Corner Part Convex Part

Gaussian Scale-space

Image Pyramid Subtract between Scale-space images:

DoG Subtract within

Scale-space image:

Ix, Iy

Local Maxima:

(x, y, scale)

Tuning locations, scales

Location, scale selection by MAX

Corner Part Convex Part

(a) 효과적인 물체 분할 기법

(b) 물체 분할 예: (좌) 원형 파트 (중) 코너 파트 (우) 제안된 방법

그림 5. 상호 보완적인 물체 분할 기법

Edge density

Orientation field

Hue field

1

×

Vector

그림 6. 불변성과 구분성을 만족시키는 지역 히스토그램 통합 기법

(5)

90 70 90

70

(a) 시점 변화에 따른 인식률

G-RIF

SIFT G-RIF

SIFT

(b) 35도 시점에서의 매칭 결과

그림 7. COIL-100 DB에서 G-RIF와 SIFT의 성능비교

이와 같이 특징점을 중심으로 주변 픽셀의 상관관계를 표현하는 픽셀 문맥 모델링 기법은 강인한 지역 특징량 을 제공한다. 이 특징량 자체만으로도 물체 인식에 강인 성을 보장한다. 그러나, 물체가 복잡한 배경에 있을 경우, 인식률이 현저히 낮아지는 한계가 있다. 배경에 대한 강 인성은 파트 문맥을 활용하여 성능을 올릴 수 있다.

3.2. 픽셀 문맥 + 파트 문맥

가중치 누적 기반 보팅 (Weight Aggregated Voting) 그림 7 (b)의 예와 같이 물체 배경이 깨끗하거나 물체 가 분할되어 있을 경우 특징량 자체 특성만으로 우수한 인식 특성을 얻을 수 있다. 그러나, 물체 뒤쪽에 복잡한 배경이 있고 물체 분할이 어려울 경우, 배경 특징량에 의 해 오인식이 자주 발생하게 된다. 앞 절에서 제안한 픽셀 문맥 (G-RIF) 외에 특징량들 사이에 그룹핑 특성 (파트 문맥)을 이용할 경우 배경 잡음에 강인한 인식을 할 수

있다

^[9]

. 그림 8과 같이, 게쉬탈트 법칙 (Gestalt’s law) 중에 유사성 (similarity)와 인접성 (proximity)를 물체 파트에 적 용할 경우, 보팅 시 배경 잡음의 영향을 줄일 수 있다. 즉, 물체 내부의 파트들은 같은 라벨을 공유하고 있으며, 공 간적으로 인접해있다. 따라서, 물체 내부에 해당하는 파 트의 가중치는 증대되며, 배경에 있는 파트의 가중치는 낮아지게 된다.

Object parts are grouped by Similarity

of part label,

Proximity of part distance

Strong weight aggregation

Weak weight aggregation

l

그림 9. 배경 잡음에 대한 강인성 실험 결과

그림 9는 CMU DB에 대해서 배경 잡음의 크기에 따른 인식률을 비교한 그래프이다. 가중치 누적에 의한 보팅 기법이 거리비 ([6])를 이용한 보팅이나 최적 거리 유사성 을 이용한 보팅보다 강인한 인식 특성을 보여준다.

이와 같이 픽셀 문맥에 파트 문맥을 추가함으로써 복 잡한 배경에서도 강인하게 물체 인식을 할 수 있음을 알 수 있다. 그러나, 실제 물체 인식에서는 물체의 ID외에 물체의 자세도 알아야 하며, 수많은 3D 물체에 대한 인

(6)

식 능력도 매우 중요하다. 이와 같은 이슈들은 물체 문맥 을 활용함으로써 해결할 수 있다.

3.3. 픽셀 문맥 + 파트 문맥 + 물체 문맥

공유 프레임 기반 성좌 모델

(Common-Frame Constellation Model)

물체 문맥은 물체를 구성하는 파트들에 대한 관계 정 보를 나타낸다. 파트 문맥이 파트만을 보고 어떤 물체가 어떤 자세로 있을 지에 대한 예측 정보를 주듯이, 물체 문맥은 어떤 파트가 어디에 있어야 하는지에 대한 정보 를 제공한다. 이와 같이, 파트-물체 형태로 물체를 표현하 여 인식할 때 중요한 이슈 중의 하나가 3D 물체에 대한 확장성 (scalability)이다. 3D 물체를 뷰 기반으로 표현할 때, 모든 학습 영상을 저장하는 것을 매우 비효율적이다. 가 령, 640*480 칼라 영상 한 장당 크기가 1M 바이트일 때, 3D 물체 한 개당 100장의 다중 영상이 필요하고, 100개의 물체를 인식하고자 할 때 필요한 메모리는 10G 바이트이 다. 따라서, 확장성을 고려한 물체표현 이슈는 매우 중요 하다. 이는 최소한의 메모리로 물체 구분의 성능을 최소 화 하는 구분성 이슈와 밀접한 관련이 있다. 현재 3D 물 체에 대해 확장성 관점에서 심도 있는 연구가 없는 실정 이다. 본 연구에서는 픽셀 문맥으로부터 획득한 지역 특 징량 (G-RIF), 픽셀-파트 문맥으로부터 학습한 코드북, 파 트-물체 문맥을 표현해주는 성좌 모델에 기반한 3D 물체 표현 및 인식 기법을 소개한다

^[10]

.

3D 물체 표현에 있어서 확장성을 높이기 위해서는 중 복성 (redundancy)을 최소화 하여야한다. 그림 10에서 보 듯이, 물체를 구성하고 있는 파트는 시점 관련 변수를 공 유하고 있다. 즉, similarity 변환 공간에서 물체가 이동하 거나, 평면 상에서 회전하거나 크기가 변할 때 물체를 구 성하는 파트는 이와 같은 시점 변화에 대한 변수를 공유 하게 된다

^[11]

. 이와 같은 변수 공유를 함으로써 n 개의 파 트를 모델링할 때 필요한 변수의 개수가 O n( )

²

에서

( )

O n 으로 단순화되는 이점이 있다. 또한, 물체를 이루고 있는 파트는 유사한 모양과 생김새를 갖는다. 이러한 파 트를 코드북 (codebook)과 같은 라이브러리 형태로 공유 할 경우, 물체를 표현할 때 메모리가 줄어들게 된다. 마 지막으로 다중뷰 영상을 similarity 변환 공간에서 물체 모 델을 공유할 경우, 메모리는 더욱 줄어든다. 그림 11은 이와 같은 공유 개념을 적용하여 3D 다중 물체를 표현하 는 기법을 나타낸다. 아래 App. Lib. (appearance library)는 학습용 물체로부터 추출한 특징량을 클러스터링함으로써 획득한다. 물체를 이루는 파트는 모양 정보 라이브러리에

대한 인덱스 정보와 물체 프레임에 대한 상대적인 자세 정보가 저장되어 인식 시에 활용된다.

3D object

1. Sharing of view parameters

2. Sharing of local

appearance 3. Sharing of multiple views 3D object

1. Sharing of view parameters

2. Sharing of local

appearance 3. Sharing of multiple views

그림 10. 3D 물체 표현 시 중복성을 최소화하기 위한 공유 기법

1 2 3 4 5 6 7 8 9 10 11 12 …

… App.

Lib.

links ID Pose

Object 1 Object 2

View clustered CFCMs

Part

1 2 3 4 5 6 7 8 9 10 11 12 …

… App.

Lib.

links ID Pose

Object 1 Object 2

View clustered CFCMs

Part

그림 11. 변수 공유, 파트 공유, 뷰 공유에 기반한 3D 물체 표현 기술

그림 12는 이와 같은 물체 표현 기법을 이용한 인식하 는 방법을 나타낸다. 기본적으로 가설 및 검증 (hypothesis-test) 기법을 이용한다. 물체의 파트가 자세 정 보를 포함하고 있기 때문에 파트의 매칭쌍으로 부터 일 반화된 Hough 변환을 할 수 있다. 이 때 3D 물체별로 여 러 가설이 나오게 되며, Hough 값이 최대가 되는 것을 선 택한다. 그림 13은 COIL-100 DB에서 제안된 방법과 공유 개념이 없는 방법에 대해 물체 개수에 따른 메모리, 인식 시간, 인식률을 비교한 그래프이다. 결과에서 보듯이, 인 식률은 비슷하면서 메모리, 인식 시간이 물체 개수에 확 장성이 있음을 확인할 수 있다.

이와 같이 픽셀 문맥, 파트 문맥, 물체 문맥에 공유개 념을 적용함으로써 3D물체에 대해 확장성이 있음을 알 수 있다. 그러나 실제 환경에서는 영상 잡음, 블러링, 구 조적 모호성에 의해 오인식이 많이 발생한다 (그림 14 참 조). 다음 절에서는 위치 문맥을 추가하여 실제 환경에서

(7)

보다 강인한 물체 인식을 할 수 있음을 보이도록 하겠다.

Hypotheses (CFCMs) generation by Hough transform

Grouping hypotheses by object ID (m)

Select maximal hypothesis in each hypothesis group

s ^{CFCM ID} o Obj. 1 Obj. 2

CFCM

…

~

m bin opt

m m bin opt

accept if N Th reject if N Th

π ⎧ ⎪ ⎨ ≥

⎪⎩ <

max Obj. 1 Obj. 2 Accept or reject

objects based on Hough bin value ( ) N ^m _bin

Hough space Hypotheses (CFCMs)

generation by Hough transform

Grouping hypotheses by object ID (m)

Select maximal hypothesis in each hypothesis group

s ^{CFCM ID} o Obj. 1 Obj. 2

CFCM

…

~

m bin opt

m m bin opt

accept if N Th reject if N Th

π ⎧ ⎪ ⎨ ≥

⎪⎩ <

max Obj. 1 Obj. 2 Accept or reject

objects based on Hough bin value ( ) N ^m _bin Hypotheses (CFCMs) generation by Hough transform

Grouping hypotheses by object ID (m)

Select maximal hypothesis in each hypothesis group

s ^{CFCM ID} o Obj. 1 Obj. 2

CFCM

…

~

m bin opt

m m bin opt

accept if N Th reject if N Th

π ⎧ ⎪ ⎨ ≥

⎪⎩ <

max Obj. 1 Obj. 2 Accept or reject

objects based on Hough bin value ( ) N ^m _bin

Hough space

그림 12. 가설-검증 기반 다중 물체 인식 방법

# of shared feature vs. # of object # of CFCMs vs. # of object

Recognition time vs. # of object Recognition rate vs. # of object

# of shared feature vs. # of object # of CFCMs vs. # of object

Recognition time vs. # of object Recognition rate vs. # of object

그림 13. COIL-100 DB에 대한 확장성 실험 결과

블러링에 의한 물체의 모호성

구조적 유사성에 의한 위치의 모호성 블러링에 의한 물체의 모호성

구조적 유사성에 의한 위치의 모호성

그림 14. 실제 환경에서 발생되는 물체의 모호성과 위치의 모호성

3.4. 픽셀+파트+물체+위치 (장면) 문맥

장면 해석 시스템 (Scene Interpretation System by Hierarchical Graphical Model)

정지 영상에서 일반 장면은 공간 문맥과 계층 문맥 두 가지를 내포한다. 그림 2 (상)을 보면, 파트를 구성하는 픽 셀 문맥, 파트와 파트 사이의 파트 문맥, 물체와 물체 사 이에 물체 문맥이 공간 상에 존재하다. 한편, 위치와 물 체 사이의 문맥, 물체와 파트 사이의 문맥, 파트와 픽셀 사이의 문맥이 계층적으로 존재한다. 이와 같은 공간적 계층적 문맥을 동시에 고려할 경우, 영상 블러등에 의해 생기는 모호성을 해결해 주며, 오인식률을 낮추게 한다.

그림 2 (하)는 이와 같은 문맥을 그래피컬 모델을 이용하 여 모델링한 것이다

[14],[15],[16]

. 흰색 노드는 추정해야 할 변 수이며, 검은색 노드는 관찰한 데이터를 나타낸다. 노드 와 노드 사이의 링크는 문맥 정보를 내포한다.

보통 MRF (Markov random field)로 모델링할 경우, 그 래프 구조가 고정돼 있어 다소 풀기 쉽다. 그러나, 위와 같이 주어진 영상으로부터 위치, 물체, 파트 정보를 그 래피컬 모델로 표현할 경우, 장면마다 그래피컬 모델이 변화하는 문제가 생긴다. 즉, 인식시 노드의 분포 외에 그래프 구조까지 추정해야 하는 문제가 추가로 발생한 다. 최근 RJ-MCMC (reversible jump Markov chain Monte Carlo) 기법을 이용하여 image parsing에 적용한 바 있지 만, 한 장 인식하는데 최소 40분 이상이 걸리는 문제가 있다

^[17]

. 이러한 문제는 구조 추정시 임의의 한 노드만 추가 혹은 제거하는 과정을 반복하므로 노드 개수가 증 가할수록 인식 시간이 기하급수적으로 증가하기 때문이 다. 본 연구에서는 그림 15와 같이 MM-SMC (multi- modal sequential Monte Carlo)로 구조와 노드 분포의 모호 성을 표현하고, 가설-제거 (hypothesis-prune) 기법으로 문 맥에 맞지 않는 것을 동시에 제거한다. 이 기법은 4-5회 반복하면 수렴하기 때문에 인식 시간도 5초 내외로 매 우 짧다. 그림 16은 이와 같은 기법을 모호한 물체, 다 양한 실제 영상에 대해 적용하여 위치, 물체 및 파트를 동시에 인식한 결과를 보여준다.

Bottom-up Structure Hypothesis

Mote Carlo representation

Weight update by LBP

On-the-fly Structure Pruning Optimal Sampling

Bottom-up Structure Hypothesis

Mote Carlo representation

Weight update by LBP

On-the-fly Structure Pruning Optimal Sampling

그림 15. MM-SMC에서 그래프 구조와 노드 분포를 동시 에 추정하는 알고리즘

(8)

(a) 위치 문맥에 의한 물체 모호성 해소

Message from objects

probability

Loc at ion

Correct!!

Message from objects

probability

Loc at ion

Correct!!

(b) 물체 문맥에 의한 위치 모호성 해소

(c) 실제 환경에서 위치 및 물체 인식

그림 16. 제안된 계층적 그래피컬 모델과MM-SMC 기법을 이용한 모호성 제거 및 실제 환경에서 인식한 결과

3.5 공간 문맥 전체 + 계층 문맥 전체 + 시간 문맥

비디오 해석 시스템 (Video Interpretation System) 3.4절에서는 정지 영상에서 위치 (장면), 물체, 파트 문 맥을 활용하여 강인한 물체 인식하는 방법에 대하여 논 의하였다. 이와 같은 기법을 비디오 시퀀스에 적용하여 물체와 장면을 매 프레임에 대해 인식할 수 있지만, 이는 매우 비효율적이다. 장면과 물체 사이의 문맥 정보 이외 에 시간 문맥을 활용할 경우, 움직임에 의한 블러 (motion blur) 영향을 최소화할 수 있으며, 계산량도 줄어들게 된

다

^[19].

그림 17은 비디오 시퀀스에서 상호 협력적인 위치

및 물체 인식 기법에 대한 그래피컬 모델을 나타낸다. 위 치 정보가 물체에 대한 정보를 주고, 반대로 물체 정보가

M 4

(a) 비디오에서 위치 인식 기법:

{ , } O θ t − t − { , } O θ t t static

q q temp

t

t-1 Q t

L

z

t M 1 M 2 M 4

1 1

{ , } O θ t − t − { , } O θ t t static

q q temp t

t-1

L

z

t M 1 M 4

1 1

{ , } O θ t − t − { , } O θ t t static

q q temp

Q t

L

z

t M 1 M 2

{ , } O θ t t static

q

(b) 비디오에서 물체 인식 기법: (좌) 정지 장면 문맥만을 이용한 물체 인식, (중) 시간 문맥만을 이용한 물체 인식, (우) 정지 문맥과 시간 문맥을 결합한 물체 인 식 모델

그림 17. 비디오 해석을 위한 정지 문맥과 시간 문맥의 모델링 기법

그림 18. 문맥별 위치 인식 결과

(9)

#1778

#1818

#1926

#813

#846

#912

#866

#1884

#6485

#6452

#6428

#6385

#6358

#1697

#945

#1778

#1818

#1926

#813

#846

#912

#866

#1884

#6485

#6452

#6428

#6385

#6358

#1697

#945

그림 19. 실내 환경에서 제안된 기법을 이용한 비디오 해석 결과

4. 결론 및 전망

이동형 로봇이 지능을 갖기 위해서 주변 환경에 대한 인지력, 특히 물체 인식을 기반으로 하는 환경 인식 능력은 필수 요건이다. 본 논문에서는 다양한 환경 변화에 대한 강인성과 구분성을 동시에 만족 시키기 위해 공간 문맥, 계층 문맥, 시간 문맥을 모델링하고 실제 적용 사례를 보여줌으로써 그 가능성을 살펴보았다.

픽셀 문맥과 같이 간단한 문맥 정보만으로 효과적인 물체 인식 시스템을 구성할 수 있지만, 배경 잡음이나 영상의 모호성에 대처하는 능력이 떨어진다. 파트 문맥, 물체 문맥, 시간 문맥을 단계적으로 추가함으로써 학습에 대한 복잡도는 올라가게 되지만 더욱 강인한 인식 시스템을 만들 수 있다.

현재 물체 인식 기술은 물체 구분 (identification)에 대해 어느 정도 성숙도를 보여주고 있으며, 앞으로 인식 기술은 처음 보는 물체, 처음 접하는 환경에 대해 로봇이 사전 지식 (prior knowledge)을 바탕으로 판단하는 수준으로 올라갈 것이다. 나아가, 이와 같은 인식 정보가 3D 기하학적 정보와 결합되어 실제 환경 및 사람과 지능적으로 상호작용하는 수준으로 진보될 것으로 기대된다.

[1] S. Ullman, High-Level Vision, MIT Press, 1996.

[2] A. Torralba, “Contextual Priming for Object Detection”, International Journal of Computer Vision, vol. 53, no. 2, pp. 169-191, 2003.

[3] S. K. Nayar, S. A. Nene, H. Murase, “Real-Time 100 Object Recognition System”, IEEE International Conference on Robotics and Automation, vol. 3, pp.

2321-2325, 1996.

[4] C. Schmid, R. Mohr, “Local Grayvalue Invariants for Image Retrieval”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 19, no. 5, pp.

530-535, 1997.

[5] S.-H. Kim, I.-C. Kim, I.-S. Kweon, “Probabilistic Model-based Object Recognition Using Local Zernike Moments”, IAPR workshop on Machine Vision Applications, , Nara-ken New Public Hall, Nara, Japan, Dec. 11-14, 2002.

[6] D. G. Lowe, "Distinctive Image Features from Scale- invariant Keypoints," International Journal of Computer Vision, vol. 60, no. 2, pp. pp. 91-110, 2004.

[7] S. Kim, I. S. Kweon, “Biologically Motivated Perceptual Feature: Generalized Invariant Feature”, LNCS vol. 3852, pp. 305-314 (ACCV’06), 2006.

[8] T. Lindeberg, “Feature Detection with Automatic Scale Selection”, International Journal of Computer Vision, vol 30, no. 2, pp. 77-116, 1998.

[9] S. Kim, K.-J. Yoon and I. S. Kweon, “Object Recognition using Generalized Robust Invariant Feature and Gestalt Law of Proximity and Similarity”, IEEE CVPR Workshop on Perceptual Organization in Computer Vision, New York NY, 2006.

[10] S. Kim, I. S. Kweon, “Scalable Representation and Learning for 3D Object Recognition using Shared Feature-based View Clustering”, LNCS vol. 3852, pp.

561-570 (ACCV’06), 2006.

[11] P. Moreels, M. Maire, P. Perona, “Recognition by Probabilistic Hypothesis Construction”, European Conference on Computer Vision, pp. 55-68, 2004.

[12] S. Kim, G. Jang, I. S. Kweon, "An Effective 3D Target Recognition Imitating Robust Methods of Human Visual System", Pattern Analysis and Applications, vol.

8, no. 3, pp.211-226, 2005.

[13] S. Kim, I. S. Kweon, “3D Target Recognition using Cooperative Feature Map Binding under Markov Chain Monte Carlo”, Pattern Recognition Letters, vol.

27, no. 7, pp. 811-821, 2006.

[14] S. Kim, I. S. Kweon, “Scene Interpretation: Unified Modeling of Visual Context by Particle-based Belief Propagation in Hierarchical Graphical Model”, LNCS 3852:963-972 (ACCV’06), 2006.

[15] S. Kim, I. S. Kweon, “Multi-Modal Sequential Monte

Carlo for On-Line Hierarchical Graph Structure

(10)

Estimation in Model-based Scene Interpretation”, 18th International Conference on Pattern Recognition (ICPR), Hong Kong, 2006.

[16] Sungho Kim, In So Kweon, "Robust Model-based Scene Interpretation by Multilayered Context Information", Computer Vision and Image Understanding (CVIU), To appear, 2006.

[17] Z.W. Tu, X. R. Chen, A. L. Yuille, and S. C.

Zhu, ”Image Parsing: Unifying Segmentation, Detection and Recognition,” Int’l J. of Computer Vision, vol. 63, no. 2, pp. 113-140, 2005.

[18] S. Kim and I. S. Kweon, “Automatic Model-based 3D Object Recognition by Combining Feature Matching with Tracking”, Machine Vision and Applications, vol.

16, no. 5, pp. 267-272, 2005.

[19] S. Kim and I. S. Kweon, “Synergistic Place and Object Recognition using Bidirectional Context Information", British Machine Vision Conference (BMVC’06), Edinburgh, England, 2006.

김 준 식

1999 연세대학교 전자공학과 (학사)

2001 KAIST 전자전산학과 전기및전자공학 전공 (석사)

2006 동대학원 박사 2006~현재 KAIST 정보전자연구소 연구원 관심분야 : 컴퓨터 비전, 카메라 보정, 3D 비전 지능

로봇

권 인 소

1981 서울대 기계설계학과 (학사)

1983 동대학원 (석사) 1990 Carnegie Mellon Univ.

Robotics Institute (박사) 1991~1992 일본 도시바 중앙연구소 연구원 1992~현재 한국과학기술원 교수

관심분야 : 컴퓨터 비전, 3D 비전, 카메라 보정, 물체 인식, 물체 분류, SLAM,

로봇 공학회 (KRS) 정회원

김 성 호

2000 고려대학교 전기전자전 파공학부 (학사) 2002 KAIST 전자전산학과

전기 및 전자공학전공 (석사)

2002~현재 동대학원 박사과정 관심분야 : 물체 인식, 영상 문맥, 지능 로봇

로봇 공학회 (KRS) 학생회원

Utilization of Visual Context for Robust Object Recognition in Intelligent Mobile Robots