A Hand Gesture Recognition System using 3D Tracking Volume Restriction Technique

(1)

( A Hand Gesture Recognition System using 3D Tracking Volume Restriction Technique )

김 경 호^*, 정 다 운^*, 이 석 한^**, 최 종 수^***^*

( Kyung-Ho Kim, Da-Un Jung, Seok-Han Lee, and Jong-Soo Choi

^ⓒ

)

요 약

본 논문에서는 손 추적과 제스처 인식 시스템을 제안한다. 제안한 시스템은 사용자 손의 3차원 기하학적 정보를 취득하기 위해 별도의 장비를 사용한다. 특히, 기존의 물체 검출 및 추적 시스템들에서 제기 되었던 추적 과정에서의 문제점을 피하기 위해 능동적인 타원체 영역을 만들고 손 추적을 위한 영역을 타원체 영역의 안으로 제한했다. 제안된 시스템은 미리 정의된 기간 동안에 손 위치의 이동평균을 계산한다. 그리고 추적영역은 3차원 공간에 편성된 공분산에 기반한 사용자 손 움직임의 불확실성을 추정하여 통계적인 데이터에 따라 능동적으로 제어하였다. 또한 손 위치가 획득되었을 때, 손 제스처를 인식하기 위해 펼쳐진 손가락을 검출한다. 사용자 인터페이스 체제 기반의 시스템을 구현하여 복잡한 환경에서 다중의 대상들이 동시에 존재하는 경우이거나 일시적인 가려짐이 발생하는 경우에도 정확성을 보여 매우 안정적으로 동작할 수 있음을 보여주며, 약 24-30fps의 프레임 비율로 사용할 수 있는 가능성을 보여주었다.

Abstract

In this paper, we propose a hand tracking and gesture recognition system. Our system employs a depth capture device to obtain 3D geometric information of user’s bare hand. In particular, we build a flexible tracking volume and restrict the hand tracking area, so that we can avoid diverse problems caused by conventional object detection/tracking systems. The proposed system computes running average of the hand position, and tracking volume is actively adjusted according to the statistical information that is computed on the basis of uncertainty of the user’s hand motion in the 3D space. Once the position of user’s hand is obtained, then the system attempts to detect stretched fingers to recognize finger gesture of the user's hand. In order to test the proposed framework, we built a NUI system using the proposed technique, and verified that our system presents very stable performance even in the case that multiple objects exist simultaneously in the crowded environment, as well as in the situation that the scene is occluded temporarily. We also verified that our system ensures running speed of 24-30 frames per second throughout the experiments.

Keywords: human-computer interaction, hand shape representation, hand geometrically feature detection, active tracking volume, hand gesture recognition

Ⅰ. 서 론

일반적인 사용자 컴퓨터 인터페이스(User-Computer Interface)들은 모두 사용자의 물리적 접촉과 조작에 의

* 학생회원 ^** 정회원, ^*** 평생회원, 중앙대학교 첨단영 상대학원 영상공학과

(Graduate School of Advanced Imaging Science, Multimedia, and Film. Chung-Ang University)

존적인 마우스, 키보드, 터치 스크린, 태블릿 등과 같은 평범한 상호작용 장치들이 기반이 되어 왔다. 그러나, 조작과 상호작용이 불가능한 많은 상황에서 사용자의 자연적인 동작은 인간-기계 상호작용을 위한 매우 유용 한 정보로써 사용될 수 있다. 그러므로, 내추럴 유저 인 터페이스(Natural User Interface)로 알려진 기술들을 위해 많은 연구자들은 노력해왔다. 이러한 시스템은 사 용자의 동작을 추적 및 인식하기 위해 시도하고, 상호 작용을 위한 매우 효과적인 방법을 제공한다[1～8, 20～21]

.

(2)

특히, 사용자의 맨손 정보를 이용하는 내추럴 유저 인 터페이스 기술은 사용자들이 어떤 장치들을 가지고 상 호 작용이 가능하게 하는 방법 중 가장 효과적인 하나 로 알려져 있다. 비록 손 정보 추적/추정이 안정적으로 획득되고 있을지라도 다양한 응용 시스템들에서 다루어 지기 때문에 중요하다.

최근 많은 연구들에서는 사용자의 맨손을 강건하게 검출하기 위해 배경과 전경을 분리하기 쉬운 깊이 (depth)정보를 제공하는 카메라를 사용하고 있다. Ren^[5]

은 마이크로소프트사의 키넥트를 사용해 획득한 깊이 정보로 고정된 일정한 거리에서만 대상 객체를 검출하 였다. 그리고 제스처 인식에 사용하기 위해 손 외곽선 과 중심점과의 거리를 계산하여 손의 형태 정보를 재 표현하고 펼쳐진 손가락을 검출하였다. Soutschek^[6]는 ToF(time-of-flight) 카메라를 이용해 획득한 깊이 정 보로 고정된 일정거리 내에서 손의 제스처를 이용해 별 도의 3차원 공간을 구성하고 이 영역 안에서만 손을 검 출 및 인식한다. Van den Bergh^[7]는 ToF 카메라와 RGB 카메라의 캘리브레이션을 거쳐 RGB 영상에서 각 픽셀들의 거리 정보를 획득하였다. 미리 학습된 손 색 상정보를 이용해 획득한 RGB 영상과 Viola^[8]가 제안한 얼굴 검출 방법을 사용해 얼굴 평면의 평균 거리 값을 계산해 얼굴의 평균 거리보다 가까운 영역의 깊이 영상 을 사용해 손을 검출하였다. 그리고 제스처 인식을 위 해 하르 웨이블렛^[18]으로 계수를 계산하고 최근접 이웃 을 사용해 유사한 손 동작을 찾아내었다. 하지만, 고정 된 일정거리에 미리 학습된 손의 색상과 유사한 정보를 가지는 다른 객체들이 침입하여 잘못된 검출을 한다든 가, 가려짐(occlusion)현상으로 추적 대상을 잃어버리는 상황을 고려하지 않았다. 그렇기 때문에 대부분의 깊이 정보를 사용하는 접근방법들은 제한적이고 유동인구가 많은 장소에 설치된 응용 시스템에서는 사용하기 쉽지 않다.

최근 객체 추적을 위해 계산적 비용이 적게 들고 강 건하게 관심 영역을 형성하기 위해 제안된 영역 공분산 기술자(descriptor)는 여러 연구에 적용되어 입증 되었 다^[11∼14]. Liu^[11]는 시각 추적(visual tracking)을 위해 Mont Carlo 추적 기술로 통합된 공분산 영역 추적 기 술자 방법을 제안해 크기, 회전, 조명에 강건함을 입증 하였다. Porikli^[12]는 공분산 기반의 대상 기술자와 리 대수(Lie algebra) 기반의 갱신 방법을 사용해 유연한 (non -rigid) 대상을 추적하기 위해 간단하고 명쾌한 알 고리즘을 제안했다. 이 방법은 영역 기반의 공분산 추

적의 장점들 중에 Mean Shift^[15]와 Particle Filter^[16]같 은 영역 기반의 접근방법들과 달리 전반적인 최적 해결 책을 제시하며, 검색 영역의 크기를 상수로 제한하지 않고 사용할 수 있다고 설명하고 있다. Wu^[14]도 리만 다양체(Riemannian manifold)에서 새로운 ICTL (incremental covariance tensor learning)을 가지고 추 적 방법을 제안했다. 이 방법은 일시적인 가려짐뿐만 아니라 복잡한 환경에서 Particle Filter를 기반으로 혼 합된 방법보다 더 좋은 결과를 실험을 통해 나타낸다.

공분산 추적 방법의 장점은 복잡한 환경과 일시적인 가 려짐에 강건하고 계산적인 비용이 적게 들며 검색 영역 의 크기, 회전에 제한이 없다.

본 논문에서는 위와 같은 연구들과 마찬가지로 고정 된 깊이 정보 기반의 제스처 인식 시스템의 문제점을 보완하기 위해서, 추적영역을 형성하는 공분산 기반의 통계적 방법을 사용하는 3차원 추적영역을 이용한 손 추적과 제스처 인식 시스템을 제안한다. 제안된 시스템 은 능동적인 타원체를 구성해 손 추적을 위한 영역을 제한한다. 그리고 손 제스처를 인식하기 위해 사용자 손의 3차원 기하학적 정보를 획득한다. 본 연구는 자연 스러운 사용자 인터페이스를 기반으로 작동하는 다양한 시스템들에서 사용되고 채택되는데 초점을 두었으며, 다중의 대상들이 동시에 나타나는 경우이거나 일시적인 가려짐에도 약 98%에 가까운 정확성을 보여 매우 안정 적인 추적을 보장하고, 약 24-30 fps의 프레임 비율로 사용할 수 있다.

본 논문의 구성은 다음과 같다. Ⅱ장에서는 제안된 시스템에서 사용한 손 중심점 검출 및 손 영역 추정 과 정과 손 형태 정보 추출 및 손 제스처 인식 과정에 대 해서 설명한다. 그리고 Ⅲ장에서는 제안된 기법에 대한 실험 결과를 보이고, Ⅳ장에서 결론을 논한다.

Ⅱ. 본 론

1. 시스템 구성

본 논문에서는 공분산 기반의 3차원 추적 영역과 제 스처 인식 시스템을 제안한다. 제안하는 시스템의 흐름 도는 그림 1로 나타낸다. 제안하는 시스템은 깊이 정보 로부터 배경과 손을 분리하고 추정된 손의 중심점을 계 산하여 이동평균과 3차원 공간에 편성된 공분산으로 추 적영역을 능동적으로 제어한다. 또한, 제스처 인식을 위 해 펼쳐진 손가락을 검출한다. 제안하는 방법은 다음과 같은 방법들로 구성되었다.

(3)

그림 1. 제안된 시스템 흐름도

Fig. 1. Flowchart of the proposed system

2. 깊이 정보를 이용한 손 중심점 검출

제안하는 시스템은 사용자에게 자연스러운 움직임을 제공하는 내추럴 유저 인터페이스 체제 기반의 연구이 다. 사용자의 맨손을 사용하는 동작인식을 위해 영상 내 검출한 손은 배경과 구분이 명확해야 하기 때문에, 깊이 정보를 사용하는 것이 유리하다. 제안된 시스템은 맨손을 사용하는 사용자의 3차원 기하학적 정보를 취득 하기 위해 깊이 정보를 획득하는 장치인 마이크로소프 트사의 키넥트 센서를 사용한다. 먼저, 그림 2 (a)와 같 이 깊이 정보를 가지는 영상에서 그림 2 (b)처럼 미리 정의된 검색 영역을 사용하여 손을 검출한다. 미리 정 의된 검색 영역은 식 (1)과 같은 방법으로 나타낸다.

_ 



^{ i f } ^{m in} ^≤^^^^^^{≤ }^{m ax}

,

^ 



^{ i f} ^^{  }^^^^^^{  }^^^^{≤ }^

,

_ 



^ ^{i f }^^^^^{ }^^^^

(1)

여기서, _는 _의 깊이 정보를 이용해 미리 정의된 최소 m in에서 최대 m ax사이의 거리에서 획득된 영상이다. m in과 m ax은 시스템 구동환경을 고려하여 실험적으로 결정되며, 둘 사이의 차이는 일반 적인 손의 두께를 고려하여 10cm 이내로 지정하였다.

또한, 추적 공간 크기는 3차원 볼륨 추정으로 유동적으 로 변하므로 고정된 값을 사용하지 않으며, 자세한 내 용은 3절에서 설명한다. _는 ^_^{을 중심으} 로 반지름 r의 영역에 속하는 범위로 획득된 영상이다.

(a) (b)

(c) (d)

(e) (f)

그림 2. 손 중심점 검출 과정: (a) _ (b) _, (c) _, (d) 손 중심점, (e) 검색 공간 구성 (f) 검색 영역의 3D 모델

Fig. 2. Detection of hand center: (a) _, (b) _, (c) _, (c) Hand center (d) Search range definition, (f) 3D model of search range.

_는 _과 _의 두 조건이 만족 하는 영역으로 그림 2 (a)의 빨간 부분과 같다. 이렇게 취득한 영상 내에서 손의 위치 정보와 유연한 추적 볼 륨을 구성하기 위해 손 중심점을 특징점으로 선택한다.

손의 중심점을 검출하는 방법은 무게 중심 방법^[16]을 사 용하며, 결과 영상은 그림 2 (c)와 같다.

_









_ 

,

^^^









_ 

,

^^^









_ 

,

_ _

_

,

_ _

_

(2)

여기서 _는 매 프레임 획득한 손 영상이고,

^ _^{는 }에서의 손의 중심점이다. 검출된 손 의 중심점은 2차원 좌표이다. 하지만, 제안된 시스템은 깊이 정보를 획득하기 때문에 __^ _를 이용 해 3차원 좌표 ^^ __^로 표현할 수 있으며, 3차원 추적 볼륨을 추정하는데 사용한다. 식 (1) 및 그 림 2의 초기화 과정이 완료되면 손 추적을 위한 3차원

(4)

영역은 다음절의 능동 추적 공간을 이용하여 설정된다.

3. 손 영역 추적을 위한 3차원 볼륨 추정

제안된 시스템에서 손 추적은 추적 볼륨의 추정에 크 게 의존적이다. 추적 볼륨은 다음 추적 단계에서 검출 영역을 제한하기 위해 사용되었다. 처음 검색 영역은 그림 2 (b)와 같이 미리 정의된 반지름과 중심점을 가 지는 고정된 3차원 구로 표현한다. 하지만, 그림 2 (d) 처럼 실세계 좌표계 축에서 각 축 사이의 크기를 고려 하기 위해 식 (3)과 같이 3차원 타원체로 대신한다.

^

^{  }^

 ^

^{  }^

 ^

^{  }^

 

(3)

여기서,   는 손 움직임의 불확실성에 의해 비율이 결정된다. 공분산 행렬은 특징들의 스케일 정보를 포함 하고 있고, 행렬은 특징들 간의 근본적인 관계 정보를 가지고 있는 상관 행렬이기 때문에, 좌표계 축에서 각 축 사이의 스케일을 조절할 수 있고, 상관관계를 추정 하는데 용이하다. 그렇기 때문에, 공분산 행렬은 손 움 직임의 불확실성 추정과 검색 영역의 스케일을 결정하 기 위해 다음과 같이 계산된다. 먼저, 검출된 손 중심점 을 사용하여 미리 정의된 프레임 동안 식 (4)와 같이 누적하여, 손 위치의 평균을 계산한다.

_^ 





  



^

(4)

하지만, 손 위치의 변위는 연속적인 프레임에서 시간에 따라 변화하게 된다. 그렇기 때문에, 새로운 데이터가 들어오면 가장 오래된 데이터는 버리는 방식으로, 누적 된 중심점이 시간에 따라 동적인 변화를 제대로 반영하 기 위해 식 (5)의 이동평균을 사용하였다.

_^ _^{  } 

^ ^{  }

(5)

n프레임 동안 누적된 손 중심점 ^^^⋯^과 식 (5)의 이동평균으로부터 식 (6)과 같이 시간에 따라 동적인 변화가 가능한 공분산 행렬을 계산한다.

_ 





    





^^ _^



^^ _^



^

^







^^^^^^^^^^^^

___







^^





^^{ }^ ^^ ^^

  





 ⁽⁶⁾

손 움직임은 각 좌표계 축에 대하여 움직임 벡터는 독 립적이기 때문에, 공분산 행렬의 모든 비 대각 요소들

_ _ _ 으로 결정되며, 공분산을 획득하면 각 좌표계 축 사이에 타원체의 비율 요소들인

  __,   __,   __을 계산하고, 연속적인 프레임에서 시간에 따라 타원체 추적 볼륨의 모양을 결 정한다. 이렇게 구해진 손 중심점과 비율 요소들로부터 실세계 좌표계 공간에서 추적영역을 제한하고 동적인 변화가 가능한 능동 추적 볼륨을 구성한다.

4. 기하학적인 손의 형태 정보 추출 과정

손 검출을 위한 초기화 과정과 3차원 추적 볼륨으로 검출 및 추적된 손을 인식하기 위해서는 대상 객체의 형태 정보를 추출하는 것이 중요하다. 제안하는 방법은 대상 객체의 회전에 불변한 특성을 가지게 하기 위해 객체의 외곽선 정보와 중심점간의 거리를 계산하여 시 간 축에 대한 곡선(time-series curve)으로 재 표현하였 다. 먼저, 어떠한 장치를 착용하지 않고 손 외곽선 정보 의 초기 위치를 결정하기 위해 대안적인 접근방법을 고 안하였다. 첫째, 손의 방향벡터(녹색선)와 수직이며 가 중된 손의 중심점을 지나는 직선과 손의 외곽선

^^^⋯^이 교차하는 두 점(노란색 두 점)을 찾 고, 펼쳐진 손가락 검출을 위해 교차하는 두 점

^



^_



을 외곽선 추출의 초기 점과 마지막 점으로 사용한다. 둘째, 추출된 손의 외곽선 정보를 사용해 식 (7)로 두 교차점 사이의 외곽선 ^^^^{ }⋯^(흰 색 외곽선)와 중심점으로 정규화 된 거리관계를 계산하 고, 식 (8)로 벡터 ^_^와 ^^^이 이루는 각도를 360˚

로 정규화한 각도를 계산한다.

^ max_^

∥

^_^_^

∥

(7)

^ cos^{ }



^

_^∙

^^

 ⁽⁸⁾

이렇게 찾아낸 거리관계를 그림 3 (b)의 수직축으로 사 용하고 정규화 된 각도를 그림 3 (b)의 수평축으로 사 용하여 그림 3 (b)와 같이 표현한다. 그리고 손의 형태 정보로 손을 인식하기 위해서는 손의 고유한 특징을 사 용하는 것이 중요하다. 손 외곽선의 형태 정보는 사용 자의 손 제스처를 인식하기 위해 사용할 수 있는 기하 학적 특징을 얻을 수 있다. 그래서 제안하는 시스템에

(5)

(a) (b)

그림 3. 기하학적인 손의 형태 정보 추출 과정: (a) 손 외곽선 및 주축 정보 추출 (b) 시간 축에 대한 곡선 재 표현 Fig. 3. Geometrical hand shape representation: (a) Hand contour and principal axis detection (b) Time-series curve representation.

서는 손의 외곽선 정보에 대한 기하학적 특징을 사용해 둥근 영역은 손가락의 끝 부분이라고 간주하여 손을 완 전히 펴지 않아도 펼쳐진 손가락을 찾아 인식하는데 사 용하였다. 손의 외곽선 정보로 나타낸 그래프를 식 (9) 를 이용해 기하학적 정보를 갖는 손의 곡률 정보를 계 산한다.

_ cos_ 

∥

^^

∥∥

^^

∥

_∙ _

(9)

여기서 _ _{  } _, _ _{  } _,

__^_^_{,  는 }__와 _사이의 각 도를 나타낸다.

Ⅲ. 실 험

1. 실험 환경

본 연구의 모든 실험은 Intel® Core2™ Quad CPU 2.66GHz, 3GB의 마이크로소프트사의 윈도우7의 OS가 설치된 데스크탑을 사용하였다. 또한, 640x480 해상도와 초당 30프레임의 깊이 정보를 제공하는 마이크로소프트 사의 키넥트 센서를 이용하여 수행되었다.

본 연구의 실험을 위해 깊이 정보의 실측거리와 측정 거리의 오차를 계산하였다. 0.8m부터 4.0m까지의 거리 를 변화하며 그림 4와 같은 결과를 확인하였다. 그 결 과, 키넥트 센서의 오차는 0.0006%로 미미한 오차를 제 외한다면 실제 거리에 따라 측정거리가 선형적인 것을 확인하여 깊이 정보의 신뢰성을 확인하였다.

그림 4. 거리에 따른 깊이 정보

Fig. 4. Depth information according to the relative distance

2. 손 중심점의 추정 결과

손 중심점은 위치와 영역 추정에 사용되므로 정확한 중심점을 찾는 것이 중요하다. 객체의 중심점을 추정하 는 여러 방법들 중에서 Lee^[10]는 손의 중심점을 계산하 기 위해 거리변환방법^[19]을 사용하였고, Yin^[17]은 객체의 중심점을 계산하기 위해 무게중심방법을 사용하였다.

그림 5. 손 중심점 검출 및 좌표 테스트 Fig. 5. Hand center detection and verification

(6)

그림 6. 손 중심점 검출 비교 실험

Fig. 6. Estimation of the center point of hand

본 실험에서는 그림 5와 같이 영역에 손을 맞추고 위에 서 설명한 거리변환방법과 무게중심방법을 사용하여 프 레임 별로 중심점 좌표를 확인하였다.

그림 6은 손 중심점 추정의 결과 그래프이다. 파란색 선은 거리변환을 사용한 경우로써 손의 중심점에 많은 떨림 잡음을 가지는 결과를 보여준다. 하지만, 빨간색 선은 무게중심을 사용해서 얻어진 결과로 거리변환을 사용 하는 방법에 비교하여 무게중심을 사용하는 방법 이 더 안정적임을 결과 그래프로 확인하였다. 그러므로 제안된 시스템에서는 손 중심점 검출 방법으로 Yin^[17]

이 사용한 무게중심방법을 사용하였다.

3. 3차원 추적 볼륨의 성능 평가

제안된 시스템은 유동인구가 많은 장소에서 한 명의 사용자 이외에는 다른 객체들에 의해 영향을 받지 않고 검출하고 추적하는 것이 중요하다. 그림 8부터 그림 10 까지는 사용자 손의 추적 사례들을 설명하기 위한 획득 된 깊이 정보로부터 검출된 영상이다. 제안된 시스템을 성공적으로 동작시키기 위해서는 오로지 한 명의 사용

그림 7. X, Y, Z 각 축의 손 움직임에 대한 불확실성 Fig. 7. Hand movement uncertainties of x, y, and z

axis respectively.

자 손을 검출하고 추적해야만 한다. 그러나 그림 8에서 처럼 고정된 깊이 정보를 사용하는 Soutschek^[6]의 방법 은 3차원 영상 공간의 고정된 영역에서 추적 대상을 추 정하기 때문에, 조작 범위에서 손 추적이 성공적으로 이루어지지 않는 것을 볼 수 있다. 또한, 그림 9에서처 럼 Van den Bergh^[7]의 방법은 얼굴보다 카메라에 가까 운 객체들만을 검출하기 때문에 다른 사람의 얼굴이 나 타나게 되면 객체를 검출할 수 없음을 확인하였다. 반 면에, 그림 10에서처럼 유동적으로 검색 영역을 변화하 는 제안된 방법은 추적 타원체를 사용해 검색 영역을 제한하며, 한 사용자의 손을 성공적으로 추적할 수 있 는 것을 보여준다. 제안된 방법인 3차원 능동 추적 볼 륨은 손 움직임의 불확실성에 따라 검색 영역이 유동적 으로 변화하고 사용자가 이외의 다른 객체의 영향을 받 지 않으며 추적할 수 있다. 손 움직임의 불확실성은 공 분산 행렬의 상관관계에 따라 추적 볼륨의 스케일을 결

(7)

그림 8. Soutschek^[6]이 제안한 방법 Fig. 8. Soutschek‘s method^[6]

그림 9. Van den Bergh^[7]이 제안한 방법 Fig. 9. Van den Bergh‘s method^[7].

그림 10. 제안된 방법 Fig. 10. Proposed method.

정한다. 그림 7은 손 움직임의 불확실성을 그래프와 연 속적인 프레임에서 불확실성에 따라 변화된 추적 볼륨 을 가상 환경에서 보여준다. 가상 환경에서의 실험을 통해 공분산 행렬의 상관관계에 따라 추적 볼륨의 스케 일이 결정됨을 확인하였고, 비교 실험을 통해 제안된 방법으로 사용자의 손 검출은 조작 범위에서 어떤 다른 객체들에 의해 영향을 받지 않음을 확인하였다.

4. 손 제스처 인식의 성능 평가

Lee^[9]는 곡률정보를 이용해서 일정 임계값을 사용해 손가락의 개수를 검출하지만 그림 11에서처럼 손가락이 완전히 펼쳐져 있지 않으면 손가락을 정확하게 찾을 수 가 없다.

제안한 시스템에서는 시간 축에 대한 곡선(time- series curve)을 사용하여 손의 모양을 재 표현한다. 하 지만 특정 임계값을 사용하면 정확한 분류가 되어있지 않았기 때문에 손가락의 개수를 강건하게 검출하기 쉽 지 않으며, 손가락의 사이를 일정 거리 떨어뜨리지 않 으면 손가락을 강건하게 검출하기 쉽지 않다. 제안한 시스템에서는 그림 12와 같이 손 끝점에 해당하는 부분 은 값을 키워주고 해당하지 않는 부분은 값을 낮추어

(8)

그림 11. 손 외곽선의 곡률 정보와 특정 임계값 사용 Fig. 11. Curvature information of hand contour and finger

counting using a specific threshold value.

그림 12. 손 외곽선 형태 정보 n-제곱 값 비교 실험 Fig. 12. Comparison of shape information of hand

contour using n-square value.

그림 13. 손 외곽선 형태 정보에서 손가락 검출 Fig. 13. Finger counting for hand shape representation.

손가락의 개수를 강건하게 검출하기 위해 n-제곱 값을 사용하여 잡음을 제거하였다. 또한, 크기 및 회전에 불 변한 특징으로 사용자에게 적응적인 결과를 나타내기 위해 곡률정보를 사용하였다. 어느 누구나 사람의 손끝 부분은 둥근 모양을 가지고 있기 때문에 곡률정보를 사 용하여 둥근 부분을 위상학적인 특징을 가지고 있는 시 간 축에 대한 곡선(time-series curve)에서 사람 손의 기하학적인 특성을 사용해 손가락의 개수를 검출하였고 그림 13에서 확인할 수 있다. 또한 그림 14와 그림 15로 회전과 크기에 불변함을 증명하였다. 여기서 수직축은 교차점 사이에 위치한 외곽선 정보와 중심점으로 정규

그림 14. 손가락 개수 검출의 회전 불변성 실험

Fig. 14. Experimental results for the rotational invariance of finger counting.

그림 15. 손가락 개수 검출의 크기 불변성 실험

Fig. 15. Experimental results for the scale invariance of finger counting.

화 된 거리관계이고, 수평축은 벡터 ^^^와 ^^^^^이 이 루는 끼인각을 360˚로 정규화 한 각도이다. 이와 같은 비교 실험을 통해 제안된 방법은 회전과 크기에 불변한 특성을 가지며, 사용자의 손가락 개수 검출이 어느 누 구에게나 유동적으로 사용할 수 있음을 확인하였다.

5. 실시간 응용 시스템 수행 결과

제안된 시스템의 실시간 응용 시스템이 채택되기 위 해서는 초당 약 24프레임이상으로 실행되어야 한다. 그 림 16은 한 프레임당 수행하는 시간을 체크하였고, 기

(9)

그림 16. 제안된 시스템의 수행 시간 결과

Fig. 16. Processing timing of the proposed system.

존의 방법들과 비교하였다. Van den Bergh^[7]의 방법과 키넥트에서 사용하는 스켈레톤 추적(skeleton)^[22]의 수 행시간보다 빠른 결과를 확인하였고, 고정된 깊이 영역 을 사용하는 Soutschek^[6]의 방법보다는 약 10ms의 차 이가 있음을 확인하였다. 실험결과로 제안된 시스템이 약 24~30fps의 프레임 비율을 갖는 실시간 응용 시스템 으로 사용될 수 있음을 그림 16으로 확인하였다.

또한, 제안된 시스템의 실행 가능성을 확인하기 위해 3차원 손의 검출, 추적 및 동작 인식을 통해 상호작용 이 가능한 응용 시스템을 제작하였다. 먼저, 응용 시스 템을 조작하기 위해 그림 17과 같이 손가락의 개수로 동작을 인식하였다. 그림 17은 마우스를 이동하기 위한 이벤트와 마우스의 클릭을 위한 이벤트로 사용하였다.

그리고 그림 3.22와 같이 손의 동작들을 연속으로 하여 응용 시스템에서의 이벤트로 사용할 수 있다.

이렇게 찾아낸 손의 동작을 그림 18에서와 같이 게시 판 시스템을 조작하기 위한 이벤트로 사용하였다. 그림 18은 응용 시스템을 사용하기 위한 초기화 과정으로 손 을 스크린의 손 모양으로 된 부분에 위치시킨 후 50프 레임이 지나면 손의 추적 영역을 구성하여 시스템을 조 작할 수 있다. 또한, 메뉴를 만들어 기존의 게시판과 유

그림 17. 손동작에 의한 이벤트: 마우스이동(좌); 마우스 클릭(우);

Fig. 17. Events definition using hand gestures : Mouse move(left); Mouse click(right).

그림 18. 제안된 시스템의 응용 예

Fig. 18. Application example of the proposed framework 사하게 만들어 선택적으로 사용할 수 있게 개발 하였 다. 그리고, 글씨를 쓰거나 그림을 그릴 수 있는 팬을 대신할 수 있음을 보여주었고, 사진을 선택하기 위한 마우스를 대신할 수 있음을 보여주었다. 그림 18의 결 과로 인해 응용 시스템에서 손을 이용해 상호작용이 가 능함을 확인하였다.

Ⅳ. 결 론

본 논문에서는 유동인구가 많은 복잡한 환경에서도 손을 검출 및 추적 하여 실제 응용 시스템에서 사용할 수 있는 시스템을 제안하였다. 이를 위해 깊이 정보를

(10)

얻을 수 있는 마이크로소프트사의 키넥트를 사용하여 사용자의 위치와 제스처 정보를 깊이 정보로부터 추정 하였다. 손의 중심점을 검출하고 안정적으로 추적하기 위해 손 중심점의 통계적인 데이터를 수집하여 공분산 기반의 3차원 능동 추적 볼륨을 만들었다. 기존의 제한 된 영역에서만 검출하던 여러 연구들은 영역 안으로 다 른 객체의 간섭이 없으며, 제한된 영역으로 검출 영역 을 제한하고 있다. 하지만 제안하는 시스템의 장점은 일시적인 가려짐(occlusion)에도 정확성을 보여주며 사 용자 인식 영역에 다른 객체가 간섭을 해도 강건하게 추적이 가능하며, 크기, 회전에 불변하게 사용자 어느 누구에게나 인식이 가능함을 실험을 통해 확인하였다.

또한 실제 응용 시스템에 사용할 수 있는 가능성을 확 인하기 위해 실제 응용 시스템을 제작하여 약 24-30fps 의 프레임 비율로 수행 가능함을 증명하였다.

향후 계획으로는 본 논문에서 이용된 키넥트 장비의 특성 중 하나는 영상취득 카메라 센서와 깊이 값 취득 을 위한 적외선 센서 사이의 기하학적 거리 값으로 인 하여 영상과 깊이 값 사이의 다소간의 불일치 현상이 발생할 수 있다. 이와 같은 특성이 논문에서 제안한 기 법을 적용하는 과정에는 심각한 문제를 발생시키지 않 음을 실험적으로 확인하였다. 하지만 이와 같은 특성을 최소화하여 보다 정확한 깊이 값을 추출하기 위한 시도 가 향후 연구에서 추진될 계획이다.

REFERENCES

[1] J. Aggarwal and Q. Cai, “Human motion analysis: a review, “Computer Vision and Image

Understanding, vol. 73, no. 3, pp. 429-440,

March 1999.

[2] M. M. Hasan and P. K. Mishra, “Hand gesture modeling and recognition using geometric features: a review,” Canadian Journal on Image

Processing and Computer Vision, vol. 33, no. 1,

pp. 12-26, March 2012.

[3] S. S. Rautaray and A. Aggrawal, “Real time multiple hand gesture recognition system for human computer interaction,“

International Journal of Intelligent Systems and Application,

vol. 4, no. 4, pp. 56-64, May 2012.

[4] J. P. Wachs, M Kölsch, H. Stern and Y. Edan,

“Vision-based hand-gesture application,” Comm.

of ACM, vol. 54, no. 2, pp. 60-71, Feb. 2011

[5] Z. Ren, J. Yuan and Z. Zhang, “Robust hand

gesture recognition based on finger-earth mover

distance with a commodity depth camera,” In

Proceedings of the 19th ACM International Conference on Multimedia, pp. 1093-1096, 2011.

[6] S. Soutschek, J. Penne, J. Hornegger and J.

Kornhuber, “3-D gesture-based scene navigation in medical imaging applications using time-of-flight cameras,”

IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops CVPRW’ 08,

pp. 1-6, June 2008.

[7] M. Van den Bergh and L. V. Gool, “Combining rgb and tof cameras for real-time 3d hand gesture interaction,” 2011 IEEE Workshop on

Applications of Computer Vision, pp.66-72, Jan.

2011.

[8] P. Viola and M. J. Jones, “Robust real-time face detection,” International Journal of Computer

Vision, vol. 57, no. 2, pp. 137-154, May 2004.

[9] D. Lee and Y. Park, “Vision-based remote control system by motion detection and open finger counting,” IEEE Trans. on Consumer

Electronics, vol. 55, no. 4, pp. 2308-2313, Nov.

2009.

[10] T. Lee and T. Höllerer, “Multithreaded hybrid feature tracking for markerless augmented reality,”

IEEE Trans. Visualization and Computer Graphics, vol. 15, no. 3, pp. 355-368,

May/June 2009.

[11] Y. Liu, G. Li and Z. Shi, “Covariance tracking via geometric particle filtering,” The Eruopean

Association for Signal Processing Journal on Advances in Signal Processing, vol. 2010, no.

22, pp. 1-9, July 2010.

[12] F. Porikli, O. Tuzel and P. Meer, “Covariance tracking using model update based on lie algebra,” IEEE Computer Society Conference on

Computer Vision and Pattern Recognition, vol.

1, pp. 728-735, June 2006.

[13] O. Tuzel, F. Porikli and P. Meer, “Region covariance: a fast descriptor for detection and classification,”

European Conference on Computer Vision, vol. 3952, pp. 589-600, 2006.

[14] Y. Wu, J. Cheng, J. Wang, H. Lu, J. Wang, H.

Ling, E. Blasch and L. Bai, “Real-time probabilistic covariance tracking with efficient model update,”

IEEE Trans. on Image Processing, vol. 21, no. 5, pp. 2824-2837, May

2012.

[15] D. Comaniciu, V. Ramesh and P. Meer,

“Real-time tracking of non-rigid objects using mean shift,” In Proc. IEEE Conf. on Computer

Vision and Pattern Recognition, vol. 1, pp.

(11)

and Signal Processing, vol. 2, pp. 225-228,

March 2005.

[17] M. Yin, J. Zhang, H. Sun and W. Gu,

“Multi-cue-based camshift guided particle filter tracking,”

Journal Expert Systems with Applications: An International Journal, vol. 38,

pp. 6313-6318, May 2011.

[18] M. Van den Bergh, E. Koller-Meirer and L. Van Gool, “Real-time body pose recognition using 2d or 3d haarlets,”

International Journal of Computer Vision, vol. 83, no. 1, pp. 77-84, June

[20] 김대환, 이승준, 고성제, “영역 기반 물체 추적에서 색상 배치를 고려한 표적 모델링,” 전자공학회논문 지, vol. 49, no. 1, pp. 1-10, Jan. 2012.

[21] 변기원, 주재흠, 남기곤, “Mean Shift 알고리즘 기 반의 히스토그램 근사화를 이용한 피부 영역 검 출,” 전자공학회논문지, vol. 48, no. 4, pp.

465-473, July 2011.

[22] OpenNI. PrimeSense Sensor Module, 2011. URL https://github.com/PrimeSense/Sensor.

[23] Microsoft Corp. Kinect for Xbox 360

저 자 소 개 김 경 호(학생회원)

2011년 선문대학교 제어계측공학 과 학사 졸업.

2013년 중앙대학교 첨단영상대학 원 영상공학과 석사 졸업.

<주관심분야 : 카메라추적, 컴퓨 터비전, 증강현실>

정 다 운(학생회원)

2001년 덕성여자대학교 전산학과 학사 졸업.

2007년 중앙대학교 첨단영상대학 원 영상공학과 석사 졸업.

2013년 중앙대학교 첨단영상대학 원 영상공학과 박사 졸업.

<주관심분야 : 컴퓨터비전, 증강현실, 패턴인식>

이 석 한(정회원)

1999년 중앙대학교 공과대학 전자공학과 학사 졸업.

2001년 중앙대학교 첨단영상대학 원 영상학과 석사 졸업.

2001년∼2004년 LG전자 주임연구원.

2009년 중앙대학교 첨단영상대학원 영상학과 박사 졸업.

2009년∼2010년 중앙대학교 첨단영상대학원 CT연구소 전임연구원.

2010년∼2013년 중앙대학교 첨단영상대학원 연구전담교수.

2013년∼현재 전주대학교 전기전자정보통신공학 부 조교수.

<주관심분야 : 실시간카메라추적, 증강현실, 3D컴 퓨터비전>

최 종 수(정회원)-교신저자 1975년 인하대학교 전기공학과 학사 졸업.

1977년 서울대학교 대학원 전자공학과 석사 졸업.

1981년 Keio University(일본) 전기공학과 박사 졸업.

1981년∼1981년 Aloka Co. Ltd 연구소 연구원.

1981년∼1999년 중앙대학교 전자공학과 교수.

1999년∼현재 중앙대학교 첨단영상대학원 영상공학과 교수.

<주관심분야 : 영상신호처리, 컴퓨터 비전, 증강 현실, 영상합성, 영상통신>

A Hand Gesture Recognition System using 3D Tracking Volume Restriction Technique