• 검색 결과가 없습니다.

저작자표시

N/A
N/A
Protected

Academic year: 2024

Share "저작자표시"

Copied!
51
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에 한하여 자유롭게

l 이 저작물을 복제, 배포, 전송, 전시, 공연 및 방송할 수 있습니다. 다음과 같은 조건을 따라야 합니다:

l 귀하는, 이 저작물의 재이용이나 배포의 경우, 이 저작물에 적용된 이용허락조건 을 명확하게 나타내어야 합니다.

l 저작권자로부터 별도의 허가를 받으면 이러한 조건들은 적용되지 않습니다.

저작권법에 따른 이용자의 권리는 위의 내용에 의하여 영향을 받지 않습니다. 이것은 이용허락규약(Legal Code)을 이해하기 쉽게 요약한 것입니다.

Disclaimer

저작자표시. 귀하는 원저작자를 표시하여야 합니다.

비영리. 귀하는 이 저작물을 영리 목적으로 이용할 수 없습니다.

변경금지. 귀하는 이 저작물을 개작, 변형 또는 가공할 수 없습니다.

(2)

工學碩士學位論文

3차원 공간상의 손동작으로부터의 제스처 적출 및 인식에 관한 연구

A St udy on t heGest ur eSpot t i ng and Recogni t i onf r om 3D HandMot i ons

2012년 8월

서울大學校 大學院

(3)

3차원 공간상의 손동작으로부터의 제스처 적출 및 인식에 관한 연구

A St udy on t heGest ur eSpot t i ng and Recogni t i onf r om 3D HandMot i ons

指導敎授 韓 相 榮

이 論文을 工學碩士學位論文으로 提出함

2012년 8월

서울大學校 大學院

컴퓨터工學部

金 大 勳

金大勳의 工學碩士學位論文을 認准함

2012년 8월

위 원 장 문 병 로 ( 인)

부 위 원 장 한 상 영 ( 인)

위 원 이 광 근 ( 인)

(4)

요 약

손을 이용한 제스처는 직관적이며 빠르고 간편하며 추가적인 보 조 장치를 필요로 하지 않기 때문에 널리 사용되고 있다.최근에는 스마트폰과 스마트TV 같은 스마트 기기에서도 손동작을 인식하는 기술을 선보이고 있으며 앞으로 더 많은 영역에서 제스처가 이용될 것으로 보이고 있다.

현재 상용화 되어 있는 핸드 제스처 인식 시스템은 카메라에 찍힌 연속적인 영상에서 손의 위치를 추적하여 제스처를 분석하는 방법 을 이용한다.이 방법은 3차원 공간상의 손의 위치가 카메라상의 2 차원 공간상으로 투영되어 제스처 표현에 한계를 가진다.

하지만 마이크로소프트사가 키넥트라는 센서를 발표함에 따라 저 가로 거리 인식 카메라를 이용할 수 있게 되었고 이 센서를 이용함 으로써 실시간으로 3차원 손 위치를 추출할 수 있게 되었다.

본 논문에서는 히든 마코브 모델을 이용하여서 3차원 상의 연속적 인 손동작으로부터 어디서부터 어디까지 제스처인지 적출한 뒤 이 제스처가 어떠한 제스처인지 알아내는 방법을 제안하고 제스처 인 식시스템 내부의 상태 값들을 바꿔 가면서 이러한 값들이 인식률에 미치는 영향을 분석하였다.이를 위해 3차원 공간을 어떻게 양자화 할 것인가에 대한 연구와 충분히 많은 트레이닝 데이터를 수집하지 못했을 때 제스처 인식률을 높이는 방법을 제안하며 기존의 제스처 적출 및 인식 알고리즘을 보완하였다.

(5)

목 차

Ⅰ.서론 ……… 1

1.1연구배경 ……… 1

1.2연구목표 ……… 3

1.3논문구성 ……… 3

Ⅱ.관련연구 ……… 5

2.1제스처 적출 및 인식 알고리즘 ……… 5

2.1.1템플릿 매칭 기반 ……… 5

2.1.2확 률 모델 기반 ……… ……… 6

2.1.2.1신경망 알고리즘 ……… 6

2.1.2.2은닉 마코브 모델 ……… 7

2.2제스처 적출을 위한 다양한 휴리스틱 방법들 ……… 7

2.3기존 3차원 핸드 제스처 인식시스템의 문제점 ……… 9

Ⅲ.3차원 핸드 제스처 인식 시스템 ……… 11

3.13차원 손동작 인식 시스템의 구조 ……… 11

3.1.13차원 핸드 제스처 인식 시스템의 제스처 소개 …… 12

3.2제스처 컬렉터 ……… 14

3.3트레이닝을 위한 제스처 자동 생성 ……… 16

3.4제스처 양자화 ……… 18

3.5제스처 적출 및 인식 ……… 20

3.5.1은닉 마코브 모델 아키텍처 ……… 20

3.5.2제스처 및 임계치 모델 ……… 22

3.5.3제스처 적출 및 인식 알고리즘 ………26

(6)

Ⅳ.실험 결과 ……… 32

4.1제스처 인식 실험 ……… ……… 32

4.1.1개별 제스처 인식 실험 ……… 33

4.1.2제스처 적출 및 인식 실험 ……… 34

4.2임계치 모델 가중치에 따른 신뢰도 변화 ……… 35

Ⅴ.결론 및 향후 과제 ……… 37

5.1결론 ……… 37

5.2향후과제 ……… 37

참고문헌 ……… 39

Abstract……… 42

(7)

그림 목차

그림 2.1Arnaud가 제안한 유한 상태 머신……… 9

그림 3.13차원 핸드 제스처 인식 시스템 구조 ……… 11

그림 3.23차원 공간상의 좌표 영역 ……… 12

그림 3.3제스처 컬렉터 ……… 15

그림 3.4제스처 재현기 ……… 16

그림 3.5원본 제스처와 합성된 제스처 ……… 17

그림 3.6X,Y,Z축 회전 매트릭스 ……… 17

그림 3.73차원 공간을 특징벡터로 나누는 다양한 방법들 ……… 19

그림 3.8순수 좌우 모델 ……… 22

그림 3.9어고딕(Ergodic)모델 ……… 23

그림 3.10임계치 모델 ……… 24

그림 3.11제스처 적출망 ……… 27

그림 3.12제스처 적출 알고리즘 순서도 ……… 31

그림 4.1가중치 에 따른 신뢰도 변화 ……… 36

(8)

표 목차

표 3.1TV제어를 위해 제안된 제스처 ……… 13 표 4.1수집한 제스처와 이를 기반으로 합성된 제스처 개수 … 32 표 4.2개별 제스처 인식 실험 결과 ……… 33 표 4.3제스처 적출 및 인식 실험 결과 ……… 35

(9)

제 1장 서론

1. 1연구배경

제스처는 손가락,손,팔,얼굴 등과 같이 몸의 일부분을 이용하여 생각,감정 등의 의도를 나타내기 위한 비언어적 의사소통행위를 의 미한다[1][2].이중에서도 손을 이용한 제스처는 다양한 표현이 가능 하고 많이 이용되기 때문에 사람과 컴퓨터 간의 상호작용을 연구하 는 분야에서 많은 연구가 이루어져 왔다[3][4][5].

최근에는 스마트 폰,태블릿 컴퓨터,스마트 텔레비전 같은 스마트 기기들이 많이 출시되고 있으며 일부 스마트 폰의 경우에는 손으로 휴대폰을 터치하기가 힘이든 경우에 핸드 제스처를 이용하여 전화 를 받을 수 있는 기능을 제공하며[6]스마트 텔레비전의 경우에도 텔레비전을 제어하기 위해 핸드 제스처가 유용하게 쓰이고 있다[7].

현재의 영상 기반 핸드 제스처 인식 시스템은 손동작이 카메라로 투영이 된 2차원 영상 정보에서 손의 위치 정보를 추출하며 손이 움직이는 궤적을 분석하여 어떠한 제스처가 수행이 되었는지 인식 한다.이러한 방식은 X-Y-Z축 좌표상의 3차원 손의 궤적이 카메라 에 투영이 된 후에 X-Y축 상의 2차원 공간상의 손의 궤적으로 변 환이 되어 인식이 되기 때문에 제스처 궤적 정보가 손실이 될 뿐만 아니라 2차원 공간상의 제스처만 설계 할 수 있다는 단점이 있다.

3차원 공간상의 손의 위치를 알기 위하여서는 대상과의 거리를 측 정할 수 있는 거리 측정 카메라가 필요하다.기존에는 몇 백,몇 천 만 원을 호가하던 거리 측정 카메라가 2010년에 마이크로소프트의 X-BOX의 모션 인식용으로 제작된 깊이 인지 센서인 키넥트를 시 작으로 저가의 거리 측정 카메라들이 등장하게 되었고 이를 이용하

(10)

여 현실적인 가격으로 3차원 공간상의 손의 위치를 추적할 수 있게 되었다.

3차원상의 손의 궤적을 추적 할 수 있게 되었지만 핸드 제스처는 언제든 일어날 수 있기 때문에 제스처를 제대로 인식하기 위해서 의미 없는 손동작과 사용자가 의도한 제스처를 구분하는 것이 필요 하다.이를 위해서 제스처의 시작점과 끝점을 정확히 알아 낸 뒤 어 떠한 제스처가 수행이 됐는지 알아내는 작업이 필요하다.제스처의 시작점과 끝점을 추출하는 것을 제스처 적출이라고 하며 제스처 인 식 시스템이 제스처의 경계를 명확하게 알아내지 못하면 사용자의 의도와는 상관없는 다른 제스처로 인식하거나 또는 제스처를 제대 로 수행했음에도 불구하고 제스처를 인식하지 못하는 문제가 발생 하게 된다[7].

현재 스마트폰의 터치제스처나 스마트 텔레비전에 제스처의 신호 를 주기 위해 리모컨을 사용하는 경우에는 제스처의 시작과 끝을 알 수 있어 이 궤적을 이용하여 바로 제스처를 인식할 수 있다.반 면에 보조적인 장치를 사용하지 않는 핸드 제스처 인식 시스템은 언제부터 제스처가 시작이 되고 끝이 나는지 알아내야 하는 번거로 움이 있지만 제스처의 시작점과 끝점을 알리기 위해서 특정 포즈를 취하거나 소리를 낸다거나 버튼을 누르는 등의 보조적인 장치 없이 제스처를 수행하는 것은 사용자에게 어떠한 준비 없이도 제스처를 수행할 수 있는 장점이 있기에 제스처 적출 문제는 반드시 해결되 어야 할 문제이다.

3차원상의 핸드 제스처를 적출 및 인식 하기 위하여 템플릿과 비 교하여 비슷하면 제스처라고 인식하는 방법들이 제안되었다[8][9]. 하지만 지금까지 제안된 템플릿 비교 방법은 제스처가 시간 공간적

(11)

점이 있다[10].

1. 2연구목표

본 연구에서는 3차원 공간상의 연속적인 손동작으로부터 제스처를 적출하여 어떠한 제스처인지 인식하는 시스템의 설계 및 구현에 대 하여 연구한다.

3차원 핸드 제스처 인식 시스템은 키넥트라는 깊이 측정 카메라를 사용하여 트레이닝을 시킬 제스처를 수집한 뒤,더 나은 인식 시스 템을 만들기 위해 이 제스처들을 변형하여 트레이닝을 위한 추가적 인 제스처를 합성하는 방법을 제시한다.그런 다음 더 높은 인식률 을 위하여 3차원 공간을 어떻게 나누는지 조사한 다음 트레이닝 데 이터로 은닉 마코브 모델(Hidden Markov Model)을 트레이닝 하여 이를 기반으로 제스처 적출망을 만들어 제스처를 적출 및 인식을 한다.이러한 방법을 통하여 3차원 제스처 인식 시스템을 설계 및 구현을 통해 실시간으로 손 궤적을 입력을 받아 제스처를 적출하고 인식하는 시스템을 설계 및 구현하는 것을 목표로 한다.

1. 3논문구성

1장(서론 )에서는 3차원 제스처 인식 및 적출에 대한 소개와 연구 배경에 설명하고 연구목표에 대해서 설명한다.

2장(관련연구 )에서는 제스처 인식에 대해서 기존의 제안된 시스 템에 대해서 알아보고 왜 은닉 마코브 모델을 이용하여 제스처 인 식시스템을 설계하게 되었는지 설명한다.

3장(3차원 핸드 제스처 인식 시스템 )에서는 3차원 핸드 제스처

(12)

인식 시스템의 전체적인 구조를 설명하고 각 모듈이 어떠한 역할을 하는지에 대해서 소개한 뒤 어떻게 제스처가 적출이 되고 인식이 되는지에 대한 알고리즘을 설명한다.

4장(실험 결과 )에서는 3차원 제스처 인식 시스템의 실험결과를 살펴본다.

5장(결론 및 향후 과제 )에서는 결론 과 향후과제에 대해서 논의 한다.

(13)

제 2장 관련연구

2. 1제스처 적출 및 인식 알고리즘

제스처는 시간 및 공간의 측면에서 다양성을 갖는다.즉 동일한 제 스처라고 할지라도 제스처가 수행되는 시간이 제 각각이고 또한 제 스처가 공간적으로도 조금씩의 변형이 되어 발현될 수 있다.이러한 시공간적 다양하게 나타날 수 있다는 관점에서 연속적인 손동작으 로부터 제스처들을 추출하고 인식할 수 있도록 제안된 방법들에 대 해서 살펴본다.

2.1.1템플릿 매칭 기반

템플릿 매칭 방법은 레퍼런스 제스처를 템플릿으로 모델링한 뒤 입력으로 들어온 제스처와 레퍼런스 제스처 템플릿과의 비교를 한 뒤 비슷하다고 판단이 되면 제스처를 인식하는 방법이다.이 계열 의 방법은 트레이닝 데이터가 많이 필요 없고 시간의 다양성은 잘 감지한다는 장점이 있는 반면에 공간의 다양성을 감지하지 못한다 는 단점이 있다[10].

Takahashi[11]는 연속적인 이미지들에서 7개의 각기 다른 바디 제 스처를 인식하기 위해 연속적인 동적 프로그래밍(Continuos DynamicProgramming)방법을 제안하였다.동적 프로그래밍은 복 잡한 문제를 작은 문제로 쪼갠 다음 테이블을 활용하여 재귀적으로 문제를 풀어 계산시간을 줄이는 방법이다.이 방법에서는 연속된 사 진으로부터 한 장의 사진이 입력으로 들어오며 각 입력 신호가 들 어올 때 마다 잠정적으로 제스처의 마지막 시간이라고 가정을 한

(14)

다음 입력신호와 레퍼런스 제스처간의 거리를 효율적으로 계산하기 위하여 동적 프로그래밍을 사용하여 입력으로 들어온 동작이 레퍼 런스 제스처와의 거리가 최솟값으로 떨어지면 해당제스처라고 인식 을 하였다.

2.1.2확률 모델 기반

신경망 알고리즘(NeuralNetwork)또는 은닉 마코브 모델(Hidden Markov Model)과 같은 확률모델은 내부적으로 여러 개의 상태가 서로 연결되어 있는 형태로 구성되어 있으며 각 상태에서 다른 상 태로 확률적으로 옮겨 갈 수 있다.템플릿 매칭 기반 방법에 비해 많은 트레이닝 데이터가 필요하다는 단점이 있지만 시공간적으로 다양하게 나타날 수 있는 제스처를 인식할 수 있다는 장점이 있다.

2.1.2.1신경망 알고리즘

Kjeldsen and Kender[18]는 윈도우 시스템을 제어하기 위해서 신 경망 알고리즘을 사용하였다.이 시스템은 손을 추적하는 계층과 어 떠한 행동이 수행되어 졌는지에 대해서 조사하는 계층 총 2개의 계 층으로 나뉘어 져있다.사람의 피부색을 이용하여 손을 추적하였으 며 추적한 손의 위치를 어떠한 행동인지는 행동을 조사하는 계층이 받아서 어떠한 행동이 수행되었는지 조사를 수행하였다.이 방법에 서는 궤적뿐만 아니라 손의 포즈정보도 이용하여 제스처를 분류하 는데 사용하였다.

(15)

2.1.2.2은닉 마코브 모델

신경망 알고리즘 이외에 제스처를 인식하기 위해서 많이 쓰이는 확률 모델은 은닉 마코브 모델이다.초창기에는 음성 인식분야에서 성공적으로 사용되었고[11]나중에는 핸드 제스처 인식과 같은 다른 패턴인식 분야에 널리 이용되고 있다[2][10].

Startner와 Pentland는 미국 신호 언어(American Sign Language) 을 인식하기 위하여서 은닉 마코브 모델을 사용하였다[12].실험에 서 사용자를 손에 색이 입혀진 장갑을 착용 시키고 의자에 앉힌 다 음 카메라는 실시간으로 손의 위치를 추적하였다.카메라에서 실시 간으로 추적한 손의 궤적을 8개의 방향 벡터중 가장 유사한 벡터와 매칭을 시킨 다음 은닉 마코브 모델에서 어떠한 동작이 수행되고 있는지 분석을 하는 방식으로 인식이 진행되었다.이 실험에서의 문 제점은 일단 사용자가 신호 언어(Sign Language)를 수행하기 시작 하면 쉬지 않고 연속적으로 계속하여 실시하여야만 했다.즉 제스처 와 제스처 사이에 제스처가 아닌 손동작을 구별 할 수가 없었다.

이러한 문제를 해결하기 위해서 제스처가 어디서부터 시작해서 어 디서 끝나는지에 대해서 분석하는 방법이 필요하였고 이현규는 제 스처가 아닌 동작을 구분하기 위해서 제스처가 아닌 동작을 임계치 모델로 모델링한 뒤 제스처와 제스처 사이에 나타나는 쓸모없는 손 동작을 구별하는 방법을 제안하였다[13].

2. 2제스처 적출을 위한 다양한 휴리스틱 방법들

제스처의 시작 위치와 끝 위치에 대한 정보가 미리 주어지지 않으 면 제스처 인식기에서는 제스처의 경계를 실시간으로 분석한 뒤 어 떠한 제스처인지 판단하는 작업을 수행하여야 한다.따라서 제스처

(16)

의 시작위치와 끝 위치를 알 수 있는 휴리스틱 방법들을 쓰면 제스 처의 경계를 잘못 잡아서 잘못된 인식을 할 수 있을 확률이 줄어들 며 적출 및 인식을 동시에 수행하여야 하는 작업보다 인식 작업이 간단해지고 더 높은 인식률을 얻을 수 있다.

따라서 제스처를 적출을 하기 위해서 위에 소개한 템플릿 매칭 방 법 또는 확률모델만을 이용할 수도 있지만 더욱 효과적으로 적출하 기 위해 여러 가지 방법들이 제안되어 왔다.

첫 번째는 방식은 라디오 기반 통신 장치에서 통신을 시작할 때 버튼을 눌러서 통화 하듯이 제스처가 시작한다는 정보를 명시적으 로 제스처 인식기에게 신호를 주는 방법이다.ThomasSchlomer는 위 컨트롤의 가속도 센서신호를 이용하여 제스처를 인지하는 방법 을 제안하였는데 위 컨트롤러의 A버튼을 제스처를 시작할 때부터 제스처가 끝날 때까지의 계속 누르고 있게 함으로써 제스처를 적출 하는 방법을 제안하였다[14].보조적인 장치 이외에 소리를 이용한 방법도 제안이 되었는데 Mind-Warping이라는 격투 증강현실 게임 에서는 제스처를 시작할 때 기합소리를 내고 끝날 때도 기합 소리 를 내게 함으로써 제스처의 경계를 적출 하였다[15].

두 번째 방식은 버튼이나 소리와 같이 보조적인 장치를 사용하지 않고 문맥적인 방법을 이용하는 방식이다.강현은 핸드 제스처로 퀘 이크-3라는 1인칭 액션게임을 조작하기 위해 문맥정보를 사용하는 방법을 제안하였다[16].제스처를 적출하기 위해서 모든 제스처를 특정포즈부터 시작하게 하였으며 인식기에서 손이 빨리 움직이거나 방향이 급격하게 바뀌면 제스처일 확률이 높다고 판단을 하였다.제 스처를 적출 할 때 문맥을 이용한다는 아이디어는 좋았으나 제스처 의 시작위치를 고정시켰다는 제약을 두었다는 점 그리고 제스처를

(17)

2. 3기존 3차원 핸드 제스처 인식시스템과 문제점

3차원 제스처의 정확한 인지를 하기 위해서 손이 카메라로부터 얼 마나 떨어져 있는지에 대해서 알아야 하며 이를 위해서는 대상과의 거리를 측정할 수 있는 깊이 인식 카메라가 필요하다.

최근 거리 측정 카메라를 이용하여 3차원 공간상의 제스처를 인식 하기 위해 Kinect-DTW[8]라는 오픈 프로젝트가 진행 중에 있으며 Dynamic Time Warping이라는 템플릿 매칭을 기반으로 제스처를 인식한다.Arnaud은[17]로봇에서 제스처를 인지하기 위해 손의 움 직임을 상-하,좌-우,앞-뒤 총 6가지 방향으로만 움직인다고 보고 각각의 제스처를 각각의 유한 상태 머신으로 대응시켰다.손을 좌우 로 두 번 움직이는 손동작을 로봇에게 인사를 취하는 제스처로 정 의하고 인사를 의미하는 제스처로 수행하기 위해서는 그림 2.1과 같 이 왼쪽->오른쪽->왼쪽->오른쪽의 순서대로 정확히 수행하여야 제 스처로 인식이 되게 하였다.

그림 2-1Arnaud가 제안한 유한 상태 머신

이처럼 지금까지 3차원 상의 핸드 제스처를 적출하고 인식하기 위 하여 제안된 방법들은 템플릿을 매칭하는 방법들이 제안되었으며

(18)

이러한 방법들은 제스처의 특성상 공간상으로 다양하게 나타날 수 있는 특징을 감내하지 못한다는 단점이 있어[10]본 연구에서는 확 률모델을 사용하여 제스처의 시공간적 다양성을 잘 인지하는 동시 에 장갑을 끼거나 목소리 또는 손의 포즈와 같은 보조적인 장치 없 이 제스처를 적출하고 인식하는 방법을 소개한다.

(19)

제 3장 3차원 핸드 제스처 인식 시스템

본 장에서는 3차원 핸드 제스처 인식 시스템의 전반적인 구조를 알아본 뒤 제스처 컬렉터,트레이닝을 위한 제스처 자동 생성 방법, 트레이닝 제스처의 양자화 방법 그리고 제스처를 적출 및 인식하는 알고리즘에 대해서 소개하기로 한다.

3. 13차원 핸드 제스처 인식 시스템의 구조

그림 3.13차원 핸드 제스처 인식 시스템 구조

3차원 핸드 제스처 인식 시스템의 전체적인 구조는 그림 3-1과 같 으며 크게 제스처 수집,훈련,인식 모듈로 나뉜다.

제스처 컬렉터(GestureCollector)는 3차원 핸드 제스처 인식시스템 의 훈련을 위한 각각의 트레이닝 제스처의 궤적들을 수집하며 수집 한 제스처들의 궤적을 트레이너(Trainer)에게 보내는 역할을 한다.

트레이너는 제스처 합성기(Gesture Synthesizer),제스처 양자화기 (Gesture Quantizer), HMM Trainer(Hidden Markov Model

(20)

Trainer)로 나뉜다.제스처 합성기는 제스처 컬렉터로부터 넘겨받은 제스처를 기반으로 하여 훈련에 쓰일 제스처들을 추가적으로 합성 하여 더 많은 트레이닝 데이터를 만드는 역할을 한다.제스처 양자 화기는 제스처 궤적을 바로 이산 은닉 마코브 모델을 훈련하는데 사용할 수 없으므로 제스처 궤적들을 삼차원 공간상의 특징벡터로 매치를 시켜 숫자로 변환시키는 역할을 하며 이 결과들을 가지고 HMM Trainer에서 제스처 각각의 은닉 마코브 모델을 훈련한다.

제스처 적출망(Gesture Spotting Network)은 훈련된 은닉 마코브 모델들을 이용하여 만들어지며 사용자의 손동작을 받아서 어디서부 터 어디까지 제스처인지 그리고 어떠한 제스처인지 적출 및 인식하 는 역할을 한다.

3.1.13차원 핸드 제스처 인식 시스템의 제스처 소개

그림 3.2 3차원 공간상의 좌표 영역

(21)

제스처 제스처 이름 제스처 기능 설명 (제스처 모양 부연설명 )

Cancel

메뉴 취소 (X-Y 평면상

삼각형 )

Select(Menu)

메뉴 선택[메뉴 호출]

(X-Y 평면상 S모양 )

ChannelUp

위 채널로 (X-Y 평면상 왼쪽 오른쪽 )

ChannelDown

아래 채널로 (X-Y 평면상 오른쪽 왼쪽 )

VolumeUp

소리 크게 (X-Z 평면상 반 시계방향 원 )

VolumeDown

소리 작게 (X-Z 평면상

시계방향 원)

Power

전원 On/Off (Y-Z 평면상 아래 반원 )

Mute

음소거 (Y-Z 평면상 위 아래 반원 )

표 3.1TV 제어를 위해 제안된 제스처

(22)

3차원 핸드 제스처 인식 시스템의 적용 범위는 제스처를 쓰는 것 이 유용하다고 생각하는 영역에 사용이 가능하며 그 예로 게임,의 료등이 있다[5].본 연구에서는 TV를 제어하기 가장 필요하다고 생 각하는 8가지 기능을 모았고 이에 대응이 되는 제스처를 표 3-1과 같이 제안하였다.

TV를 제어하기 위해 많이 쓰이는 기능인 소리조절,채널이동,TV 온/오프,음소거 기능을 각각 SoundUp-Down,ChannelUp-Down, Power,Mute제스처로 대응시켰고 이 기능 외에 필요한 기능은 메 뉴를 열고 선택하는 기능을 Select(Menu)제스처로 메뉴를 닫는 기 능을 Cancel제스처로 대응시켰다.ChannelUp-Down제스처로 메뉴 에서 각각 위 아래로 움직일 수 있으며 SoundUp-Down으로 메뉴 왼쪽,오른쪽으로 움직일 수 있으며 세부메뉴를 선택할 때는 다시 Select(Menu)제스처를 수행하며 메뉴를 취소 또는 뒤로 가기를 수 행할 때는 Cancel제스처를 수행할 수 있게끔 하여 8개의 제스처로 모든 TV의 모든 기능을 제어할 수 있는 시나리오로 제스처를 디자 인 하였다.

3. 2제스처 컬렉터

제스처 컬렉터는 3차원 핸드 제스처 인식 시스템을 훈련시키기 위 해서 각 제스처별로 트레이닝 제스처를 수집한다.본 연구에서는 3 차원 공간상의 손의 위치를 추적하기 위하여 마이크로소프트사의 키넥트 깊이 인식 카메라를 사용하며 키넥트를 제어하기 위해서는 마이크로소프트 키넥트 소프트웨어 개발 툴[22]을 사용하였다.

(23)

그림 3.3제스처 컬렉터

제스처 컬렉터는 그림 3.3와 같이 구성되어 있다.깊이 인식 카메 라가 간헐적으로 손의 위치를 추적하지 못하는 현상이 나타나 제스 처 수집 시 손이 제대로 추적이 되고 있는지 확인하기 위해 제스처 를 수집하는 사람의 손의 위치를 큰 별로 나타나게 하고 손이 지나 간 궤적을 작은 별들로 화면에 나타나게 하여 현재 손이 제대로 추 적되고 있는지를 확인할 수 있게끔 하였다.하나의 제스처를 수행한 후 제스처가 제대로 수행되었다면 Correct로 제스처가 잘못 수행되 었거나 손의 위치가 잘못 추적이 되었을 때는 Error로 제스처 컬렉 터에게 피드백을 주었다.또 왼손에는 버튼을 들게 하여 제스처를 시작할 때는 버튼을 누르고 끝이 나면 버튼을 놓게 하여 정확한 시 작점과 끝점을 제스처 컬렉터에 알려 줄 수 있게끔 하였다.

(24)

그림 3.4제스처 재현기

제스처를 수집 한 이후에 제스처가 정확히 잘 수행되었는지 확인 하고 또한 필요시 수행된 제스처를 다시 재현하여 볼 수 할 수 있 게끔 하기 위해 제스처 재현기를 그림 3.4와 같이 만들었다.오른 쪽 위에서부터 반 시계 방향으로 옆에서 바라본 손의 궤적,앞에서 바라 본 손의 궤적,위에서 바라본 손의 제스처 궤적을 재현한다.

3. 3트레이닝을 위한 제스처 자동생성

은닉 마코브 모델을 훈련시키기 위해서 트레이닝 제스처가 많으면 많을수록 더 높은 인식률을 보장할 수 있으며[19]패턴인식의 많은

(25)

그림 3.5 원본 제스처와 합성된 제스처

제스처를 훈련시키기 위해서 제스처 컬렉터를 이용하여 많은 수의 제스처를 일일이 수집하는 데는 한계가 있어 본 연구에서도 수집된 트레이닝 데이터를 기반으로 하여 그림 3.5와 같이 이들을 X ,Y ,Z 축으로 회전 시켜 여러 개의 합성된 제스처를 만드는 방법을 이용 한다.

그림 3.6X,Y,Z 축 회전 매트릭스

(26)

수집된 제스처들은 3차원 상의 손의 궤적들의 집합이고 각각의 궤 적 내의 각각의 샘플링된 손 위치는 3차원 상의 좌표(x,y,z)로 표현되며 이 궤적들에 그림 3.6에 있는 X,Y,Z 축 회전 매트릭스 중에서 회전을 적용할 매트릭스를 아래 수식과 같이 곱하여 각 축 으로 회전된 좌표를 구할 수 있다.

  

 

=





  

 

3. 4제스처 양자화

본 연구에서 이산 은닉 마코브 모델을 이용하며 자동 생성된 트레 이닝 데이터를 가지고 이산 은닉 마코브 모델을 훈련시키기 위해서 제스처의 궤적을 3차원 공간상의 특징 벡터들의 집합으로 양자화 시켜야 한다.3차원의 공간을 어떻게 나눌 지에 대한 방법을 정하기 위해서 그림 3.7과 같이 3차원 공간을 각각 8,14,18,26가지로 나 누는 방법을 고안하고 각각의 방법에 대해 제스처 인식률을 실험을 하여 적절한 특징 벡터집합을 결정하였다.

(27)

그림 3.73차원 공간을 특징벡터로 나누는 다양한 방법들

먼저 2차원 제스처를 인식할 때 쓰는 방법으로 그림 3.7(a)와 같이 X-Y평면상을 8가지 방법으로 나누는 방법으로 실험을 한 결과 예 상한대로 삼차원 제스처를 제대로 구분하여 인식을 하지 못하였다.

3.7(b)방법은 여기에 X-Z평면을 여덟 개로 나누고 3.7(a)와 중복되 는 특징 벡터를 제외한 총 14가지 특징벡터로 나누는 방법을 적용

(28)

한 결과 삼차원 상의 제스처를 명확하게 구분하여 인식할 수 있었 다.이에 더 나아가 그림 3.7(c)와 같이 Z-Y축을 여덟 개로 나누고 그림3.7(b)방법과 중복되지 않는 특징 벡터를 추가하여 3차원 공간 을 18가지 방법으로 나누는 방법으로 실험을 한 결과 오히려 14가 지 방법으로 특징벡터를 나누는 방법으로 실험을 한 결과보다 더 낮은 인식률을 보였고 삼차원 공간을 가장 다양한 방법으로 쪼갠 3.7(d)의 경우에는 제일 낮은 인식률을 보였다.

삼차원 공간을 여러 개의 특징 벡터로 쪼개면 쪼갤수록 인식률을 높이기 위해서 더 많은 트레이닝 데이터가 필요하였고 14가지 방법 으로 삼차원 공간을 쪼개는 방법이 가장 높은 3차원 제스처 인식률 을 보여주었기 때문에 본 연구에서는 그림 3.7(b)과 같이 14가지로 특징벡터를 양자화 하는 방법을 선택하였다.

3. 5제스처 적출 및 인식

끊임없이 나타나는 손동작으로부터 제스처를 적출하고 인식하기 위해서 제스처가 아닌 손동작과 제스처를 구분한 뒤 제스처라면 어 느 제스처인지 분류하는 작업이 필요하다.이를 위해 은닉 마코브 모델의 모델에 대해서 설명한 뒤 제스처를 모델링하는 제스처 모델 들과 제스처가 아닌 손동작을 모델링 하는 임계치 모델을 소개하며 제스처 모델들과 임계치 모델을 묶어서 하나의 적출망을 만들어 이 를 이용하여 제스처가 확실하다고 판단되는 시점에 제스처를 인식 하는 알고리즘을 소개한다.

3.5.1은닉 마코브 모델 아키텍처

(29)

의 노드는 하나의 상태에 대응되며 각 상태들은 관측 값에 대한 관 측확률분포와 현재 상태에서 다음 상태를 결정하는데 쓰이는 상태 전이확률을 가진다.표현의 일관성을 위해 아키텍처를 다음과 같이 표기하기로 한다.

(시간 t에서 관측 값 )

-관측 값의 집합을 알파벳이라고 하고 V={







}로 표기한다.알파벳을 구성하는 값

을 기호라고 한다.

(시간 t에서의 상태 값 )

-N개의 상태를 {





}로 표기한다.

   



(상태 전이 확률 )

-시간 t에 상태

에 있다가 t+1에 상태

로 이동할 확률을 나타낸다.

   



 

(관측 확률 )

-상태

에서 기호

가 관측될 확률을 나타낸다.

   

(초기 상태 확률 )

-

는 초기에 상태

에서 시작할 확률을 나타낸다.

     

-하나의 은닉 마코브 모델을 이를 구성하는 세 가지 매개변수인 상태 전이 확률, 관측 확률, 초기 상태 확률을 모아서 이와 같이 표기한다.

(30)

3.5.2제스처 및 임계치 모델

제스처는 시간,공간적으로 다양한 형태로 나타나며 제스처의 부분 패턴이 나타난 뒤 그것이 다시 나타나지 않는 순차적인 특징을 가 진다.제스처의 부분 패턴들이 순서대로 정확하게 수행되어야만 제 스처로 인식하기 위해 그림 3.8과 같이 현재 상태에서 현재 상태 또 는 바로 다음 상태로만 이동할 수 있는 순수 좌우모델을 이용하여 제스처를 모델링한다.

그림 3.8순수 좌우 모델

현재 상태에서 자기 자신으로 전이하는 것은 부분패턴이 반복해서 일어나는 것을 의미하며 각 상태에서 다음상태로의 전이하는 것은 해당 부분 패턴이 끝나 다음 부분 패턴이 나타나는 것을 의미한다.

각 상태에서의 관측 확률분포는 각 부분 패턴에서 14가지의 손의 움직임이 일어날 확률과 상응한다.제스처의 시작은 시작 상태에서 부터만 시작하며 제스처의 끝 지점은 반드시 마지막 상태에서 끝이 나도록 모델링 되며 각각의 제스처의 상태 개수를 정하는 방법은 뒷부분에 설명하기로 한다.

은닉 마코브 모델은 관측 값을 입력으로 받고 이러한 관측 값이

(31)

률을 구해 사후확률을 구하거나 또는 확률이 특정 상수 값을 넘으 면 제스처라고 판단하는 방법도 있겠지만 관측 손동작이 조금만 길 어도 각 제스처 모델에서 생성하는 하는 값들이 매우 작아서 이러 한 단순 비교 방법들은 적절하지 않다.또한 제스처가 아닌 손동작 들을 모아 따로 하나의 제스처 마코브 모델을 만들 수도 있지만 제 스처가 아닌 무수하게 많은 패턴을 모으기는 불가능 하므로 이러한 방법 또한 적절하지 않아 본 시스템에서는 훈련된 제스처들의 모델 들을 기반으로 만든 임계치 모델을 이용하여 제스처가 아닌 손동작 을 구분하기로 한다.

제스처의 경우에는 패턴이 부분패턴으로 나뉘고 이러한 부분패턴 의 전후 관계가 명확하다.하지만 제스처가 아닌 손동작을 모델링하 는 임계치 모델의 경우에는 제스처가 아닌 손동작을 모델링하기 때 문에 특정 상태에서 어느 상태로도 움직일 수 있도록 한계치 모델 을 그림 3.9과 같이 어고딕(Ergodic)모델로 정의한다.

그림 3.9어고딕(Ergodic)모델

임계치 모델은 제스처 모델들의 상태를 조합해서 만들며 각각의

(32)

제스처는 여러 개의 상태를 가지고 있기 때문에 이들 상태들 사이 의 전이를 표현하기 위해서는 상태들의 제곱에 비례하는 엣지가 필 요하기 때문에 그림 3.10과 같이 임계치 모델을 간단하게 표현한다.

여기서 시작 상태와 끝 상태는 모델 표현의 간략함을 위해서 삽입 된 것이며 관측값에 대한 관측확률을 생성하지 않고 상태 전이 확 률만을 생성한 뒤 바로 다음 상태로 넘어가 모델 내의 상태들의 전 이를 적은 엣지로 표현할 수 있게 하는 징검다리 역할을 한다.

그림 3.10 임계치 모델

임계치 모델을 만드는 방법은 다음과 같다.

Step 1) 모든 제스처 모델의 상태를 가져온 뒤 각각의 상태의 관측확률 및 자기 자신으로 전이하는 전이확률은 유지한다.

(33)

설정한다.

 

    

   임계치 모델의 모든 상태



   



 ≤  ≤ 

임계치 모델은 현재 상태에서 어떠한 상태로도 전이 할 수 있기 때문에 어떠한 패턴이라도 표현 할 수 있다.하지만 현재 상태에서 자기 자신으로 전이하는 전이 확률은 유지되고 다른 상태로 전이하 는 확률은 줄었기 때문에 입력으로 들어온 손동작이 제스처인 경우 해당 제스처를 인식하는데 특화된 제스처 모델에서 생성한 확률 값 이 임계치 모델뿐만 아니라 다른 제스처모델에서 생성한 확률 값보 다 높은 값을 생성하므로 해당 관측 값들이 제스처인지 알 수 있게 된다.또한 제스처가 아닌 손동작이 들어 왔을 때 제스처 모델들은 순수 좌우 모델이고 시작 상태에서부터 마지막 상태까지 모두 거쳤 을 확률만을 생성하기 때문에 제스처가 아닌 손동작을 적절하게 설 명하지 못하므로 임계치 모델보다 낮은 확률 값들을 생성하여 제스 처가 아님을 알 수 있다.이처럼 임계치 모델은 다른 제스처모델들 이 생성하는 확률 값이 제스처로 인정받기 위한 최소한의 임계치 값을 생성하므로 임계치 모델이라고 불린다.

은닉 마코브 모델은 같은 트레이닝 데이터가 있다고 할지라도 제 스처 모델의 상태 개수를 다르게 설정함에 따라 다르게 훈련되며 이에 따라라 같은 관측 값이라고 할지라도 다른 확률 값을 생성하 게 된다.제스처 유무가 임계치 모델의 확률 생성 값과의 비교를 통 해서 이루어지므로 각각의 제스처 모델의 상태 개수 정하는 것은 중요한 문제이다.따라서 입력으로 들어온 손동작이 제스처 일 때 해당 제스처 모델이 생성한 값이 임계치 모델이 생성한 값보다 최

(34)

대한 크도록 다음 식을 만족하도록 상태 개수를 잡아야 한다.

제스처상태개수  argmax    

 



    

 



 

위 식에서 는 의 길이를 가진 제스처 은닉 마코브 모델을 말 한다.이 너무 작으면 제스처 모델은 제스처를 제대로 모델링 할 수 없는 반면에 이 너무 크면 전이 확률이 줄어든 임계치 모델에서 전이를 최대한 적게 하면서 해당 손동작을 설명할 수 있게 되어 제 스처 모델과 임계치 모델에서 생성된 확률 차이가 줄어들게 된다.

또한 많은 수의 상태를 가진 임계치 모델에서 입력 손동작이 제스 처인지 확률을 구하는 시간이 기하급수적으로 길어진다.따라서 작 은 수의 상태 개수에서 시작해서 임계치 모델보다 최대한 더 큰 확 률을 생성할 수 있는 제스처 길이를 찾을 때 까지 상태 개수를 하 나씩 늘린다.

3.5.3제스처 적출 및 인식 알고리즘

제스처와 제스처 사이에는 제스처가 아닌 손동작이 존재한다.제스 처는 제스처 모델로 제스처가 아닌 손동작은 임계치 모델로 모델링 되기 때문에 제스처를 적출하기 위한 제스처 적출망을 그림 3.11과 같이 임계치 모델 뒤에 제스처 모델을 연결시켜 제스처와 제스처가 아닌 손동작을 표현 할 수 있도록 만들었다.

(35)

그림 3.11제스처 적출망

샘플링된 손의 궤적을 입력으로 받아서 어디서부터 어디까지 제스 처인지 알기 위해서는 제스처 적출망 내에서 손의 궤적을 가장 잘 설명할 수 있는,즉 가장 높은 확률로 손의 궤적의 확률을 생성해내 는 최적의 상태 열을 찾아야 한다.제스처 적출망의 상태 개수를 N 이라고 하고 입력으로 들어온 손의 궤적의 길이를 T라고 한다면 모 든 경우의 수를 다 구하여 최적의 상태 열을 구하기 위해서



만큼의 시간이 걸리기 때문에 손의 궤적이 조금만 길어져도 실시간

(36)

으로 제스처를 적출할 수 없어진다.따라서 손의 궤적을 가장 높은 확률로 생성하는 상태 열을 구하기 위하여 다음과 같이 동적 프로 그래밍 방식의 Viterbi알고리즘[23]을 이용한다.

  max



       

  

  max 



 



  

 

 ≤  ≤ 

는 시간 t에 관측벡터



를 관측하고 상태

에 있을 최대 확률이다.이는 시간 t-1에 각 상태 j있을 최고 확률인 

 

에 상태 i로 전이를 한 뒤 t시간에 관측 값 를 관측할 가장 큰 확 률을 비교하여 가장 큰 값을 구함으로써 최적 경로를 기록하는 역 할을 하는 τ와 초기 식을 포함한 완전한 식으로 다시 쓰면 다음과 같다.

  

 

   ≤  ≤ 

   max 



 



  

 

   ≤  ≤    ≤  ≤ 

 ≤  ≤ 

  argmax  







   ≤  ≤    ≤  ≤ 

 ≤  ≤ 

각 제스처의 모델의 마지막 상태를 라고 한다면 시간 T에 입력 으로 들어온 손의 궤적이 제스처일 확률은 손의 궤적 X가 제스처 적출망에서 임계치 모델을 지나 각 제스처의 마지막 상태에 있을

(37)

       

 

  

∈ 각제스처모델의마지막상태

제스처가 아닌 손동작일 확률은 시간 T에 임계치 모델의 상태에 있을 확률 중 가장 경우이고 다음과 같이 구할 수 있다.

       max 

 

  

∈임계치모델의상태

복잡한 제스처 일수록 제스처가 여러 부분 패턴으로 쪼개어지기 때문에 해당 제스처 모델의 상태가 길며 제스처를 가장 잘 설명하 기 위해 제스처모델의 시작 상태에서 마지막 상태까지 여러 번의 전이가 일어나야 하며 임계치 모델에서도 제스처를 가장 설명하기 위해서 여러 번의 상태 전이가 일어나야 한다.임계치 모델에서 상 태전이 확률은 제스처 모델의 상태전이 확률보다 적게 설정이 되어 있으므로 제스처가 복잡하면 복잡할수록 여러 번의 전이로 인해 해 당 제스처가 임계치 모델에서 생성 되었을 확률은 상대적으로 줄어 들며 이에 따라 제스처가 미처 수행 되지 않았음에도 부분 제스처 를 보고 해당 제스처라고 인식하는 문제가 발생되게 된다.이러한 문제점뿐 아니라 줄어든 임계치 모델의 전이확률로 인해 제스처가 아닌 손동작을 제스처로 인식하는 거짓 참(false positive )문제를 없애기 위해서 다음과 같이 제스처 모델의 상태길이에 비례하는 가 중치 를 주어서 제스처를 적출하게 하였다.가중치 는 실험을 통 해 인식률을 최대한 높이고 제스처가 아닌 손동작을 제스처라고 하 는 거짓 참을 최대한 줄일 수 있도록 설정하며 에 따른 인식률 실 험은 Ⅴ장에서 자세히 다루며 다음과 같은 조건을 만족하는 제스처 가 하나라도 있으면 제스처라 판단하고 제스처를 인식한다.

(38)

∃ 

   

  ×  ∈ 제스처모델

위의 경우를 만족하는 제스처 모델이 하나라도 있으면 제스처라고 판단을 하였다.그 이후 최적 경로   를 구하기 위해 서 마지막 상태는 제스처의 마지막 상태로 두고 그 이후 다음과 같 이 최적 경로를 기록하는 역할을 하였던 τ를 보고 T-1,T-2,… ,1 순서대로 역추적 하여 구한다.

 

 

 

 



 

          

제스처 적출망은 임계치 모델의 시작상태부터 시작하기 때문에 제스처의 마지막 상태에서의 최적경로 안에 임계치 모델의 상태들 도 포함이 되어있다.따라서 아래와 같이 정확한 제스처의 시작점을 알기위해서 최적경로에서 임계치 모델의 상태를 제외한 경로를 제 스처가 수행된 구간임을 알 수 있으며 이를 통해 제스처가 시작된 시각과 최적의 제스처 상태열을 알 수 있다.

 

  

  

 

  

     

∈제스처 모델의 상태  

 

∈ 임계치 모델의 상태  

손의 궤적이 깊이 인식 카메라에 구해 질 때마다 제스처를 적출 및 인식 알고리즘이 수행이 되며 제스처가 끝이 났다고 판단하는

(39)

그림 3.12제스처 적출 알고리즘 순서도

(40)

제스처 수집한 제스처 개수 합성된 제스처 개수

Cancel 280 1960

Select(Menu) 200 1400

Channel Up 250 1750

Channel Down 200 1400

Volume Up 200 1400

Volume Down 200 1400

Power 230 1610

Mute 180 1260

총계 1,740 12,180

제 4장 실험결과

4. 1제스처 인식 실험

본장에서는 제스처의 적출 및 인식에 관한 실험에 관하여 다룬다.

제스처를 모은 뒤 개별적인 제스처 인식률이 100%가 될 때 까지 수 집한 제스처를 늘리는 방식으로 제스처를 수집하였으며 각 제스처 별로 수집한 제스처와 합성된 제스처를 표 4.1과 같다.

(41)

제스처

실험 제스처

개수

인식한 제스처 개수

인식률(%)

Cancel 30 30 100%

Select(Menu) 30 30 100%

Channel Up 30 30 100%

Channel Down 30 30 100%

Volume Up 30 30 100%

Volume Down 30 30 100%

Power 30 30 100%

Mute 30 30 100%

총합 210 210 100%

4.1.1개별 제스처 인식 실험

제스처가 입력으로 들어 왔을 때 해당 제스처 모델에서 가장 높은 확률로 제스처를 설명해내야 한다.뿐만 아니라 제스처 모델이 제스 처가 아닌 손동작을 모델링 하는 임계치 모델 보다 더 높은 확률 값을 생성해내야 한다.각 제스처 모델이 제대로 동작하는지 알기위 해 제스처의 시작점과 끝점이 명확하게 주어진 제스처를 입력으로 주고 각 제스처 모델에서 가장 높은 확률 값을 생성해내는지 개별 제스처 인식 실험을 수행하였고 그 결과는 표 4.2와 같다.

표 4.2개별 제스처 인식 실험 결과

(42)

4.1.2제스처 적출 및 인식 실험

일반적으로 제스처 적출 작업은 deletion,insertion,substitution세 가지 오류를 동반한다.deletion오류는 제스처가 수행되었음에도 불 구하고 제스처를 적출하지 못하는 경우를 의미한다.insertion 오류 는 제스처를 수행하지 않았음에도 적출기에서 제스처라고 인식하는 경우를 의미한다.substitution 오류는 수행되어진 제스처를 다른 제 스처로 인식하는 경우를 의미한다.단순히 제스처가 제대로 수행이 되었는지로만 제스처 적출기의 신뢰성을 측정하는 것이 아니라 각 각의 오류를 감안하여 다음과 같은 방법으로 신뢰도를 측정하였다.

신뢰도 

입력 제스처 개수   에러 개수 제대로 인식된 제스처 개수

제스처 적출 및 인식 실험을 위하여 제스처와 제스처 사이에 제스 처가 아닌 손동작을 포함한 손의 궤적 여러 개를 만든 뒤 자동으로 적출 및 인식을 할 수 있도록 하였다.deletion및 substitution오류 가 발생하면 인식된 제스처에 포함하지 않았고 정확하게 적출 및 인식을 하였을 경우에만 인식된 제스처 개수에 포함을 시켰고 insertion오류는 제스처 신뢰도를 구할 때 사용하였다.

제스처 실험결과는 표 4.3와 같으며 상대적으로 복잡하지 않은 궤 적을 가진 Cancel제스처는 제스처가 수행되지 않았음에도 제스처 라고 인식되는 insertion에러가 많이 발생하였고 substitution오류는 한 번도 발생하지 않았고 select,volumedown,power,mute제스 처에서 한 번식의 deletion오류가 발생하여 98.7%의 신뢰도를 보여

(43)

제스처

입력 제스처

개수

인식된 제스처 개수

Deletion 오류

Substitution 오류

Insertion 오류

신뢰도 (%)

Cancel 86 86 0 0 5 94

Select

(Menu) 86 85 1 0 0 98.8

Channel

Up 86 86 0 0 0 100

Channel

Down 86 86 0 0 0 100

Volume

Up 86 86 0 0 0 100

Volume

Down 86 85 1 0 0 98.8

Power 86 85 1 0 0 98.8

Mute 86 85 1 0 0 98.8

총합 688 684 4 0 5 98.7

표 4.3제스처 적출 및 인식 실험 결과

4. 2임계치 모델 가중치에 따른 신뢰도 변화

제스처를 적출할 때 임계치 모델에 값에 각각의 제스처의 길이를 제곱한 만큼의 가중치를 주고 제스처 모델에서 생성한 확률값이 가 중치를 준 값보다 더 크면 제스처라고 인식을 하였다.값은 시스 템 설계자가 주는 것이라 이에 대한 사전 지식이 없기 때문에 과 신뢰도 사이에 상관관계를 분석하였고 그 결과는 그림 4.1과 같다.

(44)

그림 4.1가중치 에 따른 신뢰도 변화

실험결과 가중치 가 일 때 가장 큰 인식률을 보여주었고 3차 원 제스처 인식기에서도 가중치를 이 값으로 주어서 인식을 수행하 도록 하였다.가 보다 작을 때에는 제스처가 아닌 제스처를 제 스처로 인식하는 insertion에러와 제스처를 다른 제스처로 인식하는 substitution 에러로 인해서 낮은 신뢰도를 보였으며 가 클 때에 는 제스처를 수행하였음에도 제스처로 인식하지 못하는 deletion 에 러로 인해서 낮은 신뢰도를 보였다.

(45)

제 5장 결론 및 향후 과제

본 장에서는 이 논문에서 연구한 내용을 다시 살펴보고 향후 과제 를 통해서 어떠한 연구를 수행해야 하는지에 대해서 살펴본다.

5. 1결론

본 논문에서는 은닉 마코브 모델을 이용하여서 3차원 공간상에서 연속적인 손동작으로부터 제스처를 인식하는 연구를 수행하였다.

지금까지 3차원 공간상에서 제스처를 적출하고 인식하기 위하여 제안된 방법들은 템플릿 매칭 기반의 방법들이 제안되었고 이러한 방법들은 하나의 제스처라고 할지라도 다양한 형태로 나타나는 제 스처의 공간적인 다양성을 잘 인지하지 못한다는 단점이 있었으나 트레이닝 데이터로부터 확률적으로 이를 적응하는 은닉 마코브 모 델을 사용함으로서 공간적 다양성을 잘 인지 할 수 있게 되었다.

또한 이산 은닉 마코브 모델을 사용하기 위해서 삼차원 공간을 어 떻게 나누어서 은닉 마코브 모델에 입력으로 주어야하는지 양자화 방법을 실험을 통해서 제안하였고 트레이닝을 제스처를 무한히 많 이 모을 수 없기 때문에 수집된 트레이닝 데이터를 기반으로 실제 트레이닝에 쓰일 제스처를 자동으로 생성하는 방법들에 대해서 제 안하였다.

5. 2향후 과제

본 연구에서는 순수하게 은닉 마코브 모델을 이용하여서 제스처를 적출하고 인식하는 방법에 대해서 다루었고 제스처 인식에 대한 실

(46)

험을 수행하였다.실험 결과 제스처가 아닌데 제스처라고 인식하는 insertion 오류 그리고 제스처를 수행하였음에도 제스처라고 인식하 지 못하는 deletion 오류 때문에 전체적인 신뢰도가 하락하였다.이 를 해결하기 위하여 추가적인 휴리스틱 방법을 적용하여 더 높은 신뢰도를 보이는 방법들을 생각해 볼 수 있다.

깊이 측정 카메라는 삼차원 상의 손의 위치를 추적할 수 있고 이 정보를 바탕으로 손이 빠르게 움직이는지 천천히 움직이는지에 대 한 정보를 얻을 수 있다.손이 천천히 움직이면 제스처일 확률이 적 고 빨리 움직이면 제스처일 확률이 높다고 가중치를 줄 수도 있고 손이 빠르게 다른 방향으로 움직인다면 이러한 정보 또한 제스처일 확률이 더 높다고 가중치를 주는 등의 휴리스틱한 방법들을 향후 과제로 남겨둔다.

(47)

참 고 문 헌

[1]Wikipedia, http://en.wikipedia.org/wiki/Gesture

[2]Krishnan N.C,“Activity gesturespotting using athreshold model based on Adaptive Boosting”, IEEE International Conference on Multimedia and Expo (ICME), pp.155-160, 2010.

[3] C.Cedras and M.Shah,“Motion Based Recognition:A Survey, Image and Vision Computing, vol. 13, no. 2, pp.

129-155,1995.

[4]F.Quek,“Toward aVision-BasedHandGestureInterface” Proceedingsofthe conferenceon Virtualreality software and technology,pp.17-31,1994.

[5] JP Wachs,M Kölsch,H Stern,Y Edan,“Vision-Based Hand GestureApplications”CommunicationsoftheACM,vol. 54,no.2,pp.60-71,2011.

[6] Digital Times,http://www.dt.co.kr/contents.html?article_no

=2011100202019922601052

[7]Daum,http://v.daum.net/link/25459884 [8]Codeplex,http://kinectdtw.codeplex.com/

[9]A.Ramey,V.Gonzalez-Pacheco,MA Salichs,“Integration ofa low-cost RGB-D sensor in a socialrobotfor gesture recognition”,Proceedingsofthe6th internationalconferenceon Human-robotinteraction,pp.229-230,2011.

[10] Hee-Deok Yang,A-Yeon Park,and Seong_Whan Lee,

“Gesture Spotting and Recognition for Human-Robot

(48)

Interaction”, IEEE Transactions on Robotics, vol. 23, no.2, pp.256-270,2007.

[11]L.R.Rabiner,“A Tutorialon hidden Markov models and selected applications in speech recognition”,Proceeding ofthe IEEE,vol.77,no.2,pp.257-286.

[12]T.Startner and A.Pentland,“Real-Time American Sign Language Recognition from Video Using Hidden Markov Models,”TechnicalReportTR-375,MIT’sMediaLab,1995.

[13]H.K.LeeandJ.H.Kim,“AnHMM-basedthresholdmodel approach for gesture recognition”, IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.21, no.1 10, pp.961-973,1999.

[14] T.Schlomer, B. Poppinga, N. Henze, S. Boll,“Gesture recognition with a Wii controller”, Proceedings of the 2nd international conference on Tangible and embedded interaction(TEI’08),Feb18-20,2008.

[15] Starner, T. Leibe, B., Singletary, B., and Pair, J.

“Mindwarping:Towardscreatingacompellingcollaborative

augmented reality game“, ProceedingsoftheFifth International ConferenceonIntelligentUserInterfaces,pp.256–259,2000.

[16] H.Kang,C.W.Lee,K.Jung,“Recognition-based gesture spotting in video games”,Pattern Recognition Letters,vol.25, issue15,pp.1701-1714,2004.

[17]A.Ramey,V.Gonzalez-Pacheco,M.A.Salichs,“Integration

(49)

[18] R. Kjeldsen and J. Kender, “Visual Hand Gesture Recognition for window System Control”,Proceedings of Int’l Workshop AutomaticFace-and GestureRecognition,pp.184-188, 1995.

[19] R.Durbin,S.Eddy,A.Krogh,G.Mitchison,“Biological sequenceanalysis”,CambbrigeUniversityPress,2007

[20]T.Varga and H.Bunke,“Generation ofSynthetic Training DataforanHMM-basedHandwriting

RecognitionSystem“,ProceedingoftheseventhICDAR,2003 [21]J.Shotton,A.Fitzgibbon,M.Cook,T.Sharp,M.Finocchio, R Moore,A Kipman,and A Blake “Real-Time Human Pose RecognitioninPartsfrom aSingleDepthImage”,CVPR,2011 [22]http://www.microsoft.com/en-us/kinectforwindows/

[23]A.J.Viterbi,“Errorbounds forconvolution codes and an asymptotically optimum decoding algorithm”,IEEE transactions onInform.Theory,vol.13,no.2,pp.260-269,1967

(50)

Abst r act

Hand gesture is applied to many applications because of its intuitiveness and convenience and naturalness which does not demandsauxiliarydevicelikekeyboardandmouse.Recently,itis adapted to interact with smart device like smart-phone and smart-TV and its application willbe extended to more other areas.

Current hand gesture recognition systems which are used commonly arebased on vision system.Thismethod trackshand position from still-image projected into camera.Depth position from camera is lost in vision based hand gesture recognition system and 2D coordinateinformation isused to recognizehand gesture.

But3D position including distancefrom sensorcould havebeen available with a low price due to releasing ofmicrosoftkinect which is RGB-D sensor that mixes RGB images with depth informationprovidedbyaninfra-redsensor.

Thispaperpresentsmethod tospotand recognizegesturefrom continuous 3D hand trajectory by using Hidden Markov model and introduces method to quantize 3D space and synthesize s gestures from collected training data when we could nothave enoughtrainingdataset.

(51)

감사의 글

아무것도 모르고 두려움 반 설렘 반으로 서울에 상경하고 2년이라 는 길다면 길고 짧다면 짧은 시간 동안 관악산에서 시간 가는 줄 모르고 지내다 보니 이제 어느덧 졸업이라는 놈을 앞두고 있네요.

감사해야할 사람이 너무나도 많지만 우선 모자라지만 저를 제자로 받아주시고 알게 모르게 앞뒤에서 신경써주시고 또 복잡한 생각을 정리하는 방법을 알려주신 한상영 교수님께 감사합니다.

처음 연구실에 왔을 때 열심히 하면 그만큼 얻을 것이 많을 것이 라고 조언해주신 민형이형,성실이 살아가는 것에 대해서 본보기를 보여주신 태현이형,재미있는 여러 분야에 호기심을 놓지 않고 듬직 했던 석규형,오랜 연구실 생활의 노하우를 가르쳐 주시고 제가 있 는 2년 동안 유한 카리스마로 연구실을 이끌어주신 성현이형,즐기 면서 자기 일을 묵묵히 수행했던 인성이,말 정말로 안 들었지만 어 린 아이의 순수함을 가졌던 경일이,귀찮을 법도 한데 아무 말 없이 묵묵하게 궂은 일 수행하였던 세화,졸업할 때 까지 정말이지 선후 배님들에게 많을 것을 배울 수 있었던 것이 저에게 대학원 생활을 하면서 가장 큰 자산임을 깨우칠 수 있게 해주셔서 감사합니다.

할 거 다하면서 대학원 생활하는데 자기들이 보기에 힘들어 보인 다고 맛있는 거 사준 정진이,보경이,종철이,웅이,정근이,재섭이, 위영이,지한이,희철이,덕호 에게도 고마움을 전하고 싶습니다.

연구실에 있는 시간이 많아 자주 만나지 못해서 미안하고 힘들 때 마다 옆에서 응원해주며 나에게 힘을 준 여자친구 지혜에게도 정말 이지 고마움을 전하고 싶습니다.

그리고 개인적인 욕심에 대학원 간다고 하셨을 때 아무 말 없이 찬성해 주시고 물심양면으로 지원해주신 부모님과 형 정말로 감사 의 말을 전하고 싶습니다.

감사합니다.

수치

그림 2-1Ar naud가 제안한 유한 상태 머신
그림 3. 13차원 핸드 제스처 인식 시스템 구조
그림 3. 2 3차원 공간상의 좌표 영역
표 3. 1TV 제어를 위해 제안된 제스처
+7

참조

관련 문서