mic 3 - 저작자표시

mic 1

mic 2 mic 3

그림 4.1 웨버2(Wever-2)로봇

그림 4.2 u-robot 테스트 방의 환경

카메라로부터 획득된 영상은 영상 자체의 2차원에 연속된 프레임을 나타내는 시간축이 더해져 3차원 데이터가 된다. 그리고 다양한 환경을 고려해서 카메라로 부터 1m, 2m 거리에 따라 획득되었다. 그림 4.3는 거리에 따른 얼굴 비디오 예를 보여주고 있다.

그림 4.3 거리에 변화를 가진 연속적인 영상들의 예

우선적으로, 우리는 아다부스팅(Adaboosting)과 RMCT(Revised Modified Census Transform) 기반 얼굴 검출을 수행했다. 이것은 3단계로 구성된다. 첫번째 단계에 서, 원치 않는 변수들을 보상하기 위해 RMCT를 이용한 전처리(Preprocessing)를

수행한다. 두번째 단계에서, 2D-LS(Logarithmic Search)와 겹합한 피라미드 (Pyramid) 영상차가 수행되어 얼굴 후보 영역을 추출한다. 그런 뒤, 아다부스팅 알고리즘을 이용한 얼굴검출이 수행된다. 끝으로, 얼굴의 크기, 위치, 회전과 신 뢰도를 포함한 얼굴정보를 획득하기 위해 FCM(Face Certainty Map)을 사용했다 [27].

이러한 얼굴검출 알고리즘을 통해 획득된 얼굴영상들은 그레이스케일과 히스토 그램 평활화를 거쳐 얼굴인식에 좋도록 처리를 한다. 그림 4.4은 거리에 따른 얼 굴인식에 사용될 최종 영상들의 예를 보여주고 있다.

그림 4.4 얼굴검출된 얼굴영상들의 예

ETRI Face Video 데이터베이스에는 10명에 대한 얼굴 데이터가 있다. 모든 단 일 얼굴 영상의 사이즈는 45x40이다. 이러한 단일 영상을 연속하는 10프레임씩 묶 음으로서 사이즈가 45x40x10인 하나의 얼굴 비디오 데이터가 된다. 그림 4.5는 얼 굴 비디오 데이터의 3차원 예시를 보여주고 있다. 실험에서 3차원 CNN의 구조에 맞추기 위해 영상의 크기인 45x40x10을 44x40x10으로 변경한다.

그림 4.5 연속영상을 갖는 얼굴영상들의 예

제 2절 실험결과

4장 1절에서 설명한 얼굴 비디오 데이터베이스를 활용하여 3차원 CNN의 특징 값을 이용하는 얼굴인식방법의 우수성과 효율성을 증명한다.

성능 분석을 위해 사용된 컴퓨터의 하드웨어 사양은 CPU 2.80GHz, Intel(R) Core(TM) i7, 메모리 4GB이며, 소프트웨어는 MATLAB R2013A버전을 사용하였다.

실험에서 학습데이터는 로봇으로부터 1m거리에서 획득한 45x40x10의 3차원 데 이터이며, 10명에 대해 5개씩 50개로 구성하여 학습데이터의 사이즈는 45x40x10x50이다. 검증 데이터는 로봇으로부터 1m거리에서 획득한 다른 45x40x10 의 3차원 데이터이며 10명에 대해 5개씩 50개로 구성하여 첫 번째 검증 데이터의 사이즈는 45x40x10x50이다. 두 번째 검증 데이터는 2m거리에서 획득한 45x40x10 의 3차원 데이터이며 10명에 대해 20개씩 200개로 구성하여 두 번째 검증데이터의 사이즈는 45x40x10x200이다. 이러한 데이터들은 CNN 구조에 맞추기 위해 영상의 사이즈가 44x40로 변경되도록 하였다.

실험에서 사용한 3차원 CNN의 구조는 표 4-1과 같다.

표 4-1. 3차원 CNN 구조

Layer type kernel size

1 Input

2 Convolution 5x5x5

3 Subsampling 2x2

4 Convolution 5x5x6

5 Subsampling 2x2

표 4-1과 같은 3차원 CNN의 구조에 모든 학습데이터 50개에 대해 특징 벡터를 구한다. 이어서 첫 번째 검증데이터 50개에 대한 특징 벡터도 구한다. 그리고 첫 번째 검증데이터의 첫 번째 특징벡터와 학습데이터 50개에 대해 각각 거리를 계산 한다. 그 다음 거리가 가장 가까운 최소값을 찾아 그것의 해와 동일한 것으로 인 식한다.

여기서 학습데이터는 교사 데이터이므로 해를 알고 있고, 검증데이터도 교사 데이터이지만 인식과정에서는 비교사로 간주한다. 검증데이터의 해는 인식 성공률 을 구하는 과정에서만 사용한다. 이러한 과정은 검증데이터의 특징벡터들 전반에 걸쳐 수행됨으로서 첫 번째 검증데이터 50개에 대한 인식이 수행된다.

마찬가지로 두 번째 검증데이터 200개에 대해서도 동일한 과정을 거친다. 그 후, 인식 성공한 데이터 수를 전체 데이터 수로 나누어 인식률을 계산한다.

다양한 실험을 위해 2층과 4층의 특징 맵 개수에 변화를 주었다. 2층의 특징 맵 개수는 1부터 30까지, 4층의 특징 맵 개수는 1부터 60까지 변화를 주었다. 그 리고 표 4-2는 모든 검증 데이터의 실험 결과에 대한 정리를 나타낸다. 최고의 인 식률과 그 때의 2, 4층의 맵 수를 보여준다.

표 4-2. 실험결과 맵의 수

인식률

2층 4층

1m 검증 1 13 100%

2m 검증 28 3 88%

아래 그림 4.6은 사람 1의 3차원 CNN의 중간과정 영상들이고, 그림 4.7은 사람 2의 3차원 CNN의 중간과정 영상들이다.

그림 4.6 2층 1개, 4층 13개 일 때 1번 얼굴의 중간과정

그림 4.7 2층 1개, 4층 13개 일 때 2번 얼굴의 중간과정

본 논문에서 나타낸 3차원 CNN을 이용한 인식결과와 주성분분석기법(Principle Component Analysis)과 2차원 콘볼루션 신경회로망(CNN: Convolutional Neural Network)을 이용한 인식결과들의 비교를 위해 표 4-3에 각 인식률 나타내었다.

표 4-3. 3차원 CNN과 주성분 분석의 비교

1m 2m

PCA[13] 99.6% 78.3%

2D-CNN[15] 100% 83%

제안된 3D-CNN 100% 88%

3차원 콘볼루션 신경회로망을 이용하여 얼굴비디오 인식을 한 결과와 주성분

분석기법과 2차원 콘볼루션 신경회로망을 이용하여 얼굴비디오 인식을 한 결과를 서로 비교해보면 3차원 콘볼루션 신경회로망을 이용하여 얼굴비디오 인식을 한 경 우가 2m에서 5% 향상된 더 좋은 인식률을 보여주었다.

5장 결론

본 논문에서는 로봇환경에서 쓰일 수 있는 비디오 기반 얼굴인식을 위해 3차원 콘볼루션 신경회로망(CNN: Convolutional Neural Network) 구조의 특징벡터를 사 용하였다. 비디오 얼굴 데이터는 연속된 프레임을 갖기 때문에 단일 프레임과 다 른 장점이 있다. 이러한 장점을 극대화 시키는데 3차원 콘볼루션 신경회로망 구조 가 이전 프레임과의 특징도 뽑기 때문에 적당하다. 3차원 콘볼루션 신경회로망의 특징벡터를 이용해서 학습데이터와 검증데이터의 거리가 가까운 것으로 인식하였 다. 학습데이터는 1m에서 획득한 50개를 사용하고, 검증데이터는 다른 1m에서 획 득한 50개와 2m에서 획득한 200개이다. 실험 결과 1m에서 맵 수가 2층이 1이고 4 층이 13일 때 인식률이 100%가 나왔다. 이 경우 말고도 100%는 많이 나왔고, 그 중에 하나를 나타낸 것이다. 2m에서는 맵 수가 2층이 28이고 4층이 3일 때, 최대 88%가 나왔다. 이 최대치가 다른 경우에서 중복되어 나오지는 않았다.

본 논문에 나타낸 3차원 콘볼루션 신경회로망을 이용한 인식 결과를 기존 얼굴 인식방법들인 주성분분석기법(PCA: Principal Component Analysis) 와 2차원 콘볼 루션 신경회로망을 이용한 인식 결과들과 비교하였고, 그 결과 3차원 콘볼루션 신 경회로망을 이용한 인식 결과가 더 좋음을 확인 할 수 있었다.

본 논문의 3차원 콘볼루션 신경회로망은 콘볼루션 층에서만 3차원을 적용하였 다. 다음에 서브샘플링 층에도 3차원을 적용하여 연구할 것이다.

3차원 콘볼루션 신경회로망을 이용한 인식 결과는 맵 수에 따라 다양한 인식률 을 얻었다. 분류 알고리즘을 보통 퍼셉트론을 사용하는데, 그래픽 연산 장치(GPU:

Graphics Processing Unit)를 사용하지 못해 실행시간이 오래 걸려 충분한 실험을 하지 못하였다. 향후, 그래픽 연산 장치를 이용하는 프로그래밍을 통해 여러 가지 분류 알고리즘을 비롯한 다양한 실험을 통해 인식률을 높일 것이다.

참고문헌

[1] A. S. Sekmen, M. Wilkes, K. Kawamura, "An application of passive human-robot interaction: human tracking based on attention distraction", IEEE Trans. on Systems, Man, and Cybernetics-Part A, vol. 32, no. 2, pp. 248-259, 2002.

[2] X. Yin, M. Xie, "Finger identification and hand posture recognition for human-robot interaction", Image and Vision Computing, vol. 25, pp.1291-1300, 2007.

[3] Y. Sugimoto, Y. Yoshitomi, S. Tomita, "A method for detecting transitions of emotional states using a thermal facial image based on a synthesis of facial expressions", Robotics and Autonomous Systems, vol. 31, pp. 147-160. 2000.

[4] J. J. Lien, T. Kanade, J. F. Cohn, C. C. Li, "Detection, tracking, and classification of action units in facial expression", Robotics and Autonomous Systems, vol. 31, pp. 131-146. 2000.

[5] G. Medioni, A. R. J. Francois, M. Siddiqui, K. Kim, H. Yoon, "Robust real-time vision for a personal service robot", Computer Vision and Image Understanding, vol. 108, pp. 196-203, 2007.

[6] 특허청, 인간-로봇상호작용(HRI) 특허출원동향, 2005.

[7] 정보통신연구진흥원, 인간-로봇상호작용 기술(지능형 서비스 로봇분야), 2006.

[8] 한국전자통신연구원, HRI 로드맵, 2007

[9] K. C. Kwak, D. H. Kim, B. Y. Song, D. H. Lee, S. Y. Chi, and Y. J.

Cho, "Vision-based Human-Robot Interaction Components for URC intelligent service robots," IROS'06, video session, Beijing, 2006.

[10] 반규대, 곽근창, 지수영, 정연구, “로봇환경의 템플릿 기반 얼굴인식 알 고리즘 성능비교”, 한국로봇공학논문지, vol. 2, no. 3, 2007, pp.

270-274,

[11] D. H. Kim, J. Lee, H. S. Yoon, E. Y. Cha, "A non-cooperative user

authentication system in robot environments", IEEE Trans. on Consumer Electronics, vol. 53, no. 2, 2007, pp. 804-811.

[12] W. H. Yun, D. H. Kim, H. S. Yoon, "Fast group verification system for intelligent service", IEEE Trans. on Consumer Electronics, vol.

53, no. 4, pp. 1731-1735, 2007.

[13] M. Turk and A. Pentland, “Face recognition using eigenfaces,”

Proceeding of IEEE Conference on Computer Vision and Pattern Recognition, pp. 586-591, 1991.

[14] P. N. Belhumeur, J. P. Hespanha, and D. J. Kriegman, “Eigenfaces vs. Fisherfaces: recognition using class specific linear projection,” IEEE Trans. on Pattern Analysis and Machine Intelligence, Vol. 19, No. 7, pp. 711-720, 1997.

[15] S. Lawrence, C. L. Giles, A. C. Tsoi, and A. D. Back, “Face Recognition: A Convolutional Neural-Network Approach”, IEEE Trans.

on Neural Networks, Vol. 8, No. 1, pp. 98-113, 1997.

[16] Shuiwang Ji, Wei Xu, Ming Yang, and Kai Yu, “3D Convolutional Neural Networks for Human Action Recognition”, IEEE Trans. on Pattern Analysis and Machine Intelligence, Vol. 35, No. 1, pp.

221-231, 2013.

[17] Jialue Fan, Wei Xu, Ying Wu, and Yihong Gong, “Human Tracking Using Convolutional Neural Networks”, IEEE Trans. on Neural Networks, Vol. 21, No. 10, pp. 1610-1623, 2010.

[18] 곽근창, 윤호섭, “u-로봇을 위한 인간-로봇상호작용기술의 연구동향 및 발전전망”, SK Telecom Telecommunications Review, Vol. 18, No. 3, pp.385-402, 2008.

[19] 신윤희, 주진선, 김은이, T. Kurata, A. K. Jain, S. Park, K. Jung,

“HCI를 위한 트리 구조 기반의 자동 얼굴 표정 인식,“ 한국산업정보학 회논문지, vol. 12, no. 3, pp. 60-68, 2007.

[20] 이명원, “동영상으로부터 텐서표현을 통한 얼굴 표정 인식”, 조선대학 교, 2012.

[21] K. Etemad and R.Chellappa, “Discriminant analysis for recognition

문서에서 저작자표시 (페이지 42-53)