Performance Evaluation Method for Detection Algorithms of Face Region and Facial Components

(1)

얼굴영역 및 얼굴요소 검출 알고리즘의 성능평가 방법

Performance Evaluation Method for Detection Algorithms of Face Region and Facial Components

박 광 현

¹

, 김 대 진

²

, 홍 지 만

³

, 정 영 숙

⁴

, 최 병 욱

^†

Kwang-Hyun Park

¹

, Dae-Jin Kim

²

, Jiman Hong

³

, Young Sook Jeong

⁴

, Byoung-Wook Choi

^†

Abstract In this paper, we report the progress in the development of performance evaluation method for detection algorithms of face region and facial components. This paper aims to provide a standardized evaluation method for general approach in face recognition application as a potential component in futuristic intelligent robot systems. From an image capture process to the retrieval of face-related information, all the necessary steps are shown with examples.

Keywords: Performance Evaluation, Face Region, Facial Component

1. 서 론

¹⁾

본 논문의 목적은 사용자에게 관심의 대상이 되는 얼굴 영역(face region) 및 얼굴요소(facial component) 검출 기술 의 기본적인 성능 특징을 규정하고, 이 특징들을 측정하기 위한 방법을 표준화하는데 있다. 본 논문은 사용되는 알고 리즘과 무관하게 성능적인 측면에서의 측정 방법을 제시 하며, 특징 자체의 평가기준을 규정하지는 않는다. 또한 설명된 시험은 일차적으로 얼굴인식(face recognition)을 위 한 명세서를 개발하고 검증하기 위한 것이나 프로토타입 시험, 검수 시험과 같은 목적에도 사용될 수 있다.

본 논문은 비전, 적외선, 열 센서를 채용한 얼굴영역 및 얼굴요소 검출기술의 평가에 적용되며, 그 외 근전도, 심 전도 및 기타 생체신호 측정을 위한 센서를 채용한 파생기 술의 평가에는 적용되지 않는다. 시험을 위해 부대 장치나 표식을 설치하는 것은 시험에 방해가 되지 않는 한 설치할

Received: 12.May.2009, Reviewed: 10.August, Accepted: 14.August

※ 본 연구는 지식경제부 및 정보통신연구진흥원의 대학 IT연구센터 지 원사업의 연구결과로 수행되었음. (IITA-2008-C1090-0803-0006)

† 교신저자: 서울산업대학교, 전기공학과 교수([email protected])

1 광운대학교 정보제어공학과 조교수([email protected])

2 NanoScience Technology Center, University of Central Florida, 전문 연구원([email protected])

3 숭실대학교 컴퓨터학부 조교수 ([email protected])

4 한국전자통신연구원 기술사업화본부 기술진흥팀 책임연구원([email protected])

수 있는 것을 가정하고 있다.

2. 관련 연구

얼굴인식 전반에 관하여, 다음과 같은 표준화 노력을 찾 아 볼 수 있다.

FERET 1994/1995/1996: 미 국방성의 ‘Counterdrug Tech- nology Development Program’의 일환으로 시작된 FERET 프로그램은 다음과 같은 세 가지의 목적을 지니고 있다.

1) 이론적 연구에서 실제 응용가능한 얼굴인식 알고리 즘으로의 전환.

2) FERET 데이터베이스의 구성: 총 1,199명에 대한 14,126장의 얼굴영상 수집.

3) 얼굴인식 알고리즘에 대한 평가방법 제안^[1]

Face Recognition Vendor Test - FRVT 2000/2002/2006:

FRVT 프로그램은 기존 FERET 프로그램에 의해 개발된 시스템들의 성능평가를 위해 최초 시도되었다^[2]. 그 후 FRVT 2002 프로그램에서 대용량 얼굴영상 데이터베이스 에 대한 인식 평가가 시도되며^[3] 세계적으로 많은 연구자 들의 관심이 급증하여FRGC 프로그램의 개발 및 최근 FRVT2006 프로그램의 개발에 일조하였다^[4].

(2)

NIST Face Recognition Grand Challenge (FRGC): 2004년 5월부터 2006년 3월에 걸쳐 개최된 FRGC는 FERET 및 FRVT 프로그램에 의해 개발되거나 독립적으로 연구된 다 양한 얼굴인식 알고리즘에 대한 정보 교환과 비교 평가를 위해 수행되었다^[5]. 본 FRGC를 통해 다양한 데이터베이스 가 구축되었으며, 크게 다음과 같은 세가지의 주제를 중심 으로 FRGC 프로그램이 수행되었다.

1) 고해상도영상: 기존 얼굴인식에서는 정규화의 표준 치로 활용되는 눈과 눈 사이의 거리가 40~60픽셀 정 도로 한정되었으나, FRGC 프로그램에서의 고해상도 영상은 약 250픽셀의 거리를 보장하는 것으로 정의 되었다.

2) 3차원 얼굴인식: 3차원 얼굴모양과 조명, 포즈변화에 대한 얼굴인식.

3) 새로운 프로세싱 알고리즘 개발: 2) 항에 명시된 조 명과 포즈변화를 효과적으로 다룰수 있는 알고리즘 의 개발.

Multiple Biometric Grand Challenge (MBGC): MBGC 프 로그램은 기존FERET/FRVT/FRGC 프로그램의 성공에 힘 입어 다수 바이오메트릭 시스템에 대한 성능 평가를 목표 로 얼굴 및 홍채 인식기술에 대한 다양한 결합을 정지영상 및 동영상 데이터베이스에 대하여 적용하였다^[6].

1) 포털(Portal) 시스템에 의해 취득된 동영상에 대한 홍 채 및 얼굴인식: 적외선 영상 및 고해상도 영상에 대 한 홍채 및 얼굴인식. 사용자 데이터는 포털 시스템 으로 명명된 데이터 수집 장치를 통해 취득된다.

2) 제한된 환경하에서의 정지영상에 대한 홍채 및 얼굴 인식: 얼굴영상은 다양한 배경에 대하여 저/고해상도 로 취득되며, 홍채영상은 제한된 범위에 대한 정지영 상 및 동영상으로 취득된다.

3) 정지영상 및 동영상에서의 얼굴인식: 실외 동영상 및 정지영상에 대한 얼굴인식.

상기 나열된 얼굴인식 전반에 관한 성능 평가 및 표준 화 작업을 통해 다양한 형태의 데이터베이스가 구축되었 으나, 여전히 평가방법은 초기FERET 프로그램에 의해 제안 된 바이오메트릭스 시스템에 대한 것에 머물고 있으며 ^[7], 그 이전 레벨에 해당하는 얼굴영역 및 얼굴요소의 검출에 관한 평가방법과 기준은 알려져 있지 않다. 또한, 최근 CMU 그룹에서 발표된 데이터베이스 전반에 관한 논문에 따르면, 각 연구기관에서 자체적인 데이터베이스를 보유 하고 있으나 일관된 기준이 없으며 십수년에 걸쳐 수행된 FERET/FRVT/FRGC 프로그램의 취지에도 걸맞지 않은 것

으로 알려졌다^[8].

이에 본 논문에서는 얼굴영역 및 얼굴요소에 대한 검출 알고리즘의 성능 평가 방법을 위해 정량화된 데이터베이 스의 구성 방법을 제시하고, 평가 지수들을 제안함으로써 향후 관련연구에 대한 기준 확립을 목표로 한다.

3. 시험 조건

본 논문에서 얼굴인식은 센서에 의해 주어진 데이터 집 합으로부터 얼굴영역 검출, 얼굴요소 검출, 개인식별을 수 행하는 일련의 과정을 의미하며, 응용 목적과 환경에 따라 다양한 센서의 활용이 가능하다. 얼굴영역은 센서 데이터 집합 내에서 얼굴이 포함된 타원형, 원형, 사각형, 폴리곤 영역을 의미한다. 또한, 얼굴요소는 검출된 얼굴영역 내에 포함된 얼굴의 구성요소를 의미하며, 눈, 코, 입, 눈썹, 귀 등의 정적 얼굴요소와 보조개, 미간주름, 콧등주름 등의 동적 얼굴요소로 구성된다.

본 논문에서 제시하는 시험조건에서는 조도 기준인 KS A 3011^[9], JPEG 국제표준 ISO 10918-1^[10], MPEG-1 국제표 준 ISO/IEC-11172^[11], MPEG-2 국제표준 ISO/IEC-13818^[12]

등을 인용하여 규정 일부를 구성한다.

3.1. 조명 조건

다른 조건이 특별히 없다면, 측정은 표 1에 나타낸 조건 에서 수행되어야 한다. 표 1에 명시된 조건은 실내 환경을 가정하여 설정된 것이며, 형광등 조명의 경우 일반 가정 및 실험실 환경에 따라 변화될 수 있다. 인공조명은 방향 성에 따른 균일성을 확보하는 범위 내에서 그 수를 변화시 킬 수 있다. 측정 범위 내의 조도 조건은 반복성 및 재현성 이 확보되어야 하며, 시험 중에 변화가 없도록 주의하여야 한다.

항 목 세부 규격

조도의 범위 200 50 LUX (KS A 3011[9]) 형광등 조명의 규격 20W-40W / 60Hz

인공조명의 개수 최소 2조 이상의 동일 규격 조명 표 1. 조명 조건

3.2. 배경 조건

다른 조건이 특별히 없다면, 측정은 표2에 나타낸 조건 에서 수행되어야 한다. JND(Just Noticeable Difference)는 최소 인지 가능한 픽셀 밝기의 변화로 정의되며, 배경의 수와 컬러공간 설정에 따라 다르게 선정되나 일반적으로 다음과 같은 수식으로 표현 가능하다.

(3)

항목 특 징 세부 규격 유의 사항

비전 센서

가장 보편적으로

사용되며 비교적 저렴함.

동작범위 근접거리~

3미터 이내

다양한 해상도/컬 러/동작 속도의 센서가 사용됨.

데이터표준 NTSC, 60Hz 주사방식 interlaced/non -interlaced

데이터타입 컬러/흑백

기타 편의기능

자동초점조절, 자동광량조절, 확대/축소, 해상도조절

가능

열 센서

어두운 곳이나 열악한 조명

조건에서 사용.

동작온도 실온 (23 3) 사용 온도 조건 및 측정 범위에 따라 후처리 필 요.

감지영역 체온 (36.5 3) 동작범위 근접거리~

3미터 이내

적외 선 센서

얼굴/액세서 리에 부착된 반사형 마커

이용.

감지가능 센서

최소 3개 이상 (포즈변화)

측정시간의 고속 화.포즈변화 및 센서 성능에 따 라 적용 범위가 동작범위 근접거리~3미제한됨.

터 이내 표 3. 센서의 종류

항 목 세부 규격 유의 사항

성별 남/여 각 50%의 비율로 수집. 응용 목적에 따라 성별 구분이 필 요한 경우에 유용함.

피부색

Fitzpatrick Scale^[15] 기준 2-6 단계로 구성.각 단계별로 유 사한 %를 유지하되, 국가별 환경을 고려. 동양권의 경우, 3단계 피부색을 고려하여 10%-70%-20% 로 구성.

인공선탠 등에 의해 변화된 피부 색을 갖는 개인은 제외함.

연령

20세-50세 범위 내로 제한.

20대/30대/40대로 구분하여 각 40%-30%-30%로 구성.

유아기/청소년기/노년기의 얼굴 제 외.- 성장으로 인한 급격한 변화.

- 얼굴인식에 필요한 요소 발달 미비.

- 인식이 어려운 주름 배제.

필요한 데이터 집합 수

100명 이상의 피험자 모집. 통계적 의미를 갖기에 충분한 수 를 확보할 것.

데이터 수집기 간

1주 이상의 간격으로 1회당 10장 이상, 10회 이상 수집하 여 개인별 총 100장 이상의 데이터 수집

의상/헤어스타일/액세서리/개인별 특성을 반영.

포즈변 화

정면/좌측/우측 및 상단/하단 을 향하는 얼굴데이터를 수 집. 각 방향에 대해 최소 15 간격으로 변화하는 얼굴데이 터 수집. 각 포즈변화에 대하 여 3장 이상 수집.

정적얼굴요소(눈/눈썹/코/입/귀)가 반 드시 각 하나 이상 포함되어야 함.

최대 변화각도는 좌/우측 90, 상/

하단 45로 한정함. 총 19가지의 포 즈변화 가능.

조명변 화

표 1에 의거하여 동일한 밝기 (200 50 LUX - KS A 3011 규정) 를 갖는 인공조명을 정 면/좌측/우측/상단/하단에 최 소 15 간격으로 하나씩 배치.

각 포즈변화에 대하여 3장 이 상 수집.

실험실에 미리 부착된 조명은 고 려하지 않음. 총 5가지의 조명변 화 가능.

센서와 의 거리

최소 40cm에서 최대 4m로 한정함. 거리간 간격은 최소 30cm로 고정함. 고정된 거리 별로 3장 이상 수집.

센서 규격에 따라 측정간격의 조 정이 가능. 열 센서의 경우 비교 적 세밀한 범위에서의 데이터 수 집이 가능.

얼굴의 수

각 개인의 정적얼굴요소를 모두 포함하는 경우에 한하 여 최대 2명까지 허용.

데이터 비율은 균등하게 수집.

(50%-50%; 2명의 경우)

데이터 크기

정지영상: 320x240/640x480 픽셀 동영상: 352x288/320x240/720x 576 픽셀

구입한 센서의 스펙을 따르되, 필 요시 영상크기변환을 할 것.

데이터 타입

흑백: 8비트, 1채널

컬러: 8비트, 3채널, RGB, YCbCr

3채널 이상의 정보는 고려하지 않음.

데이터 포맷

JPEG (ISO 10918-1[10]) MPEG-1 (ISO/IEC-11172[11]) MPEG-2 (ISO/IEC-13818[12])

동영상의 경우, MPEG-1/MPEG-2 포맷을 표준으로 채택하며, I/P/B 프레임중에서 I 프레임만을 사용함.

표 4. 시험을 위한 얼굴데이터 구성

II =k

Δ (1)

여기서, I는 해당 픽셀의 밝기, ΔI^{는 인지 가능한 해}

당 픽셀의 최소 밝기 변화, k는 웨버(Weber) 상수를 나타 낸다. 의미있는 JND를 얻기 위해서는 다수 픽셀에 대한 통계학적 분석을 통해 가우시안(Gaussian) 확률분포함수를 얻는 방법이 일반적이다. 측정 범위 내의 배경 조건은 반 복성 및 재현성이 확보되어야 하며, 시험 중에 변화가 없 도록 주의하여야 한다.

항 목 세부 규격 유의 사항

단일 배경

JND 기준 95% 내에서의 픽셀 밝기 변화를 갖는 동일색으로 구성.

주 대상자 이외의 사 용자 혹은 인쇄된 얼 굴은 포함하지 않는다.

복합 배경

JND 기준 95%를 초과하는 픽 셀밝기 변화를 갖는 동일색 혹 은 두가지 이상의 색으로 구성.

주 대상자 이외의 사 용자 및 인쇄된 얼굴 이 포함된다.

표 2. 배경 조건

3.3. 센서 종류

응용 분야와 환경에 따라 표 3과 같은 세 가지 타입의

센서가 사용된다. 대표적인 적외선 센서인 NaturalPoint사 의TrackIR 센서^[13]의 경우 3M사의 Scotchlite Reflective Material Series 8700(ANSI/ISEA 107-2004 Level 2, Table 5^[14])을 이용한다.

3.4. 시험을 위한 얼굴데이터 구성

다양한 응용 분야와 환경 시험을 위해 표 4와 같은 세부 적인 기준 설정이 필요하다. 피부색과 관련하여 잘 알려진 Fitzpatrick Scale은 자외선에 대한 피부의 반응을 0~35 사

(4)

항 목 세부 항목

얼굴영역 표현방법 원형/타원형/사각형/폴리곤 타입 얼굴영역/배경영역 구분 픽셀수/면적비

얼굴영역의 수 검출된 독립된 영역의 수.

얼굴영역의 위치 픽셀기반 중심거리차/면적비

얼굴영역의 기울어짐 영상의 세로(Y)축을 중심으로 시계방향으로 측정.

얼굴영역의 비율 타원형 표현법에 의거한 장축/단축의 비 표 5. 얼굴영역 검출성능 평가지수 이의 수치로 측정하며 1단계(백인)~6단계(흑인)에 해당하

는 피부색 분류가 가능하다^[15]. 그 외 통계적인 수치의 표 현을 위해서는 최소 100개 이상의 샘플을 수집한다. 3D 얼 굴데이터의 획득도 가능하나, 일반적으로는 2D 얼굴데이 터를 기준으로 한 측정 방법을 따른다.

4. 얼굴영역 검출성능 시험

4.1. 시험 조건

얼굴영역의 검출을 위해, 단수 혹은 다수의 얼굴을 포함 한 정지영상 및 동영상을 표 4의 각 항목별 기준을 책정하 여 획득한다. 정량적 성능측정을 위해서는 실험에 사용되 는 각 영상에 대하여 픽셀단위 혹은 영역단위로 표준치 (Ground Truth Value)를 설정해야 한다. 표준치 영상은 전 문가 혹은 얼굴식별에 문제가 없는 사람이 수작업을 통해 구성한다. 통계적으로 의미가 있는 성능측정을 위해서는 최소 100개 이상의 샘플을 얻어야 한다.

4.2. 시험 방법

얼굴영역의 검출을 위해, 다음의 절차를 따른다.

(가) 시험 영상의 취득

표 3 및 표 4에 기술한 내용을 참고하여 시험 영상을 취 득한다.

(나) 시험 영상의 전처리 (크기변환 및 컬러공간변환) 이미 구성된 시험 영상 데이터집합을 사용하는 경우, 표 4에 주어진 표준 크기로 변환한다. 이때, 크기변환을 위해 서는 근접이웃보간법(Nearest-Neighbour Interpolation) 혹은 선형보간법(Bilinear Interpolation) 중 하나의 기법을 사용한 다. 시험 영상이 컬러로 주어진 경우, 응용 시스템의 강인 성과 적응성을 극대화하기 위해 밝기변화에 무관한 HSV/HIS 컬러공간으로 변환한다^[16].

(다) 특징 선정

컬러영상의 경우에는 피부색 픽셀을 가우시안(Gaussian) 확률분포를 이용하여 표현한 컬러프로파일(Color Profile) 특징을 사용한다. 흑백영상의 경우에는 얼굴영역의 외곽 선(Contour) 정보를 이용한 기하학적 모델 혹은 외곽선 내 에 포함된 픽셀에 대한 모멘텀(Momentum)을 이용한 통계 적 특징이 사용된다. 얼굴영역의 외곽선은 캐니에지(Canny Edge) 연산자를 이용하여 검출되며, 기하학적으로 얼굴영 역은 타원형 모델로 쉽게 묘사된다.

(라) 피부색/얼굴영역 분류

컬러영상의 경우에는 컬러프로파일로 근사화된 피부색 픽셀에 대한 절대기준치(Threshold)를 이용하여 피부색과

배경영역을 구분한다. 흑백영상의 경우에는 기하학적, 통 계적으로 기 학습된 모델과 현재 시험 영상에서 검출된 모 델과의 비교를 통해 얼굴영역과 배경영역을 구분한다. 모 델의 비교를 위해, 유클리드 거리(Euclidean Distance) 및 절 대기준치를 이용한다. 분류된 얼굴영역의 표현에 있어서 는 표 5의 방법을 따른다.

(마) 표준치 영상과의 비교

정성적/정량적 성능평가를 위해 표준치 영상과의 비교 가 필요한데, 피부색을 분류하는 경우에는 픽셀기반 성능 평가, 얼굴영역을 분류하는 경우에는 영역기반 성능평가 기준을 채택한다. 표 5에 명기된 성능평가 항목의 일부 혹 은 그 조합을 사용하여 서로 다른 시스템 간의 성능을 표 기한다.

4.3. 얼굴영역 검출성능 측정

표 5는 얼굴영역 검출을 위해 사용되는 정성적/정량적 성능평가 기준을 명시한다. 각 항목에 대한 상세 내역은 다음과 같다.

(가) 정성적 항목 – 얼굴영역 표현방법

얼굴영역은 응용분야와 표현 가능성에 따라 원형, 타원 형, 사각형, 폴리곤 타입으로 구성된다. 대부분의 경우 타 원형 얼굴영역이 선호되며, 분류된 특징과 분류기에 따라 폴리곤 타입 혹은 그에 준하는 방법이 사용된다. 컬러특징 을 사용한 경우, 얼굴영역은 피부색 픽셀을 모두 포함하는 최소크기의 원, 타원, 사각형, 폴리곤(Convex Hull)으로 표 시한다.

(나) 정량적 항목 – 얼굴영역/배경영역 구분

얼굴영역과 배경영역의 구분성능은 픽셀의 수(컬러영 상) 및 면적비(흑백영상)를 이용하여 표기한다.

[얼굴영역의 구분성능]

얼굴영역 구분성공율(Tf)은 현영상의 피부색으로 분류된

(5)

그림 1. 얼굴영역의 수

그림 2. 얼굴영역의 위치, 기울어짐, 비율 픽셀수(nf)와 표준치 영상의 피부색으로 할당된 픽셀수(np)

의 비율 혹은 현영상의 얼굴로 분류된 픽셀영역(Af)과 표준 치 영상의 얼굴로 할당된 픽셀영역(Ap)의 비율로 표기한다.

100%

⎟⎟×

⎠

⎞

⎜⎜

⎝

=⎛

p f p

f

f A

A n

T n 혹은 (2)

[배경영역의 구분성능]

배경영역 구분성공율(Tb)은 현영상의 배경색으로 분류 된 픽셀수(nb)와 표준치 영상의 배경색으로 할당된 픽셀수 (nn)의 비율 혹은 현영상의 배경으로 분류된 픽셀영역(Ab) 과 표준치 영상의 배경으로 할당된 픽셀영역(An)의 비율로 표기한다.

100%

⎟⎟⎠×

⎜⎜ ⎞

⎝

=⎛

n b n

b

f A

A n

T n 혹은 (3)

(다) 정량적 항목 – 얼굴영역의 수

그림 1에 명시된 것과 같이 분류된 얼굴영역 간의 구분 이 힘들 경우에는 하나의 얼굴영역으로 표기한다. 사용된 특징과 분류기의 성능에 따라 더 상세한 구분이 가능하나 본 논문에서는 고려하지 않는다.

(라) 정량적 항목 – 얼굴영역의 위치, 기울어짐, 비율 오차 그림 2에 명기한 것과 같이 얼굴영역의 위치 오차는 미 리 주어진 얼굴영역(Am)과 분류기를 통해 얻어진 얼굴영역 (At)의 중심위치 거리(d) 및 공통영역의 크기(Am ◠At)로 평 가된다. 이때, 공통영역의 검출을 위해 각 얼굴영역의 기 움각(θ)은 영상평면의 y축을 중심으로 시계방향으로 측정 되며, 비율(r)은 장축의 길이(L1)와 단축의 길이(L2)를 이용 하여 r=L1/ L2로 정의된다. 상기 요인들에 의한 평가 지 수인 위치오차(^e^p), 기울어짐 오차(e ) 및 비율오차(^θ ^e^r) 는 각각 다음과 같이 정의된다. 원이나 사각형의 경우에는 기움각 및 비율을 고려하지 않는다.

%

×100

= ∩

t t m

p A

A

e A (4)

%

×100

= −

t t

e m

θ θ θ

θ (5)

%

×100

= −

t t m

r r

r

e r (6)

5. 얼굴요소 검출성능 시험

5.1. 시험 조건

얼굴요소 검출의 성능평가를 위해, 3절에 소개된 얼굴 영역 검출과정을 통해 정의된 피부색 픽셀 혹은 얼굴영역 이 원형, 타원형, 사각형, 폴리곤의 집합으로 주어진다고 간주한다. 또한, 각 얼굴요소의 세부적 평가를 위해 전문 가 시점에서 육안으로 각 얼굴요소의 파악이 용이한 정지 영상 및 동영상이 주어진 것으로 간주한다. 각 얼굴요소의 수는 통계적인 관점에서 최소 100개 이상의 샘플을 보유 해야 한다.

5.2. 시험 방법

얼굴요소 검출의 성능평가를 위해서는 일반적으로 다음 의 절차를 따른다.

(가) 시험 영상의 취득 및 전처리

표 3 및 표 4에 기술한 내용을 참고하여 시험 영상을 취 득한다. 시험 영상의 전처리를 위해서는 4.2.(나)항에 명기 된 방법을 이용한다.

(나) 특징 선정

얼굴요소에 따라 컬러/흑백영상 특징을 복합적으로 사 용 가능하며, 특별히 입술과 눈(홍채)의 경우 고유의 컬러 정보를 이용할 수 있다. 얼굴요소의 특징은 4.2.(다)항에 명 기된 특징을 사용한다. 주로 타원형으로 묘사되는 얼굴영 역과는 달리, 얼굴요소는 반달형(눈외곽선, 입술), 직선형 (눈썹, 주름), 원형(콧구멍, 홍채) 등 다양한 기하학적 모델

(6)

그림 3. 정적 얼굴요소 및 표현방법

그림 4. 동적 얼굴요소 및 표현방법

항 목 세부 규격

얼굴요소

표현방법 직선/곡선/원형/타원형/사각형/폴리곤 타입 얼굴요소의 수 정적얼굴요소/동적얼굴요소의 수 얼굴요소의 위치 픽셀기반 중심거리차/면적비

얼굴요소의 기울어짐

영상의 세로(Y)축을 중심으로 시계방향으 로 측정

얼굴요소의 기하학적배치

얼굴영역 내에서 각 얼굴요소의 배치를 수 치적으로 측정

얼굴요소의 포즈변화

검출된 얼굴요소의 수와 배치에 의거한 포 즈변화 측정

표 6. 얼굴요소 검출성능 평가지수

홍채의 중심:치아의 하단:턱아래끝 눈의 외측면:눈의 내측면:코의 중심 입술의 좌/우측면:입술의

좌/우솟음 중심 치아의 폭:두번째

치아의 폭 눈의 폭: 동공의 폭

그림 5. 얼굴요소의 기하학적 배치^[17]

구성이 가능하다.

(다) 얼굴요소 검출/분류

얼굴요소는 크게 정적 얼굴요소와 동적 얼굴요소로 나 뉠 수 있으며, 각 요소에 따라 단순히 위치 정보만을 검출 하는 것 이외에 상태정보를 파악하는 과정이 필요하다. 얼 굴요소의 검출 및 분류를 위해서는 4.2.(라)항에 명기된 분 류기를 사용한다. 얼굴영역의 표현에 있어서는 표 6에 명 기된 표현방법을 따른다.

(라) 표준치 영상과의 비교

정성적/정량적 성능평가를 위해 표준치 영상과의 비교가 필요한데, 표 6에 명기된 성능평가 항목의 일부 혹은 그 조 합을 사용하여 서로 다른 시스템 간의 성능을 표기한다.

5.3. 얼굴요소 검출성능 측정

(가) 정성적 평가 – 얼굴요소 표현방법

그림 3은 정적 얼굴요소 및 각 요소별로 적용가능한 표 현방법을 정리한 것이다. 각 요소는 고유의 형태를 가지며 그에 따라 직선, 곡선, 원형, 타원형, 사각형, 폴리곤을 이 용하여 표현 가능하다. 정밀 애니메이션 등의 목적을 위해 서는 일반적으로 폴리곤 형태의 표현방법을 사용하나, 대

개는 직선, 곡선 및 사각형으로 간략화하여 데이터 집합을 구성한다. 이와 유사하게 동적 얼굴요소 및 표현방법은 그 림 4에 명시한 것과 같다. 각 얼굴요소는 2개 이상의 표현 방법을 혼용해 표현될 수 있으나, 각 얼굴요소가 서로 다 른 얼굴요소로 나뉘는 것은 고려하지 않는다. 예를 들어 눈은 눈언저리(곡선, 원형), 홍채(원형), 동공(원형)으로 세 분화할 수 있으나 본 논문에서는 눈 언저리만을 묘사하는 것을 정의한다. 마찬가지로 귀의 경우에도 최외곽 귀의 형 태만을 얼굴요소로 간주한다. 동적 얼굴요소의 경우에는 폐곡선으로 나타낼 얼굴요소가 존재하지 않는다. 따라서, 직선, 곡선, 폴리곤으로 표시한다.

(나) 정량적 평가 – 얼굴요소의 수

얼굴요소의 수는 그림 3과 그림 4에 표현된 각 얼굴요 소의 수를 의미하며, 전문가에 의해 주어진 표준치 영상에 서 검출된 수를 기준으로 평가된다.

(다) 정량적 평가 – 얼굴요소의 위치/기울어짐 오차, 기 하학적 배치, 포즈 변화

각 얼굴요소의 평가를 위해서는 4.3.(라)절 및 그림 2에 서 명시된 위치/기울어짐 오차 및 얼굴요소 간의 기하학적 배치와 포즈변화를 이용한다. 4.3.(라)절에서 명시된 항목 중 얼굴요소의 비율이 고려되지 않은 것은 얼굴영역과 달

(7)

실험 환경

일련번호 -

일시 년 월 일

장소 연구소 제연구동

사용데이터 및 처리시스템

데이터 규격

데이터의 크기 640x480 픽셀

데이터의 수

1,500장 (장당 최대 2명

포함) 데이터의 포맷 8bit 흑백 JPEG 데이터의 저장용량 440M Byte

데이터 처리시스템 CPU의 종류 Intel Core2Duo 3GHz 물리메모리 4GB DDR2 RAM

평가 항목

정성적 평가

얼굴표현

타입 원형 타원형 사각형 폴리곤

얼굴표현 매개변수

타원의 중심점 위치. 장/단축의 길이, 장축의 기움각

정량적 평가

얼굴영역

구분 89.5% 이상

배경영역

구분 11.3% 이하

얼굴영역의 수 평균 3.3

위치 오차 1.5% 이하 기움각 오차 6.8% 이하 비율 오차 3.2% 이하

평가 결과 A

표 7. 얼굴영역 검출성능 평가서 예시

실험 환경

일련번호 -

일시 년 월 일

장소 연구소 제연구동

사용데이터 및 처리시스템

데이터 규격

데이터의 크기 640x480 픽셀

데이터의 수

1,500장 (장당 최대 2명/10개

요소 포함) 데이터의 포맷 8bit 흑백 JPEG 데이터의 저장용량 440M Byte

데이터 처리시스템 CPU의 종류 Intel Core2Duo 3GHz 물리메모리 4GB DDR2 RAM 평가 항목

정성적 평가

요소표현

타입 직선 곡선 원형 타원형 사각형 폴리곤 요소표현

매개변수

시작/끝 점 위치, x축 기준 기움각 (시계방향)

요소표현

타입 직선 곡선 원형 타원형 사각형 폴리곤 요소표현

매개변수 좌상단/우하단 점 위치

정량적 평가

판정된

요소수 평균 7.2

위치 오차 1.6% 이하 기움각

오차 6.8% 이하

비율 오차 3.2% 이하 기하학적

배치 오차 9.3% 이하 포즈변화

오차 5.7% 이하

평가 결과 B

표 8. 얼굴요소 검출성능 평가서 예시 리 특정한 기준을 적용하기가 어렵기 때문이다. 얼굴요소

간의 기하학적 배치는 “골든넘버 Π (1.61803398874989…)”

에 의해 정의된다^[17]. 그림 5의 얼굴에서는 다음과 같은 골 든넘버 Π 의 정보가 각 요소의 비율로 나타나 있다. 기하 학적 배치 오차율은 따로 표기한다.

얼굴요소(혹은 얼굴)의 포즈변화는 로봇, 컴퓨터, 인간 을 대상으로 한 다양한 응용분야에 적용되며, 요소기반 포 즈(두 눈과 코, 혹은 두 눈과 입으로 구성되는 삼각형의 기 울어짐 각) 혹은 영역기반 포즈(고유얼굴(eigenface^[18]) 특징 일부에 의해 표현되는 기울어짐 각)로 측정된다. 영상평면 상의 중심축을 기준으로 기울어짐각(Yaw/Pitch/Roll)을 측 정하며, 얼굴요소 포즈변화 오차는

% 100

} , , {

×

=

∑

∈YawPitchRoll ypr

ypr

pose e

e 로 표현된다.

6. 평가 방법의 적용 예시

본 절에서는 앞서 제안한 평가 방법의 실제 적용을 통 해 개발된 시스템의 객관적 성능 평가 지수로써의 활용 방 법에 대해 논의한다. 표 7 및 8에 명시된 바와 같이 본 평 가를 위해 1,500장의 얼굴포함 영상이 취득되었으며, 앞서 제안한 다양한 정성적/정량적 평가 방법에 대한 수치가 측 정되었다.

(8)

얼굴영역 검출성능의 경우, 약 90%에 해당하는 검출 성 공률을 보여주며, 배경에 포함된 유사얼굴패턴을 고려하 여 평균 3.3개의 얼굴영역을 추정해내고 있다. 컬러영상이 아닌 흑백영상의 경우 1-2개의 유사얼굴패턴이 검출되는 것은 유의미한 것으로 판정된다. 그 외 위치/기움각/비율 오차 등에서 평균 5% 내외의 오차율을 보이므로 실제적인 응용을 고려하여 평가 결과는 A로 주어졌다.

얼굴요소 검출성능의 경우, 판정된 얼굴요소의 수가 평 균 7.2개에 그치며, 얼굴요소 검출 이후의 과정을 고려했 을때 매우 중요한 기하학적 배치 오차가 약 10%에 달하므 로 실제적인 응용에 있어서는 B 등급의 성능을 보이는 것 으로 판단된다.

7. 결 론

본 논문에서는 인간친화적이고 자연스러운 인터페이스 를 구현하기 위해 기본 단계로 필요한 얼굴영역 및 얼굴요 소 검출에 관한 요소를 망라하고, 그에 관한 표준 평가방 법을 제안하였다. 제안된 방법은 향후 지능로봇에서의 얼 굴인식 응용을 위한 플랫폼을 구현할 때 평가를 위해 활용 할 수 있다.

참 고 문 헌

[1] P. J. Phillips, A. Martin, C. L. Wilson, and M.

Przybocki,An Introduction to Evaluating Biometric Systems, IEEE Computer, pp. 56-63, February 2000.

(Special issue on biometrics.)

[2] D.M. Blackburn, M. Bone, P.J. Phillips, Face Recognition Vendor Test 2000, Evaluation Report, February 16, 2001.

[3] P.J. Phillips, P. Grother, R.J. Micheals, D.M.

Blackburn, E. Tabassi, M. Bone, Face Recognition Vendor Test 2002, Evaluation Report, March 2003.

[4] P.J. Phillips, W.T. Scruggs, A.J. O'Toole, P.J. Flynn, K.W. Bowyer, C.L. Schott, M. Sharpe, FRVT 2006 and ICE 2006 Large-Scale Results, March 29, 2007, NISTIR 7408, National Institute of Standards and Technology.

[5] P.J. Phillips, P.J. Flynn, T. Scruggs, K.W. Bowyer, W. Worek, Preliminary Face Recognition Grand Challenge Results, Proceedings of the 7th International Conference on Automatic Face and

Gesture Recognition, Southampton, UK, pp. 15-24, April 10-12, 2006.

[6] Homepage of MBGC at NIST, http://face.nist.gov/

mbgc/, 2009.

[7] P.J. Phillips, H. Moon, S.A. Rizvi, and P.J. Rauss, The FERET Evaluation Methodology for Face- Recognition Algorithms, IEEE Transactions on Pattern Analysis and Machine Intelligence 22(10):

1090-1104, October 2000.

[8] R. Gross, Face Databases, Handbook of Face Recognition, Springer-Verlag, 2005.

[9] KS A 3011 조도 기준.

[10] ISO 10918-1 JPEG 국제표준.

[11] ISO/IEC-11172 MPEG-1 국제표준.

[12] ISO/IEC-13818 MPEG-2 국제표준.

[13] Homepage of TrackIR, NaturalPoint, http://www.naturalpoint .com/trackir/, 2009.

[14] ANSI/ISEA 107-2004 Level 2, Table 5 3M 적외선 반사형마커 국제표준.

[15] Fitzpatrick TB: Soleil et peau. J Med Esthet , Vol.2, pp. 33-34, 1975.

[16] Conversion between RGB and HSV/HSL,

http://en.wikipedia.org/wiki/HSL_and_HSV#Conversion _from_HSL_to_RGB, 2009.

[17] Golden Number in Human Face, http://goldennumber .net/face.htm, 2009.

[18] M. Turk and A. Pentland, Eigenfaces for recognition, Journal of Cognitive Neuroscience 3(1): 71–86, 1991.

박 광 현

1994 KAIST 전자전산학과(학사) 1997 KAIST 전자전산학과(석사) 2001 KAIST 전자전산학과(박사) 2005~2007 KAIST 전자전산학

과 BK 초빙교수 2008~현재 광운대학교 정보

제어공학과 조교수 관심분야 : 인간-로봇 상호작용, 보조공학시스템, 로

봇 소프트웨어, 로봇 미디어 한국로봇학회 (KRS) 정회원

(9)

김 대 진

1997 경북대학교 전자공학과 (학사)

1999 KAIST 전자전산학과(석사) 2004 KAIST 전자전산학과(박사) 2004~2006 KAIST 인간친화복 지로봇시스템연구센터 전문연구원

2006~2007 Multimedia Research Lab, University of Louisville, Louisville, KY 전문연구원

2007~현재 NanoScience Technology Center, University of Central Florida, Orlando, FL 전문연 구원

관심분야 : 지능로봇, 인간-로봇-컴퓨터 상호작용, 로 봇제어및비젼, 얼굴표정인식, 멀티미디어 마 이닝

IEEE 정회원

홍 지 만

1994 고려대학교 컴퓨터학과 (학사)

1997 서울대학교 컴퓨터공학 과(석사)

2003 서울대학교 컴퓨터공학 과(박사)

2004~2007 광운대학교 컴퓨터공학과 조교수 2007~현재 숭실대학교 컴퓨터학부 조교수

관심분야 : 운영체제, 임베디드 소트프웨어, 실시간 시스템, 결함허용 시스템, 센서네트워크

최 병 욱

1992 KAIST 전기및전자(박사) 1988-2000 LG산전㈜, 엘리베 이터 연구실장 및 임베디 드 시스템 연구팀장 2000~2005 선문대학교 제어

계측공학과 부교수 2005~현재 서울산업대학교 전기공학과 교수 2007~2008 Nayang Technological University, Senior

Fellow

관심분야 : 임베디드 시스템, 실시간 시스템, 지능형 서비스 로봇 소프트웨어 구조