An Efficient Facial Expression Recognition by Measuring Histogram Distance Based on Preprocessing

(1)

접수일자 : 2009년 7월 20일 완료일자 : 2009년 9월 30일

전처리 기반 히스토그램 거리측정에 의한 효율적인 표정인식

조용현 Yong-Hyun Cho

대구가톨릭대학교 공과대학 컴퓨터정보통신공학부

School of Computer and Information Comm. Eng., Catholic Univ. of Daegu 요 약

본 논문에서는 전처리 기반 히스토그램 거리측정에 의한 효율적인 얼굴표정 인식기법을 제안하였다. 여기서 전처리는 중심 이동과 히스토그램 평활화에 의해 인식성능을 개선하기 위함이고, 히스토그램 사이의 거리측정은 영상 상호간의 유사도를 측정하기 위함이다. 특히 중심이동은 1차 모멘트 평형에 기반을 둔 것으로 불필요한 배경을 제거시켜 위치나 크기 변화에 강건한 인식을 위함뿐만 아니라 거리의 측정부하를 줄이기 위함이다. 히스토그램 평활화는 조명의 세기에 의한 영상의 명 암대비 감소에 강건한 인식을 위함이다. 제안된 기법을 320*243 픽셀의 72개(4명*18장) 표정얼굴을 대상으로 히스토그램 사이의 유사도 측정을 위해서 city-block, Euclidean, 그리고 ordinal 거리를 각각 이용하였다. 실험결과, 제안된 기법은 중 심이동 및 히스토그램 평활화의 전처리를 거치지 않는 기법보다 우수한 인식성능이 있으며, ordinal 거리가 가장 높은 인식 성능이 있음을 확인하였다.

키워드 : 히스토그램 거리측정, 중심이동, 히스토그램 평활화, 표정인식

Abstract

This paper presents an efficient facial expression recognition method by measuring the histogram distance based on preprocessing. The preprocessing that uses both centroid shift and histogram equalization is applied to improve the recognition performance, The distance measurement is also applied to estimate the similarity between the facial expressions. The centroid shift based on the first moment balance technique is applied not only to obtain the robust recognition with respect to position or size variations but also to reduce the distance measurement load by excluding the background in the recognition. Histogram equalization is used for robustly recognizing the poor contrast of the images due to light intensity. The proposed method has been applied for recognizing 72 facial expression images(4 persons * 18 scenes) of 320*243 pixels. Three distances such as city-block, Euclidean, and ordinal are used as a similarity measure between histograms. The experimental results show that the proposed method has superior recognition performances compared with the method without preprocessing. The ordinal distance shows superior recognition performances over city-block and Euclidean distances, respectively.

Key Words : Histogram Distance Measurement, Centroid Shift, Histogram Equalization, Facial Expression Recognition

1. 서 론

거리나 유사성을 찾는 것은 분류나 군집화 및 복구 등과 같은 패턴인식에서 해결되어야 할 중요한 요소이다. 거리는 두 개의 개체가 얼마나 떨어져 있는 지의 정량적인 정도로 정의되며, 이러한 거리의 선택은 개체의 측정형태나 표현에 의존한다. 가장 일반적인 패턴표현 중에 하나는 히스토그램 (histogram)으로 이는 샘플사이 그 척도의 정량화된 값의 빈도수이다. 히스토그램은 집합 내의 통계적 결과로 단순성, 강건성, 그리고 효율성의 장점들을 가지기 때문에 특징들을 유익하게 표현한다. 따라서 두 히스토그램 사이의 유사성을 찾기 위한 많은 거리계산 방법들이 제안되었다[1-7].

히스토그램 사이의 거리를 측정하는 방법에는 벡터 접근

법과 확률적 접근법이 있다. 벡터 접근법은 히스토그램을 고정된 차원의 벡터로 취급하는 것으로 city-block (L1-norm), Euclidean(L2-norm)이 있으며, 주로 영상색인 이나 추출 등에 이용된다[1,2]. 확률적 접근법은 히스토그램 을 확률밀도함수의 경험적 판단을 위한 근거로 이용하며, 거리 측정을 두 확률밀도함수 사이의 중첩을 측정하는 것으 로 간주한다[7]. 여기에는 Bhattacharyya 거리(B-distance) 나 Kullback-Leibler 거리(K-L-distance)가 있다[4-7]. 지 금까지 제시된 대부분의 거리척도들은 거리의 함수로서 두 히스토그램 사이의 중첩 부분만을 고려하며 비중첩 부분의 유사성은 고려하지 않았다. 이를 해결하기 위해 히스토그램 의 분포중심을 이동시키는 earth mover's distance(EMD) 의 거리척도가 제안되었으며[1], 이 척도를 이용하여 1차원 히스토그램 사이 거리를 측정하기 위해 nominal, ordinal, modulo의 3가지의 측정법이 제안되었다[1,4-6]. nominal 측정법은 히스토그램 내의 각 레벨 사이의 일치여부를 나타

(2)

내는 것으로 레벨의 순서에 무관하게 일정한 거리를 가지는 뒤섞임 불변(shuffling invariance)의 속성을 가진다.

city-block, Euclidean, B-distance, K-L-distance 등의 척 도들은 이러한 속성을 만족한다. 또한 ordinal 측정법은 레 벨 사이의 절대 차로 거리를 계산하고, modulo 측정법은 산술적 modulo 동작의 수행에 의해 레벨들은 ring을 형성 하며 내부적인 차로 거리를 계산한다. 하지만 ordinal과 modulo 측정법은 각각 레벨들은 순서에 의존하는 것으로 뒤섞임 불변의 속성을 만족하지 않는다[1].

한편 표정인식과 같은 분야에서 분류를 위한 영상조회의 정확성은 데이터베이스 내에 저장된 영상 수나 크기의 증가 에 따라 감소하며[8-10], 더 많은 특징들을 가지는 히스토 그램을 이용함으로써 조회의 정확성도 증가한다[1]. 하지만 히스토그램 내의 특징증가는 히스토그램 크기를 기하 함수 적으로 증가시키며, 이에 따라 두 히스토그램 사이의 유사 성 계산에 요구되는 부하 역시 비례하여 증가하게 된다. 결 국 히스토그램의 크기증가는 히스토그램 정합의 능률을 감 소시킨다. 히스토그램은 픽셀(pixel)들의 명암도 분포를 나 타냄으로써 영상의 특징을 제공하지만 조명의 세기에 따른 명암대비가 낮은 영상의 경우 히스토그램은 그 영상의 특징 들을 잘 나타내지 못한다[3]. 명암도의 재조정에 의해 평탄 한 분포를 가지는 대비가 증가된 히스토그램의 생성은 인식 의 정확성을 증가시킬 것이다. 따라서 히스토그램의 크기를 감소시켜 거리계산의 부하감소 및 유사성의 정확도 개선뿐 만 아니라 히스토그램 평활화를 통한 정합능률의 증가를 위 한 대안 제시가 절실하게 요구된다.

본 논문에서는 중심이동과 히스토그램 평활화의 전처리 에 바탕을 둔 히스토그램 거리측정을 이용한 에 의한 표정 인식 기법을 제안하였다. 여기서 중심이동은 1차 모멘트 평 형[11]에 기반을 둔 것으로 차원감소에 따른 히스토그램의 크기 감소뿐만 아니라 위치나 크기 변화에 강건한 인식을 위함이고, 히스토그램 평활화는 낮은 명암대비 영상의 강건 한 인식을 위함이다. 또한 히스토그램 사이의 거리측정은 영상 상호간의 유사도를 측정하기 위함이다. 제안된 기법을 320*243 픽셀의 72개(4명*18장) Yale 얼굴표정[12]를 대상 으로 city-block, Euclidean, 그리고 ordinal 측정법을 이용 하여 실험하고, 그 결과들을 중심이동과 히스토그램 평활화 의 전처리를 거치지 않는 기법의 결과들과 각각 비교․고찰 하였다.

2. 중심이동과 히스토그램 평활화의 전처리

히스토그램 사이의 거리를 이용한 유사성 측정의 성능개 선을 위해서는 히스토그램의 크기가 감소되어야 하며, 히스 토그램 내에 영상의 특징들이 잘 표현되어야 한다. 특히 비 교가 되는 영상 상호간의 기하학적 차이는 히스토그램의 정 합능률을 감소시킨다. 일반적으로 표정영상은 배경과 의미 있는 형상으로 구분되며, 형상에 비해 배경의 변화가 비교 적 적을 경우에 원래보다 작은 크기의 유효영상을 추출할 수 있다. 이렇게 추출된 유효영상의 히스토그램을 이용하면 보다 빠르고 정확하게 인식이 가능하다. 또한 조명의 세기 에 따라 얻어진 명암대비가 낮은 표정영상도 명암도 영역을 재조정하여 개선된 화질의 히스토그램을 이용하면 보다 우 수한 정합능률을 얻을 수 있다.

여기에서는 1차 모멘트 평형[11]을 이용한 중심을 계산하 여 중심이동 시켜 유효영상을 추출한다. 이는 기하학적 정

보를 이용한 전처리로 배경을 제거함으로써 차원의 감소를 얻을 수 있다. 또한 명암도의 발생빈도에 비례하여 동적영 역을 변화시키는 히스토그램 평활화의 전처리를 이용하여 화질의 개선을 얻을 수 있다. 따라서 전처리된 영상을 대상 으로 히스토그램 사이 거리를 계산해 표정인식을 수행한다.

2.1 중심이동과 차원감소의 전처리

얼굴의 표정을 나타내는 입력영상을 X축 과/또는 Y축으 로 평행 이동시켜 이루어지는 중심이동은 1차 모멘트 평형 [11]에 의해 중심을 계산함으로써 가능하다. 여기서 1차 모 멘트를 구하는 과정은 먼저 원 영상 OrgImage로부터 차 영상 DeltaImage를 생성한다. 이때 n번째 좌표의 차 영상 DeltaImage(n) = Pi(n) - Pi(n-1)로 계산되며, Y행 픽셀좌 표로부터 X열 픽셀좌표 방향으로 수행한다. 다음은 계산된 차 영상으로부터 유효영상의 픽셀만을 생성하기 위하여 논 리 필터링을 수행한다. 이때 유효영상 여부를 위한 판별 값 은 차 영상에 대한 픽셀의 변화평균값을 이용한다. 논리필 터링은 차 영상의 값이 판별 값보다 크거나 같으면 유효한 픽셀로 1의 값을 갖도록 하며, 그렇지 않으면 0의 값을 갖 도록 함으로써 균일한 형상의 영상을 생성한다. 그림 1은 논리 필터링된 영상을 대상으로 1차 모멘트 평형을 구하기 위한 임의의 영상단면을 나타낸 것이다.

그림 1. 1차 모멘트 평형을 위한 영상단면 Fig. 1. Motion image area for 1st moment balance

여기서 1차 모멘트 평형은 각 개별 픽셀에 대한 모멘트 값의 합이 영상 전체의 중심거리와 영상 전체의 픽셀 값의 곱과 동일함을 의미하며, 다음의 식 (1)과 같이 표현된다.

 × _{  }^ ^^^{× }^^^,^^×^^^_{  }^ ^^^{× }^^⁽¹⁾

여기서 는 i번째 개별픽셀의 논리 값으로 유효한 픽셀 일 경우에는 1, 그렇지 않으면 0이며, 은 유효영상에 대 한 개별픽셀의 논리 값 합이다. 또한 영상의 무게중심으로 나타나는 유효영상의 중심좌표 (Cx, Cy)는 식 (2)와 같이 계 산된다.

  _{  }^ ^^



,   _{  }^ ^^



(2)

따라서 1차 모멘트 평형으로부터 얻어진 유효영상의 중 심좌표(Cx, Cy)를 기준으로 보다 작은 영상을 선택하여 입 력영상으로 이용한다. 즉, 임의로 입력되는 원 표정영상을 중심좌표를 기준으로 중심이동 시켜 유효한 표정영상을 선 택하면 인식에 불필요한 배경을 배제시킬 수 있어 차원이 감소된 영상을 얻을 수 있다. 이렇게 하면 표정영상의 특징

(3)

을 포함하는 히스토그램의 크기가 감소할 뿐만 아니라 위치 나 크기의 기하학적 변화에도 강건한 인식성능을 얻을 수 있다.

2.2 히스토그램 평활화

히스토그램은 영상에서 명암도의 발생 빈도를 나타낸 것 으로 영상의 명암도에 대한 분포를 보여주는 그래프이다.

특히 입력되는 영상의 밝기 및 명암대비 등에 대한 정보를 나타낸다[3].

영상 내 픽셀의 수와 명암도를 나타내는 레벨수를 각각 n과 b라 할 때, n개 픽셀을 가지는 영상집합 A={a1, a2, …, an}, 레벨집합 X={x0, x1, …, xb-1}이다. 이때 명암도 레벨 x 에 대한 영상집합 A의 히스토그램 H(x,A)는 ai사이에서 불 연속 명암도 x의 발생 빈도수를 나타내는 순서화된 목차이 다. 만약 동일한 명암도 레벨 x를 가지는 히스토그램을 대 상으로 상호 비교한다면, H(x,A) 대신 H(A)로 나타낼 수 있다. 0≤i≤b-1에서 만약 Hi(A)가 식 (3)과 같이 레벨 xi를 가지는 집합 A의 원소수를 나타낸다면, 그때 H(A)={H0(A), H1(A), …, Hb-1(A)}로 나타낼 수 있으며,

Hⁱ(A) = 

  



_, where c^ij = ^{ i f } ^^{ }^ (3) 이다.

한편 표정영상의 획득과정에서 인공조명이나 자연조명이 포함되며, 조명의 세기에 따라 영상의 식별이 어려운 영상 이 얻어질 수 있다[8,9]. 즉 조명의 세기가 지나치게 강하거 나 약할 경우 명암대비가 빈약한 영상이 얻어지고, 그에 따 른 히스토그램은 영상의 구성정보인 특징을 잘 나타내지 못 하는 어려움이 있다. 이러한 빈약한 명암대비의 어려움을 해결하기 위한 대안으로 히스토그램 평활화가 이용된다. 히 스토그램 평활화는 빈약한 명암도 분포의 히스토그램을 보 다 균일한 명암도 분포의 히스토그램으로 만드는 것으로 히 스토그램을 평탄하게 하는 것이 아니라 명암도 분포를 재분 배하는 것이다[3].

일반적으로 히스토그램 평활화 과정은 다음과 같이 3단 계로 이루어진다. 즉,

단계 1 : 입력된 원 영상의 히스토그램을 생성한다.

단계 2 : 생성된 히스토그램을 대상으로 각 명암도 레벨별 로 정규화 및 평활화를 수행한다.

단계 3 : 입력된 원 영상의 명암도를 단계 2의 평활화된 명 암도로 바꾸어 결과 영상을 생성한다.

이상의 각 단계들을 좀 더 상세히 살펴보면, 먼저 단계 1 은 입력되는 영상의 명암도 레벨에 따른 발생 빈도수를 식 (3)에 따라 셈하여 이루어진다. 단계 2는 각 명암도 레벨을 올림차순으로 배열하고, 그에 따른 발생 빈도수의 누적을 계산하고, 각 명암도 레벨에 따른 정규화를 수행한다. 여기 서 정규화는 누적 발생 빈도수에 상수(최대 명암도/전체 픽 셀 수)를 곱하여 결정되며, 평활화는 정규화된 값의 반올림 으로 결정된다. 마지막으로 단계 3은 원 영상의 명암도를 단계 2에서 얻어진 평활화 값으로 대치하여 결과 영상과 히 스토그램을 생성하는 것이다. 하지만 이러한 히스토그램 평 활화는 원 영상 내에서 특정 명암도의 발생 빈도수가 지나 치게 높거나 낮을 경우 오히려 화질이 떨어지는 결과를 가 져온다[3]. 본 연구에서는 시험영상의 명암도 레벨의 대역폭 이 학습영상의 그것에 1/4 이하일 때 히스토그램 평활화의 전처리를 수행하였다.

따라서 히스토그램 평활화를 통해 얻어지는 대비가 증가

된 표정영상의 히스토그램을 대상으로 거리를 측정한다. 이 렇게 하면 입력되는 표정영상의 빈약한 명암대비에 강건한 정합성능을 얻을 수 있다.

3. 히스토그램 사이의 거리측정

히스토그램 사이의 거리측정에는 nominal, ordinal, modulo 측정법이 있으며, 이들 각각의 계산 복잡도는 명암 도 레벨 수 b에 따라 O(b), O(b), O(b²)를 가진다. 특히 nominal 측정법에서는 히스토그램 상의 레벨 사이에 특별 한 순서가 고려되지 않으나 ordinal과 modulo 측정법에서 는 순서가 고려된다[1,2].

nominal 측정법에서는 두 히스토그램 사이의 거리를 구 할 때, 레벨들이 서로 동일한 순서를 유지하는 한 출력에 영향을 미치지 않는 뒤섞임 불변의 속성을 만족한다. 하지 만 ordinal이나 modulo 측정법에서는 뒤섞임 불변의 속성 이 성립되지 않는다[1]. 일반적으로 2개 레벨 x와 x' 사이 의 차이로 nominal, ordinal, modulo 측정법 각각의 거리는 다음과 같이 식 (4), 식 (5), 식(6)으로 정의 된다. 즉,

nominal : d^nom(x,x') =  i f   ′

  (4) ordinal : d^ord(x,x') =   ′ (5) modulo : d^mod(x,x') =









  ′ i f   ′ ≤ 



    ′ 

(6)

이다. 여기서도 b는 레벨수이며, 식 (4)의 nominal 거리는 2 개 레벨사이의 일치여부를 나타내는 것으로 레벨의 치환이 가능하다. 하지만 식 (5)의 ordinal 거리는 순서화되고 치환 불가능하며, 2개 레벨사이의 절대값으로 표현된다. 마지막 으로 식 (6)의 modulo 거리는 순환구조인 ring을 형성하며 치환불가능이고, 2개 레벨사이의 내부적인 차이로 표현된 다.

한편 벡터나 확률함수에 기반을 둔 히스토그램 사이의 유사성을 측정하기 위한 접근법에는 여러 가지의 거리가 정 의된다. 영상의 히스토그램을 b 차원의 벡터로 가정할 때, 뒤섞임 불변의 속성을 가지는 nominal 측정법에서는 2개 히스토그램 H(A)와 H(B)사이의 거리 D(H(A),H(B))로 표 준 벡터 norm을 이용한다. 먼저 L1-norm인 city-block 거 리 D1(H(A),H(B))은 식 (7)과 같이

D¹(H(A),H(B)) = 

  

 

_ _ (7)

이며, L2-norm인 Euclidean 거리 D2(H(A),H(B))는 다시 식 (8)과 같이

D²(H(A),H(B)) =



^^  

 

_^^{ }_^^^ (8)

이다. 일반적으로 city-block 거리는 Minkowski 거리에서 의 차원이 1차원인 경우로 차원에 따른 개체의 특성이 뚜렷 하게 나타날 경우에 유용하며, Euclidean 거리는 개체의 단 편적인 기하학적 거리를 각각 나타낸 것이다[1].

ordinal 측정법은 레벨 사이의 상관성으로 뒤섞임 불변의 속성이 없으며, 여기서의 히스토그램은 레벨 x가 선형적으

(4)

로 증가하는 히스토그램이다. ordinal 측정법에서의 히스토 그램 사이의 거리 Dord(H(A),H(B))는 식 (9)와 같이

D^ord(H(A),H(B)) = 

  

 



  



_ _ (9)

정의된다. 식 (9)은 각 명암도 레벨을 위한 차의 사전합의 절대치 합으로 계산되며, 3단계로 수행된다. 첫 단계에서는 각 레벨에 대한 차이를 구하고, 다음 단계에서는 각 레벨에 대한 차의 사전합을 계산하며, 마지막 단계에서는 사전합의 절대치를 더하는 과정이다.

이상의 과정에 따른 중심이동과 히스토그램 평활화의 전 처리된 표정영상을 대상으로 히스토그램을 생성할 수 있다.

따라서 전처리와 히스토그램 사이의 거리를 이용한 제안된 표정인식 과정을 요약하면 그림 2와 같다. 학습과정에서는 먼저 획득된 참조표정 영상을 중심이동 시켜 차원이 감소된 유효영상을 검출한다. 다음은 얻어진 유효영상의 히스토그 램을 생성하여 저장한다. 한편 분류과정에서도 학습과정과 동일하게 시험 표정영상을 대상으로 유효영상을 검출하고, 검출된 유효영상을 대상으로 히스토그램 평활화를 적용한 후 히스토그램을 생성한다. 다음은 저장된 참조표정의 히스 토그램과의 거리를 계산하여 비교함으로써 표정을 인식하 게 된다. 이때 거리척도로 city-block, Euclidean, ordinal의 거리를 각각 이용하였다.

(a) 학습 (b) 분류 그림 2. 제안된 방법에 의한 표정인식 과정 Fig. 2. Facial expression recognition process of

proposed method

4. 실험 및 결과분석

중심이동과 히스토그램 평활화의 전처리와 히스토그램 사이의 거리를 이용한 제안된 표정인식 방법의 성능을 평가 하기 위해 320*243 픽셀의 72개(4명*18장) Yale 얼굴표정 [12]를 대상으로 실험하였다. 이는 학습을 위한 24개의 참조 표정 영상과 이들 영상들의 기하학적 변화 및 명암대비를 변화시킨 48개의 시험영상으로 구성하였다. 또한 분류를 위 한 척도로 city-block, Euclidean, 그리고 ordinal의 거리를 이용하였으며, 실험은 펜티엄Ⅳ-3.0G 컴퓨터에서 Matlab 7.1로 구현하였다.

그림 3(a)는 학습을 위한 참조표정 영상으로 각자 6가지 표정(행복, 보통, 슬픔, 졸음, 놀람, 윙크)을 가지는 4명의 24

개(4명*6장) 표정이고, 그림 3(b)과 (c)의 시험영상은 각각 참조영상에서 위치나 크기의 기하학적 변화 및 조명에 의한 명암도가 변화된 48개(4명*12장) 표정을 나타낸 것이다. 그 림 3(b)에서는 명암도의 변화가 없는 참조영상에서 우측이 나 좌측으로의 위치이동에 의해 일부가 삭제된 것과 단순히 크기를 확대 및 축소한 경우뿐만 아니라, 위치와 크기가 동 시에 변화된 영상도 볼 수 있다. 또한 그림 3(c)는 기하학적 변화가 없는 참조영상에서 명암도가 변화된 빈약한 화질의 표정영상이다.

(a) 참조영상

(b) 기하학적으로 변화된 시험영상

(c) 명암도가 변화된 시험영상 그림 3. 참조 및 시험 표정영상

Fig. 3. Reference and gallery facial expression images

(5)

한편 그림 4는 그림 3의 참조 및 시험영상 각각을 대상 으로 논리 필터링한 후, 1차 모멘트에 의해 계산된 중심좌 표로 영상을 중심이동 시킨 다음, 77760(320*243) 픽셀의 원 영상을 34240(214*160) 픽셀로 축소시킨 유효영상이다.

여기서 얻어진 유효영상은 원 영상에 비해 약 2.3배 정도 차원이 감소된 것으로 실험에서는 이 영상을 이용한다. 이 는 입력된 원 영상에서 인식에 불필요한 배경을 제거하여 크기를 감소시킴으로써 인식성능을 개선하기 위함이다. 그 림 4(b)에서 1행 2열의 영상과 3행 3열의 유효영상은 그림 4(a)의 해당 유효영상과 다소의 차이를 보인다. 이는 참조 영상에 비해 시험영상이 지나치게 변형된 경우로 유효영상 의 크기가 제한되었기 때문이다. 또한 그림 4(c)에서도 여전 히 명암대비의 빈약함에 의한 표정영상의 화질이 떨어짐을 볼 수 있다.

그림 5는 그림 3(c)의 1행 1열 시험영상을 대상으로 히스 토그램 평활화를 수행한 결과영상을 나타낸 것이다. 그림 5(a)의 시험영상을 보면 얼굴영역의 입, 코, 눈과 머리카락 영역의 명암대비가 빈약함으로써 표정을 나타내는 특징의 인식이 다소 떨어짐을 알 수 있다. 하지만 그림 5(b)의 평활 화된 시험영상은 이들 영역의 명암대비가 증가되어 화질이 개선되었으며, 이로 인해 표정특징들도 더욱 더 잘 나타남 을 알 수 있다.

(a) 참조영상

(b) 기하학적으로 변화된 시험영상

(c) 명암도가 변화된 시험영상 그림 4. 중심이동된 표정영상

Fig. 4. Facial expression images of centroid shift

(a) 빈약한 명암대비 시험영상 (b) 평활화된 시험영상 그림 5. 히스토그램 평활화된 표정영상 Fig. 5. Facial expression images of histogram

equalization

표 1은 그림 3(b)의 위치와 크기의 기하학적으로 변화된 24개의 시험영상을 대상으로 중심이동의 전처리를 수행한 경우와 그렇지 않은 비전처리의 경우 각각의 히스토그램 사 이 거리척도에 따른 인식결과를 나타낸 것이다. 여기서는 성공적으로 인식된 결과의 평균값을 나타낸 것이다. 표 1에 서 보면 중심이동의 전처리 과정을 수행했을 때, 인식률과 인식시간에서 전처리 과정을 수행하지 않을 때보다 각각 평 균적으로 약 2.1배와 약 1.1배정도 개선되었다. 인식률의 경 우는 전처리를 수행하면 위치나 크기 등이 변한 시험영상의 중심을 찾아 재배치하여 학습된 참조영상과 히스토그램 거 리를 비교․측정하기 때문이다. 인식시간에서는 전처리에 의해 불필요한 영역이 제거되어 크기가 감소되기 때문이다.

또한 전처리 영상의 평균거리는 비전처리 영상에 비해 약 7.6배 정도 평균적으로 작은 값을 가져 좀 더 정확하게 분 류한다. 하지만 전처리에 의해 시험영상은 크기가 감소되어 거리도 작은 값을 나타낸다. 한편 히스토그램 사이의 유사 성 판별에 이용되는 거리척도로 ordinal은 city-block이나 Euclidean의 거리척도에 비해 전처리나 비전처리 모두에서 우수한 인식률을 가지나 인식시간은 오래 걸림을 알 수 있 다. 이는 ordinal 측정법의 거리는 두 히스토그램 상호간의 정합을 위해 하나의 히스토그램을 기준으로 이동하여야할 최소 움직임 수를 나타내는데 비해, city-block이나 Euclidean은 nominal 측정법으로 단순히 두 히스토그램에 서 중첩되지 않는 레벨수를 각각 나타내기 때문이다. 따라

(6)

서 표정영상의 인식은 두 히스토그램 사이의 일치하지 않는 레벨수를 고려하는 것보다는 정합을 위한 움직임 수를 고려 하는 것이 보다 효과적임을 알 수 있다. 또한 전처리나 비 전처리 영상 모두에서 city-block 거리 이용은 Euclidean 거리의 이용 때보다 우수한 인식성능을 보인다. 이는 Euclidean 거리가 단편적인 기하학적 거리만을 나타내는데 비해 city-block 거리는 히스토그램의 차원정보를 고려한 거리를 나타내기 때문이다. 따라서 제안된 중심이동의 전처 리와 ordinal의 히스토그램 사이 거리측정을 이용하면 표정 인식의 성능을 개선시킬 수 있다.

표 1. 중심이동의 전처리에 따른 인식결과

Table 1. Recognition results by preprocessing of centroid shift

거리척도

비전처리

영상(비중심이동) 전처리 영상(중심이동)

인식률 (%)

인식 시간

평균 거리

인식률 (%)

인식 시간

평균 거리 city block 41.7 0.48 4803.5 87.5 0.45 6149.4 Euclidean 29.2 0.44 568.9 45.8 0.42 487.5

ordinal 70.8 0.52 217082.9 95.8 0.47 3144.7

표 2는 그림 3(c)의 명암도가 변화된 빈약한 명암대비를 가진 24개의 시험영상을 대상으로 평활화를 수행한 경우와 그렇지 않은 경우 및 히스토그램 평활화와 중심이동을 함께 수행한 경우 각각의 히스토그램 사이 거리척도에 따른 인식 결과를 나타낸 것이다. 여기서도 성공적으로 인식된 결과의 평균값을 나타낸 것이다. 표 2에서 평활화에 의한 결과를 보면, 평활화를 수행할 때의 인식률과 평균거리가 그렇지 않을 때보다 각각 평균적으로 약 1.2배와 약 1.1배 정도 개 선되었다. 이는 히스토그램 평활화의 적용으로 시험영상의 화질이 개선되어 표정속성이 히스토그램 내에 더욱 더 잘 반영되기 때문이다. 또한 평활화와 중심이동의 전처리를 동 시에 수행하면, 단순히 평활화만을 수행할 때보다 인식률과 평균거리에서 둘 다 평균적으로 약 1.1배정도 개선되었다.

이 역시 표 1의 실험 결과에서처럼 중심이동의 전처리에 따 른 시험영상의 크기 감소로 기학하적 변화나 배경 등에 의 한 성능저하 요인이 배제되었기 때문이며, 이로 인해 인식 시간의 감소효과도 함께 얻을 수 있다. 평활화와 중심이동 의 전처리를 함께 수행한 경우는 그렇지 않은 경우에 비해 인식률과 평균거리에서 각각 평균적으로 약 1.3배와 약 1.2 배 정도 개선되었다. 한편 표 1에서의 결과처럼 표 2에서도 ordinal이 city-block이나 Euclidean의 다른 히스토그램의 사이 거리척도에 비해 평활화 및 중심이동의 수행여부에 무 관하게 우수한 인식률과 평균거리를 가짐을 알 수 있다. 이 또한 표정인식에서 ordinal 측정법의 속성이 nominal 측정 법의 속성에 비해 더욱 더 잘 반영되기 때문이다. 또한 표 2 의 결과에서도 전처리의 수행여부에 무관하게 city-block 거리가 Euclidean 거리보다 우수한 인식성능을 보임을 알 수 있다. 따라서 제안된 히스토그램 평활화와 중심이동의 전처리를 수행한 표정영상을 대상으로 히스토그램 사이 유 사성을 측정하기 위해 ordinal 거리를 이용하는 것이 가장 우수한 인식성능이 있음을 알 수 있다.

표 2. 히스토그램 평활화와 중심이동의 전처리에 따른 인식 결과

Table 2. Recognition results by preprocessing of histogram equalization and centroid shift

거리 척도

비평활화 +

비중심이동 평활화 평활화 +

중심이동 인식률

(%) 평균 거리

인식률 (%)

평균 거리

인식률 (%)

평균 거리 city

block 66.7 54758.5 79.2 47970.4 83.3 38507.9 Eucli-

dean 37.5 27486.1 45.8 11901.9 50.0 1685.3

ordinal 75.0 581849.6 91.7 554076.8 95.8 528518.9 59.73 221,364.73 72.23 204,649.70 76.37 189,570.70

이상의 표 1과 표 2의 실험결과들에서 히스토그램 평활 화와 중심이동의 전처리 과정을 수행하면, 명암대비가 낮은 영상의 화질을 개선시킬 뿐만 아니라 인식에 불필요한 정보 를 제거할 수 있어 인식성능이 개선됨을 확인할 수 있다.

특히 분류를 위한 참조영상과 시험영상의 유사성을 측정하 기 위해서는 히스토그램 사이의 ordinal 거리를 이용하는 것이 가장 효과적임을 알 수 있다. 하지만 히스토그램 평활 화의 경우는 원 시험영상의 화질이 우수할 경우에는 오히려 저하된 화질의 영상을 얻게 되어 이에 대한 고려가 요구된 다.

4. 결 론

본 논문에서는 중심이동과 히스토그램 평활화의 전처리 에 바탕을 둔 히스토그램 거리측정을 이용한 표정인식 기법 을 제안하였다. 여기서 중심이동은 차원감소에 따른 히스토 그램의 크기 감소뿐만 아니라 위치나 크기 변화에 강건한 인식을 위함이고, 히스토그램 평활화는 조명의 세기에 의한 빈약한 명암대비 영상의 강건한 인식을 위함이다. 또한 표 정영상 상호간의 분류를 위한 유사도를 측정하기 위해서 히 스토그램 사이의 거리를 이용하였다.

제안된 기법을 320*243 픽셀의 72개(4명*18장) 얼굴표정 을 대상으로 city-block, Euclidean, 그리고 ordinal 측정법 을 이용하여 실험하였다. 실험결과, 중심이동의 제안된 기법 은 비중심이동의 기법에 비해 인식률과 인식시간에서 각각 평균적으로 약 2.1배와 약 1.1배 정도, 히스토그램 평활화와 중심이동의 함께 수행하는 제안된 기법은 그렇지 않은 기법 에 비해 평균적으로 약 1.3배 정도 인식률이 개선됨을 확인 하였다. 또한 거리척도로 ordinal이 city-block이나 Euclidean을 이용하는 것보다 높은 인식률의 우수한 성능 이 있음도 알 수 있었다.

향후 제안된 방법을 좀 더 큰 규모의 인식문제와 다양한 분야에 적용하는 연구와 조명 등의 변화에도 견실한 인식성 능을 가지는 히스토그램 평활화 기법에 대한 연구가 지속적 으로 이루어져야 할 것이다.

(7)

참 고 문 헌

[1] S. H. Cha and S. N. Srihari, "On Measuring the Distance between Histogram," Pattern Recognition, Vol. 35, pp. 1355-1370, 2002.

[2] F. Serratosa and A. Sanfeliu, "Signatures versus Histograms : Definitions, Distances and Algorithms," Pattern Recognition, Vol. 39, pp.

921-934, 2006.

[3] 조용현, 디지털 영상처리 실무, 도서출판인터비젼, 2005년 2월

[4] F. D. Jou, K. C. Fan, and Y. L. Chang, "Efficient Matching of Large-size Hstograms," Pattern Recognition, Vol. 25, pp. 277-286, 2004.

[5] T. Kailath, "The Divergence and Bhattacharyya Distance Measures in Signal Selection," IEEE Trans., Comm. Technology, COM-15, No. 1, pp.

52-60, 1967.

[6] K. Matusita, "Decision Rules, Based on the Distance for Problems of Fit, Two Samples and Estimation," Ann. Math. Statistics, Vol. 26, pp.

631-640, 1955.

[7] S. H. Cha, "Taxonomy of Nominal Type Histogram Distance Measures," American Conference on Applied Mathematics, Harvard, Massachusetts, USA, pp. 325-330, Mar. 2008.

[8] M. H. Yang, D. Kriegman, and N. Ahuja,

“Detecting Faces in Images: A Survey," IEEE.

Trans. on Pattern Analysis and Machine Intelligence, Vol. 24, No. 1, pp. 64-58, Jan. 2002.

[9] S. H. Jeng, H. Y. M. Liao, C. C. Han, M. Y.

Chern, and Y. T. Liu, "Facial Feature Detection Using Geometrical Face Model: An Efficient Approach", Pattern Recognition, Vol. 31, No. 3, pp. 273-282, 1998.

[10] Peter Eisert and Bernd Girod, "Analyzing Facial Expressions for Virtual Conference," IEEE Computer Graphics and Applications, Vol. 18, No. 5, pp. 70-78, Sept. 1998.

[11] 김상철역, 재료역학, 청문출판사, 1992년 4월 [12] "Yale Face Databases," http://cvc.yale.edu/proj-

ects/yalefaces/yalefaces.html

저 자 소 개

조용현(Yong-Hyun Cho)

1979년 : 경북대학교 전자공학과(공학사) 1981년 : 경북대학교 대학원 전자공학과

(공학석사)

1993년 : 경북대학교 대학원 전자공학과 (공학박사)

1983년～1984년 : 삼성전자(주) 1984년～1987년 : 한국전자통신연구원 1987년～1997년 : 영남이공대학 전자과 교수

1997년～현재 : 대구가톨릭대학교 컴퓨터정보통신공학부 교수

관심분야 : 신경회로망, 영상신호처리 및 인식, 상황인식, 전전자교환기 등

Phone : +82-53-850-2747 Fax : +82-53-850-2740 E-mail : [email protected]