• 검색 결과가 없습니다.

A Method to Estimate Speaker Orientations Robust to Variations of Signal Loudness Based on a Binaural Model in the Frequency

N/A
N/A
Protected

Academic year: 2022

Share "A Method to Estimate Speaker Orientations Robust to Variations of Signal Loudness Based on a Binaural Model in the Frequency"

Copied!
8
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

*청주대학교 전자공학과 접 수 일: 2016년 07월 21일 수정완료일: 2016년 09월 13일 게재확정일: 2016년 09월 16일

ž Received: Jul. 21, 2016, Revised: Sep. 13, 2016, Accepted: Sep. 16, 2016 ž Department of Electronic Engineering, Cheongju University, 298, Daeseong-ro,

Cheongwon-gu, Cheongju-si, Chungcheongbuk-do, 28503, Republic of Korea Tel: +82-43-229-8446, Email: cheolsuhan@cju.ac.kr

주파수영역 두 귀 청취 모델을 이용한 신호의 크기 변화에 강건한 화자의 방향 추정 방법

한 철 수*

A Method to Estimate Speaker Orientations Robust to Variations of Signal Loudness Based on a Binaural Model in the Frequency

Domain

Cheolsu Han*

요 약

사람은 두 귀로 소리를 듣고 음원의 방향을 추정할 수 있는 능력을 갖추고 있으며, 이러한 청각계의 기능을 설명하는 다양한 모델이 제안되었다. 본 논문에서는 주파수영역 두 귀 청취 모델을 이용한 신호의 크기 변화 에 강건한 화자의 방향 추정 방법을 제안한다. 제안 방법은 화자의 방향을 추정하기 위해 매 프레임별로 얻어 지는 화자의 존재 확률 분포의 평균값을 임계치로 이용하고, 이전 프레임의 추정 결과를 바탕으로 현재 프레 임의 추정 결과를 확정하는 것으로 잘못 추정된 결과를 감소시킨다. 제안 방법의 성능을 평가하기 위해 컴퓨 터 시뮬레이션에 의한 평가 실험을 실시하였다. 실험 결과, 제안 방법이 기존 방법에 비해 입력 신호의 크기 변화에 보다 강건하고, 산발적으로 잘못 추정된 결과를 감소시키는 것을 증명하였다.

Abstract

Humans can estimate the orientations of sound sources by listening to their sounds using two ears. Several models have been proposed to explain this function of the human auditory system. In this paper, a method to estimate the orientations of speakers based on a binaural model in the frequency domain is proposed. The method is robust to variations of signal loudness and, at every frame, it uses the average value of a probability distribution for the presence of speakers. Moreover, it reduces estimation errors by adjusting the estimations according to the results for previous frames. The performance of the proposal was evaluated through a series of computer simulation experiments.

Results show the proposed method to be more robust to variations of signal loudness than conventional approaches, while also resulting in smaller estimation errors.

Keywords

binaural model, robust estimation, speaker orientation, head-related transfer function, electro acoustic http://dx.doi.org/10.14801/jkiit.2016.14.10.51

(2)

Ⅰ. 서 론

사람이 소리를 듣는 순간 어느 방향으로부터 발 생된 소리인지 느끼는 것을 음상 정위(Sound Image Localization)라고 한다[1][2]. 사람은 음상 정위 능력 을 바탕으로 소리가 발생된 위치를 추정할 수 있는 음원 정위(Sound Localization) 능력도 함께 지닌다.

음원의 종류, 방향, 주파수 등에 따라 음상 정위가 더 쉽거나 어려운 경우도 있으며, 따라서 음상 정위 로 느낀 방향과 음원의 실제 방향이 항상 일치하는 것은 아니다.

사람의 음상 정위에는 다양한 음향 단서들 (Acoustic Cues)이 이용되며, 그 중 두 귀 청취로 얻 어지는 단서들이 큰 역할을 수행한다[1][2]. 수평면 상에서 음원의 위치가 바뀌면 음원으로부터 좌우 두 귀까지의 경로도 변한다. 그로인해 두 귀로 입력 되는 소리의 크기와 도달 시간에도 차이가 발생한 다. 예를 들어 사람의 왼편에 있는 음원에서 발생된 소리는 음원이 왼쪽 귀에 더 가깝기 때문에, 오른쪽 귀보다 왼쪽 귀에 더 크고 빠르게 도달한다. 이와 같이 인간의 청각계(Auditory System)는 두 귀 청취 로 얻어지는 소리의 미세한 크기 차이와 시간 차이 를 분석하여 소리가 발생한 방향을 추정할 수 있다 [1][2].

사람의 청각계의 기능을 모델화한 대표적인 것이 주파수영역 두 귀 청취 모델(FDBM, Frequency Domain Binaural Model)이다[3]-[5]. 이 모델에서는 두 귀로 입력되는 시간축 신호를 주파수축으로 변 환하고, 주파수별로 두 귀간 레벨 차이(ILD, Inter- aural Level Difference)와 두 귀간 위상 차이(IPD, Interaural Phase Difference)를 계산하고, 이를 토대로 음원의 방향을 추정하고 분리하는 방법을 제시하였 다. 이 모델은 인간형 로봇이나 보청기 등의 시스템 에 적용될 수 있으며, 또한, 사람의 청각계를 예측 하고 분석하는 모델로서도 이용될 수 있다. 따라서 이 모델을 이용한 음원의 방향 추정 방법과 분리 방법에 대하여 다양한 검토가 이루어지고 있다[6]-[8].

기존의 연구에서는 음원의 방향을 추정하기 위해 두 귀간 레벨 차이와 두 귀간 위상 차이를 이용하 여 얻어진 음원의 존재 확률 분포에서 일정 임계치

(Threshold) 이상의 값을 갖는 방향에 음원이 있다고 추정하였다[4][6][7]. 또한, 입력된 소리의 크기가 음 원의 존재 확률 분포의 산출에 이용되며 서로 비례 하는 것이 특징이다. 이 때문에 음원의 방향 추정이 현재 잘 이루어지고 있는 경우라도 입력 신호의 크 기가 작아지게 되면 음원의 존재 확률 분포가 임계 치보다 작아져 음원의 방향을 더 이상 추정할 수 없게 되는 경우가 발생된다[9]. 따라서 입력 신호의 크기 변화에 강건한 음원의 방향 추정 방법의 검토 가 필요하다. 또한, 기존의 방법을 이용할 때 임계 치를 포함한 다양한 파라미터들의 선택 결과에 따 라 산발적으로 잘못 추정된 결과가 얻어질 수 있는 데 이것의 처리 방법에 대한 검토도 필요하다[9].

본 연구에서는 주파수영역 두 귀 청취 모델을 이 용해 화자의 방향을 추정할 때에 발생하는 문제들 을 해결하기 위한 검토를 실시하였다. 본 논문에서 는 입력 신호의 크기 변화에 강건한 화자의 방향 추정을 위하여 기존 방법과 같이 일정 임계치를 사 용하는 것이 아니고, 매 프레임별로 얻어진 음원의 존재 확률 분포의 평균값을 임계치로 이용하는 방 법을 제안한다. 이 경우 매 프레임별로 입력 신호의 크기 변화에 맞추어 임계치도 함께 변화하기 때문 에, 보다 강건한 화자의 방향 추정이 가능하다. 또 한, 본 논문에서는 이전 프레임의 추정 결과를 바탕 으로 현재 프레임의 결과를 확정하는 것으로 잘못 추정된 결과를 감소시키는 방법을 제안한다.

Ⅱ. 신호의 크기 변화에 강건한 화자의 방향 추정 방법

주파수영역 두 귀 청취 모델(FDBM)은 청각계의 두 귀 청취를 주파수영역에서 모델화한 것이다[3].

FDBM은 시간영역 모델과 달리 모든 연산을 주파 수영역에서 수행하기 때문에 고속 푸리에 변환(FFT, Fast Fourier Transform)을 이용할 수 있고, 연산량이 큰 상호상관함수의 역할을 두 귀간 레벨 차이(ILD) 와 두 귀간 위상 차이(IPD)로 대체함으로써 연산량 을 크게 감소시킨 것이 특징이다. 본 장에서는 좌우 두 귀 입력 신호로부터 IPD와 ILD를 산출하고, 그 것들을 이용해 신호의 크기 변화에 강건하게 화자 의 방향을 추정하는 방법에 대하여 논한다.

(3)

좌우 두 귀로 입력되는 신호는 다음과 같이 정의 할 수 있다.

        ⋯ (1)

       ⋯ (2)

여기에서  은 각각 왼쪽 귀와 오른쪽 귀 로 입력되는 신호이다. 과 은 특정 방향에 서 발생된 목적 신호를 나타낸다. 과 은 목적 신호의 방향과 다른 방향에서 발생된 간섭 신 호를 나타낸다( ≥ ).

음원의 방향을 추정하기 위해 먼저 두 귀 입력 신호  을 FFT를 이용하여 주파수영역으 로 변환하고, 주파수에 따른 IPD와 ILD를 산출한다.

IPD는 다음과 같이 얻어진다.

  tan 









(3)

  (4)

여기에서 와 는 각각  의 푸리 에 변환 결과이고, 는 좌우 두 귀 입력 신호 의 크로스 스펙트럼(Cross Spectrum)이다. 는 복소 공액(Complex Conjugate)을 나타낸다. ⋅

⋅은 각각 복소수의 실수부와 허수부를 나타 낸다.

특정 방향에서 두 귀로 입력된 신호는 그 방향의 머리전달함수(HRTF, Head-Related Transfer Functions) 와 음원의 콘볼루션 연산 결과와 같다[10]. 따라서 청취자의 머리전달함수로부터 IPD 맵() 을 미리 계산하여 두고, 두 귀 입력 신호로부터 얻 어진 를 과 비교하여 그 차이 가 가장 작은 방향에 음원이 존재하는 것으로 다 음과 같이 추정할 수 있다.

  min

 

(5)

ILD는 다음과 같이 얻어진다.

  log





(6)

여기에서 는 왼쪽 귀 입력 신호의 파워 스펙 트럼(Power Spectrum)이다. ILD의 경우에도 IPD와 마찬가지로 청취자의 머리전달함수로부터 ILD 맵 ()을 미리 계산하여 두고, 두 귀 입력 신호로부터 얻어진 를 과 비교 하여 그 차이가 가장 작은 방향에 음원이 존재하 는 것으로 다음과 같이 추정할 수 있다.

  min

 

(7)

사람의 음상 정위에 있어서 약 1.5kHz 이하의 저 역측에서는 IPD가 ILD보다 효과적이고, 고역측에서 는 ILD가 IPD보다 효과적이라고 알려져 있다[1]-[3].

따라서 저역측 1kHz까지는 IPD만을 이용하여 주파 수 성분의 방향을 추정하고, 고역측 2kHz 이상부터 는 ILD만을 이용하여 방향을 추정한다. 또한, 1kHz 에서 2kHz 사이의 대역에서는 다음과 같이 가중평 균을 이용하여 주파수 성분의 방향을 추정한다[4].

    ⋅  ⋅ (8)

 

    ≤ kHz

 ∼  kHz≤  ≤ kHz

 kHz≤ 

(9)

여기에서 는 가중치 계수이다.

마지막으로 화자의 방향을 추정하기 위해 식 (8) 로 얻어진 주파수 성분의 방향 정보 로부터 화자가 존재할 확률 분포를 다음과 같이 산출한다 [4].

 

 (10)

   exp       (11)

  

(12)

여기에서  는 주파수 에서의 방향 에 대한

(4)

가중치 계수이고, 추정된 방향 정보 와 방향

의 차이가 클수록 가중치 계수  는 더 작아 진다. exp함수의 감쇠 비율을 결정하는 파라 미터로, 가 클수록 의 값은 더 크게 감소 한다.

화자의 존재 확률 분포  가운데, 일정 임 계치 이상이면서 극대인 방향에 화자가 존재한다고 판단할 수 있다. 따라서 추정되는 화자의 방향은 다 음과 같다[4].

 (13)

   &  max

 ±  

여기에서 는 화자가 존재하기 위한 임계치이다.

다수의 방향이 식 (13)을 만족한다면 다수의 화자의 방향   ⋯도 추정 가능하다.

이와 같이 FDBM을 이용하면 IPD와 ILD로부터 얻어진 화자의 존재 확률 분포 에서 일정 임계치 이상의 값을 갖는 방향 에 화자가 있다 고 추정할 수 있다. 그런데 식 (12)의 입력된 소리 의 에너지 가 식 (10)에서 화자의 존재 확률 분포의 산출에 이용되고, 둘은 서로 비례한다. 이 때문에 화자의 방향 추정이 현재 잘 이루어지고 있 는 경우라도 입력 신호의 크기가 작아지게 되면 화 자의 존재 확률 분포가 임계치 보다 작아져 화자 의 방향을 더 이상 추정할 수 없게 되는 경우가 발 생된다[9].

본 논문에서는 입력 신호의 크기 변화에 강건한 화자의 방향 추정을 위하여 기존 방법과 같이 일정 한 임계치를 사용하는 것이 아니고, 다음과 같이 매 프레임별로 얻어진 화자의 존재 확률 분포의 평균 값을 임계치로 이용하는 방법을 제안한다.

  (14)

여기에서 번째 프레임의 임계치를 나타낸다.

는 번째 프레임에서의 화자의 존재 확률 분포인 의 평균값을 나타낸다. 이 경우, 입력 신호의 크기 변화에 맞추어 프레임의 임계치

도 함께 변화하게 되고, 따라서 입력 신호가 커 지거나 작아질 경우에도 화자의 방향을 계속해서 추정할 수 있다.

또한, 기존의 방법을 이용할 때 임계치를 포함한 다양한 파라미터들의 선택 결과에 따라 산발적으로 잘못 추정된 결과가 얻어질 수 있다. 본 논문에서는 잘못 추정된 결과를 감소시키기 위해 다음과 같이 이전 프레임의 추정 결과를 바탕으로 현재 프레임 의 결과를 확정하는 방법을 제안한다.

 

    (15)

  (16)

 ⋯    ≥ 

 

여기에서 번째 프레임에서 식 (13)으 로 추정된 화자의 방향 를 이용해 작성한 추정 결과 행렬이다. 는 이전 프레임의 추정 결 과를 바탕으로 확정된 추정 결과 행렬이다. 식 (15)

에서 는 화자가 있는 것으로 추정된 방향

에 대해서는 1을 갖고, 없는 것으로 추정된 방향에 대해서는 0을 갖는다. 산발적으로 잘못 추정된 결과 를 감소시키기 위해 제안 방법에서는 식 (16)과 같 이 방향의 이전  개 프레임의 를 더해 그 값이  이상이면 현재 프레임의 방향에 화 자가 있고, 미만이면 화자가 없는 것으로 확정한다.

Ⅲ. 성능평가 실험

제안 방법의 성능을 평가하기 위한 실험을 실시 하였다. 실험에서는 입력 신호의 크기 변화에 대한 제안 방법의 강건성을 확인하고, 산발적으로 잘못 추정된 결과를 얼마만큼 감소시키는지에 대한 평가 를 실시하였다.

성능평가 실험에 이용된 음성 신호는 McGil 대 학교에서 공개한 TSP Speech Database의 신호를 이 용하였고, 신호에 방향을 부여하기 위해 필요한 머 리전달함수(HRTF)는 MIT에서 공개한 KEMAR 더미

(5)

헤드의 HRTF를 이용하였다. 본 실험에서 샘플링 주파수는 44.1kHz이고, 한 프레임의 길이는 1,024 샘플이다. 또한, FFT 연산을 위한 포인트 수는 1,024로 설정하였고, 식 (11)의 는 0.05로 설정하였다.

입력 신호의 크기 변화에 대한 제안 방법의 강건 성을 확인하기 위하여 일반적인 방식으로 녹음된 보통의 음성 신호와 작은 소리의 음성 신호를 이용 하여 화자의 방향을 추정하는 실험을 실시하였다.

보통의 음성 신호를 이용한 경우를 Normal 조건, 작은 소리의 음성 신호를 이용한 경우를 Small 조 건이라 한다.

Normal 조건의 음성 신호는 TSP Speech Database 의 음성 신호를 그대로 이용하였고, Small 조건의 음성 신호는 0.1의 가중치를 곱해서 작게 만든 음성 신호를 이용하였다. 본 실험에서는 두 명의 화자가 청취자의 정면으로부터 좌우 ±30도 방향에 각각 위 치하는 것을 가정하였다.

(a) Normal 조건 (a) Normal condition

(b) Small 조건 (b) Small condition

그림 1. 기존 방법에 의한 화자의 방향 추정 결과 Fig. 1. Speaker orientations estimated using a

conventional method

기존 방법에 의한 화자의 방향 추정 결과를 그림 1에 나타낸다. (a)는 Normal 조건, (b)는 Small 조건 의 결과이다. 식 (13)의 임계치 는 25dB로 고정하 였다. 가로축은 프레임 번호를 나타내고, 세로축은 수평각을 나타낸다. 그림에서 검은색으로 표시된 부 분이 실험을 통해 화자가 있는 것으로 추정된 방향 이다. 그림 1의 (a)에서는 대략적으로 ±30도 방향에 두 화자가 존재하는 것을 알 수 있다. 그러나 (b)에 서는 -30도 방향의 화자의 존재를 일부 추정하였으 나, +30도 방향의 화자의 존재는 전혀 추정하지 못 하였다. 이것은 임계치 가 Small 조건의 음성 신 호들을 검출하기에는 상대적으로 큰 값이었기 때문 에 발생된 결과로 생각된다.

제안 방법에 의한 화자의 방향 추정 결과를 그림 2에 나타낸다. (a)는 Normal 조건, (b)는 Small 조건 의 결과이다. 가로축은 프레임 번호를 나타내고, 세 로축은 수평각을 나타낸다.

(a) Normal 조건 (a) Normal condition

(b) Small 조건 (b) Small condition

그림 2. 제안 방법에 의한 화자의 방향 추정 결과 Fig. 2. Speaker orientations estimated using the proposed

method

(6)

그림에서 검은색으로 표시된 부분이 실험을 통해 화자가 있는 것으로 추정된 방향이다. 그림 1과 달 리 그림 2에서는 (a)와 (b)의 두 조건에서 방향 추 정 결과가 거의 같고, 대략적으로 ±30도 방향에 두 화자가 존재하는 것을 알수 있다. 제안 방법에서는 식 (14)와 같이 매 프레임별로 화자의 존재 확률 분 포의 평균값을 임계치 로 이용하기 때문에, (b)에 서 입력 신호의 크기가 작아졌더라도 이에 맞추어

도 함께 작아져서 화자의 존재를 추정할 수 있 었던 것으로 생각된다.

식 (16)의 제안 방법을 이용할 경우 산발적으로 잘못 추정된 결과를 얼마만큼 감소시키는지에 대하 여 알아보기 위한 실험을 실시하였다. 한 명의 화자 가 청취자의 정면으로부터 오른쪽으로 +30도 방향 에 위치하는 경우와 두 명의 화자가 각각 청취자의 정면으로부터 좌우 ±30도 방향에 위치하는 경우에 대하여 화자의 방향을 추정하였다. 식 (16)의 은 3으로 설정하였다.

(a) 기존 방법 (a) Conventional

(b) 제안 방법 (b) Proposed

그림 3. 한 명의 화자에 대한 방향 추정 결과 Fig. 3. Estimation results for the orientations for a single

speaker

한 명의 화자에 대한 방향 추정 결과를 그림 3에 나타낸다. (a)는 제안 방법을 이용하지 않고 얻어진 추정 결과이고, (b)는 제안 방법에 의한 추정 결과 이다. 가로축은 프레임 번호를 나타내고, 세로축은 수평각을 나타낸다. 그림에서 검은색으로 표시된 부 분이 실험을 통해 화자가 있는 것으로 추정된 방향 이다. (a)와 (b)에서 모두 화자가 +30도 방향에 위치 하는 것을 알 수 있다. 두 결과에서 수평각 +30도 이외의 방향에서도 산발적으로 잘못 추정된 결과가 얻어지고 있다. 또한, (a)의 결과보다 (b)의 제안 방 법에 의한 방향 추정 결과에서 잘못 추정된 결과가 감소된 것을 알 수 있다.

두 명의 화자에 대한 방향 추정 결과를 그림 4에 나타낸다. (a)는 제안 방법을 이용하지 않고 얻어진 추정 결과이고, (b)는 제안 방법에 의한 추정 결과 이다. 가로축은 프레임 번호를 나타내고, 세로축은 수평각을 나타낸다.

(a) 기존 방법 (a) Conventional

(b) 제안 방법 (b) Proposed

그림 4. 두 명의 화자에 대한 방향 추정 결과 Fig. 4. Estimation results for the orientations of two

speakers

(7)

그림에서 검은색으로 표시된 부분이 실험을 통해 화자가 있는 것으로 추정된 방향이다. (a)와 (b)에서 모두 화자가 ±30도 방향에 위치하는 것을 알 수 있 다. 두 결과에서도 수평각 ±30도 이외의 방향에서 도 산발적으로 잘못 추정된 결과가 얻어지고 있다.

또한, 앞선 실험의 결과와 마찬가지로 (b)의 제안 방법에 의한 방향 추정 결과가 (a)의 결과보다 잘못 추정된 결과를 덜 포함한다.

산발적으로 잘못 추정된 결과를 얼마만큼 감소시 키는지를 정량적으로 평가하기 위해 그림 3과 그림 4의 실험을 반복 실시하였다. TSP Speech Database 에서 서로 다른 음성 신호를 10개 준비하고, 이를 이용해 그림 3의 한 명의 화자에 대한 실험을 10회 실시하고, 그림 4의 두 명의 화자에 대한 실험을 5 회 실시하였다. 반복 실험 결과로부터 화자의 방향 추정 결과의 정답률(CIR, Correct-to-Incorrect Ratio)을 다음과 같이 산출하였다.

 log





(17)

여기에서 는 실험에서 설정한 화자의 방향 과 추정된 방향이 같은 횟수이고, 는 두 방향이 다른 횟수이다. 예를 들어, 그림 3의 경우에 는 +30도 방향으로 추정된 결과의 수가 이 고, 그 외의 방향으로 추정된 결과의 수가

이다. 반면에 그림 4의 경우에는 ±30도의 두 방향으로 추정된 결과의 수가 이다.

반복 실험을 통해 얻어진 화자의 방향 추정 결과 의 정답률(CIR)을 표 1과 그림 5에 나타낸다. 그림 에서 왼편의 Single은 한 명의 화자에 대한 정답률 이고, 오른쪽의 Dual은 두 명의 화자에 대한 정답률 이다. 검은색 막대(Conventional)는 아무런 처리도 하지 않은 경우의 결과이고, 흰색 막대(Proposed)는 제안 방법에 의한 결과이다. 오차 범위는 표준 오차 (SE, Standard Error)를 나타낸다. CIR이 클수록 화자 의 방향 추정 결과에서 잘못 추정된 결과가 차지하 는 비율이 낮다는 것을 뜻한다. 표 1과 그림 5에서 제안 방법을 이용할 경우 한 명의 화자에 대한 CIR 은 평균 약 7.87dB 증가하였고, 두 명의 화자에 대 한 CIR은 평균 약 9.13dB 증가하였다.

표 1. 화자의 방향 추정 결과의 정답률

Table 1. Correct-to-incorrect ratios of the speaker orientation estimation results

Number of

Speakers Method Average of

CIRs [dB] Average of SEs [dB]

Single Conventional 5.51 0.39 Proposed 13.38 0.83 Dual Conventional 3.49 0.89 Proposed 12.62 1.54

그림 5. 화자의 방향 추정 결과의 정답률 Fig. 5. Correct-to-incorrect ratios of the speaker

orientation estimation results

이 결과는 화자의 방향 추정 시에 얻어지는 산 발적으로 잘못 추정된 결과를 식 (16)의 제안 방법 을 이용해 크게 감소시킬 수 있음을 뜻한다. 또한, 기존 방법과 제안 방법은 모두 화자의 수가 한 명 인 경우보다 두 명인 경우에 CIR이 더 작다. 이 것은 화자의 수가 많아질수록 그 방향을 추정하는 것이 더 어렵다는 것을 의미한다.

이상의 실험 결과로부터 제안 방법을 이용할 경 우, 기존 방법을 이용하는 것보다 입력 신호의 크기 변화에 보다 강건하고, 산발적으로 잘못 추정된 결 과를 감소시킬 수 있는 것을 알 수 있다.

Ⅳ. 결 론

본 논문에서는 주파수영역 두 귀 청취 모델을 이 용한 신호의 크기 변화에 강건한 화자의 방향 추정 방법을 제안하였다. 제안 방법은 화자의 방향을 추 정하기 위해 매 프레임별로 얻어지는 화자의 존재

(8)

확률 분포의 평균값을 임계치로 이용하고, 이전 프 레임의 추정 결과를 바탕으로 현재 프레임의 추정 결과를 확정하는 것으로 잘못 추정된 결과를 감소 시킨다. 제안 방법의 성능을 평가하기 위해 컴퓨터 시뮬레이션에 의한 실험을 실시하였다. 실험 결과, 제안 방법이 기존 방법에 비해 입력 신호의 크기 변화에 보다 강건하고, 산발적으로 잘못 추정된 결 과를 감소시키는 것을 증명하였다. 차후에는 소음 환경 하에서 화자의 방향 추정 성능을 향상시키는 것을 향후 과제로 한다.

References

[1] J. Blauert, "Spatial Hearing", The MIT Press, Oct.

1996.

[2] B. C. J. Moore, "An Introduction to the Psycholo- gy of Hearing: Sixth Edition", BRILL, Apr. 2013.

[3] H. Nakashima, Y. Chisaki, and T. Usagawa,

"Frequency domain binaural model based on interaural phase and level differences", Acoust.

Sci. and Tech., Vol. 24, No. 4, pp. 172-178, Jul.

2003.

[4] H. Nakashima, Y. Chisaki, T. Usagawa, and M.

Ebata, "Direction of Arrival Estimation and Sound Source Segregation using Frequency Domain Binaural Model", Technical report of IEICE, Vol.

EA2002, No. 44, pp. 13-18, Aug. 2002.

[5] S. Yoshino, T. Tomita, Y. Chisaki, and T.

Usagawa, "On a binaural model with front-back discriminator using artificial neural network trained by multiple HRTF catalogs", INTERNOISE 2014, pp. 1-6, Nov. 2014.

[6] C. Han, "Sound-source segregation algorithm using frequency domain binaural model", Master Thesis, Cheongju University, Feb. 2008.

[7] C. Han, B. Park, J. Suh, and H. Kim, "Sound- source segregation algorithm using frequency domain binaural model", Proceedings of KIIT Summer Conference, pp. 233-237, Jun. 2007.

[8] H. Kim and H. Kim, "Sound-source Segregation Algorithm Using Binaural Model", Journal of

AITC, Vol. 2, No. 1, pp. 7-14, Jul. 2012.

[9] C. Han and H. Kim, "Estimation of Speaker Orientation using the Frequency Domain Binaural Model", Proceedings of KIIT Summer Conference, pp. 177-178, Jun. 2016.

[10] H. Kim, "A Study of 3-Dimensional Audio Reproduction Method based on Head Moving", Journal of KIIT, Vol. 12, No. 2, pp. 173-179, Feb. 2014.

저자소개

한 철 수 (Cheolsu Han)

2006년 2월 : 청주대학교 전자공학과(공학사) 2008년 2월 : 청주대학교

전자공학과(공학석사) 2013년 9월 : 일본 동북대학교

정보과학연구과(공학박사) 2013년 9월 ~ 2015년 8월 : 청주대학교, 한국교통대학교 시간강사

2015년 9월 ~ 현재 : 청주대학교 전자공학과 교육전담 조교수

관심분야 : 음향, 오디오, 신호처리, 가상현실, 증강현실

참조

관련 문서

In addition, we suggest a robust version of cross- validation criterion to estimate the number of Bezier points, and showed that the proposed method is better than the

In order to prove the influence of diameter ratio (d 2 /d 1 ) to self-excited pulse frequency and amplitude, based on model test, the optimized test model has been chosen to

A threshold for zero quantized level is adaptively applied to unquantized transform coefficients based on its frequency location in the transform domain.. The proposed

• 대부분의 치료법은 환자의 이명 청력 및 소리의 편안함에 대한 보 고를 토대로

We propose a simple disk reconstruction method based on the Laurent expansion of the single layer potential to estimate anomalies that can be used as an initial guess for

The indirect method is classified as a model analysis method, in which the impression coping is attached to a surgical guide or an impression material, and a scan analysis

The kick-o ff method is based on an OLS estimator that is not robust to outliers in the data. To overcome this problem, we have modified the kick-o ff approach based on the

In this paper, we propose a new non-crossing quantile regression method applying support vector median regression to RRQ, which is based on a location-scale model and uses