동적 트랜스오럴 시스템을 위한 효율적 필터링 방법

(1)

동적 트랜스오럴 시스템을 위한 효율적 필터링 방법

한철수*, 김학윤**

An Efficient Filtering Method for Dynamic Transaural Systems

Cheolsu Han*, Hack-Yoon Kim**

요 약

동적 트랜스오럴 시스템은 스피커와 머리위치 센서를 이용하여 청취자의 자유로운 움직임과 자연스러운 청 취를 가능하게 한 입체음향 시스템이다. 본 논문에서는 실시간 음향 시스템에서 입력 신호의 길이만큼의 신호 만이 동시에 외부로 출력된다는 점에 주목하고, 동적 트랜스오럴 시스템을 위한 효율적인 필터링 방법을 제안 하였다. 이 방법은 입력 신호와 첫 번째 필터의 필터링 결과 중 입력 신호의 길이만큼의 결과만이 두 번째 필 터와 필터링되는 방식으로, 기존의 방식과 연산 결과는 일치하지만 연산량은 크게 줄어든다. 제안 방법의 성능 을 평가하기 위해 계산 시간 및 계산 정밀도에 대해서 기존의 방법과 비교평가 실험을 실시하였다. 실험 결과, 제안 방법을 이용하면 기존 방법을 이용할 때와 동일한 출력 신호를 보다 빠르게 계산할 수 있음을 증명하였다.

Abstract

Dynamic transaural systems are 3D audio systems that allow for an unrestricted movement and comfortable listening experience by using loudspeakers and a head tracker. In this paper, we propose a new and an efficient filtering method for dynamic transaural systems by noting that the output of a real-time audio system must be of the same lenght as its input. Our method uses partial signals of the same length as the input signal in-between the first and second filters used to generate the output. The results yielded by our approach are very close to those obtained through conventional methods; however, we find that its computational complexity is significantly lower. We assessed the performance of our proposal by conducting a series of simulation experiments and evaluating the computation time as well as the accuracy of the output. Our results show that the proposed method can be used to calculate the output signals of a dynamic transaural system more rapidly than that of using a conventional approach.

Keywords

dynamic transaural system, dynamic crosstalk canceller, 3D audio system, efficient filtering, overlap-add

* 청주대학교 전자공학과(교신저자)

** 청주대학교 전자공학과 교수 접 수 일: 2014년 10월 20일 수정완료일: 2014년 11월 24일 게재확정일: 2014년 11월 27일

ž Received: Oct. 20, 2014, Revised: Nov. 24, 2014, Accepted: Nov. 27. 2014 ž Corresponding Author: Cheolsu Han

07-311, College of Science & Enginneering, Cheongju University, 298 Daeseongro, Cheongwon-gu, Cheongju, Chungbuk, 360-764, Rep. of Korea Tel.: +82 43 229-8438, Email: [email protected]

http://dx.doi.org/10.14801/jkiit.2015.13.1.31

(2)

Ⅰ. 서 론

재생되는 음향신호로부터 3차원 음향공간의 정보 를 느낄 수 있게 해주는 시스템을 입체음향 시스템 (3D Audio System)이라고 한다. 청취자는 소리가 들 리는 방향이나 거리, 울림, 공간감 등을 느낄 수 있 게 되고, 음향신호의 현실감은 크게 향상된다. 또한 3차원 음향공간의 정보를 임의로 바꾸는 것도 가능 하기 때문에 가상현실(Virtual Reality)과 증강현실 (Augmented Reality) 분야에서도 주목받고 있다[1].

따라서 헤드폰 또는 2채널 스피커를 이용한 소형 입체음향 시스템부터 영화관 등에서 이용되는 수십, 수백 채널의 스피커를 이용한 대형 시스템까지 다 양한 방식의 입체음향 시스템이 널리 연구되고 있 다[1][2].

다양한 입체음향 시스템 중에서 트랜스오럴 시스 템(Transaural System)은 2채널 스피커를 이용하여 입체음향 신호를 재생하는 효과적인 시스템이다[2]- [4]. 스피커를 이용하기 때문에 헤드폰 장착에 따른 청취자의 피로도가 없고, 헤드폰을 이용할 때에 입 체음향 신호가 청취자의 머릿속에서 들리는 듯한 현상인 두내정위(IHL: Inside the Head Localization) 를 크게 줄여주는 장점이 있다. 이 방식은 3차원 공 간상의 임의의 위치로부터 청취자의 두 귀 입구까 지의 음향 전달함수인 머리전달함수(HRTF: Head- Related Transfer Function)를 포함하는 바이노럴 신 호(Binaural Signal)를 미리 녹음하거나 합성한 후, 바이노럴 신호가 청취자의 두 귀 입구에서 재현되 도록 스피커를 이용하여 재생한다. 이 때, 바이노럴 신호가 정밀하게 재현되기 위해서는 청취 환경의 영향을 최소화시킬 필요가 있고, 이를 위해 크로스 토크 캔슬러(Crosstalk Canceller)라고 불리는 역필터 (Inverse Filter)를 설계하여 이용한다[2]-[4].

트랜스오럴 시스템에서는 바이노럴 신호의 재현 정밀도를 높이기 위해서 일반적으로 청취자의 움직 임을 제한시킨다. 이것은 청취 환경의 영향을 최소 화하기 위해 설계된 역필터가 청취자의 움직임을 고려하지 않고 설계되기 때문이다. 예를 들어, 청취 자가 정면을 향한 상태를 가정하고 설계한 역필터 는 청취자가 정면을 바라볼 때에는 적절히 동작하

지만, 청취자의 머리가 위치를 바꾸거나 다른 방향 을 향하면 그 성능이 크게 저하된다. 이러한 문제점 을 해결하여 청취자의 자유로운 움직임을 허용하고 자연스러운 청취를 가능하도록 제안된 방식이 동적 트랜스오럴 시스템(Dynamic Transaural System)이다 [5][6]. 이 시스템은 다수의 청취 위치 및 머리 방향 에 대하여 다수의 역필터를 미리 계산하여 두고, 재 생시 머리위치 센서(Head Tracker)를 이용하여 청취 자의 머리위치 정보에 맞는 머리전달함수와 역필터 를 필터링함으로써 청취자의 자유로운 움직임과 자 연스러운 청취를 가능하게 한다.

동적 트랜스오럴 시스템에서는 머리위치 센서에 서 얻어진 정보를 빠르게 반영하기 위하여 입력 신 호를 작은 블록단위로 만들고, 직렬 형태로 연결된 머리전달함수와 역필터로 실시간 필터링한다. 이 때, 블록단위의 입력 신호를 실시간으로 필터링하기 위해서 오버랩-애드(Overlap-Add) 방식이 널리 이용 된다[7]. 일반적으로 주파수영역에서 필터링하는 편 이 시간영역에서 필터링하는 것보다 계산량이 적지 만, 필터의 길이가 매우 작은 경우에는 시간영역에 서 필터링하는 편이 계산량이 적다[8]. 음향 시스템 구현에 널리 이용되고 있는 컴퓨터 사운드카드 드 라이버 프로토콜인 ASIO(Audio Stream Input/Output) 의 최소 블록 사이즈는 64이고, 이와 같이 작은 블 록단위를 이용하여 머리위치 정보를 빠르게 출력 신호에 반영시킬 필요가 있는 동적 트랜스오럴 시 스템에서는 시간영역에서의 필터링 방식이 적합하다.

음향신호를 실시간으로 재생하기 위해서는 블록 단위로 입력되는 신호를 블록길이의 데이터가 재생 되는 시간 이내에 처리해야만 한다. 동적 트랜스오 럴 시스템에서는 연속된 두 필터가 직렬로 연결되 어 있으므로, 입력 신호를 순차적으로 두 필터에 필 터링하는 것이 일반적이다[5]. 기존 연구에서는 적 은 수의 음원을 이용한 시스템의 검토가 대부분으 로, 실시간 필터링이 블록길이의 데이터가 재생되는 시간 이내에 완료되었다. 그러나 보다 다양하고 고 도화된 음향 시스템의 구현을 위해서는 더 많은 수 의 음원을 이용할 필요가 있고, 이를 위해서는 계산 량이 보다 적은 효율적인 필터링 방법의 검토가 필 요하다.

(3)

본 논문에서는 실시간 음향 시스템에서 입력 신 호의 길이만큼의 신호만이 동시에 외부로 출력된다 는 점에 주목하고, 동적 트랜스오럴 시스템을 위한 효율적인 필터링 방법을 제안한다.

Ⅱ. 동적 트랜스오럴 시스템

본 장에서는 동적 트랜스오럴 시스템의 개요를 설명하고, 기존의 필터링 방식에서 요구되는 연산량 에 대하여 논한다.

2채널 스피커를 이용한 동적 트랜스오럴 시스템 의 블록도를 그림 1에 나타낸다. 그림 1에서 바이노 럴 신호 ^x(^)는 입력 신호 ^s를 머리임펄 스응답(HRIR: Head-Related Impulse Response)과 콘 볼루션 연산하여 다음과 같이 얻는다.

x__∗ s (1)

여기에서 s는 청취자에게 들려주고자 하는 음원 신 호이고, 그 길이는 이다. (^^)는 머 리전달함수(HRTF)를 역푸리에 변환한 것으로 공간 상의 임의의 위치로부터 청취자의 두 귀 입구까지 의 임펄스응답이고, 그 길이는 이다. ^x는 청 취자에게 들려주고자 하는 바이노럴 신호이고, 그 길이는  _ _이다. ^∗은 콘볼루션을 나타낸다. 입력 음원 신호 ^s에는 방향정보가 포함 되지 않지만, 바이노럴 신호 ^x에는 콘볼루션 연산 에 사용된 머리임펄스응답 의 방향 정보가 포함되게 된다.

그림 1에서 ^h(^{  }, ^)는 재생 환경 의 각각의 스피커로부터 좌우 두 귀 입구까지의 음 향 임펄스응답이고, 그 길이는 이다. ^c(  ,

)는 ^h에 의한 음향 환경의 특성을 최소 화하기 위해 설계된 역필터이고, 그 길이는 이다.

y_(^)는 청취자의 두 귀 입구에서 재현되는 신호이다. 역필터 ^c를 사용함으로써 음향 환경의 특성 ^h는 최소화되고, 3차원 음향 특성을 갖는 바이노럴 신호 ^x_는 청취자의 두 귀 입구에서 정 밀하게 재현된다(^y≈ x_)[3][4].

동적 트랜스오럴 시스템에서는 다수의 청취 위치 및 머리방향에 대하여 다수의 역필터 ^c를 미리 설계하여 둔다. 재생시 머리위치 센서를 이용하여 동적으로 변화하는 청취자의 머리위치 정보를 실시 간으로 취득하고, 머리임펄스응답 와 역필터 c_를 적절히 교체하고 필터링함으로써 청취자의 자유로운 움직임과 자연스러운 청취를 가능하게 한 다. 이전에는 자기 센서나 자이로 센서를 이용한 머 리위치 센서가 이용되어 청취자에게 센서를 장착해 야하는 부담감을 주었으나, 최근에는 영상처리 기술 등을 이용한 청취자의 몸에 머리위치 센서를 직접 장착할 필요가 없는 시스템들도 개발되고 있다[9].

동적 트랜스오럴 시스템을 구축하기 위해서는 신 호의 연속된 필터링 처리가 필요하다. 우선 식 (1) 과 같이 입력 신호 ^s와 머리임펄스응답 를 필터링하여 바이노럴 신호 ^x를 계산하고, 역필터 c_와 필터링하여 다음과 같이 스피커 재생 신호 p_(^{  })를 산출한다.

그림 1. 동적 트랜스오럴 시스템 Fig. 1. Dynamic transaural system

(4)

p_ x_∗ c_ x_∗ c_ (2)

여기에서 ^p의 길이는 _ _ 이다.

음향신호를 실시간으로 처리하는 시스템에서는 일반적으로 블록단위로 신호를 처리한다. 이 때, 입 력되는 신호의 블록길이와 재생되는 신호의 블록길 이는 같아야 하고, 신호의 처리는 블록길이의 신호 가 재생되는 시간 이내에 반드시 이루어져야 한다.

이를 위해 다음과 같이 오버랩-애드방식이 널리 이 용된다[7]. 식 (2)의 스피커 재생 신호 ^p의 길이는

_이지만, 입력 신호 ^s의 길이 만큼의 신호 ^o

(  )가 외부로 출력된다. 이 때, 출력되지 않은 신호는 버퍼 ^b(^{  })에 저장되고, 다음 입력 신 호 블록의 처리 결과와 합산되어 다음 스피커 재생 신호 ^^p(^{  })가 된다. 즉,

p_ p_ b^T_ ⋯ ^T^T

 _ _ ⋯ __ ^T

(3)

o_ _ _ ⋯ __ ^T (4)

b_ __ __  ⋯ __ ^T (5)

여기에서 ^T는 전치를 나타내고, ^b의 초기값은 영 벡터이다.

그림 1의 동적 트랜스오럴 시스템에서 한 블록의 입력 신호 ^s를 이용하여 식 (1), 식 (2)의 순차적인 연산을 통해 스피커 재생 신호 ^p를 계산하기 위해 서는 ^___ _ _의 곱셈-누산 연산(Multiply-Accumulate Operation)이 필요하다[8].

이 연산량은 단일 입력 신호 ^s에 해당하는 값으로, 더 많은 수의 음원을 이용하는 고도화된 음향 시스 템의 구현을 위해서는 연산량이 보다 적은 효율적 필터링 방법의 검토가 필요하다.

Ⅲ. 다중 오버랩-애드 필터링 방법

본 장에서는 동적 트랜스오럴 시스템을 위한 효 율적 필터링 방법을 제안한다. 실시간 시스템에서

입력 신호 ^s의 길이 만큼의 신호 o만이 동시에 외부로 출력된다는 점에 주목하였다. 전 장의 순차 적인 필터링 방법에서는 식 (1)의 필터링 결과로 얻 어진 바이노럴 신호 ^x를 식 (2)에서 ^c와 필터링 하였다. 그러나 제안 방법에서는 식 (1)로부터 얻어 진 ^x를 그대로 식 (2)의 필터링에 이용하지 않고 x_의 선두



__{만큼의 신호} ^xo_(^)만을 순 차적인 필터링에 이용한다. 이 때, 이용되지 않은 여분의 신호는 버퍼 ^xb에 저장한 후, 다음 블록 처리 결과와 합산되어 다음 바이노럴 신호 ^^x가 된다. 즉,

x_ x_ xb^T_ ⋯ ^T^T

 _ _ ⋯ __ ^T

(6)

xo_ _ _ ⋯ __ ^T (7)

xb_ __ ⋯ __ ^T (8)

여기에서 ^xb의 초기값은 영벡터이다.

입력 신호의 길이와 같은 ^xo를 이용하여 스피 커 재생 신호 ^np를 다음과 같이 산출한다.

np_ xo_∗ c_ xo_∗ c_ (9)

이 결과로부터 다시 오버랩-애드 방식을 적용하 여 스피커 재생 신호 ^np 중 입력 신호의 길이 

만큼의 신호 ^no(^{  })가 시스템 외부로 출력된 다. 출력되지 않은 신호는 버퍼 ^nb(^{  })에 저장 한 후, 다음 입력 신호 블록의 처리 결과와 합산되 어 다음 스피커 재생 신호^^np(  )가 된다. 즉,

np_ np_ nb_^T ⋯ ^T^T

 _ _ ⋯ __ ^T

(10)

no_ _ _ ⋯ __ ^T (11)

nb_ __ ⋯ __ ^T (12)

(5)

제안하는 다중 오버랩-애드 필터링 방법의 블록 도를 그림 2에 나타낸다. 우선 머리위치 센서로부터 얻어진 청취자의 머리위치 정보에 맞게 머리전달함 수 합성부와 역필터부의 필터들을 교체한다. 다음으 로 시스템의 입력에서 한 블록의 입력신호 ^s를 가 져온다. 입력신호 블록은 머리전달함수 합성부에서 식 (1)과 같이 (^)와 필터링하여 바 이노럴 신호를 구한다. 그 중 입력 블록의 크기만큼 의 신호 ^xo를 역필터부의 필터들과 필터링한다.

필터링에 이용되지 않은 신호들은 버퍼에 저장되어 식 (6)과 같이 다음번 필터링에 이용된다. 역필터에 의해 필터링된 신호들은 식 (9)와 같이 더해져 스피 커 출력 신호가 되고, 그 신호중 입력 블록의 크기 만큼의 신호 ^no(^{  })가 시스템 외부로 출력된 다. 외부로 출력되지 않은 신호들은 버퍼에 저장되 어 식 (10)과 같이 다음번 결과와 더해져 출력되게 된다. 만일, 머리위치 센서로부터의 머리위치 정보 가 바뀔 경우, 버퍼에 저장된 신호들은 머리전달함 수부와 역필터부의 필터들을 변경하기 전에 이전 머리위치 정보에 해당하는 필터들과 일제히 필터링 하여 버퍼에 저장한다.

청취자가 움직이지 않아 필터의 교체가 없는 경 우, 제안하는 방식을 이용하면 스피커 재생 신호 np_를 계산하기 위하여 ^____의 곱셈- 누산 연산이 필요하다[8].

그림 2. 다중 오버랩-애드 필터링 방법의 블록도 Fig. 2. Block diagram of the proposed filtering method

using the overlap-add method several times

한편, 청취자가 움직여 필터가 교체된 경우에는 이전 필터의 나머지 연산을 위해 ^_ _의 곱셈-누산 연산이 필요하게 되고, 기존 방식과 연산 량이 같게 된다. 그러나 청취자의 움직임 속도는 한 블록의 신호가 재생되는 시간(샘플링 주파수가 44.1kHz이고 가 64인 경우, 약 1.5ms)보다 일반적 으로 느리기 때문에, 제안하는 필터링 방식의 계산 량이 보다 적게 된다.

Ⅳ. 성능평가 실험 4.1 실험 조건

제안하는 필터링 방식의 성능을 평가하기 위한 컴퓨터 시뮬레이션을 실시하였다. 기존의 필터링 방 식과 제안하는 필터링 방식에 의한 동적 트랜스오 럴 시스템을 Matlab을 이용하여 각각 시뮬레이션하 고, 두 시스템의 계산 시간 및 계산 정밀도를 측정 하고, 그 성능을 비교평가하였다.

성능평가는 그림 3과 같이 동적트랜스오럴 시스 템의 청취자가 움직이지 않는 (a) 정적 조건과 청취 자가 움직이는 (b) 동적 조건에 대해서 각각 실시하 였다. 청취자의 전방 0° 위치에 가상 음원(Virtual Sound Source)이 들리도록 설정하고, 스피커는 가상 음원의 방향으로부터 좌우 30° 벌려진 곳에 위치한 다. 가상 음원 및 두 스피커로부터 청취자의 머리 중심까지의 거리는 1.4m이다.

그림 3. 성능평가 실험을 위한 청취자의 머리 운동 조건.

(a) 정적 조건, (b) 동적 조건

Fig. 3. Head movement conditions of the listeners for the evaluation (a) Static condition, (b) Dynamic condition

(6)

(a) 정적 조건에서는 가상 음원의 재생이 끝날 때까지 청취자가 0°를 향한 채로 움직이지 않고 청 취하는 것을 가정하였고, (b) 동적 조건에서는 청취 자가 스피커1의 방향(-30°)에서 스피커2의 방향 (+30°)으로 머리를 회전하는 것을 가정하였다. 이 때, 머리의 회전 각속도는 약 6.89°/s로 설정하였다.

본 실험에서는 HRIR로 MIT에서 측정하고 공개 한 KEMAR 더미헤드의 HRIR을 이용하였다[10][11].

스피커로부터 KEMAR 더미헤드의 머리 중심까지의 거리는 1.4m이고, 샘플링 주파수는 44.1kHz이다.

HRIR의 길이 은 512이다.

KEMAR HRIR은 5° 간격으로 측정되었기 때문 에, 선형 보간을 이용하여 1° 간격의 HRIR을 작성 하였다. 정적 조건 및 동적 조건에 대해서 각각의 역필터 ^c는 시간영역 최소자승법을 이용하여 설 계하였다[3][4]. 동적 조건에서는 청취자의 머리방향 1° 간격으로 역필터를 설계하였다. 역필터의 길이

_는 1024로 설정하였고, 안정된 필터설계를 위한 시스템 지연은 400 샘플로 설정하였다[3][4].

표준편차 0.1의 가우시안 백색잡음을 입력 신호 s로 이용하였고, 실시간 처리를 위해 64 샘플씩 블 록을 나누어 순차적으로 처리하였다( ). 동적 조건에서 각 머리 방향에 대해 100 블록의 백색잡 음을 이용하였고, 총 61방향에 대한 백색잡음의 길 이는 390,400(=64×100×61) 샘플이고, 재생 시간은 약 8.85초이다. 정적 조건에서도 동일한 길이의 백 색잡음을 이용하였다. 정적 조건에서는 머리가 회전 하지 않기 때문에 HRIR과 역필터를 변경할 필요가 없지만, 동적 조건에서는 머리 회전에 맞추어 역필 터와 HRIR을 교체하였다. 이 때 HRIR은 머리가 회 전하는 것에 맞추어 가상 음원의 위치가 청취자와 상대적으로 0°에 위치시키기 위해 교체하였다.

2장에서 기존의 필터링 방식을 위해 한 블록당 필요한 곱셈-누산 연산수가 ^___

_ _이고, 전 장에서 제안 방식을 위해 필 요한 곱셈-누산 연산수가 정적 조건일 때 ^__

__임을 논했다. 본 실험에서는 일반적인 시 스템을 고려하고 입력 신호 블록의 길이 를 64,

_을 512,



_를 1,024로 설정하였다. 이 경우, 한 블록의 입력 신호를 필터링하기 위해 필요한 곱

셈-누산 연산수는 그림 4와 같다.

그림 4. 한 블록의 입력 신호를 필터링하기 위해 필요한 곱셈-누산 연산수

Fig. 4. Number of multiply-accumulate operations for filtering a block of the input signal

그림에서 제안하는 방식의 곱셈-누산 연산수가 기존 방식에 비해 약 7.39배 적은 것을 알 수 있다.

각각의 머리 운동 조건에 대해서 기존의 필터링 방식과 제안하는 필터링 방식을 각각 이용하여 스 피커 출력 신호를 산출하고, 그 계산 시간을 측정하 였다. 실험은 10개의 서로 다른 가우시안 백색잡음 을 이용하여 10회 반복 실시하였다. 또한, 정밀도를 평가하기 위해서 기존 방식과 제안 방식의 계산결 과의 차이로서 디스토션 파워(DP: Distortion Power) 를 다음과 같이 산출하였다.

 log_











  





  





^p  np_



^^^





 (13)

여기에서 ^p는 기존 방식을 이용한 경우의 스 피커 출력 신호이고, ^^np는 제안한 방식을 이용 한 경우의 스피커 출력 신호이다. ^_는 스피커 출 력 신호의 길이로 391,934이다.

4.2 실험 결과 및 고찰

머리 운동 조건에 따른 계산 시간의 비교 결과를 그림 5에 나타낸다. 여기에서 가로축은 그림 3의 머 리 운동 조건으로 왼쪽이 정적 조건, 오른쪽이 동적 조건이다. 세로축은 약 8.85초의 백색잡음을 이용해 스피커 재생 신호를 계산하는데 걸린 평균 계산 시 간을 나타낸다. 그림에서 흰색 막대는 기존 방식에 의한 계산 시간을, 검은색 막대는 제안 방식에 의한

(7)

계산 시간을 각각 나타낸다. 결과에서 제안한 방식 을 이용한 경우가 기존의 방식을 이용한 경우에 비 해 계산 시간이 보다 줄었다. 정적 조건에서는 약 3.37배, 동적 조건에서는 약 3.36배 줄었다. 이 결과 로부터 제안하는 필터링 방식을 이용할 경우, 기존 방식에 비해 보다 빠르게 연산을 처리할 수 있음을 알 수 있다. 그림 4의 두 방식의 곱셈-누산 연산수 의 비율(약 7.39배)만큼 계산시간이 짧아지지 않았 으나, 이것은 곱셈-누산 연산 이외의 처리를 위한 오버헤드 때문이라고 생각된다.

그림 5의 결과로부터 동적 조건의 계산 시간에서 정적 조건의 계산 시간을 감산하여 얻은 정적 조건 과 동적 조건의 계산 시간 차이를 그림 6에 나타낸 다. 여기에서 가로축은 왼쪽이 기존 방식을, 오른쪽 이 제안 방식을 나타낸다. 세로축은 계산 시간의 차 이이다. 오차 범위는 표준 오차를 나타낸다. 그림 6 의 결과에서 기존의 방식에서는 정적 조건과 동적 조건의 계산 시간에 차이가 거의 없다. 그러나 제안 방식에서는 동적 조건에서 정적 조건보다 계산 시 간이 약 3.62ms 증가되었다. 이것은 전 장에서 논한 것과 같이 제안하는 방식을 이용할 경우, 청취자가 움직이게 되면 필터를 갱신해야 하고, 또한, 이전 필터의 연산처리를 모두 끝마쳐야 한다. 따라서 머 리의 회전 각속도가 약 6.89°/s인 동적 조건에서 필 터 갱신에 따른 이전 필터의 연산처리 시간이 포함 되어 계산 시간이 약 3.62ms 증가된 것으로 생각된 다. 이와 같이 기존 방식에서는 머리 운동 조건에 따른 계산 시간의 차이가 거의 없지만, 제안 방식에 서는 동적 조건에서 계산 시간이 증가한다. 그러나 그 증가량은 그림 5로부터 알 수 있는 동적 조건에 서의 기존 방식과의 계산 시간 차이에 비해 상당히 작은 값임을 알 수 있다.

식 (13)에 의해 얻어진 머리 운동 조건에 따른 기존 방식과 제안 방식의 계산결과의 차이를 그림 7에 나타낸다. 여기에서 가로축은 머리 운동 조건으 로 왼쪽이 정적 조건, 오른쪽이 동적 조건이다. 세 로축은 기존 방식과 제안 방식의 계산결과 차이를 나타내는 디스토션 파워이다.

그림에서 기존 방식과 제안 방식의 계산결과 차 이는 모두 -485dB 이하로 0에 매우 가깝다. 따라서 제안한 방식을 이용해도 기존의 방식과 거의 같은

결과를 얻을 수 있음을 알 수 있다.

그림 7에서 운동조건이 다를 경우 약 2.33dB의 차이가 있음을 알 수 있지만, 두 값 모두 -485dB 이 하로 청취자가 인지하지 못할 만큼의 매우 작은 값 이다. 이 극소 오차는 설계된 역필터의 불안정성에 의해 발생된 것으로 생각된다.

이상의 실험 결과로부터 제안한 방식을 이용하면 기존의 방식과 동일한 출력 신호를 더 빠르게 계산 할 수 있음을 알 수 있다.

그림 5. 머리 운동 조건에 따른 계산 시간 Fig. 5. Calculation time for the head movement conditions

그림 6. 정적 조건과 동적 조건의 계산 시간 차이 Fig. 6. Difference of the calculation time between the

head movement conditions

그림 7. 머리 운동 조건에 따른 기존 방식과 제안 방식의 계산결과 차이.

Fig. 7. Distortion power calculated by the difference between the output signals of the conventional and the

proposed method for the head movement conditions

(8)

Ⅴ. 결 론

본 논문에서는 실시간 음향 시스템에서 입력 신 호의 길이만큼의 신호만이 동시에 외부로 출력된다 는 점에 주목하고, 동적 트랜스오럴 시스템을 위한 효율적인 필터링 방법을 제안하였다. 이 방법은 입 력 신호와 첫 번째 필터의 필터링 결과 중 입력 신 호 길이만큼의 결과만이 두 번째 필터와 필터링되 는 방식으로, 기존의 방식과 연산 결과는 일치하지 만 연산량은 크게 줄어든다. 제안 방법의 성능을 평 가하기 위해 계산 시간 및 계산 정밀도에 대해서 기존의 방법과 비교평가 실험을 실시하고, 그 결과 를 고찰하였다. 실험 결과, 제안 방법을 이용하면 기존 방식과 동일한 출력 신호를 보다 빠르게 계산 할 수 있음을 증명하였다.

향후 연구에서는 제안 방법을 이용한 실시간 시 스템의 구현 및 그 성능을 검증하는 것을 향후 과 제로 한다.

References

[1] D. R. Begault, "3-D Sound for Virtual Reality and Multimedia", NASA/TM, Apr. 2000.

[2] J. Bauck and D. H. Cooper, "Generalized transaural stereo and applications", J. Audio Eng. Soc., Vol. 44, No. 9, pp. 683-705, Sep. 1996.

[3] C. Han, T. Okamoto, Y. Iwaya, and Y. Suzuki,

"Loudspeaker distributions suitable for crosstalk cancellers robust to head rotation", Acoust. Sci.

and Tech., Vol. 33, No. 4, pp. 266-269, July 2012.

[4] C. Han and H. Kim, "A Study of the Effect of the Microphone Characteristics for Transaural Systems", Journal of KIIT, Vol. 12, No. 4, pp.

57-64, Apr. 2014.

[5] W. G. Gardner, "3-D Audio Using Loudspeakers", Ph.D Thesis, MIT Media Lab., Sep. 1997.

[6] H. Kim, "A Study of 3-Dimensional Audio Reproduction Method based on Head Moving", Journal of KIIT, Vol. 12, No. 2, pp. 173-179, Feb. 2014.

[7] A. V. Oppenheim and R. W. Schafer, "Digital Signal Processing", Prentice Hall, Jan. 1975.

[8] J. O. Smith III, "Spectral Audio Signal Process- ing", W3K Publishing, Dec. 2011.

[9] Y. Park, "A Study on 3D Head Pose Estimation Using Disparity Information of Stereo Images", Journal of KIIT, Vol. 9, No. 6, pp. 219-224, June 2011.

[10] W. G. Gardner and K. D. Martin, "HRTF measurements of a KEMAR", J. Acoust. Soc.

Am., Vol. 97, No. 6, pp. 3907-3908, June 1995.

[11] W. Oh and E. Rhee, "Curriculum Development of Acoustics and Audio Engineering on Digital Convergence Environment", Journal of IIBC, Vol. 13, No. 2, pp. 191-197, Apr. 2013.

저자소개

한 철 수 (Cheolsu Han)

2006년 2월 : 청주대학교 전자공학과(학사) 2008년 2월 : 청주대학교

전자공학과(석사)

2013년 9월 : 동북대학교(일본) 정보과학연구과(공학박사) 2013년 9월 ~ 현재 : 한국교통 대학교 시간강사

2014년 3월 ~ 현재 : 청주대학교 시간강사

관심분야 : 3차원 오디오, 멀티미디어 신호처리, 리얼타임 신호처리

김 학 윤 (Hack-Yoon Kim)

1982년 2월 : 청주대학교 전자공학과(학사) 1986년 2월 : 연세대학교

전자공학과(석사) 1988년 12월 ~ 1991년 6월 :

(주)신도리코 기술연구소 주임연구원

1996년 3월 : 동북대학교(일본) 정보과학연구과(공학박사) 1997년 ~ 현재 : 청주대학교 전자공학과 교수

관심분야 : 음향신호처리, 3차원 입체음향, 전기음향