Background Noise Reduction Algorithm Based on Frequency Domain Adaptive Filter and MMSE-LSA in Dual-microphone situation

(1)

Dual-microphone 환경에서 주파수 영역 적응 필터와 MMSE-LSA기반 배경 잡음 알고리즘

이 근 상*, 박 영 철**

*,**연세 대학교

Keunsang Lee*, Youngchul Park**

*,**Yonsei University

요 약

본 논문에서는 모바일 환경에서 dual microphone을 이용하여 배경 잡음을 효율적으로 제거하는 방법을 제안한다. 참조 마이크와 주 입력 마이크로부터 측정된 신호를 각각 FDAF의 참조신호와 주 입력 신호로 하 여 잡음 제거를 수행한 뒤에 MMSE-LSA를 이용하여 잔여 잡음 및 배경 잡음을 추정하여 제거 한다. 이때 일관성 있는 잡음 제거 성능을 위해 두 마이크 신호의 PLD를 이용한 VAD 결과를 사용한다.

ABSTRACT

In this paper, background noise reduction method using dual microphone is proposed in mobile environment. Each Signal, reference and primary, would be replaced by microphone input signals, which were measured by reference and primary microphones, and then, noise reduction was performed using FDAF. After then, residual and background noise would be estimated and reduced by MMSE-LSA. For consistent noise reduction performance, result of VAD that could be caculated by PLD between two microphones was used.

keywords : mobile phone, dual microphone, noise reduction, FDAF, MMSE-LSA, PLD

* 연세대학교 전산학과 이학박사과정

** 교신전자 : 연세대학교 공과대학

접수일자：2012년 12월 17 일, 수정일자 : 2013년 1월 10일, 심사완료일자：2013년 1월 28일

Ⅰ. 서 론

최근 모바일 폰의 사용이 급증함에 따라 다양 한 음향 환경에서 통화를 한다. 통화 환경에서 주

변 환경 잡음은 음성의 명로도, 인식률을 떨어뜨 려 의사소통에 어려움을 겪에 한다. 이러한 문제 를 해결하기 위해 단일 마이크를 이용하여 배경 잡음 제거 하게 되면 정확한 잡음 추정의 어려움

(2)

으로 인하여 음성 신호의 왜곡이 빈번히 발생하 는 문제가 있다.[1]

최근 모바일 환경에서 2개의 마이크를 이용하 여 주변 환경 잡음을 제거하여 음성의 명료도를 높이는 기술들이 주목 받고 있다.[1][2] 이러한 기 술들은 두 마이크 간의 레벨차를 이용하여 음성 과 잡음 신호를 효과적으로 구별함으로써 잡음을 효율적으로 제거한다.[3] 하지만 잡음 제거 성능 은 두 마이크 간의 전달 함수 추정에 의존적이기 때문에 non-stationary환경에서는 전달 함수의 정 확한 추정이 이루어지지 않기 때문에 잡음 제거 성능이 저하된다.

본 논문에서는 주파수 영역 적응 필터 (Frequency Domain Adaptive Filter, FDAF)와 MMSE-LSA(Minimum Mean Square Error Log Spectral Amplitude)를 이용하여 주변 잡음 환경 에 강인하게 대처하면서 동시에 잡음 제거 성능 을 향상 시켰다.

본 논문의 구성은 2장에서는 주파수 영역 적응 필터와 MMSE에 대해서 알아보며, 3장에서는 각 알고리즘을 결합하여 잡음 제거를 수행하는 방법 에 대해서 서술하고, 4장에서는 알고리즘의 성능 을 평가한다. 마지막으로 5장에서 결론을 맺는다.

Ⅱ. 기존 Frequency Domain Adaptive Filter와 MMSE-LSA 알고리즘

1. 주파수 영역 적응 필터 (FDAF)

일반적인 주파수 영역 적응 필터인 FDAF 대해서 살펴보면 먼저, FDAF의 필터 출력 신호 는 다음과 같다.[3]

 

  

  

_   (1)

은 필터 차수이며, __과 _{은 적응필} 터 계수와 참조 신호이다. Convolution의 관계에 있는 위의 식을 주파수 영역에서 변환하면 곱셈 연산으로 다음과 같이 표현할 수 있다.

Y  WX (2)

Y, W과 X 각각은 필터 출력, 적응필 터 계수 그리고 참조 신호에 대한 _-point FFT 결과이며, 은 frame index이다. FDAF의 계수 갱신 식을 다음과 같다.

W   W  GX^E (3) E ^e  ⁽⁴⁾

G_{는 }^^I^{ × } × ^이고, ^^는 ^{P }^{ }^이며,

P _은 X l ^ 로 입력 신호의 파워이며, 1 차의 IIR averaging 방법을 통해 구할 수 있다. 이 때, e_는 d  y_이다. y_은 Y _의 IFFT의 결과에 하위× _{만을 취한 것이다.}

2. Minimum Mean Square Error Log Spectral Amplitude (MMSE-LSA)

MMSE-LSA estimator는 주어진 입력 신호 에서 목적 음성을 그대로 보존하면서 잡음을 최 대한 줄일 수 있는 잡음 제거 이득을 계산하는 것이 목적으로 입력 신호는 다음과 같다[4]

   (5)

은 noisy 신호로 목적 신호 과 잡음 신호 이 포함된 신호이다. 이때 잡음 제거 이득은 추정된 목적 음성과 실제 목적 음성의 log-spectrum의 왜곡을 최소화 시키도록 형성되 며 다음과 같은 비용 함수 수식을 갖는다.

_^log^ log_^ (6) 입력 신호에서 위의 비용 함수식이 최소가 되 도록 형성된 이득을 적용해 얻어진 추정된 목적 음성 신호는 다음과 같다.

 explog _{ }_

 

_

exp^^^^

∞



^{ }

^^ ⁽⁷⁾

위의 식에서 ^ _ 

_

_, ^ _

_

는 a priori SNR, 그리고 ^ _

_^

는 a posteriori SNR

(3)

을 뜻한다. 이때 실제 환경에서 현재 프레임의 목 적 음성 신호 PSD _는 알지 못하는 값이므 로 a priori SNR은 decision directed 방법을 이용 하여 계산하게 되며 다음과 같다.

_ _  

_  

   max^   (8)

_과 ^^은 각각 추정된 목적음과 잡음의 PSD이다. Decision directed approach는 _를 smoothing factor로 recursive averaging 방식을 이용하여 a priori SNR을 추정함으로써 뮤지컬 잡음을 줄이는데 효과적인 역할을 한다.[5]

Ⅲ. FDAF와 MMSE-LSA를 이용한 제안하는 dual microphone 잡음 제거

알고리즘

모바일 환경에서 dual microphone을 이용하여 잡음 제거를 위한 제안 알고리즘은 전처리 필터 인 FDAF를 먼저 수행한 뒤 잔여 잡음을 제거하 기 위한 후처리 필터로 MMSE-LSA를 사용하며 다음 그림 1과 같은 구조를 갖는다.

그림 1. 제안 알고리즘 전체 블록선도

Figure 1. Block diagram of proposed algorithm

1. 잡음 제거 알고리즘

배경 잡음 제거를 위해 먼저 모바일 폰의 목적 음성과 가까이에 위치한 주 입력 마이크와 잡음 측정을 위한 참조 마이크로부터 측정된 신호를 각각 FDAF의 주 입력 신호 ^과 참조 신호

으로 하여 잡음 제거를 수행한다. 잔여 잡음 제거를 위한 MMSE-LSA 후처리 필터가 적용되 는 입력은 적응 필터 출력 에러 신호로 번째 프

레임에서의 주파수 표현은 아래의 식과 같이 잔 여 잡음 신호와 목적 음성, 그리고 배경잡음의 합 으로 이루어진다.

      (9)

위의 식 에서  ^^^_{는 목적 음성신호,}

 _^^^는 배경 잡음 신호를 뜻한다. 이 때 잔여 잡음 신호의 형태는 필터 출력 신호와 유사한 주파수 형태를 갖는다고 가정하면

 _^^



는 다음 식과 같이 필터 출력 신 호에서 scaling된 형태로 다시 표현할 수 있다.

  _ (10) 식 (10)을 이용하여 식 (7)과 같이 표현하면 다 음과 같다.

__{ }

_ 

_

exp^^^^^

∞



^{ }

^^ ⁽¹¹⁾

_는 출력 신호로 잡음이 제거된 신호이며, a priori SNR과 a posteriori SNR 추정을 위한 잡음 PSD는 앞 장에서 살펴본 MMSE-LSA의 잡음 PSD와 비교 하면 잔여 잡음 신호와 배경 잡음 신호가 더해진 다음 식과 같이 표현 할 수 있다.

_  _ _ (12)

2. Power Level Ratio를 이용한 VAD 추정 효과적인 잡음 제거를 위해서 FDAF의 계수 벡터 갱신과 MMSE-LSA의 배경 잡음 추정은 잡 음 구간에서 수행해야 한다. 따라서 본 논문에서 는 두 마이크의 Power Level Ratio(PLR)을 이용 하여 음성 구간과 잡음 구간을 판별하였다.

통화 환경에서 사용자의 목적 음성은 주 입력 마이크와 가까운 위치에서 발생하게 되며, 이때 두 마이크에 입력되는 신호를 주파수 영역에서 표현하면 다음과 같다.

    _  (13)

(4)

    _ (14) 이때,  _과  는 주 입력 마이크와 참 조 마이크에 입력된 신호의 주파수 표현이며,

 _{는 목적 음성이고,}  _{는 주 입력 마이크} 와 참조 마이크 간의 음향 경로이며, _ _와

_ 는 각각 마이크에서 측정된 배경 잡음 신 호이다. 두 마이크에서 측정된 신호 간의 PLR는 다음 식과 같이 표현 할 수 있다.

  ^

^

 ^ _^

^ _^ (15)

일반적인 통화 환경에서 목적 음성은 참조 마 이크에서 보다 주 입력 마이크에서 큰 level을 가 지므로 음성 구간에서의 PLR은 작은 값을 갖게 되는 반면, 목적 음성이 없는 잡음 구간에서의 PLR은 1에 가까운 값을 갖게 된다. 따라서 PLR 의 값을 기반으로 다음과 같이 음성 및 잡음 구 간을 추정한다.

^^^^^ ^^{ }^

  (16)

위의 식을 이용해서 잡음 구간인 _^_{으로 판단} 될 때 적응 필터와 배경 잡음의 PSD를 추정한다.

Ⅳ. 실험 및 결과

제안 알고리즘의 성능을 평가하기 위해서 spectrogram 비교 및 다양한 객관적 평가 값(objective parameters)들을 측정해보았다. 모바일에서 일정 간격 떨어진 곳에 있는 스피커를 이용해 잡음을 발생시키고 모바일에 가까운 거리에 있는 스피커 를 이용해 목적 음성을 재생하여 신호를 측정하였 다. 실험에서는 8kHz 신호를 사용하였으며, 목적 음성은 남성과 여성 음성이 번갈아 나오는 신호를 이용하였다. 배경 잡음으로는 pink, babble 그리고 outdoor noise를 이용하였으며 잡음의 스피커 음량 을 조절하여 다양한 SNR에서 실험을 시행하였다.

실험에 사용된 계수들은 다음 표 1에 정리 하였다.

 256

 0.03125

 0.98

_ ₁

 0.9

표 1.실험에 사용된 계수값 Table 1. Parameters for simulation

표1에서 는 PSD 추정을 위한 IIR averaging 파라미터이다. 다음 그림 2는 신호에 대한 spectrogram 결과이다.

그림 2. Spectrogram 관찰 결과 (a) 목적신호, (b) 잡 음신호, (c) 주 입력 마이크 입력신호 그리고 (d) 제안 알고리즘 출력 신호

figure 2. Result of spectrogram (a) clean signal, (b) noise signal, (c) primary microphone signal, and (d) output signal of proposed algorithm

위의 spectrogram 결과로부터 제안 알고리즘이 효과적으로 배경 잡음을 제거하는 것을 확인할 수 있다. 다음은 객관적인 성능평가를 위해 SNR 향상율과 PESQ도 함께 측정하였다. SNR(signal to noise ratio)는 깨끗한 음성 신호 대비 잡음의 양을 나타내는 값으로 다음의 SNR 향상율이란 입력 신호의 SNR 대비 출력 신호의 SNR이 몇 dB 증가하였는지를 나타내는 수치로 다음과 같다.

∆__{} (17)

(5)

Noise Input SNR Noisy Input EnhancedOutput

Pink 0dB 2.526 2.945

6dB 2.755 3.299 12dB 3.026 3.502 Outdoor 0dB 2.579 2.980 6dB 2.811 3.258 12dB 3.054 3.438

Babble 0dB 2.478 2.838

6dB 2.743 3.157 12dB 3.023 3.412 표 2.PESQ 결과

Table 1. Result of PESQ

Noise Input SNR Enhanced Output

Pink 0dB 5.63

6dB 4.33

12dB 2.32

Outdoor 0dB 9.28

6dB 4.38

12dB 1.13

Babble 0dB 7.44

6dB 3.08

12dB 0.48

표 3.SNR improvement 결과 Table 1. Result of SNR improvement

표2~3의 결과로부터 제안 알고리즘을 수행한 뒤의 신호가 잡음이 섞인 입력 신호에 비해 측정 파라미터들이 향상된 것을 확인 할 수 있었다. 특 히 실험을 통해서 제안 알고리즘이 잡음의 특성 이나 입력 신호의 SNR의 변화에 관계없이 일정 한 성능을 보임을 검증할 수 있었다.

Ⅴ. 결 론

두 마이크로부터 측정된 신호를 각각 FDAF의 참조 신호와 주 입력 신호로 하여 잡음을 제거한 뒤에 MMSE-LSA를 이용하여 잔여 잡음과 배경 잡음 신호를 추정하여 효과적으로 잡음을 제거하 는 것을 실험을 통해 검증하였으며, 두 마이크의 PLD를 이용한 VAD를 이용함으로써 일관성 있는 잡음 제거 성능을 보인다.

참 고 문 헌

[1] M. Jeub, C. Herglotz, C. Nelke, C. Beaugent, and P. Vary, “Noise reduction for dual-microphone mobile phones exploiting power level differences”, IEEE internation conference on ICASSP, pp. 1693-1696, March. 2012.

[2] N. Yousefian, A. Akbari, M. Rahmani,

“Using power level difference for near field dual-microphone speech enhancement”, ,vol.

70, issue. 11-12, pp. 1412-1421, dec. 2009.

[3] J. J. SHYNK, “Frequency-domain and mul- tirate adaptive filtering,” IEEE Signal Processing Mag., pp. 14-35, Jan. 1992.

[4] Y. Ephraim and D. Malah, “Speech Enhancement Using a Minimum Mean-Square Error Log-Spectral Amplitude Estimator”, IEEE Trans. ASSP, vol. 33, pp. 443-445, 1985.

[5] P. C. Loizou, Speech Enhancement: Theory and Paractive, Boca Raton, FL: Taylor &

Francis Group

저자약력

이 근 상(Keunsang Lee) 정회원 2006년 연세대학교 컴퓨터정보

통신기술학부 공학사 2010년 연세대학교 전산학과

이학석사

2010년~현재 연세대학교 전산 학과 이학박사과정

<관심분야> 디지털 신호처리, 음성/오디오 신호처 리, 적응 필터,

(6)

박 영 철(Young-chul Park) 정회원 1986년 연세대학교 전자공학과

공학사

1988년 연세대학교 잔자공학과 공학석사