• 검색 결과가 없습니다.

Estimation of Glottal waveform

N/A
N/A
Protected

Academic year: 2021

Share "Estimation of Glottal waveform"

Copied!
11
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

83

技術解 説

&球^^^^^^^^^^^

성문파의 추정법

Estimation of Glottal waveform

이 정 철*•안 수 길*

(Jungchul Leet Souguil Ann*) (* 서울대학교 전자공학과)

I •서 론

일반적으로 함성기를 이용하여 f한 합성음은 이 둔하고 생동감이 없어진다. 이는 인 ” 의 발성 〒 조에 대 한 早정 호卜한 보델 링 혹은 음원과 성노의 특성에 대 한 早정확한 추정과 卄현으로 인해서 성노 선달함수 와 음원이 실제와 달라지고 변화에 대한 대응이 叫흡 하기 때 忌 이 다. 음 성 파형 은 음원 과 성도의 신 남임피 닌스가 길후}된 함수이므로 합성음의 사연성과 개인 성 호卜보블 위해서는 성도의 전단함수 및 요원을 정확 히 추정하고 특성을 이해하는 것이 필수적이나. 일반 적으로 음원과 성도는 기의 상호작용이 없나 卫 가*정 한다. 이 경우 음워과 시스템이 독립적으로 분석가능 하며 각각의 특성을 개별적으로 시뮬레이션한 수 있 게 된다. 그러나 임펄스열과 저역통과 필터를 이용하 여 유성음원을 만들게 되면 유성음원의 스펙트럼 포 락선이 기의 균일하게 되어 실제 유성음윈의 파형에 서 볼 수 있는 zero 들을 구현하기 어렵다. 따라서 위 의 무•제를 해결하기 위해 Rothenberg, Fant, Fuji saki 모델 들이 제안되어 사용뇌 고 있 지卄 아직 합 성 음의 자연성은 제한되고 있는 실정이다. 현재도 성 대, 성노의 특성 및 상호 작용을 살 성의 알 수 있는 모덴 개발에 간힌 • 연 〔〔 기 진행중이

본 고는 유성음 발성과정에서 발성'' I관에시의 성

본 논문은 한국전자통신연구소의 '91 장기 기초과제중 Man 의하여 수행되었습니다.

문의 생리 적 叶조와 동작원리, 성문파의 추정방법, 발 성 환겅 에 따른 성 导 파의 특성변화에 관해 이 미 발표 된 여러 언卄결과들을 살펴보고 기존에 제안된 성문 파 모델들의 득성을 비교분석함으로써 합성음의 문 제 점 을 보완하는 원 천 기 술을 살펴보고 자 한다.

口. 성문파의 추정 방법

A■음향학적인 계산 가. 발성구조

음성음 호흡기관과 음식몸을 씹 는 기괸•의 계 획되

", 정형화된 움-직임에 의해 만들어지는 음향신호이 다. 공기는 폐압으로 인해 기 관을 지나 인두 혹은 목 구벙으로 방출되는데 가장 여린 모음을 발성할때의 폐압은 4cm H2O 정노가 뇌며 아주 세 게 발성할 때의 폐압은 대략 20cm H,O성도가 된다. 기관의 상부는 후두로 넢여 있는데 연골조직이 성대라고 하는 두장 의 인대와,근육을 싸고 있다. 그리고 성대 사이의 틈 (구멍)을 성문(glottis) 라고 한다. 유성음은 성대의 띨님운동으로 생성되며 이 방법에의한 조음을 발성 이라고 한다.

성량적으로 발성과정은 다음과 같다. 초기에 질량 叫 있고 팽팽한 성대가 서로 맞물려 있다고 가정하

斗. 성문아래 압력이 횡적인 가속으로 눌사이를 번리

Machine Interface를 위한 음성처리연구과제의 지원에

(2)

84 韓國音響學會誌11卷2 號 (1992)

놓을 정도로 상승되면 구멍사이로 공기의 흐름이 생 기게 된다. Bernoulli 관계에 따라 지역적인 압력이 감 소하게 되고 성대가 원위치로 복귀하려는 힘이 작용 하게 된다. 성대가 맞붙게 되면 공기의 흐름이 줄게 되고 다시 지역압이 성문밑 음압값에 근사하게 되어 다시 이완 과정을 반복하게 된다. 성대의 질량과 탄 성 그리고 성문밑 압력이 진동주기를 결정한다. 이 주기는 일반적으로 성대의 고유주기보다 짧다.

성대의 떨림에 의해 만들어지는 구멍의 가변면적 은 성대 다음의 음향시스템을 여기시키는 공기의 준 주기펄스를 만들게 된다. 과거 수십년에 걸쳐 성대의 떨림운동에 대해 매우 상세히 연구가 수행되었다. 구 강 뒷부분에 45 도 되게 거울을 정착시키고 적절한 주 파수로 조정된 stroboscope< 통해서 보게 되면 고정 된 혹은 느리게 변하는 성문의 떨림 패턴을 상세한 부분까지 관찰할 수 있다. 더 발전된 기술은 Far- sworth 에 의해 제안된 것으로서 고속의 촬영 기를 이 용하여 초당 4000장의 동화상을 찍는 것이 匸 }. 그림 1 과 같이 렌즈와 거울을 이용하여 성대에 강한 빛을

수는 성문의 열린 면적에 관계가 있다. 일반적인 피 치의 음성일 경우는 성문파를 삼각파로 근사시킬 수 있으며 duty factor 는 0.3~0.7 정도이다. 따라서 성 문파는 고조파 성분이 두드러진 주파수 스펙트럼을 갖고 있으며 고주파대역에서는 12db/octave 로 진폭 이 감소한다.

성문파는 단일 발성자의 경우에도 피치와 세기에 따라 매우 다양하게 변한다. 피치가 낮고 약한 음의 경우 성문밑 음압이 낮고 성대의 duty factor 는 높으 며 성문파의 진폭도 낮다. 피치가 높고 센 음의 경우 는 성문밑 음압이 높고 duty factor 는 작으며 성문파 의 진폭이 커진다.

나. 성문 임 피던스 모델

발성구조에 대해 정량적으로 분석하고 성문파의 음향적 특성을 추정한다. 몇가지 추정에는 성문밑 음 압, 성문기관의 크기, 성문면적의 시간 함수에 대한 지식이 기본이 된다. 한 성인 남성의 성분 비 기관의 크기를 그림 3 에, 이 구조의 전기적 등가회로를 二 t림 4에 나타내었다 •

그림 1. 성문의 고속 촬영 기술.

비추고 큰거울의 구멍을 통해 촬영한다. 이 방법으로 구한 성인 남성의 성문떨림 한 주기 사진 6 장을 그림 2 에 보였다.

그림 3. 인간의 성문밑 시스템의 모형도.

그림 4. 성做밉 시스템의 등가회로­

그림 2. 성문떨림 의 연속된 한 주기 (약 8msec)

성문을 통과하는 공기의 흐름용량에 대한 시간함

성문에서의 지역압변화에 의해 성대의 준주기적인 열림과 닫힘이 일어나는데 이는 임피던스(Rg+jwJ)

값을 변화시키게 되며 공기흐름을 변조하게 돈] 다. 따 라서 성도로 전달되는 공기는 펄수의 형태가 된다.

기관지와 기관의 단면적이 성문에 비해 크므루 여기

(3)

성문파의 추정법 85 서의 압력강하는 무시가능하다. 따라서 성문밑 압력

은 폐압과 저의 같다. 성문밑압력의 대부분이 소비되 는 동안 성문의 가변면적은 시변 임피던스이다. 성문 밑 위 치 에 너 지 가 glottal volume velocity pulse 태 의 동적에너지로 효과적으로 바뀌게 된다. 수천 Hz 이하의 주파수에서는 성문 임피던스의 주성분을 저 항으로 볼 수 있다.

시변의 성문 임피던스와 성문면직, 성분하이 몇가 지 유형의 특성을 살펴보자. 성문 임피던스의 초기 추정을 위해서 성문의 저항에 대한 인덕턴스의 비가 성문면적변화주기에 비해 작다고(Lg/Rg«To) 가정 한다. 이 경우 성문파는 계속적으로 형성되는 안정상 태의 연속으로 간주할 수 있으며 성문저항을 추정하 는데 이용한다. 성문의 크기가 음향자극신호의 파장 에 비해 작고, 공기의 흐름속도가 음속에 비해 매우 낮고, 일정하며, 점막에 의한 손실이 없다고 가정한 다. 이때 관계식은

P i -P l 絳虬 ⑴

입자속도는

성문저항을 라 두면

时 燦=梨 顼 列늜皿브 T寮 ⑶

이 된다. 二1 러나 실제는 점막에 의한 손실이 존재하 므로

R l R v +K〈 驟). (4)

이다. Van den Berg 가 실험 적으로 咔 한 저 항은

財= 导 辭+0.875 .德- ⑸

이다. 여기서 尹는 viscosity상수이다. (5) 식에 의해 서 Ps 와 A 값으로 volume flow U 값을 彳 하게 돈!다.

이상은 안정된 상태에서 구한 값이다 성문면적이 시 변 함수 卓 주어 졌을때 의 "w

U (t)R(t)+ •$[Lg(t)Ug(t) = P

L*(t)rpd/A t), (6)

의 1 차 비선형 미분함수식에 의해 구하게 된다 그런 데 시정수 Lg/Rg 가 피치주기 T。 보다 작으므로 성문 파는 (5) 식으로 부터 근사적으로 구할 수 있다 성문 에 대한 고속촬영사진으로 부터 측정한 성문면적 파 형, 음성의 세기와 기관압에 대한 직접측정치를 이용 하여 (5)식의 관계로 부터 구한 성문파를 :z림 5 에 나타내었다.

다. One mass model(Self oscillation model) 성대를 그림 6 와 같이 하나의 이동 가능한 덩어리 로 나타낼 수 있다. 성대의 두께는 d, 길이는 £ 이다.

덩어리 가 횡 적으로 X 만큼 이동하면 성문면적 &와 volume flow IL 를 변화시킨다. 안정상태에서의 성대 면적을 Am> 라 한다. 역학적 진동기는 성문밑 압력과 성문에서의 Bernoulli 의 압력작용에 의해 힘을 받는 匸 卜. Bernoulli 압력은 顷 : 에 의해 결정되고 Ug는 성문 의 비선형, 시변의 음향임피던스에 의해 정해진다

그림 6. 성대의 one mass model.

성문으] 음향임피던스는 Rv, Rk. L火 호 정의되一다, 이 값들은 d(t)에 의해 결정되고 Rk 는 에 의해 결 정된다. &(t) 는 R 와 1北와 성대움직임과 힘의 함수 를 나타내는 미분방정식으로 고 } 계가 정의되다.

라* Two mass model

초기의 one mass 모델에서는 음원와 성도사이의

측나■계에 대한 고려읍f 이 피치. 성운파, glottal duty

factor, 성도형태, 성문면적 등과 같은 파라미터를 사

(4)

86 韓國音響學會誌 11卷2 號 (1992) 용해서 합성정보를 추출했다. 여기에서 얻어진 성문

면적의 파형과 성문파는 고속의 동화상과 역필터에

그림 7. 성대의 two mass model.

서 얻어진 파형과 동일했다. 그러나, 음원과 성도사 이에 나타난 음향적인 관계와 같은 자세한 성대의 생 리학적인 기능에 대한 설명이 미흡했고, 성도의 포만 트주파수 이상에서의 capacitive input load 의 신동 에 대해서는 규명할 수 없었다. 또 폐와의 연관성, 성 대 가장자리에서의 위상천이에 대한 설명도 없었다.

이와 같은 문제점의 해결을 위해 two mass 모델이 도입되게 되었다. 그림 7 과 같이 성대를 2 개의 mass 로 구성된 self-oscillating source 로 모델링 했다. 성 문의 음압분포는 Bernoulli 방정식을 이용하여 구하 는데 van den Berg 의 실험치에 의한 glottal flow 는 (7) 식과 같다.

Ug(t)=AMt) (聲)/

단 Ug(t) : glottal flow, Ag(t) : glottal area,

p

: air density, K : kinetic resistance,

이로부터 음압분포에 대한 식을 유도하면,

P l P l 1.37 号 [ 쁪] 2 +房給 dx

PH2 U 。 + 缙

吋改=兮냐 (冶" 击 )

宀宀 2 蟹敏+驟•暫

위 음압분포에 대한 식을 이용하여 연속시스템으보 모델링하기위해 R, L 값을 정의하면

R=L37 号 蒙 ’ LT 德)

"12 精 . 功=短

R*= 穿# 厂击 *떠

礙=]變 ’L l 嚨

R— 戋 官* di- 普]「퍼 (9)

으로 정의되고 이를 이용하여 연속시스템을 구성하 면 그림 8 과 같다.

그림 8. 성문의 등가회로.

그리고 이에 대한 미분방정식은 Zv(t)=0 이라고 하면

(R ki +R k 2) IUg!Ug+(Rvi+Rv2)Ug+(Lgi+Lg2) 밥# -Ps=0 (10)

의 관계식에 의해 PS'

Ax'

cord tension 값이 주어지 면 Ug(t) 를 〒 하게 된다. 이 모델은 성문밑 음압, 성 대 인장력, 안정상태의 성문면적, 성대 아래, 윗가장 자리간의 위 상차, 포만트주파수보다 높은 진동주파 수( 가성 ) 등 인간의 성대작용에 보다 가까운 요소의 卄현을 가능하게 하였다. 규칙합성과 같은 기술에 이 모델을 응용하면 유성음의 완전한 합성을 가능하게 해줄 수 있다.

B. 역필터 이용법

으-원-성문파는 음성의 분석 및 합성에 매우 중요하 다. 二런데 최종의 음성파형은 음원과 성도의 전달임 피던스가 결합된 함수이므로 음원을 정확히 추정하 는데는 성대의 모양이 중요한 역할을 한다. 성분가는 동화상을 이용하여 성대의 열림면적을 측정 하는 방 법.으로 구할수 있지만 성문이 측정하기 어려운 지점 에 있고 특히 동작중의 성분을 촬영하기가 쉽지 않 다. 二래서 성노선단함수를 추정하고 이로부터 구한 역필터를 이용하여 성문파를 子하는 방법이 제안되 었다.

가. Miller의 방법

(5)

성문파의 추정법 87 1 포만트주파수에 대한 역필터를 이용하여 성문

파를 구하고자 하는 것으로 음성의 스펙트럼을 분석 하여 1 차 포만트의 위치와 공진주파수에서의 Q값을 구한다. 그리고 성문이 닫혔을 때의 volume velocity 가 0이 가정 하에 서 구한 소자값으로 역 필터 를 子 성 한다. 실험은 그림 9 같은 시스템으로 수행한다. 제 1포만트 주파수에 국한시키기 위해서 성능이 좋은 가 번 저 역통과필터로 고주파 성분을 제한다.

그림 9. 실험 장치 子성도.

二 L 러나 높은 피치의 신호에 대해서는 이 시스테의 성능이 감소하므로 성문파의 급격한 변화를 추정하 기는 어렵 다.

나. Pneumotachograph 이용법

일반적으로 음향신호를 저주파특성이 좋은 압력감 응 마이크로 녹음하고 녹음된 음을 그 순간의 성도 전달특성으로 구한 역필허에 통과시킴으로써 성눈파 를 얻게된다. :z런데 성도전달함수는 몇개의 복소쌍 의 pole 과 0 주파수에 서의 zero 를 가지고 있다. 띠•라 서 역필터는 복소쌍의 zero 와 0 주파수에서의 zero 가지 게 되므로 다음의 제약점을 가진다.

(1) . volume velocity waveform 은 bias 값을 가진 다. zero flow 표지가 없다.

(2) . 저주파 잡음에 큰 영향을 받는다.

(3) . 진폭교정이 어렵다.

(4) . 조음기관이 움직일 때 공기의 이동이 생겨서 저주파 잡음성분이 생긴다.

(5) . 연속음의 경우 동적으로 변하는 필터파라미터 값들을 알고 있어야 한다.

(6) . 성도의 수학적 모델이 정확하지 않을 때 Q차 가 발생 한다.

(1)

,(2) 항은 ()주파수에 서의 pole에 의 한 섯이 /.

(3) 항은 입과 마이크와의 거리. 방향에 영향을 받기 때문이다. (4)항은 조음기관이 움식일 때 생긴 성분 W 역필터 링 하기 때 拦 에 생 기 ; : "제*시 제 藉 号 면 턱을 ().1 .초에 1cm 움시일 때 0.12 liter/sec 의 가기 흐름이 부가적으로 발생하기 때문이다. 그런데 pneu motachograph(PTG) 마스크를 사용하여 음압대 신 입에 서 의 volume velocity wavefotm 을 子한다먼 익 필터에서 pole 이 없어지게 되고 따라서 문제점 (1),

(2) 항이 해결된다. 그리고 입과 코에서 방출되는 공 기의 모든 흐름을 측정하므로 진폭교정문제 (3) 항이 해결된 匸 } . 그러나 (4),(5),(6) 항의 문제점은 여전히 남게 도!다. 그러나 PTG 의 출력을 역필터링에 사용 하기 위해서는

(1) . 발성할 때의 음압이나 공기흐름에 방해가 되 지 않아야 하며

(2) . 출력이 volume velocity 의 선형 함수이고 (3) . 방출된 음향신호에 왜곡이 적어야 하며 (4) . 응답시 간이 성문주기에 비해 짧아야 한다.

표준의 PGT 마스크는 방출된 음향신호의 왜곡이 심하고 자체공명으로 인개 응답시간에 심한 제약이 있다. 또한 높은 음향 임피던스를 가지므로 성도의 원래 포만트주파수를 변화시키고 필터링 현상까지 생 긴다. 이런 제약점을 해 결하기 위해 Rothenberg 는 마스크저항, 선형성, 응답시간이 개선된 그림 10 같은 구조의 새로운 PTG를 제안하였다. Volume velocity 로 구한 성문파가 저주파 잡음이 적고 voice 의 onset특성이 뚜렸함을 보인다.

二 f 림 10. Rothenberg pneumotachograph.

다. 신호처리에 의 한 방법

만일 성문파나 성도전달함수 중 어느 하나가 정확 히 정의된다면 다른 하나가 가정된 모델의 한계내에 서 구해질 r 있디-. 음성발성모델을 그림 11 (a)오 } 같 이 정의할 수 있 匸 卜. 여기서 성문여기모델 신호 e(n) 은 압력과 간은 물리적 신호가 아니고 성문에서의 volume velocity 신호 UMn) 을 생성해 내는 성문보 뎀 필터 G(z) 의 수학적인 입력신호를 나타낸다. 유 성음의 경우 e(n) 은 주기 적인 임펄스열로 나타나다.

W (b)

그림 li. (a) 음성반성의 선형모델

(b) 성 눈의 억 필터 개님도.

(6)

88

韓國音響學會誌 11卷2 (1992) 성도모델 V(z) 는 all-pOlL. 모델로

V(Z) = [l+gcizfT ⑴)

로 정 의 한다. 보통 저주파에서 방출임피 던스 R(z) 를

R(z) = 1 — zT (12)

로 근사시킨다. 이상의 모델을 근거로 성문의 역필터 링은 그림 11(b) 와 같이

以⑵ =vfc (14)

로 개념적으로 정의될 수 있다. 실제 분석에 들어가 기 전에 고려할 사항으로는 Uz 의 정확한 de값을 구할 수 없다는 점과 녹음장치에 의한 극성의 반전, 전파 지연 등이 있지만 여기서는 이를 고려하지 않는다.

먼저 유효 구동함수를

Q(z) = U g ( z )R( z ),

으로 정의한다. R(z) 의 특성으로 인해 q(n) 의 평균 값은 0 이다. 성문폐쇄가 안정상태라고 가정했을 때 음성신호와 성문파 그리고 유효 구동함수의 이론적 시간 관계를 그림 12에 나타내었다. Lc 와 1“ 를 성문 폐쇄와 열림 위치라고 정의한다. 만일 LcMnVLo

서 Ug(n)=0 라면 q(n) 는 에서 q(n)=0 가 된다. 음성의 발성모델은

K

s(n)=E.cis(n~i)+q(n) ( 话 )

그림 12. 음성, 성문파, 유효 구동함수간의 시 간곤 L

으 」형태가 돈!다. 그런데 LcMnVLo 에서 성문이 폐쇄 라 가정 했기 때문에

s(n) = -£cis(n-i) (Lc+i^n<Lo)

1=1 (比 丿

이 된다* 만일 M 차의, 단 M 느 K, 분석필터를

M

A(z)=£aizT (ao=l)

i=l

U / 丿

라 두면 Lc+iMn<Lo 에서는 (16) (17) 식에 의해

M

(n)=£ (ai-d)s(n-i) 小 。 、

i=l I lo)

만일

(Ci for i=l, ,K

" fori=K+l, ,M (19)

의 조건이 만족되면 e(n)=0 이 된다. s(n —M) 에서 s(n+N — M —1) 까지의 분석 window 에서 covari*

ance 방법으로 A(z) 를 구하기 위해서 전체자승오차 르

n + N - M -]

En)= E ) (20)

로 구하며 분석필터 계수는 이 0小(11) 을 최소화 함으 로써 얻게 된다. 만일 ni 에서 처음으로 aM(n)=0 가 된다면 성문폐쇄점은

Lc=ni —1 (21)

로 정의 되고 이후 皿에서 aM(n)=0 이 된다면 성문열 림 점이

Lo=ri2+N —M —1 (22)

로 정의된 匸 卜. ■그런데 aM(n)=0 는 단지 이론적으로 가능할 뿐이다. 그리고 ocm C q ) 이 실제시스템의 gain 을 고려하지 않은 것이므로 정확도를 높이기 위해 정 규화한 값

〃(n) = aM/ao (23)

을, 단 ao 는 입 력신호에너지, 사용하는 것이 좋다 따

라서 〃가 충분히 작으면 분석필터계수가 성문이나 방

출에 의한 영향이 없는 성도모델 V(z) 를 나타낸다고

(7)

성문파의 추정법 89 본다. 이런 조건에서 성문파는

Q(z)=S(z)/V(z )=S(z)A(z) (24)

UG( n)=Q(z)/(l-z->) (25)

로 추정된다. 실제음성으로 부터 성문파를 子하는 역 필터시 스템의 bolck diagram 을 그림 13에, 그리 고 분석결과를 그림 14 나타내었다. 그런데 이 방법은 성문의 물리적 의미가 포함되지 않으며 입력신호의 녹음환경 등과 같은 여러 인자에 대해 매우 큰 영향 을 받는 단점이 있다. 또한 성문폐쇄구간이 최소한 분석차수의 2배 이상이 되어야 하므로 높은 피치의 음성이나 폐쇄구간이 짧은 음성에 대해서는 이 모델 이 적합하지 못하다.

jjFig二了}_ 厂 誼蜜邪

f

하=

I

」r허 洁 再

a~~\

[ Li

吃. 르器** ]

♦; __________ *... „f. 1 * COMfrrwMCT J I = ―I

「브쓰]

I i I [

Ais 广*

I

—[「"허「나 责 ]- 1 느I - Jn»

수 없게 된다. 만일 이상적 균일성도가 먼 끝에서 정 합된 상태로 단단한 벽의 균일관에 연결되어 있다고 가정하면 음원이 거의 무한 길이의 균일관으로 공급 되는것과 같아진다. 따라서 지연을 고려하지 않는다 면 이 관 안의 어디에서든 마이크를 이용하여 입력과 동일한 파형을 얻을 수 있게 된다. 이 경우는

(1) 성도가 균일관으로 근사되고 (2) 성도의 벼이 단단하며

(3) 평면파로 전파되고 이상 기체임을 가정한 것이 다.

(2),(3)항의 가정은 이미 대부분의 역필터링 이나 성도에서의 전파해석에 사용되어 왔다. 이러한 가정이 부정확할 경우에는 단지 first-order pertur- bation 이 발생한다고 알려 져 있다. 또한 성도가 균일 관이 아니더라도 무반향관을 연결할 경우 입력과 거 의 동일한 파형을 얻을 수 있음을 보이는 실험결과를 이용해서 Sondhi 는 : 丄 림 15 같은 배치를 만들었다.

확장된 관은 내부직 경 1 meh, 길이 6 ft 의 황동으로 만들었고 반향없는 음향판은 거의 원추형이며 3 ft 정도 길이의 섬유유리로 만들었다. 직경 l/4inch 의 그림

13.

성문의 역필터 블럭도.

3 M A 시 AA 수f

! 上.

t i '

그림 15. 무반향 음향관.

그림 14. (a) 음성신호 (b)정규화된 오차신호 (a) 유효구동함수 (b) 성문파.

C. 정합장치 이용법

여기서 제시하는 방법은 입술에서의 음향출력을 이용한다. 그러나 음파에서 성도가 미 치는 영향을 나 중에 제 기하는 대신에 성도가 성문파를 처음부터 최 소의 왜곡으로 전송한다는 조건을 설정함으로써 익 필터링을 제 거하였다는 점에 큰 차이가 있다 따라서 좀더 간단한 배치로 목적을 달성할 수 있다. 한쪽 끝 은 열려있고 다른 한쏙 끝은 닫혀있는 단면식 5cm. 실 이 17m인 딱딱한 벽을가진 균일한 壮 에 서 난힌 쏙이 작은 寸멍으로 관이 음향적으로 여기된다고 가정하 자. 또 관의 임펄스 응답이 무한히 긴 시간이라 가정 하자. 이때 출력은 입력과 임펄스 응답과의 콘볼루션 으로 얻어지므로 성문파의 주기가 3〜 12msec 임을 : 려할때 역필터링을 해도 원래의 입력신호를 복원할

electret 마이크를 개방된 끝에서 1 ft 정도에 위치시 켰고 성대진동을 방해하는 관의 입력을 제거하기 위 해 음향판 주변에 작은 구멍을 만들었다. 이 방법의 잇점은 저렴히며 실시간으로 성문파를 얻을 수 있고 주변잡음에 덜 민감하여 일반 실험실에서도 실험이 가능한 점이다.

m. 남녀의 성문파 비교분석

Sondhi 의 급속난을 이용하여 1。명의 성인 남여를 대상으로 1) 펑상음 力 부느러운 소리 3) 소리 4) 성 5)Creaky 음 6) 증升 흑은 1 土하二 억양 7)3음절 숭 하나에 강세븜 준 읍성늘에 대한 성분파늠 咔 하' 5 다. 이러한 데이타를 이용하여 성문파의 rms inten sity, 기본주파수, 위상스펙트럼 그리고 세기 스펙트 닌 등이 다양한 분석을 하였다. 겯 评 기본주파*

가 시간에 따라 변하면 음원은 두가지 다른 원리에

(8)

90

따라 움직임을 알 수 있다. 그 한가지는 성문파의 각 고조파 간의 관계는 일정하게 유지되지만 스펙트럼 의 포락선은 기본주파수의 함수가 되어 주파수와 진 폭이 변한다. 다른 하나는 각 고조파간의 관계가 기 본주파수의 함수가 되어 변하지만 스펙트럼의 포락 선은 변하지 않는 것이다. 남여의 성대파를 분석한 결과는 다음과 같다.

(1) 정상음

A. 스펙트럼 : 1200Hz 이상에서 octave 단위로 급격히 감소

B. 성문파형 : 여성이 더 대칭적 C. 기본주기와 2 harmonic의 위상차 :

남성 : 170 도- 180 도, 여성 : -150 도 — — D. 기본주파수 : 남성(121-139Hz),

여성 (155-209Hz) (2) 부드러운 소리

A. 스펙트럼 : 더 가파르게 감소 B. 성문파형 : 더 대칭적 (3) 큰소리

A스펙트럼 :고주파에너지 증가 B.성문파형 : closing 구간이 짧고 급격 함

⑷ 가성

A. 스펙트럼 : 一 20dB/octave, i200Hz부근에 서 기 울기는 완만

B. 성문파형 : 남자(위상반전), 여성(기본주파 수 증가)

(5) creaky voice

A. 스펙트럼 : 느슨한 기울기 B. 성문파형 : 비정형적

C. 기본주파수 : 주기마다 기본주파수의 큰 변화 (30-90Hz)

(6) 의문문

A. 스펙트럼 : 전체 spectral envelope 를 일정하 게 유지

B. 성문파형 : closing 의 점유도가 기본주파수에 비례

⑺평서문

A. 스펙트럼 : 주파수변화에 큰 영향을 받지 않 는다.

B. 기본주파수 : 의문문에 비해 변화가 작다.

(8) 강세에 따른 변화

의 문형 과 평 서 형 의 조합으로 해 석 가능

IV. 성문파의 모델링

韓國音響學會誌 11卷2 (1992) 양질의 음성합성 또는 정 확도가 높은 음성 인식을 위해서는 성도 뿐만 아니라 음원의 특성을 설명할 수 있는 수학적 모델링이 주요한 연구사항이 되었다. 성 문파의 모양과 주기는 매우 다양하게 변한다. 이런 변화가 음성의 자연성과 음질에 어느 정도 영향을 미

치 는가는 중요한 연구과제이 다. 일 반적으로 합성 기 에서는 一 12db/octave 의 특성을 가지는 고정된 태의 성문파를 사용하는데 실제 성문파의 특성을 복 제하는데 유연성이 없으므로 합성음의 자연성이 떨 어지게 된다.

여기서는 삼각파 모델의 특성분석과 이미 제안된 Rosenberg model, Hedelin model, Fant model, Fujisaki model 들을 비교검토한다.

A. 삼각파 모델

일반적으로 중간정도의 피치와 세기를 가진 음성 의 환경에서 성문파가 二 모양에서 삼각파로 근사화 시킬 수 있다. 그러므로 삼각파의 스펙트럼 특성이 유성음원과 관련성을 가지고 있다. Dunn, et al. 이

그림 17. K=l, K=ll/12인 두 삼각파의 크기 스펙트럼

실제 성문파의 파형고 } 스펙트럼과의 관계에 대해 상 세히 연구를 수행하였다. 그림 16 과 간은 삼각파의 경우 Laplace 변환은

(26)

스펙트럼의 zero 는

(eTK+m"-(K+i)eF+K)=() (27)

식에 서 子하게 된다. x=e 「 g 이라 두면

x=ef"=e —(28)

k=l 일때와 k = ll/12( 혹은 12/11) 일때의 |F(jw) I

의 스펙드럼크기를 림 17에 나타대었다. 그림 17

삼각파가 대칭일때 스펙트럼이 sin- x/x: 의 모양을

口이 乂 비대 칭으로 변하면 스펙트럼상의 -苦짜기를

(9)

성문파의 추정법

91

메꾸는 현상이 일어남을 보여준다. 그리고 대칭성이

조금만 변해도 스펙트럼이 크게 변함을 알 수 엿1 다.

5

그림 18. 성문파 모델에 의한 성문파형

B. 삼각파 모델과 변형된 모델과의 특성비교 삼각파의 경우에는 일차 미분치의 불연속점이 3개 이다. 반일 rounding 이나 smoothing 으론 이러한 불 연속점을 제거하면 어떤 효과가 나타날까? 예로서 half sine, half ellipse, raised cosine# 사용할 겅 우 2 개는 2 개의 불연속점을 가지고 나머 지 하나;: 불 연속점이 읍 1다. 이들의 스펙트럼 특성은

Half-sine wave

f(t)=a sin Pt , OMtw 节 「, 8=

—0. 이 sewhere (29)

F("b%](l+e 皿")

zero 는

“ ,= 土( 21>=±(2n+l )n=l,2,

H 시 ftllipse

玖)" 丄 T씀)T,프

= 0, 이 sewhere (30)

FS)— g/2 zero 는

이 "이

Raised cosine

f(t)=a(l-cos 從),(比槌-於, 0=

=0, elsewhere (31)

F 霸 项 M 赤 j](l+"“)

zerov?

邸=士 . n-2,3» --

이 결과 rounding 이나 펄스의 모양에 작은 변화도 zero 패턴과 성문파의 스펙트럼에 큰 영향을 미침을 알 수 있다.

C. 성문파의 zero 가 인지에 미치는 영향

성문파의 모양과 주기는 매우 다양하게 변한다. 이 런 변화가 음성의 자연성고 !■ 음질에 어느 정도 영향을 미치는가는 중요한 연구과제이다. 만일 성문파의 zero 가 포반트 주파수와 가까이 위치하게 되면 스펙 트럼을 변화시키고 따라서 인지에도 영향을 미친다.

성도 자극음은 연속음에서 :

i-

파형 이 매 우 빨리 변하 口一로 인지에 영향을 줄 정도로 오래 안정되지 않는 다. 「 z 리 고 발성 자는 청 각의 feedback 을 통해 서 포만 트 주파수의 워하지 않는 억압을 최소화하도록 성무 파를 교정한다. Rosenberg 의 정형화된 성문파를 이 용한 합성음의 청취실험 설과는 성문파의 세부적인 부분을 제기해도 음질의 저하匕 가져食지 않음을 보 인다. 또한 매 주기마다의 상세한 파형보다는 몇주기 에 걸친 평균값의 변화가 인지에 더 중요한 영향을 미 침을 보인 匸 卜.

D. 기존 성문파 모델

가. Rosenberg mod이과 Hedelin model

Rosenbergvr 성분파의 진폭, 지속시간, 기울기 (skew)의 변中들을 사용해서 2 개의 trigonometric segment-^2^ 个 학석 모델을 만들었다. 여기에 싱문

의 저주파. drift 를 「 "가한 것이 Hedelin 모델이며 LPC-vocoder에 이용하였다.

나. Fant model

음원과 필터의 곱으로써 음성 신호를 정의하는 것

근 이론 석이 세 한이 잉 나. 성 대 시독에 서의 必 圣 석

음향적 작용을 무시하더라 攵 , 이떻기 I 윰욱"가 필터의

함수적 관케와 기능을 구분해야 하는지에 대한 문제

에 접하게 도1다. 음원을 정의하는 한가지 방법은 싱

노 임피이넌스를 난르匕회로로 보았을 때 성분을 통한

volume velocity투 정의될 수 있고, 이 성문 흐름

(10)

92 韓國音響學會誌11卷2 號 (1992)

(32)

(33) (glottal flow) 은 성도 공진(vocal tract resonance) 의 진동 요소(oscillatory component)들을 포함하고 있기 때문에, 이 방법으로 정의된 음원은 필터 함수 에 종속적이라는 것이 명백하다. 이 성문파를 다음과 같이 모델링 할 수 있다.

성문이 개방될 때

U=-^Uo(l-cosco gt)

성문이 닫힐 때

U=Uo[K cos(a ) gt — 兀)一 K+1]

다. Ananthapadmanabha model

위의 모델들에서 중요시했던 연속성을 지키기 않 을 경우 문제점이 발생한다. 그런데 이러한 효과 (conner effect) 는 예외적이라기 보다는 일정한 법칙 에 가깝다는 것이 밝혀 졌다. 이에 따라 파라볼릭 함 수로 모델 링 한 terminal return phase 를 변수에 포함 시켜 모델링 한 것이 Ananthapadmanabha 모델이다.

라 、LF(Liljencrants F"t)mod이

LF 모델에서 고려되어지는 변수들 Tp, Te, Ta, Ee 가 주어졌을 때 이로부터 성문파를 유일하게 결정 할 수 있다.

성문이 개방될 때

E(t)=Ey sin cogt (34)

성문이 닫힐 때

E(t)=[ 〔Lt-te) _eY(tcf)] (35) C La

다h Fujisaki model

성문파의 미분치가 다항식(polynomial) 의 seg- ment 들로 구성되어지는 모델을 제안했는데, 이 모델 을 이용하면 변수들의 수를 확장하기가 쉽고, 모델링 에서의 레벨수를 자세히 나타낼 수 있다. 대부분의 모델에서 open phase duration(W), pulse skew(s), time interval from glottal closure to maximum negative flow(D)를 제어하는 3 개의 시 간 변수들을 가지고 있으며, 또한 성문 개방시의 경사(A), 성분이 닫힐 때의 경사 (B), 성문이 닫혀가는 부분의 경사 (C) 를 제어하는 3 개의 진폭들을 가지고 있 匸 " 여기서

A 변수는 다른 모델들에서 공통적인 것은 아니지만, 제안된 성문모델들을 비교 검토하면서, Fujisaki 모 델과 같은 새로운 성문파모델의 특성을 개방시 중요 한 변수들이 되므로 이것을 포함시킨다. 이 모델의 수식은 식 36 과 같다. 이 성문 모델을 도입하면 기존 의 LPC에 서 약 3~4dB 의 prediction error 가 감소한 다.

g(t) =2 A+Ra t 2 o<t<R

K K

=a(t-R)+ 3Bf? E^ (t-R) - 线 普 (t-R)3 R<t<W

=C 늠® (t—w )+ (t-W 2)

WCtVW+D

4AR-6FB n____ CD ___ (36) 단, a— F2— 2R2P~ d -(T-W)

그림 16. 삼각파를 이용한 성분파의 근사.

V. 결 론

지금까지 성문파의 물리적, 생리적 생성원리, 음향 학적인 추정, 역필터를 이용한 추정, 무반향관을 이 용한 추정 그리고 음운환경 및 발성자에 따른 특성변 화등에 관해 정리 기술하였다.

본 연구를 통하여 유성음원의 속성과 추정방법 및

특성변화를 보임으로써 합성음의 다양함, 즉 자연성

과 개인성 구현을 위해서는 음원의 정확한 추정이 필

수적임을 알 수 있다. 아직까지 국내에서는 성문파에

대한 관심이 부족했던게 사실이지만 텍스트 형태로

저장된 데이타베이스를 엑세스해서 음성으로 서비스

해주는 음성출력부 개발이나 자동통역전화 개발에

필요한 원천기술로서 연 亍 개발의 활용도는 매우 높

다.

(11)

성문파의 추정법 93

따라서 앞느-로는 한국어를 대상으로 유성음원의 추정과 분석, 그리고 이의 모델링과 구현에 대한 연 구가 절실하다고 생각된다.

참 고 문 헌

1. R.L. Miller, “Nature of the vocal cord waves,"

J.

Acoust, Soc- Amer.,

vol.31, pp.667-677. 1959.

2. D. Y. Wong, J. D. Makel, and A. H. Gray, Jr.

"Least squares glottal inverse filtering from the acoustic speech waveform,M

IEEE Trans. Acoiist., Speech, Signal Processing,

vol. ASSP-27, pp.350-355, Aug. 1979.

3. J. D. Mark이 and A. H. Gray, Jr.,

Linear Predicion of Speech.

New York : Springer, 1976.

4. M. M. Sondhi, "Measurement of the golttal waveform,M

J. Acoust. Soc. Amer.t

vol.57, pp.228-232, 1975.

5. J. L. Falnagan,

Speech Analysis, Synthesis and Percep­

tion,

Second Edition, New York : Springer Verlag, 1972.

6. R. B. Monsen, A. M. Engebretson, “Study of

variations in the male and female golttal wave,"/.

Acoust. Soc. Amer.,

vol.62, pp.228-232, 1977.

7. M. Rothenberg, "A new inverse-filtering technique for deriving the golttal air flow waveform during voicing,M

J. Acoust. Soc. Amer.,

vol.53, pp. 1632-1645, 1973.

8. J. L. Flanagan, K, Ishizaka, and K. L. Shipley,

"Synthesis of speech from a dynamic model of the vocal cords and vocal tract,"

R.S.T.J.,

vol.54, no.3, pp. 485-506, 1975.

9. S. Parthasarathy and D. W. Tufts, "Excitation- synchronous modeling of coiced speech, ”

IEEE 1'rans. Acoust., Speech, Signal Processing,

vol.

ASSP 35, pp. 1241-1249, Aug. 1987.

10. G. Fant, J. Liljencrants, and Q. G. Lin, "A four- parameter model of glottal flow,”

STL-QPSR

pp.1-13, 1985.

11. Fujisaki, H. and M. Ljungqvist, "Proposal and evaluation of models for the glottal source waveform,"

Pore. IEEE Int. Conf. Acoust., Speech, and Signal Processing,

pp. 1605-1608, 1986.

▲ 이 정 철 1961 년 10 월 7 일생 1984년 3월 : 서울대 전자공학과

졸업 (공학入卜 ) 1988년 2 월 : 서 울대 대 학원 전

자공학과 졸업 (공 학석사)

현 재 :서울대 대학원전자공 학과 박사과정

1985 년 9월~현재 : 한국전자통신연구소 신호처리연 구실 (연구원)

▲ 안 수 길 : 현 서울대 학교 전자공학과 교수

(9 1 참조)

수치

그림 li. (a) 음성반성의  선형모델 (b)  성 눈의  억  필터 개님도.

참조

관련 문서

Cohen, &#34;A Rule Based System for Optimizing Combinational Logic,&#34; IEEE Design &amp; Test of

Harmonics generated by Control Element Drive Mechanism Control System(CEDMCS) affected the MG Set operation such as increased voltage waveform distortion and... MG Set

3.3 Measured current-voltage waveform and high-speed camera images during the constant voltage DC-AC pulse tandem GMAW welding · · · ·20 Fig.. 3.4 Comparison of

Through the superposition modeling of single hole waveform, I obtained the vibration waveform on the blasting condition changes and conducted dynamic

Lagrange dual Duality Proof of strong duality Optimality conditions Theorems of alternatives.. Lagrange dual functions Lower bounds on

삼각부위(pars triangularis, 45) Brodmann area 덮개부위(pars opercularis, 44) motor speech area..

force output compare, waveform generation mode, compare match output mode, clock select 이중 waveform generation mode는 Normal, PWM, Phase Correct, CTC, Fast PWM

The PWM waveform is generated by setting (or clearing) the OC2x Register at the compare match between OCR2x and TCNT2, and clearing (or setting) the OC2x Register at the