83
技術解 説
&球^^^^^^^^^^^ 發
성문파의 추정법
Estimation of Glottal waveform
이 정 철*•안 수 길*
(Jungchul Leet Souguil Ann*) (* 서울대학교 전자공학과)
I •서 론
일반적으로 함성기를 이용하여 f한 합성음은 이 둔하고 생동감이 없어진다. 이는 인 ” 의 발성 〒 조에 대 한 早정 호卜한 보델 링 혹은 음원과 성노의 특성에 대 한 早정확한 추정과 卄현으로 인해서 성노 선달함수 와 음원이 실제와 달라지고 변화에 대한 대응이 叫흡 하기 때 忌 이 다. 음 성 파형 은 음원 과 성도의 신 남임피 닌스가 길후}된 함수이므로 합성음의 사연성과 개인 성 호卜보블 위해서는 성도의 전단함수 및 요원을 정확 히 추정하고 특성을 이해하는 것이 필수적이나. 일반 적으로 음원과 성도는 기의 상호작용이 없나 卫 가*정 한다. 이 경우 음워과 시스템이 독립적으로 분석가능 하며 각각의 특성을 개별적으로 시뮬레이션한 수 있 게 된다. 그러나 임펄스열과 저역통과 필터를 이용하 여 유성음원을 만들게 되면 유성음원의 스펙트럼 포 락선이 기의 균일하게 되어 실제 유성음윈의 파형에 서 볼 수 있는 zero 들을 구현하기 어렵다. 따라서 위 의 무•제를 해결하기 위해 Rothenberg, Fant, Fuji saki 모델 들이 제안되어 사용뇌 고 있 지卄 아직 합 성 음의 자연성은 제한되고 있는 실정이다. 현재도 성 대, 성노의 특성 및 상호 작용을 살 성의 알 수 있는 모덴 개발에 간힌 • 연 〔〔 기 진행중이
본 고는 유성음 발성과정에서 발성'' I관에시의 성
본 논문은 한국전자통신연구소의 '91 장기 기초과제중 Man 의하여 수행되었습니다.
문의 생리 적 叶조와 동작원리, 성문파의 추정방법, 발 성 환겅 에 따른 성 导 파의 특성변화에 관해 이 미 발표 된 여러 언卄결과들을 살펴보고 기존에 제안된 성문 파 모델들의 득성을 비교분석함으로써 합성음의 문 제 점 을 보완하는 원 천 기 술을 살펴보고 자 한다.
口. 성문파의 추정 방법
A■음향학적인 계산 가. 발성구조
음성음 호흡기관과 음식몸을 씹 는 기괸•의 계 획되
", 정형화된 움-직임에 의해 만들어지는 음향신호이 다. 공기는 폐압으로 인해 기 관을 지나 인두 혹은 목 구벙으로 방출되는데 가장 여린 모음을 발성할때의 폐압은 4cm H2O 정노가 뇌며 아주 세 게 발성할 때의 폐압은 대략 20cm H,O성도가 된다. 기관의 상부는 후두로 넢여 있는데 연골조직이 성대라고 하는 두장 의 인대와,근육을 싸고 있다. 그리고 성대 사이의 틈 (구멍)을 성문(glottis) 라고 한다. 유성음은 성대의 띨님운동으로 생성되며 이 방법에의한 조음을 발성 이라고 한다.
성량적으로 발성과정은 다음과 같다. 초기에 질량 叫 있고 팽팽한 성대가 서로 맞물려 있다고 가정하
斗. 성문아래 압력이 횡적인 가속으로 눌사이를 번리
Machine Interface를 위한 음성처리연구과제의 지원에
84 韓國音響學會誌11卷2 號 (1992)
놓을 정도로 상승되면 구멍사이로 공기의 흐름이 생 기게 된다. Bernoulli 관계에 따라 지역적인 압력이 감 소하게 되고 성대가 원위치로 복귀하려는 힘이 작용 하게 된다. 성대가 맞붙게 되면 공기의 흐름이 줄게 되고 다시 지역압이 성문밑 음압값에 근사하게 되어 다시 이완 과정을 반복하게 된다. 성대의 질량과 탄 성 그리고 성문밑 압력이 진동주기를 결정한다. 이 주기는 일반적으로 성대의 고유주기보다 짧다.
성대의 떨림에 의해 만들어지는 구멍의 가변면적 은 성대 다음의 음향시스템을 여기시키는 공기의 준 주기펄스를 만들게 된다. 과거 수십년에 걸쳐 성대의 떨림운동에 대해 매우 상세히 연구가 수행되었다. 구 강 뒷부분에 45 도 되게 거울을 정착시키고 적절한 주 파수로 조정된 stroboscope< 통해서 보게 되면 고정 된 혹은 느리게 변하는 성문의 떨림 패턴을 상세한 부분까지 관찰할 수 있다. 더 발전된 기술은 Far- sworth 에 의해 제안된 것으로서 고속의 촬영 기를 이 용하여 초당 4000장의 동화상을 찍는 것이 匸 }. 그림 1 과 같이 렌즈와 거울을 이용하여 성대에 강한 빛을
수는 성문의 열린 면적에 관계가 있다. 일반적인 피 치의 음성일 경우는 성문파를 삼각파로 근사시킬 수 있으며 duty factor 는 0.3~0.7 정도이다. 따라서 성 문파는 고조파 성분이 두드러진 주파수 스펙트럼을 갖고 있으며 고주파대역에서는 12db/octave 로 진폭 이 감소한다.
성문파는 단일 발성자의 경우에도 피치와 세기에 따라 매우 다양하게 변한다. 피치가 낮고 약한 음의 경우 성문밑 음압이 낮고 성대의 duty factor 는 높으 며 성문파의 진폭도 낮다. 피치가 높고 센 음의 경우 는 성문밑 음압이 높고 duty factor 는 작으며 성문파 의 진폭이 커진다.
나. 성문 임 피던스 모델
발성구조에 대해 정량적으로 분석하고 성문파의 음향적 특성을 추정한다. 몇가지 추정에는 성문밑 음 압, 성문기관의 크기, 성문면적의 시간 함수에 대한 지식이 기본이 된다. 한 성인 남성의 성분 비 기관의 크기를 그림 3 에, 이 구조의 전기적 등가회로를 二 t림 4에 나타내었다 •
그림 1. 성문의 고속 촬영 기술.
비추고 큰거울의 구멍을 통해 촬영한다. 이 방법으로 구한 성인 남성의 성문떨림 한 주기 사진 6 장을 그림 2 에 보였다.
그림 3. 인간의 성문밑 시스템의 모형도.
그림 4. 성做밉 시스템의 등가회로
그림 2. 성문떨림 의 연속된 한 주기 (약 8msec)
성문을 통과하는 공기의 흐름용량에 대한 시간함
성문에서의 지역압변화에 의해 성대의 준주기적인 열림과 닫힘이 일어나는데 이는 임피던스(Rg+jwJ)
값을 변화시키게 되며 공기흐름을 변조하게 돈] 다. 따 라서 성도로 전달되는 공기는 펄수의 형태가 된다.
기관지와 기관의 단면적이 성문에 비해 크므루 여기
성문파의 추정법 85 서의 압력강하는 무시가능하다. 따라서 성문밑 압력
은 폐압과 저의 같다. 성문밑압력의 대부분이 소비되 는 동안 성문의 가변면적은 시변 임피던스이다. 성문 밑 위 치 에 너 지 가 glottal volume velocity pulse 형 태 의 동적에너지로 효과적으로 바뀌게 된다. 수천 Hz 이하의 주파수에서는 성문 임피던스의 주성분을 저 항으로 볼 수 있다.
시변의 성문 임피던스와 성문면직, 성분하이 몇가 지 유형의 특성을 살펴보자. 성문 임피던스의 초기 추정을 위해서 성문의 저항에 대한 인덕턴스의 비가 성문면적변화주기에 비해 작다고(Lg/Rg«To) 가정 한다. 이 경우 성문파는 계속적으로 형성되는 안정상 태의 연속으로 간주할 수 있으며 성문저항을 추정하 는데 이용한다. 성문의 크기가 음향자극신호의 파장 에 비해 작고, 공기의 흐름속도가 음속에 비해 매우 낮고, 일정하며, 점막에 의한 손실이 없다고 가정한 다. 이때 관계식은
P i -P l 絳虬 ⑴
입자속도는
성문저항을 라 두면
时 燦=梨 顼 列늜皿브 T寮 ⑶
이 된다. 二1 러나 실제는 점막에 의한 손실이 존재하 므로
R l R v +K〈 驟). (4)
이다. Van den Berg 가 실험 적으로 咔 한 저 항은
財= 导 辭+0.875 .德- ⑸
이다. 여기서 尹는 viscosity상수이다. (5) 식에 의해 서 Ps 와 A 값으로 volume flow U 값을 彳 하게 돈!다.
이상은 안정된 상태에서 구한 값이다 성문면적이 시 변 함수 卓 주어 졌을때 의 "w
U ; (t)R(t)+ •$[Lg(t)Ug(t) 〕 = P 、
단 L*(t)rpd/A 〈 t), (6)
의 1 차 비선형 미분함수식에 의해 구하게 된다 그런 데 시정수 Lg/Rg 가 피치주기 T。 보다 작으므로 성문 파는 (5) 식으로 부터 근사적으로 구할 수 있다 성문 에 대한 고속촬영사진으로 부터 측정한 성문면적 파 형, 음성의 세기와 기관압에 대한 직접측정치를 이용 하여 (5)식의 관계로 부터 구한 성문파를 :z림 5 에 나타내었다.
다. One mass model(Self oscillation model) 성대를 그림 6 와 같이 하나의 이동 가능한 덩어리 로 나타낼 수 있다. 성대의 두께는 d, 길이는 £ 이다.
덩어리 가 횡 적으로 X 만큼 이동하면 성문면적 &와 volume flow IL 를 변화시킨다. 안정상태에서의 성대 면적을 Am> 라 한다. 역학적 진동기는 성문밑 압력과 성문에서의 Bernoulli 의 압력작용에 의해 힘을 받는 匸 卜. Bernoulli 압력은 顷 : 에 의해 결정되고 Ug는 성문 의 비선형, 시변의 음향임피던스에 의해 정해진다
그림 6. 성대의 one mass model.
성문으] 음향임피던스는 Rv, Rk. L火 호 정의되一다, 이 값들은 d(t)에 의해 결정되고 Rk 는 에 의해 결 정된다. &(t) 는 R 와 1北와 성대움직임과 힘의 함수 를 나타내는 미분방정식으로 고 } 계가 정의되다.
라* Two mass model
초기의 one mass 모델에서는 음원와 성도사이의
측나■계에 대한 고려읍f 이 피치. 성운파, glottal duty
factor, 성도형태, 성문면적 등과 같은 파라미터를 사
86 韓國音響學會誌 11卷2 號 (1992) 용해서 합성정보를 추출했다. 여기에서 얻어진 성문
면적의 파형과 성문파는 고속의 동화상과 역필터에
그림 7. 성대의 two mass model.
서 얻어진 파형과 동일했다. 그러나, 음원과 성도사 이에 나타난 음향적인 관계와 같은 자세한 성대의 생 리학적인 기능에 대한 설명이 미흡했고, 성도의 포만 트주파수 이상에서의 capacitive input load 의 신동 에 대해서는 규명할 수 없었다. 또 폐와의 연관성, 성 대 가장자리에서의 위상천이에 대한 설명도 없었다.
이와 같은 문제점의 해결을 위해 two mass 모델이 도입되게 되었다. 그림 7 과 같이 성대를 2 개의 mass 로 구성된 self-oscillating source 로 모델링 했다. 성 문의 음압분포는 Bernoulli 방정식을 이용하여 구하 는데 van den Berg 의 실험치에 의한 glottal flow 는 (7) 식과 같다.
Ug(t)=AMt) (聲)/ ⑺
단 Ug(t) : glottal flow, Ag(t) : glottal area,
p: air density, K : kinetic resistance,
이로부터 음압분포에 대한 식을 유도하면,
P l P l 1.37 号 [ 쁪] 2 +房給 dx • 警
PH2 鷲 U 。 + 缙
吋改=兮냐 (冶" 击 )
宀宀 2 蟹敏+驟•暫
위 음압분포에 대한 식을 이용하여 연속시스템으보 모델링하기위해 R, L 값을 정의하면
R=L37 号 蒙 ’ LT 德)
"12 精 . 功=短
R*= 穿# 厂击 *떠
礙=]變 ’L l 嚨
R— 戋 官* di- 普]「퍼 (9)
으로 정의되고 이를 이용하여 연속시스템을 구성하 면 그림 8 과 같다.
그림 8. 성문의 등가회로.
그리고 이에 대한 미분방정식은 Zv(t)=0 이라고 하면
(R ki +R k 2) IUg!Ug+(Rvi+Rv2)Ug+(Lgi+Lg2) 밥# -Ps=0 (10)
의 관계식에 의해 PS'
Ax'cord tension 값이 주어지 면 Ug(t) 를 〒 하게 된다. 이 모델은 성문밑 음압, 성 대 인장력, 안정상태의 성문면적, 성대 아래, 윗가장 자리간의 위 상차, 포만트주파수보다 높은 진동주파 수( 가성 ) 등 인간의 성대작용에 보다 가까운 요소의 卄현을 가능하게 하였다. 규칙합성과 같은 기술에 이 모델을 응용하면 유성음의 완전한 합성을 가능하게 해줄 수 있다.
B. 역필터 이용법
으-원-성문파는 음성의 분석 및 합성에 매우 중요하 다. 二런데 최종의 음성파형은 음원과 성도의 전달임 피던스가 결합된 함수이므로 음원을 정확히 추정하 는데는 성대의 모양이 중요한 역할을 한다. 성분가는 동화상을 이용하여 성대의 열림면적을 측정 하는 방 법.으로 구할수 있지만 성문이 측정하기 어려운 지점 에 있고 특히 동작중의 성분을 촬영하기가 쉽지 않 다. 二래서 성노선단함수를 추정하고 이로부터 구한 역필터를 이용하여 성문파를 子하는 방법이 제안되 었다.
가. Miller의 방법
성문파의 추정법 87 1 차 포만트주파수에 대한 역필터를 이용하여 성문
파를 구하고자 하는 것으로 음성의 스펙트럼을 분석 하여 1 차 포만트의 위치와 공진주파수에서의 Q값을 구한다. 그리고 성문이 닫혔을 때의 volume velocity 가 0이 라 가정 하에 서 구한 소자값으로 역 필터 를 子 성 한다. 실험은 그림 9 와 같은 시스템으로 수행한다. 제 1포만트 주파수에 국한시키기 위해서 성능이 좋은 가 번 저 역통과필터로 고주파 성분을 제한다.
그림 9. 실험 장치 子성도.
二 L 러나 높은 피치의 신호에 대해서는 이 시스테의 성능이 감소하므로 성문파의 급격한 변화를 추정하 기는 어렵 다.
나. Pneumotachograph 이용법
일반적으로 음향신호를 저주파특성이 좋은 압력감 응 마이크로 녹음하고 녹음된 음을 그 순간의 성도 전달특성으로 구한 역필허에 통과시킴으로써 성눈파 를 얻게된다. :z런데 성도전달함수는 몇개의 복소쌍 의 pole 과 0 주파수에 서의 zero 를 가지고 있다. 띠•라 서 역필터는 복소쌍의 zero 와 0 주파수에서의 zero 블 가지 게 되므로 다음의 제약점을 가진다.
(1) . volume velocity waveform 은 bias 값을 가진 다. 즉 zero flow 의 표지가 없다.
(2) . 저주파 잡음에 큰 영향을 받는다.
(3) . 진폭교정이 어렵다.
(4) . 조음기관이 움직일 때 공기의 이동이 생겨서 저주파 잡음성분이 생긴다.
(5) . 연속음의 경우 동적으로 변하는 필터파라미터 값들을 알고 있어야 한다.
(6) . 성도의 수학적 모델이 정확하지 않을 때 Q차 가 발생 한다.
(1)
,(2) 항은 ()주파수에 서의 pole에 의 한 섯이 /.
(3) 항은 입과 마이크와의 거리. 방향에 영향을 받기 때문이다. (4)항은 조음기관이 움식일 때 생긴 성분 W 역필터 링 하기 때 拦 에 생 기 ; : "제*시 제 藉 号 면 턱을 ().1 .초에 1cm 움시일 때 0.12 liter/sec 의 가기 흐름이 부가적으로 발생하기 때문이다. 그런데 pneu motachograph(PTG) 마스크를 사용하여 음압대 신 입에 서 의 volume velocity wavefotm 을 子한다먼 익 필터에서 pole 이 없어지게 되고 따라서 문제점 (1),
(2) 항이 해결된다. 그리고 입과 코에서 방출되는 공 기의 모든 흐름을 측정하므로 진폭교정문제 (3) 항이 해결된 匸 } . 그러나 (4),(5),(6) 항의 문제점은 여전히 남게 도!다. 그러나 PTG 의 출력을 역필터링에 사용 하기 위해서는
(1) . 발성할 때의 음압이나 공기흐름에 방해가 되 지 않아야 하며
(2) . 출력이 volume velocity 의 선형 함수이고 (3) . 방출된 음향신호에 왜곡이 적어야 하며 (4) . 응답시 간이 성문주기에 비해 짧아야 한다.
표준의 PGT 마스크는 방출된 음향신호의 왜곡이 심하고 자체공명으로 인개 응답시간에 심한 제약이 있다. 또한 높은 음향 임피던스를 가지므로 성도의 원래 포만트주파수를 변화시키고 필터링 현상까지 생 긴다. 이런 제약점을 해 결하기 위해 Rothenberg 는 마스크저항, 선형성, 응답시간이 개선된 그림 10 와 같은 구조의 새로운 PTG를 제안하였다. Volume velocity 로 구한 성문파가 저주파 잡음이 적고 voice 의 onset특성이 뚜렸함을 보인다.
二 f 림 10. Rothenberg pneumotachograph.
다. 신호처리에 의 한 방법
만일 성문파나 성도전달함수 중 어느 하나가 정확 히 정의된다면 다른 하나가 가정된 모델의 한계내에 서 구해질 r 있디-. 음성발성모델을 그림 11 (a)오 } 같 이 정의할 수 있 匸 卜. 여기서 성문여기모델 신호 e(n) 은 압력과 간은 물리적 신호가 아니고 성문에서의 volume velocity 신호 UMn) 을 생성해 내는 성문보 뎀 필터 G(z) 의 수학적인 입력신호를 나타낸다. 유 성음의 경우 e(n) 은 주기 적인 임펄스열로 나타나다.
W (b)
그림 li. (a) 음성반성의 선형모델
(b) 성 눈의 억 필터 개님도.
88
韓國音響學會誌 11卷2 號 (1992) 성도모델 V(z) 는 all-pOlL. 모델로
V(Z) = [l+gcizfT ⑴)
로 정 의 한다. 보통 저주파에서 방출임피 던스 R(z) 를
R(z) = 1 — zT (12)
로 근사시킨다. 이상의 모델을 근거로 성문의 역필터 링은 그림 11(b) 와 같이
以⑵ =vfc (14)
로 개념적으로 정의될 수 있다. 실제 분석에 들어가 기 전에 고려할 사항으로는 Uz 의 정확한 de값을 구할 수 없다는 점과 녹음장치에 의한 극성의 반전, 전파 지연 등이 있지만 여기서는 이를 고려하지 않는다.
먼저 유효 구동함수를
Q(z) = U g ( z )R( z ),
으로 정의한다. R(z) 의 특성으로 인해 q(n) 의 평균 값은 0 이다. 성문폐쇄가 안정상태라고 가정했을 때 음성신호와 성문파 그리고 유효 구동함수의 이론적 시간 관계를 그림 12에 나타내었다. Lc 와 1“ 를 성문 폐쇄와 열림 위치라고 정의한다. 만일 LcMnVLo 에
서 Ug(n)=0 라면 q(n) 는 에서 q(n)=0 가 된다. 음성의 발성모델은
K
s(n)=E.cis(n~i)+q(n) ( 话 )
그림 12. 음성, 성문파, 유효 구동함수간의 시 간곤 ! 겨 L
으 」형태가 돈!다. 그런데 LcMnVLo 에서 성문이 폐쇄 라 가정 했기 때문에
s(n) = -£cis(n-i) (Lc+i^n<Lo)
1=1 (比 丿
이 된다* 만일 M 차의, 단 M 느 K, 분석필터를
M
A(z)=£aizT (ao=l)
i=l
U / 丿
라 두면 Lc+iMn<Lo 에서는 (16) 과 (17) 식에 의해
M
巴 (n)=£ (ai-d)s(n-i) 小 。 、
i=l I lo)
만일
(Ci for i=l, ,K
" fori=K+l, ,M (19)
의 조건이 만족되면 e(n)=0 이 된다. s(n —M) 에서 s(n+N — M —1) 까지의 분석 window 에서 covari*
ance 방법으로 A(z) 를 구하기 위해서 전체자승오차 르
n + N - M -]
En)= E 尚 ) (20)
로 구하며 분석필터 계수는 이 0小(11) 을 최소화 함으 로써 얻게 된다. 만일 ni 에서 처음으로 aM(n)=0 가 된다면 성문폐쇄점은
Lc=ni —1 (21)
로 정의 되고 이후 皿에서 aM(n)=0 이 된다면 성문열 림 점이
Lo=ri2+N —M —1 (22)
로 정의된 匸 卜. ■그런데 aM(n)=0 는 단지 이론적으로 가능할 뿐이다. 그리고 ocm C q ) 이 실제시스템의 gain 을 고려하지 않은 것이므로 정확도를 높이기 위해 정 규화한 값
〃(n) = aM/ao (23)
을, 단 ao 는 입 력신호에너지, 사용하는 것이 좋다 따
라서 〃가 충분히 작으면 분석필터계수가 성문이나 방
출에 의한 영향이 없는 성도모델 V(z) 를 나타낸다고
성문파의 추정법 89 본다. 이런 조건에서 성문파는
Q(z)=S(z)/V(z )=S(z)A(z) (24)
UG( n)=Q(z)/(l-z->) (25)
로 추정된다. 실제음성으로 부터 성문파를 子하는 역 필터시 스템의 bolck diagram 을 그림 13에, 그리 고 분석결과를 그림 14 에 나타내었다. 그런데 이 방법은 성문의 물리적 의미가 포함되지 않으며 입력신호의 녹음환경 등과 같은 여러 인자에 대해 매우 큰 영향 을 받는 단점이 있다. 또한 성문폐쇄구간이 최소한 분석차수의 2배 이상이 되어야 하므로 높은 피치의 음성이나 폐쇄구간이 짧은 음성에 대해서는 이 모델 이 적합하지 못하다.
jjFig二了}_ 厂 誼蜜邪
f하=
I」r허 洁 再
a~~\[ Li
吃. 르器** ]
♦; __________ *... „f. 1 * COMfrrwMCT J I = ―I
「브쓰]
I i I [
Ais 广*
I—[「"허「나 责 ]- 1 느I - Jn»
수 없게 된다. 만일 이상적 균일성도가 먼 끝에서 정 합된 상태로 단단한 벽의 균일관에 연결되어 있다고 가정하면 음원이 거의 무한 길이의 균일관으로 공급 되는것과 같아진다. 따라서 지연을 고려하지 않는다 면 이 관 안의 어디에서든 마이크를 이용하여 입력과 동일한 파형을 얻을 수 있게 된다. 이 경우는
(1) 성도가 균일관으로 근사되고 (2) 성도의 벼이 단단하며
(3) 평면파로 전파되고 이상 기체임을 가정한 것이 다.
이 중 (2),(3)항의 가정은 이미 대부분의 역필터링 이나 성도에서의 전파해석에 사용되어 왔다. 이러한 가정이 부정확할 경우에는 단지 first-order pertur- bation 이 발생한다고 알려 져 있다. 또한 성도가 균일 관이 아니더라도 무반향관을 연결할 경우 입력과 거 의 동일한 파형을 얻을 수 있음을 보이는 실험결과를 이용해서 Sondhi 는 : 丄 림 15 과 같은 배치를 만들었다.
확장된 관은 내부직 경 1 meh, 길이 6 ft 의 황동으로 만들었고 반향없는 음향판은 거의 원추형이며 3 ft 정도 길이의 섬유유리로 만들었다. 직경 l/4inch 의 그림
13.성문의 역필터 블럭도.
3 M A 시 AA 수f 丄
! 上.
t i '
그림 15. 무반향 음향관.
그림 14. (a) 음성신호 (b)정규화된 오차신호 (a) 유효구동함수 (b) 성문파.
C. 정합장치 이용법
여기서 제시하는 방법은 입술에서의 음향출력을 이용한다. 그러나 음파에서 성도가 미 치는 영향을 나 중에 제 기하는 대신에 성도가 성문파를 처음부터 최 소의 왜곡으로 전송한다는 조건을 설정함으로써 익 필터링을 제 거하였다는 점에 큰 차이가 있다 따라서 좀더 간단한 배치로 목적을 달성할 수 있다. 한쪽 끝 은 열려있고 다른 한쏙 끝은 닫혀있는 단면식 5cm. 실 이 17m인 딱딱한 벽을가진 균일한 壮 에 서 난힌 쏙이 작은 寸멍으로 관이 음향적으로 여기된다고 가정하 자. 또 관의 임펄스 응답이 무한히 긴 시간이라 가정 하자. 이때 출력은 입력과 임펄스 응답과의 콘볼루션 으로 얻어지므로 성문파의 주기가 3〜 12msec 임을 : 려할때 역필터링을 해도 원래의 입력신호를 복원할
electret 마이크를 개방된 끝에서 1 ft 정도에 위치시 켰고 성대진동을 방해하는 관의 입력을 제거하기 위 해 음향판 주변에 작은 구멍을 만들었다. 이 방법의 잇점은 저렴히며 실시간으로 성문파를 얻을 수 있고 주변잡음에 덜 민감하여 일반 실험실에서도 실험이 가능한 점이다.
m. 남녀의 성문파 비교분석
Sondhi 의 급속난을 이용하여 1。명의 성인 남여를 대상으로 1) 펑상음 力 부느러운 소리 3) 센 소리 4) 기 성 5)Creaky 음 6) 증升 흑은 1 土하二 억양 7)3음절 숭 하나에 강세븜 준 읍성늘에 대한 성분파늠 咔 하' 5 다. 이러한 데이타를 이용하여 성문파의 rms inten sity, 기본주파수, 위상스펙트럼 그리고 세기 스펙트 닌 등이 다양한 분석을 하였다. 겯 评 기본주파*
가 시간에 따라 변하면 음원은 두가지 다른 원리에
90
따라 움직임을 알 수 있다. 그 한가지는 성문파의 각 고조파 간의 관계는 일정하게 유지되지만 스펙트럼 의 포락선은 기본주파수의 함수가 되어 주파수와 진 폭이 변한다. 다른 하나는 각 고조파간의 관계가 기 본주파수의 함수가 되어 변하지만 스펙트럼의 포락 선은 변하지 않는 것이다. 남여의 성대파를 분석한 결과는 다음과 같다.
(1) 정상음
A. 스펙트럼 : 1200Hz 이상에서 octave 단위로 급격히 감소
B. 성문파형 : 여성이 더 대칭적 C. 기본주기와 2 차 harmonic의 위상차 :
남성 : 170 도- 180 도, 여성 : -150 도 — — D. 기본주파수 : 남성(121-139Hz),
여성 (155-209Hz) (2) 부드러운 소리
A. 스펙트럼 : 더 가파르게 감소 B. 성문파형 : 더 대칭적 (3) 큰소리
A스펙트럼 :고주파에너지 증가 B.성문파형 : closing 구간이 짧고 급격 함
⑷ 가성
A. 스펙트럼 : 一 20dB/octave, i200Hz부근에 서 기 울기는 완만
B. 성문파형 : 남자(위상반전), 여성(기본주파 수 증가)
(5) creaky voice
A. 스펙트럼 : 느슨한 기울기 B. 성문파형 : 비정형적
C. 기본주파수 : 주기마다 기본주파수의 큰 변화 (30-90Hz)
(6) 의문문
A. 스펙트럼 : 전체 spectral envelope 를 일정하 게 유지
B. 성문파형 : closing 의 점유도가 기본주파수에 비례
⑺평서문
A. 스펙트럼 : 주파수변화에 큰 영향을 받지 않 는다.
B. 기본주파수 : 의문문에 비해 변화가 작다.
(8) 강세에 따른 변화
의 문형 과 평 서 형 의 조합으로 해 석 가능
IV. 성문파의 모델링
韓國音響學會誌 11卷2 號 (1992) 양질의 음성합성 또는 정 확도가 높은 음성 인식을 위해서는 성도 뿐만 아니라 음원의 특성을 설명할 수 있는 수학적 모델링이 주요한 연구사항이 되었다. 성 문파의 모양과 주기는 매우 다양하게 변한다. 이런 변화가 음성의 자연성과 음질에 어느 정도 영향을 미
치 는가는 중요한 연구과제이 다. 일 반적으로 합성 기 에서는 一 12db/octave 의 특성을 가지는 고정된 형 태의 성문파를 사용하는데 실제 성문파의 특성을 복 제하는데 유연성이 없으므로 합성음의 자연성이 떨 어지게 된다.
여기서는 삼각파 모델의 특성분석과 이미 제안된 Rosenberg model, Hedelin model, Fant model, Fujisaki model 들을 비교검토한다.
A. 삼각파 모델
일반적으로 중간정도의 피치와 세기를 가진 음성 의 환경에서 성문파가 二 모양에서 삼각파로 근사화 시킬 수 있다. 그러므로 삼각파의 스펙트럼 특성이 유성음원과 관련성을 가지고 있다. Dunn, et al. 이
그림 17. K=l, K=ll/12인 두 삼각파의 크기 스펙트럼
실제 성문파의 파형고 } 스펙트럼과의 관계에 대해 상 세히 연구를 수행하였다. 그림 16 과 간은 삼각파의 경우 Laplace 변환은
(26)
스펙트럼의 zero 는
(eTK+m"-(K+i)eF+K)=() (27)
식에 서 子하게 된다. x=e 「 g 이라 두면
x=ef"=e —(28)
k=l 일때와 k = ll/12( 혹은 12/11) 일때의 |F(jw) I
의 스펙드럼크기를 림 17에 나타대었다. 그림 17 은
삼각파가 대칭일때 스펙트럼이 sin- x/x: 의 모양을
口이 乂 비대 칭으로 변하면 스펙트럼상의 -苦짜기를
성문파의 추정법
91메꾸는 현상이 일어남을 보여준다. 그리고 대칭성이
조금만 변해도 스펙트럼이 크게 변함을 알 수 엿1 다.
5
그림 18. 각 성문파 모델에 의한 성문파형
B. 삼각파 모델과 변형된 모델과의 특성비교 삼각파의 경우에는 일차 미분치의 불연속점이 3개 이다. 반일 rounding 이나 smoothing 으론 이러한 불 연속점을 제거하면 어떤 효과가 나타날까? 예로서 half sine, half ellipse, raised cosine# 사용할 겅 우 앞 2 개는 2 개의 불연속점을 가지고 나머 지 하나;: 불 연속점이 읍 1다. 이들의 스펙트럼 특성은
Half-sine wave
f(t)=a sin Pt , OMtw 节 「, 8= 끄
—0. 이 sewhere (29)
F("b%](l+e 皿")
zero 는
“ ,= 土( 2 쯔 1> 兀 =±(2n+l ) 艮 n=l,2,
H 시 ftllipse
玖)" 丄 T씀)T,프
= 0, 이 sewhere (30)
FS)— g/2 zero 는
이 "이
Raised cosine
f(t)=a(l-cos 從),(比槌-於, 0= 粤
=0, elsewhere (31)
F 霸 项 M 赤 j](l+"“)
zerov?
士 邸=士 . n-2,3» --
이 결과 rounding 이나 펄스의 모양에 작은 변화도 zero 패턴과 성문파의 스펙트럼에 큰 영향을 미침을 알 수 있다.
C. 성문파의 zero 가 인지에 미치는 영향
성문파의 모양과 주기는 매우 다양하게 변한다. 이 런 변화가 음성의 자연성고 !■ 음질에 어느 정도 영향을 미치는가는 중요한 연구과제이다. 만일 성문파의 zero 가 포반트 주파수와 가까이 위치하게 되면 스펙 트럼을 변화시키고 따라서 인지에도 영향을 미친다.
성도 자극음은 연속음에서 :
i-파형 이 매 우 빨리 변하 口一로 인지에 영향을 줄 정도로 오래 안정되지 않는 다. 「 z 리 고 발성 자는 청 각의 feedback 을 통해 서 포만 트 주파수의 워하지 않는 억압을 최소화하도록 성무 파를 교정한다. Rosenberg 의 정형화된 성문파를 이 용한 합성음의 청취실험 설과는 성문파의 세부적인 부분을 제기해도 음질의 저하匕 가져食지 않음을 보 인다. 또한 매 주기마다의 상세한 파형보다는 몇주기 에 걸친 평균값의 변화가 인지에 더 중요한 영향을 미 침을 보인 匸 卜.
D. 기존 성문파 모델
가. Rosenberg mod이과 Hedelin model
Rosenbergvr 성분파의 진폭, 지속시간, 기울기 (skew)의 변中들을 사용해서 2 개의 trigonometric segment-^2^ 个 학석 모델을 만들었다. 여기에 싱문
의 저주파. drift 를 「 "가한 것이 Hedelin 모델이며 LPC-vocoder에 이용하였다.
나. Fant model
음원과 필터의 곱으로써 음성 신호를 정의하는 것
근 이론 석이 세 한이 잉 나. 성 대 시독에 서의 必 圣 석
음향적 작용을 무시하더라 攵 , 이떻기 I 윰욱"가 필터의
함수적 관케와 기능을 구분해야 하는지에 대한 문제
에 접하게 도1다. 음원을 정의하는 한가지 방법은 싱
노 임피이넌스를 난르匕회로로 보았을 때 성분을 통한
volume velocity투 정의될 수 있고, 이 성문 흐름
92 韓國音響學會誌11卷2 號 (1992)
(32)
(33) (glottal flow) 은 성도 공진(vocal tract resonance) 의 진동 요소(oscillatory component)들을 포함하고 있기 때문에, 이 방법으로 정의된 음원은 필터 함수 에 종속적이라는 것이 명백하다. 이 성문파를 다음과 같이 모델링 할 수 있다.
성문이 개방될 때
U=-^Uo(l-cosco gt)
성문이 닫힐 때
U=Uo[K cos(a ) gt — 兀)一 K+1]
다. Ananthapadmanabha model
위의 모델들에서 중요시했던 연속성을 지키기 않 을 경우 문제점이 발생한다. 그런데 이러한 효과 (conner effect) 는 예외적이라기 보다는 일정한 법칙 에 가깝다는 것이 밝혀 졌다. 이에 따라 파라볼릭 함 수로 모델 링 한 terminal return phase 를 변수에 포함 시켜 모델링 한 것이 Ananthapadmanabha 모델이다.
라 、LF(Liljencrants F"t)mod이
LF 모델에서 고려되어지는 변수들 Tp, Te, Ta, Ee 가 주어졌을 때 이로부터 성문파를 유일하게 결정 할 수 있다.
성문이 개방될 때
E(t)=Ey sin cogt (34)
성문이 닫힐 때
E(t)=[ 户 〔Lt-te) _eY(tcf)] (35) C La
다h Fujisaki model
성문파의 미분치가 다항식(polynomial) 의 seg- ment 들로 구성되어지는 모델을 제안했는데, 이 모델 을 이용하면 변수들의 수를 확장하기가 쉽고, 모델링 에서의 레벨수를 자세히 나타낼 수 있다. 대부분의 모델에서 open phase duration(W), pulse skew(s), time interval from glottal closure to maximum negative flow(D)를 제어하는 3 개의 시 간 변수들을 가지고 있으며, 또한 성문 개방시의 경사(A), 성분이 닫힐 때의 경사 (B), 성문이 닫혀가는 부분의 경사 (C) 를 제어하는 3 개의 진폭들을 가지고 있 匸 " 여기서
A 변수는 다른 모델들에서 공통적인 것은 아니지만, 제안된 성문모델들을 비교 검토하면서, Fujisaki 모 델과 같은 새로운 성문파모델의 특성을 개방시 중요 한 변수들이 되므로 이것을 포함시킨다. 이 모델의 수식은 식 36 과 같다. 이 성문 모델을 도입하면 기존 의 LPC에 서 약 3~4dB 의 prediction error 가 감소한 다.
g(t) =2 A+Ra t 2 o<t<R
라
K K
=a(t-R)+ 3Bf? E^ (t-R) - 线 普 (t-R)3 R<t<W
=C — 2£ 늠® (t—w )+ 切 (t-W 2)
WCtVW+D
다 况 — 4AR-6FB n____ CD ___ (36) 단, a— F2— 2R2 , P~ d -(T-W)
그림 16. 삼각파를 이용한 성분파의 근사.
V. 결 론
지금까지 성문파의 물리적, 생리적 생성원리, 음향 학적인 추정, 역필터를 이용한 추정, 무반향관을 이 용한 추정 그리고 음운환경 및 발성자에 따른 특성변 화등에 관해 정리 기술하였다.
본 연구를 통하여 유성음원의 속성과 추정방법 및
특성변화를 보임으로써 합성음의 다양함, 즉 자연성
과 개인성 구현을 위해서는 음원의 정확한 추정이 필
수적임을 알 수 있다. 아직까지 국내에서는 성문파에
대한 관심이 부족했던게 사실이지만 텍스트 형태로
저장된 데이타베이스를 엑세스해서 음성으로 서비스
해주는 음성출력부 개발이나 자동통역전화 개발에
필요한 원천기술로서 연 亍 개발의 활용도는 매우 높
다.
성문파의 추정법 93
따라서 앞느-로는 한국어를 대상으로 유성음원의 추정과 분석, 그리고 이의 모델링과 구현에 대한 연 구가 절실하다고 생각된다.
참 고 문 헌
1. R.L. Miller, “Nature of the vocal cord waves,"
J.Acoust, Soc- Amer.,
vol.31, pp.667-677. 1959.
2. D. Y. Wong, J. D. Makel, and A. H. Gray, Jr.
"Least squares glottal inverse filtering from the acoustic speech waveform,M
IEEE Trans. Acoiist., Speech, Signal Processing,vol. ASSP-27, pp.350-355, Aug. 1979.
3. J. D. Mark이 and A. H. Gray, Jr.,
Linear Predicion of Speech.New York : Springer, 1976.
4. M. M. Sondhi, "Measurement of the golttal waveform,M
J. Acoust. Soc. Amer.tvol.57, pp.228-232, 1975.
5. J. L. Falnagan,
Speech Analysis, Synthesis and Perception,
Second Edition, New York : Springer Verlag, 1972.
6. R. B. Monsen, A. M. Engebretson, “Study of
variations in the male and female golttal wave,"/.
Acoust. Soc. Amer.,