사운드
2
사운드
1. 사운드의 기본 개념 2. 사운드 신호 변환 3. 사운드 데이터 코딩 4. 입체음향
5. 미디(MIDI) 6. 음성인식
3
1.사운드의 기본 개념
사운드의 기본 개념
주파수와 사운드 강도
푸리에 분석
사운드의 기본 개념
• 원리
– 물체의 진동으로 인해 일어나는 물리적 현상
• 예) 바이올린 현을 켜거나 심벌즈를 부딪칠 때 나는 진동
• 물리적 원리
– 물체의 진동이 주변 공기로 퍼지면서 형성된 압력이 가해지 면서 생성
• 파형
– 일정 간격으로 같은 패턴을 반복하는 압력의 파동 모양
한 주기 (one period) 공기압
(air pressure)
시간의 경과 진폭 (amplitude)
한 주기 (one period) 공기압
(air pressure)
시간의 경과 진폭 (amplitude)
사운드의 기본개념
• 주기
– 같은 파형이 한 번 나타나는 데 소요되는 시간
– 주기적인 형태의 사운드(periodic sounds)
• 인지할 수 있는 주기성을 갖는 사운드 – 악기, 성악, 바람 소리, 새의 지저귐
– 비주기적인 형태의 사운드(non-periodic sounds) – 기침, 재채기, 노이즈, 물이 흐르는 소리
• 주파수 (frequency)
– 1초당 주기 수, 주기 값의 역수
• 사람의 가청 주파수 대역폭 : 20 Hz ~ 20 kHz – 음악 사운드 및 음성의 주파수
– 대역폭은 동물마다 다름 : 예) 박쥐
• 사운드 신호의 변조, 하드웨어 설계, 사운드 데이터 처리에 이용 – 샘플링
• 아날로그 신호를 디지털 데이터로 변환
– 샘플링 : 일정한 시간 간격으로 알아낸 아날로그 신호의 크기를 디지털 데이터의 형태로 저장
• 원래의 신호가 갖는 주기보다 2 배 이상 빠른 주기로 샘플링 하면 원래 신호와 거의 차이가 없는 사운드 정보를 얻게 됨
– 예) CD : 1 초에 44.1 k 번(44.1 kHz) 샘플링
사운드의 기본개념
주파수와 사운드 강도
• 주파수
– 초당 주기 수(Hz) 또는 초당 사이클(cycle) 수(cps)
주파수 영역별 구분
구분 해당 범위
초 저주파(infrasonic) 0 ~ 20 Hz 인간의 가청 영역(audiosonic) 20 Hz ~ 20 kHz 초음파(ultrasonic) 20 kHz ~ 1 GHz 극 초음파(hypersonic) 1 GHz ~ 10 THz
주파수와 사운드 강도
• 사운드 강도(intensity)
– 심리적인 요인을 배제한 물리적인 사운드의 크기
• 세기(loudness) : 심리적으로 느끼는 사운드의 크기
– 데시벨(decibel)
• 사운드 강도를 표현하는 기준 단위
• 고통 임계값 (threshold of pain) : 100 dB ~ 120 dB
dB = 20 log10(A / B)
푸리에 분석
f(t) = A sin at + B sin bt + C sin ct + D sin dt + E sin et + . . .
-f(t) : 함수(시간 t에 따른 기압, 기체 밀도 등의 변화를 나타냄) - A, B, C, D, E, … : 상수(진폭을 나타냄)
-a, b, c, d, e, … : 상수(진동수)
• 푸리에 분석
- 복잡한 형태의 파형도 진동수와 진폭이 다른 여러 개의 사인곡선 (파형)들의 합으로 나타낼 수 있음
푸리에 분석
• 스펙트럼
– 푸리에 (Fourier) 분석을 이용해 아날로그 신호를 여러 개의 다양한 주파수와 진폭을 갖는 스펙트럼 인자로 분해
진폭 (amplitude)
시간 아날로그 파형
아날로그 신호를 푸리에 분석한 경우
푸리에 분석
• 각 스펙트럼 인자들을 중첩(superimpose)시키면 분석되기 이전의 원래의 파형 모양에 근사
– 스펙트럼 인자들의 개수를 증가시키거나 더 큰 주파수 범위에서 스펙트럼 인자들을 구하면 더 정확한 파형 모 양을 얻을 수 있음
• 다양한 응용분야에 접목(푸리에 분석을 이용, 고차원의 사운 드 처리 기법들을 다룸)
12
2.사운드 신호의 변환
사운드 신호의 변환
컴퓨터의 소리 신호 처리
샘플링
나이키스트 정리
양자화
부호화
사운드 신호의 변환
• 아날로그(Analog) 신호의 특징
– 소리와 빛, 전류, 전압 등과 같이 선형적인 값을 갖는 연속된 물리량 형태의 신호
– 신호를 미세한 단위로 조정 가능 – 신호의 처리속도가 빠르다
– 잡음에 의해 신호가 변한다
• 디지털(Digital) 신호의 특징 – 불연속적인 값을 갖는다
– 0과 1의 조합에 의하여 표현 – LP 음반과 CD 음반의 차이
– 디지털로 변환되지 않은 데이터는 처리가 불가능
컴퓨터의 소리 신호 처리
• 아날로그 신호를 디지털 형태 신호로 변조(modulation) – ADC(analog-to-digital converter) 변환장치 사용
– 샘플링(sampling, 표본화) 과정과 양자화(quantization) 과정을 수행 – 양자화 비트 수에 해당하는 0과 1이라는 디지털 숫자로 변환된 디지
털 형태의 데이터로 출력
• 재생
– DAC(digital-to-analog converter) 이용
샘플링(SAMPLING)
• 아날로그 형태인 소리를 컴퓨터나 디지털 음악장비에서 사용하기 위해 디지털 형태로 변환(sampling)하는 작업
– 연속된 파형의 형태 신호를 세분하여 디지털 신호로 변환 – 변환된 신호는 샘플(sample)
– 샘플링 비율(sampling rate): 1초 동안 취한 샘플의 수
• 샘플수가 클수록 고음질
• 원음에 가까운 소리를 내기 위해서는 그 소리 주파수에 두 배 정 도로 샘플링
• 샘플링 비율이 높을수록 기억되는 데이터의 양은 증가 – 단위:헤르츠(Hz)
나이키스트 정리(Nyquist theorem)
• 표본화 시 원음을 그대로 반영하기 위해서는 원음이 가지는 최고 주 파수의 2배 이상으로 표본화 해야 하다는 것.
• 음악 CD인 경우 표본화 율이 44.1KHz이고 여기서 재생할 수 있는 최고 주파수는 22.05KHz임(사람의 귀는 20KHz 이상의 사운드는 감 지할 수 없음)
양자화(Quantization)
• 이산적인 값으로 표현하는 것
• 가공, 저장, 전송하기 좋은 디지털 신호 생성
• 샘플링 된 함수 값은 연속적인 실수 값이지만 이를 8bit, 16bit 등으로 양 자화하게 된다.
• 양자화 오차 (Quantization error) – 변환과정에서의 오차를 말함.
– 디지털 level 수를 조절함으로써 적절한 수준의 양자화 에러를 유지
• 출력 레벨의 간격을 양자화 폭 (quantization step size)
• 양자화 폭의 수는 양자화 비트수에 의해 결정
아날로그 신호의 양자화
양자화(Quantization)
– 양자화 잡음(quantization noise)
• 샘플 크기로 표현 가능한 정수 중 가장 가까운 값으로 라운드오프 되므 로 발생하는 오차를 말함.
– 양자화 비트 수에 의해 양자화 폭의 수 결정
• 비트 수를 많게 하는 경우
– 원래의 신호를 충실히 부호화 – 많은 기억용량이 필요
– 잡음까지 양자화 될 수 있음.
• 양자화 비트수는 신호 대 잡음비율인 S/N(Signal to Noise)과 사운드 파 형의 최고점과 최저점 사이의 간격을 고려해서 결정
– 고려사항
• 샘플의 실제 크기와 샘플값에 차이가 크면 소음(hissing noise) 발생
• 표현 가능한 값보다 지나치게 높거나 낮은 파형의 값은 무시되는 클립핑 (clipping) 현상이 발생
• 원래의 사운드 고려하여 양자화 실시해야 함.
부호화(Encoding)
• 이진법에 의해 ‘0’과 ‘1’로 상태 표현
• N개의 비트를 사용하면 2N개의 상태 표시 가능
• 부호화하는 과정에서 보통 압축 실시
• N개의 비트 한 조: PCM 워드(Pulse Code Modulation word)
• 통상 8비트가 한 개의 PCM워드
– 음성신호는 256개의 단계(레벨)로 양자화 되기 때문에 각 표본은 8 비트(28=256)로 부호화 됨
20
3.사운드 데이터 코딩
사운드 데이터 코딩
사운드 데이터 코딩 방법에 따른 음질 비교
코딩 기법
사운드 파일 포멧
사운드 데이터 코딩
• 인코딩 (encoding)
– 아날로그 사운드 신호를 디지털 신호로 변환한 후 전송 선로를 통하여 전송하거나 기억 장소에 저장하기 전에 압축하는 과정
• 디코딩 (decoding)
– 전송되거나 기억 장소에 저장된 디지털 신호를 원래의 아날로 그 사운드 신호로 복원하는 과정
• 코딩 기법 – 파형 코딩 – 음원 코딩 – 혼성 코딩
음성의 코딩 방법에 따른 음질 비교
음질
(MOS) 매우 좋음 좋음
보통
나쁨
매우 나쁨
혼성 코딩
파형 코딩
전송률 (Bit Rate) 음원 코딩
2 4 8 16 32 46 음질
(MOS) 매우 좋음 좋음
보통
나쁨
매우 나쁨
혼성 코딩
파형 코딩
전송률 (Bit Rate) 음원 코딩
2 4 8 16 32 46
코딩 기법
• 파형 코딩 (waveform coding)
– 사운드를 1 차원 시 계열(time-series) 데이터로 규정하여 사 운드의 파형 자체를 복원 가능하도록 코딩하는 방법
– 종류:PCM, DPCM, ADPCM
• 혼성 코딩 (hybrid coding)
– 파형 코딩을 이용하여 여기 신호를 생성하고, 음원 코딩을 사 용하여 조음 기관의 공명 특성을 반영하는 정보를 재현
– 적용 사례
• RELP(Residual Excited Linear Prediction),
• MBE(Multi-Band Excitation)
• MP-LPC(Multi Pulse LPC)
• CELP(Codebook Linear Excited Prediction)
코딩 기법
• 음원 코딩 (source coding)
– 인간의 음성 생성 과정을 기본 모델로 하는 음성 코딩 기법 – 장점:몇 개의 파라미터로 코딩 하므로 정보량이 작음
– 단점
• 기존에 개발된 음성 생성 모델이 인간의 음성 생성 과정에 비해 매우 단순함
• 원음으로부터 여기 신호 추출 과정이 어려우므로 고품질 합성음 코딩에 적절치 않음
– 예:미국 표준 부호기인 LPC-10(linear predictive coding), MELP(mixed excitation linear prediction)
– 암호와 방어를 요구하는 군(military) 용 시스템과 비 상용 시스템에서 많이 사용
사운드 파일 포멧
• 사운드 카드
– Analog-to-Digital / Digital-to-Analog Converter 역할
• 오디오 화일 포맷
■ waveform
• MS와 IBM에 의해서 지원 받고 있는 포맷 (wav)
• 압축 없이 사운드 데이터를 저장
■ CD-Audio
• 필립스 사와 소니 사의 공동 연구 결과로 등장한 CD의 사운드 정보를 담기 위해 사용하고 있는 포맷 (cda)
■ Creative Voice
• Creative Lab의 Sound Blaster와 Sound Blaster Pro 오 디오 카드에서 사운드 정보를 저장하는데 사용하고 있는 포맷 (voc)
사운드 파일 포멧
■ MP3
• MPEG-1 Audio Layer-3의 줄임말로, 효과적인 오디오 신호의 사용을 위해 고안된 압축 방식
• 지각 코딩(Perceptual Coding) 기법 사용
– 인간의 감각적인 특성(청각 심리 모델)을 사용하여 감도가 낮은 세부의 정보를 생략하여 코딩량을 절감 하는 방법
• 압축 과정
1. 인 가청 주파수를 32 개의 밴드로 분해
2. 분해된 각각의 신호를 서브밴드 코딩, 변형 이산 코 사인 변환, 허프만 코딩을 통해 다시 코딩 (각각이 18 개의 밴드로 또 다시 분해되므로, 총 576 밴드)
3. 각 밴드에서 가장 강한 음의 성분에 대한 정보만을 선택
사운드 파일 포멧
■ Real Audio
• 네트워크로 데이터를 전송하는 실시간 스트리밍 기술에 의해 만들어진 화일 포맷 (ra, ram, rm)
■ WMA, WMV
• MS사가 만들었으며, 스트리밍을 지원하고 데이터 용량이 MP3의 절반 수준인 화일 포맷 (wma, wmv)
■ VQF
• NTT에 의해서 개발된 오디오 압축 기술(TwinVQ) 로 만들 어진 디지털 화일 포맷 (vqf)
• 원음을 12:1 ~ 96:1 까지 압축할 수 있으며, 스트리밍을 지원
사운드 파일 포멧
■ A2b
– AT&T가 개발한 오디오 화일 포맷으로서, 특허 낸 압축 알 고리즘으로 20:1까지 압축 가능 (a2b)
■ OGG
– MP3에 대항하기 위해 만들어진 무료 음악 화일 포맷 – 5:1~18:1에 이르기 까지 높은 압축율과 다양한 음질을
설정 가능
29
4.입체음향
입체 음향 기술
입체 음향의 원리
입체 음향 생성 방식
공간 전달 함수
30
입체음향 기술
• 서라운드 (Surround)
– 돌비 서라운드(Dolby Surround)가 가장 대표적
– 사람이 있는 위치를 기준으로 사방에서 소리를 들려주는 방식
• 음의 중심점에 있어야 입체감을 적절히 느낄 수 있음
• 공간감, 입체감
– 3 채널, 4.1채널, 5.1채널 등이 있음
• 0.1은 서브우퍼(Subwoofer)를 의미
Surround System (5.1채널)
31
입체음향 기술
• 입체 음향(Interactive 3D Sound)
– 음원과 청취자 간에 상대적인 위치를 계산하여 사운드를 출력 – 청취자와 상호작용이 가능
• 사용자의 이동이나 반응, 또는 음원의 이동에 따라 소리가 입체적으로
• 상호작용이 필요한 가상 현실이나 게임에서 많이 사용
– Creative사의 EAX, Aureal사의 A3D, 마이크로소프트사의 Direct 3D Sound에서 지원
32
입체음향의 원리
• 입체음향(Interactive 3D Sound):
– 재생된 음향을 들었을 때 음향으로부터 공간적 단서(방향감, 거리감, 공 간감)를 지각할 수 있는 음향
• 소리의 전달 경로
– 공간 전달계(외부) :
• 실내의 벽이나 천장 등에서 전달
– 머리 전달계(내부) :
• 인간의 머리와 귓바퀴에서 전달
• 음원에 대한 공간적 단서
– 두 귀에 들어오는 두 신호간의 차이 때문
33
입체음향의 원리
• 공간적 단서
– 두 귀에 도달하는 소리의 시간차(IDA: Interaural Time Difference) – 두 귀에 도달하는 소리의 세기차(IID: Interaural Intensity Difference) – 그 외 시각적 효과, 머리의 움직임, 소리의 종류에 따른 친숙도 등에 의
해 차이가 있음
소리의 시간차 소리의 세기차
출처:멀티미디어 배움터2.0(생능출판사),p143
34
입체음향의 생성 방식
• 입체 음향은 청취자와 음원 간의 위치 정보를 이용하여 생성
• 음원과 청취자에 대한 위치의 변화에 따른 소리를 생성하기 위해서는 먼저 청취자와 음원 간의 위치를 반영한 소리를 녹음한다.
• 녹음된 소리로부터 머리 전달함수(HRTF)를 이용하여 입체 음향을 생성
• 특정 장소에 따른 입체 음향을 생성하기 위해서는 장소에 따른 머리 전달함 수(HRTF)와 공간 전달함수(RTF)를 이용
35
(1) 음을 녹음하는 방법
– 가짜 머리(Dummy head) 양쪽 귀에 마이크로폰을 설치하고 음원을 이 동시키면서 소리를 녹음하는 방식
실제 사용되는 가짜머리 최적의 서라운드 시스템
36
입체음향의 생성 방식
(2) 입체음을 생성하는 방법
• 머리 전달함수(HRTF: Head-Related Transfer Function)
– 무반향실 내에서 가짜 머리를 이용하여 여러 각도에서 배치한 스피커에 서 나오는 음들을 녹음하여 푸리에(Fourier) 변환한 것
– 머리 전달 함수는 소리가 들어오는 각도에 따라 달라지기 때문에 여러 위치에서 나오는 음들에 대해 머리 전달 함수를 측정하고 이를 데이터 베이스로 구축
37
공간 전달 함수
• 공간 전달함수(RTF: Room Transfer Function)
– 특정 장소에 따른 공간의 크기, 구조, 벽 또는 천정 재질 등에 의해 음원 에 대한 직접음, 초기 반사음, 잔향 패턴 및 잔향 시간 등이 달라짐
– 특정 장소의 효과를 생성하기 위해서는 무반향실이 아닌 특정 실내에서 머리 전달 함수를 측정해야 함
– 특정한 장소에서 측정한 머리 전달함수를 공간 전달 함수라고 함
– 이를 이용하여 특정한 장소에 대한 가상의 음장(음원을 둘러싸고 있는 공간)을 생성할 수 있음
– 실제로 원하는 입체음을 생성하기 위해서는 단순음을 머리 전달함수와 공간 전달함수를 이용하여 변형시킴
38
5.미디
미디
미디 장치의 처리과정
미디 규약
미디 표준 모드
미디 (Musical Instrument Digital Interface)
• 각 악기들이 일관된 표준 인터페이스를 따름으로써, 서로 다른 회사의 악기들을 연결하여 연주할 수 있도록 함
• 구성요소
– 하드웨어 연결(connect)
• 미디 장치 사이의 연결이나 전자 신호를 다루는 미디 케 이블
– 데이터 포맷
• 음악 연주 정보의 코딩과 미디 메시지
미디장치(Device)
• 미디 표준(하드웨어 연결 및 데이터 포맷)을 만족시키며 채널 을 통해 미디 표준을 만족하는 다른 기기(악기)들과 통신할 수 있는 기기(악기)들을 총칭
• 신디사이저(synthesizer)
– 일반적으로 키보드(건반) 인터페이스를 통해 음을 합성하는 하드웨어
– 최근에는 키보드와 음원 모듈이 분리된 형태로 제 공됨
– 포터블 키보드 v.s. 마스터 키보드 (미디 제어 기능 이 탁월)
• 샘플러
– 임의의 자연 사운드를 파형으로 받아, 미디 악기의 음원으로 사용하는 기기
미디장치(Device)
– 미디 인터페이스
• PC, 마스터 키보드, 미디 음원 모듈을 연결시켜 주는 미디 장치
• 컴퓨터 주변 장치 변화에 따라 USB포트용 미디 인터페이스, 블 루투스를 기반으로 한 무선 미디 인터페이스 등이 개발 또는 출 시 중에 있음
– 시퀀서
• 신디사이저가 컴퓨터로 보낸 음악 데이터를 편집할 수 있는 미 디 프로그램(작곡용 프로그램)
• 요즘은 단순 미디 만을 연출하지 않고 오디오 및 비디오를 합성 접목하고 있음
– 소프트 신디 사이저
• 컴퓨터에 내장되어 있는 소프트 신디 사이저 – Microsoft® 의 GS Wavetable
• 사운드 카드에 내장되어 있는 소프트 신디 사이저
• 가상 소프트웨어 신디사이저 : CPU를 이용해 PCM 데이터를 디 코딩 함
미디장치(Device)
• 미디 네트워크 구성
– 커넥터에 의한 하드웨어 연결
• 신디사이저, 미디 인터페이스, 컴퓨터, 미디 음원 모듈, 스 피커, 믹서, 이펙터 등
• 연결 방법
– “In”, “Out”, “Thru”
미디장치의 처리과정
미디장치
-음의 입력 : 미디 장치 에서 음을 발생 ⇒ 미디 인터페이스 카드 ⇒ 컴 퓨터로 전송
-음의 처리 : 컴퓨터에 서
미디 프로그램(시퀀서 등)으로 편집
-음의 출력 : 컴퓨터 ⇒ 미디 인터페이스 카드
⇒ 신디사이저 등의 미 디 장치를 통해
스피커로 출력
미디규약
• 미디 메시지 전송 방법과 미디 메시지의 의미를 규정
• 미디 코드(code) : 미디 메시지를 처리하는 Byte 단위 – 상태 Byte와 데이터 Byte로 구성 : MSB로 구분
• 미디 메시지 = 1 개의 상태 Byte + 0~2 개의 데이터 Byte로 구성
• 상태 Byte는 상위 4 bits(채널 메시지) 와 하위 4bits(채 널)로 나뉨
• 데이터 Byte는 상태 Byte에 따라 설정됨
• 10bits = 전송 시의 동기화를 위한 2 bits + 미디 코드 Byte (8bits)
– 31.250 KBaud(bps)로 미디 네트워크에 방송(broadcast)
45
미디 표준 모드
• 미디에는 최소한의 규정만 있을 뿐 악기 번호에 대한 것과 이펙터 (음을 연주할 때 특수한 효과를 주는 것)를 조정하는 방식 등에 관한 규정이 없음
– 예를 들어 A라는 사람은 악기번호 1번에 바이올린을 할당하여 곡 을 만들었는데 그 곡을 B라는 사람이 듣는데 B라는 사람의 환경 은 악기번호 1번에 피아노가 할당되어 있다면 이상한 소리가 연 주 됨
• MIDI 악기 제조업체들의 모임인 JMSC와 MMA에서 채널벌로 악기를 할당하는 방식을 규정 GM(General MIDI)
• Roland사에서 GM을 좀 더 확장
: GS (General Synthesizer, General Standards)
• Yamaha사에서 GS에 대항하기 위해 발표
: XG (eXtended General, eXtension of General MIDI)
46
6.음성인식
음성 인식
음성 인식 과정
음성 인식 기술
음성 인식
• 음성 인식과정
– 음성에 포함된 언어적인 정보를 추출하여 컴퓨터가 이해할 수 있 는 표현 방법으로 변환하는 과정
– 사람의 억양과 음의 높낮이가 서로 다르다는 특성에 기인한 방식
• 음성 인식 과정 : 화자에 의해 발성된 음성이 여러 단계를 거쳐 최종 적으로 컴퓨터에 의해 인식되는 것
– 전처리 (preprocessing)
• 음성 신호로부터 의미 있는 음성 구간을 검출하고, 음향학적 인 파라미터로 변환
– 분할 (segmentation)
• 인식을 위해 정의된 인식 단위로 입력된 음성을 잘라내는 것 – 인식 (recognition)
• 분할된 음성 단위들을 인식하는 것
음성 인식 과정
음성 인식 과정
전처리
( 특징 추출) 분할 인식 과정
표준패턴 훈련 과정 생성
인식 결과 음성 입력
음성 인식기 훈련 과정
전처리
( 특징 추출) 분할 인식 과정
표준패턴 훈련 과정 생성
인식 결과 음성 입력
음성 인식기 훈련 과정
음성 인식 기술
– 화자 종속
• 특정 화자의 음성을 인식하기 위한 시스템
• 현재 휴대폰에 탑재되어 사용되는 음성 다이얼링(voice dialing) 시스템 이 대표적
– 화자 독립 시스템
• 불특정 다수 화자의 음성을 인식하기 위한 것
• 화자의 음성을 수집하여 통계적인 모델을 학습
• 학습된 모델을 이용하여 인식을 수행
– 화자간에 공통적으로 나타나는 특성이 부각
– 음성·텍스트 변환(full speech-to-text conversion)의 실현
음성인식 시스템의 원리
음성 인식 기술
– 발음의 형태에 따라 고립어 인식 시스템과 연속어 인식 시스템으로 분류
– 고립어 인식 시스템
• 고립 단어, 즉 각 단어를 끊어 읽는 경우에서의 음성 인식
• 음성 다이얼링이 고립단어 인식의 좋은 예 – 연속어 인식 시스템
• 연결단어, 연속 문장 및 대화체 음성을 인식할 수 있는 시스템으 로 문장 단위로 인식을 수행하는 시스템을 의미
• 단어의 특성이 인접한 단어의 발음에 의하여 영향을 받는다.