3장
사운드 (SOUND)
김성영교수 금오공과대학교 컴퓨터공학부
학습 목표
사운드의 의미와 기본 요소를 설명할 수 있다.
디지털 사운드로의 변환 과정을 설명할 수 있다.
디지털 사운드의 부호화 방법을 구분하여 설명할 수 있다.
디지털 사운드의 압축 방법을 구분하여 설명할 수 있다.
심리 음향의 특징에 대해 설명할 수 있다.
입체 음향의 원리 및 방식에 대해 설명할 수 있다.
개요
3
사운드(sound)란 무엇인가?
귀로 들을 수 있는 모든 정보를 의미함
물체의 진동(vibration of material)에 의해 발생하는 물리적 현상
공기 분자의 진동을 나타내는 하나의 파형
종의 진동 공기압의 변화 고막의 진동
기본요소 (Primitive)
주파수 (Frequency)
소리의 높낮이
진폭 (Amplitude)
소리의 크기
음색 (Tone Color, Timbre)
음의 특징 (고유한 소리의 특징)
음압
시간 주기
진폭
주파수 (Frequency) : 1
5
초당 사운드 파형의 반복횟수 (Hertz, HZ)
주기와는 역수 관계
주파수가 높으면 고음, 주파수가 낮으면 저음
1 초
주파수: 1Hz
1 초
주파수: 4Hz
음계 라(A3) 시(B3) 도(C4) 레(D4) 미(E4) 파(F4) 솔(G4) 라(A4)
주파수 220 250 262 294 330 349 392 440
주파수 (Frequency) : 2
음계 주파수= 'A'의 주파수 x 2(N/12) (A: '라' 음, N: 1~12)
음계 음계 주파수
A 라 220Hz
A♯, B♭ ♯라, ♭시 220*21/12= 233
B 시 220*22/12= 250
C 도 220*23/12= 262
C♯, D♭ ♯도, ♭레 220*24/12= 277
D 레 220*25/12= 294
D♯, E♭ ♯레, ♭미 220*26/12= 311
E 미 220*27/12= 330
F 파 220*28/12= 349
F♯, G♭ ♯파, ♭솔 220*29/12= 370
G 솔 220*210/12 = 392
G♯, A♭ ♯솔, ♭라 220*211/12 = 415
주파수 (Frequency) : 3
7
주파수에 따른 분류
저주파음(Infrasonic): 0 to 20Hz
가청음(Audiosonic): 20Hz to 20kHz
초음파음(Ultrasonic): 20kHz to 1GHz
사람이 낼 수 있는 주파수 대는 약 100Hz ~ 6KHz 임
사람의 청각은 1KHz ~ 6KHz 에 가장 민감함
순음
하나의 주파수로만 이루어진 소리
진폭 (Amplitude) : 1
파형의 기준선에서 최고점까지의 거리
소리의 크기와 관련 있음
진폭 (Amplitude) : 2
9
소리의 크기는 음압 변화의 비율로 표현
사람의 귀는 소리 크기의 변화보다 변화의 비율(logarithm)에 영향을 받음
최소 음압: 20 X 10-6Pascal
최대 음압: 20 X 101Pascal
bel: 소리 크기(음압)에 대한 단위
실제 사용시에는bel 값을 10배 한 decibel을 사용
진폭 (Amplitude) : 3
음압 레벨 (dB) = 10 x 2 x log10 (P/P0)
P0: 기준 음압, P: 현재 음압
최소 가청 음압: 10x2xlog{(20x10-6)/(20x10-6)} = 0 dB
최대 가청 음압: 10x2xlog{(20x101)/(20x10-6)} = 140 dB
음압 레벨(dB) 사운드
0 사람이 감지할 수 있는 최소 소리
10 조용한 숨소리, 나뭇잎 바스락 소리
20 매우 조용한 방
40~60 1m 정도의 거리에서 일상적인 대화 소리 60~80 10m 정도 거리에서 지나가는 자동차 소리 80~90 10m 정도 거리의 번잡한 거리의 소리
100 1m 정도 거리의 공기 드릴 소리 110~140 100m 정도 거리의 제트 엔진 소리
150 30m 정도 거리의 제트 엔진 소리
음색 (Tone Color, Timbre)
11
기음 혹은 기본 주파수 (fundamental tone)
소리의 높낮이를 구분할 수 있는 기본이 되는 주파수
배음 혹은 고조 주파수 (harmonic overtone)
기음의 정수배가 되는 주파수
기음과 배음의 구성이 음색을 결정짓는 중요한 요소임
1
Hz 2
Hz 3
Hz 4
Hz
기음 1차 배음 2차 배음 3차 배음
1초
기음과 배음
학습 목표
사운드의 의미와 기본 요소를 설명할 수 있다.
디지털 사운드로의 변환 과정을 설명할 수 있다.
디지털 사운드의 부호화 방법을 구분하여 설명할 수 있다.
디지털 사운드의 압축 방법을 구분하여 설명할 수 있다.
심리 음향의 특징에 대해 설명할 수 있다.
입체 음향의 원리 및 방식에 대해 설명할 수 있다.
아날로그 신호와 디지털 신호
13
아날로그 (Analog) 신호의 특징
아날로그란 소리와 빛, 전류, 전압 등과 같이 선형적인 값을 갖는 연속된 물 리량 형태의 신호를 의미함
신호를 미세한 단위로 조정 가능함
신호의 처리속도가 빠른 장점이 있음
잡음에 의해 신호가 변하는 단점이 있음
디지털 (Digital) 신호의 특징
디지털이란 불연속적인 단계의 값을 갖는 신호를 의미함
데이터에 가공 및 변환이 용이함
데이터 가공 단계에서 열화가 발생하지 않음
디지털 사운드로의 변환
ADC(analog-to-digital converter) 변환장치 사용
아날로그 사운드의 디지털 변환 단계
표본화(Sampling), 양자화(Quantizing) 및 부호화(Coding)
아날로그 신호와 디지털 신호 간의 변환 과정
표본화 (Sampling) : 1
15
아날로그 파형을 디지털로 변환하기 위해 표본을 취하는 과정
표본화율(Sampling Rate)
1초 동안에 취한 표본수를 의미
단위는 주파수와 같은Hz를 사용
(a) 아날로그 파형 (b) 표본화된 파형 아날로그 사운드의 표본화
표본화 (Sampling) : 2
표본화율이 높을수록 원음에 가까운 음으로 디지털화 되지만 데이터 양이 증가
표본화 율의 차이
22,050Hz
44,100Hz
표본화 (Sampling) : 3
11,025Hz
22,050Hz
44,100Hz
표본화 (Sampling) : 4
Hz의 의미
주파수: 1초 동안의 주기의 반복 횟수
표본화: 1초 동안의 표본화 횟수
나이키스트 정리 (Nyquist theorem)
표본화 시 원음을 그대로 반영하기 위해서는 원음이 가지는 최고 주파수의 2배 이상으로 표본화
음악CD인 경우 표본화 율이 44.1KHz이고 여기서 재생할 수 있는 최고 주파 수는22.05KHz임(사람의 귀는 20KHz 이상의 사운드는 감지할 수 없음)
양자화 (Quantization) : 1
19
디지털 형태로 표현할 때 정밀도의 정도를 결정하는 단계
음의 해상도: 값을 표현하는 정밀도 (Sampling Resolution)
양자화 (Quantization) : 2
표본화된 데이터를 위해 사용되는 비트 수를 결정
8 bit 양자화 → 256 단계, 16bit 양자화 → 65536 단계
3단계 양자화 5단계 양자화
양자화비트: 16비트
양자화비트: 4비트
양자화 (Quantization) : 3
21
양자화 오차(Quantization error) 발생
원래 신호와 양자화된 값 사이의 차이를 의미함
디지털 레벨(비트 수)을 조절함으로써 적절한 수준의 양자화 에러를 유지
부호화 (Coding)
표본화 및 양자화된 데이터를 디지털 형태로 표현하여 사운드 파일 에 저장하는 과정
사운드 파일은 크기가 크기 때문에 부호화한 과정에서 일반적으로 압축 과정을 수행
PCM, DPCM, ADPCM, DM, MPEG 등의 압축 방법 사용 가능
학습 목표
23
사운드의 의미와 기본 요소를 설명할 수 있다.
디지털 사운드로의 변환 과정을 설명할 수 있다.
디지털 사운드의 부호화 방법을 구분하여 설명할 수 있다.
디지털 사운드의 압축 방법을 구분하여 설명할 수 있다.
심리 음향의 특징에 대해 설명할 수 있다.
입체 음향의 원리 및 방식에 대해 설명할 수 있다.
PCM
Pulse Coded Modulation
입력된 값 그대로를 기록하는 방법 (용량이 큼)
잡음과 간섭에 강하고 전송 중 코딩된 신호를 재생 가능
CD나 DAT(Digital Audio Tape) 등에서 사용
♧ 빨간 선에 해당하는 양이 부호화되는 것
DPCM
25
Differential Pulse Coded Modulation
표본화 된 신호의 차이를 저장하는 방식
Interactive Multimedia Association; IMA
서로 인접한 샘플링 지점의 데이터 값은 크게 변하지 않는 원리 이용
DPCM은 인접한 값과의 차이가 크면 비효율적이 됨
ADPCM
Adaptive Differential Pulse Coded Modulation
인접한 값과의 차이가 크면 비효율적인 DPCM의 단점을 극복하기 위 해 개발됨
적응적 양자화 방법 사용
PCM 대비 최대 4:1 정도까지 압축이 가능
DPCM과 ADPCM의 비교 예제
27
데이터: 8비트, 차이값: 5비트
원 데이터 16 40 89 75 24 32 66 19
DPCM
차이값 16 25 59 30 -36 -8 34 -28 부호화 +15 +15 +15 +15 -16 -8 +15 -16
복호화 15 30 45 60 44 32 47 31
ADPCM
차이값 16 25 50 6 -49 7 33 -46
부호화 +15 +12 +15 +1 -12 +3 +15 -11
복호화 15 39 69 73 25 33 65 21
스케일 x1 x2 x2 x4 x4 x2 x2 x4
ADPCM: 차이값이 범위를 초과하면 스케일은 2의 배수 단위로 증가하며 2회 연속으로 범위 내에 존재하면 감소
121
29
DM : 1
Delta Modulation
DPCM방식과 동작하는 원리는 같으나 두 인접한 표본의 값의 차이를 1비트(DM비트)로 표현
이전 표본값에 대하여 증가하면 1, 감소하면 0, 변하지 않으면 0과 1의 값을 교차하여 전송
미리 정해진 차이 값을 더하거나 빼서 원래 정보를 복원
음질이 중요하지 않은 음성을 전송하기 위해 주로 사용
특징
간단하면서도 진폭이 높은 신호의 잘림(peak-clipping)이 없음
샘플 크기 변화가 갑자기 커질 때DM값이 크기 변화를 따라가지 못하는 slope-clipping 문제 발생
DM : 2
29
ADM
Adaptive DM
차이 정보의 순서에 따라 차이 값의 규모를 변화시킴
p ⅹ q = 1, p > 1 (p, q는 실수)
(+, +), (-, -) : 차이 값의 규모를 키움 → L ⅹ p
(+, -), (-, +) : 차이 값의 규모를 줄임 → L ⅹ q
DM에 비해 원래 데이터와의 오차를 더 줄임
DM과 ADM의 비교 예제
31
데이터: 8비트, p = 3/2, q = 2/3, L = 16
원 데이터 16 40 89 75 24 32 66 19
DM
부호화 + + + + - - + -
복호화 16 32 48 64 48 32 48 32
LDM 16 16 16 16 16 16 16 16
ADM
부호화 + + + - - + + -
복호화 16 40 76 52 16 40 76 52
LADM 16 24 36 24 36 24 36 24
115
95
디지털 사운드 파일의 크기 : 1
파일의 크기 =
표본화률 x 해상도 x 모드(mono=1, stereo=2) x 시간(초)
초당 비트 수(bps) =
표본화률 X 해상도 X 모드
예)
1분 길이의 음악 CD
= 44100 (Hz) x 16 (bit) x 2 (stereo) x 60 (초)
= 84,672,000 bit = 10,584,000 byte = 10.6 MB
CD 한 장에 약 10곡에서 15곡의 음악 저장 가능 (650MB 기준)
디지털 사운드 파일의 크기 : 2
33
표본화률 해상도 모드 bps Data size
(1분당) 음질
11.025KHz 8 Mono 88.2 Kbps 650 KB 전화 22.05KHz 8 Mono 176.4 Kbps 1.3 MB AM Radio 22.05KHz 16 Stereo 705.6 kbps 5.25 MB FM Radio
44.1KHz 16 stereo 1411 kbps 10.6 MB CD
표본화, 양자화 및 모드에 따른 음질의 비교
학습 목표
사운드의 의미와 기본 요소를 설명할 수 있다.
디지털 사운드로의 변환 과정을 설명할 수 있다.
디지털 사운드의 부호화 방법을 구분하여 설명할 수 있다.
디지털 사운드의 압축 방법을 구분하여 설명할 수 있다.
심리 음향의 특징에 대해 설명할 수 있다.
입체 음향의 원리 및 방식에 대해 설명할 수 있다.
μ-law, A-law
35
전화망을 통한 디지털 음성 통신을 목적으로 정한 압축 방식
ITU-T G.711의 companding 알고리즘 (1972년)
8비트를 사용하여 14비트(μ-법칙) 혹은 13비트(A-법칙)와 동일한 음질을 나 타냄
PCM에서의 비선형 양자화 방법을 나타냄
ADPCM 관련 표준
이론적으로 표준화되어 있지만 각 방식간 호환성은 없음
ADPCM 관련 표준
ITU-T 권고 G.721
표본화율은8KHz를 사용하고 차분 양자화 비트 수를 4bit로 압축하여 32Kbps로 전송하는 규격
이 규격의ADPCM 대규모 집적회로가 개발되어 전송 회선뿐만 아니라 음성 사서 함 등에 이용되고 있음
ITU-T 권고 G.722
표본화율은16KHz를 사용하고 차분 양자화 비트 수를 14bit로 압축하여 64Kbps 로 전송하는 규격
종합정보통신망(ISDN)의 64Kbps 디지털 회선 등과의 정합성이 높음
MP3 (MPEG Layer 3)
37
MPEG-1 오디오 부분에 대한 압축을 의미
Layer 1(4:1), Layer 2(6:1~8:8), Layer3(10:1~12:1)
AAC(Advanced Audio Coding) : MPEG-2 오디오 부분
음성 심리학적인 방법인 마스킹(Masking) 효과를 이용
마스킹 효과: 큰소리와 작은 소리가 동시에 발생하면 작은 소리는 들리지 않게 되는 것처럼 어떤 소리에 의해 다른 소리가 가리워지는 현상을 의미
학습 목표
사운드의 의미와 기본 요소를 설명할 수 있다.
디지털 사운드로의 변환 과정을 설명할 수 있다.
디지털 사운드의 부호화 방법을 구분하여 설명할 수 있다.
디지털 사운드의 압축 방법을 구분하여 설명할 수 있다.
심리 음향의 특징에 대해 설명할 수 있다.
입체 음향의 원리 및 방식에 대해 설명할 수 있다.
최소 가청 한계 (Absolute Threshold of Hearing)
39
청각이 감각할 수 있는 음의 최소 레벨
라우드니스(Loudness)
사람은 주파수에 따라서 소리의 크기를 다르게 느낌
등라우드니스 곡선
125Hz 4KHz
마스킹 효과 (masking effect)
41
큰 소리에 가려 작은 소리가 들리지 않는 현상
임계대역 (critical band)
마스킹 현상이 발생하는 주파수 폭을 의미
시간적 마스킹 효과
43
칵테일 파티 효과
동시에 여러 소리가 나는 환경에서도 원하는(특정한) 소리만을 들을 수 있는 현상
선행음 효과
45
소리가 먼저 들리는 곳에 음원이 있다고 판단
선행음 효과 선행음 효과의 활용
사운드 저장 파일 형식
Wav (Wave)
MS사와 IBM사가 PC상의 사운드 표준 형식으로 공동개발
Windows 기반 PC에서 주로 사용
구체적인 압축 방식은 상이할 수 있음
일반적으로PCM, ADPCM방식이 많이 사용되고, 그 외에 Truespeech, μ- Law 등도 많이 사용
Au (Audio)
μ-law 방식으로 압축된 형식으로 유닉스 환경에서 사용
다른 형식으로 변환하기 위한 크로스 플랫폼 형식
Sun이나 NeXT가 표준으로 채택
사운드 저장 파일 형식
47
MP3
압축효과가 뛰어나고, 음질도 우수
인터넷 상에서 음악을 압축하는데 많이 사용
Layer 2는 .mp2, Layer 3는 .mp3의 확장자를 가짐
AIFF/AIF (Audio Interchange File Format)
WAV처럼 샘플링된 디지털 오디오 파일
8비트 스테레오 혹은 모노로 저장되지만 압축되지 않아 파일 크기가 크다는 것이 단점
학습 목표
사운드의 의미와 기본 요소를 설명할 수 있다.
디지털 사운드로의 변환 과정을 설명할 수 있다.
디지털 사운드의 부호화 방법을 구분하여 설명할 수 있다.
디지털 사운드의 압축 방법을 구분하여 설명할 수 있다.
심리 음향의 특징에 대해 설명할 수 있다.
입체 음향의 원리 및 방식에 대해 설명할 수 있다.
입체음향
49
입체 음향이란?
음원이 존재하는 공간에 직접 위치하지 않은 청취자가 재생된 음향 을 들었을 때 음향으로부터 공간적 단서(방향감, 거리감 및 공간감) 를 지각할 수 있는 음향을 의미
영화, TV 혹은 오디오 등에서는 서라운드(Surround) 방식으로 입체 음향을 제공
입체음향
입체음향의 원리
두 귀에 도달하는 소리의 시간차 ( Interaural Time Difference – ITD )
두 귀에 들어오는 소리의 시간 차에 의해 음원의 위치에 대한 방향성을 인 지할 수 있음
가까운 방향에 있는 귀가 먼저 그 소리를 들음으로써 음원의 방향을 알 수 있음
입체음향
51
두 귀에 도달하는 소리의 세기차
( Interaural Intensity Difference – IID )
두 귀에 들어오는 소리의 크기 차에 의해 음원의 위치에 대한 방향성을 인 지할 수 있음
소리의 위치감과 거리감을 알 수 있음
그 외에 사람의 다른 공간적 단서로는 시각적 효과, 머리의 움직임, 소리의 종류에 따른 친숙도 등이 있음
입체음향
서라운드(Surround)
사람이 있는 위치를 기준으로 사방에서 소리를 들려주는 방식으로 공간감 및 입체감 제공 (5.1채널 등)
스테레오와 마찬가지로 청취자가 음의 중심점에 있어야 입체감을 적 절하게 느낄 수 있음
돌비 서라운드(Dolby Surround), AC-3, DTS 등
2.2m
입체음향
53
2채널 방식
2채널 스테레오 저장 방식
전면의 좌, 우 스피커용 2채널, 센터 스피커용 채널, 후방의 신호를 재생하 는 서라운드(리어)채널의 총 4개 채널을 2채널로 변경하여 저장하는 방식 (1982년 상용화됨)
종류
돌비 서라운드(Dolby Surround): encoding technology
돌비 프로 로직(Dolby Pro Logic): decoding technology
입체음향
5.1채널 방식
소리를 각 채널별로 별도 채집, 녹음하기 때문에 재생 시 음장감이 뚜렷
저음 부분이 별도 채널로 구성돼 서브 우퍼로 재생되므로 현장감도 우수
돌비디지털
극장용 사운드 시스템 용도로 개발
홈시어터 시스템도 기본 지원
AC-3(Audio-Code 3)
‘배트맨’에 최초로 도입(1992년)
DTS (Digital Theater System)
DTS Professional Audio Group에서 개발한 시스템
극장에서 상영하는 디지털화 된 음성을 재생하기 위한 시스템 유니버설社의“쥬라기 공원”에 최초로 도입 (1993년)
학습정리 (1)
55
1. 사운드(sound)란 무엇인가?
• 귀로 들을 수 있는 모든 정보를 의미함
• 물체의 진동에 의해 발생하는 물리적 현상
2. 사운드의 기본 요소
• 주파수 (Frequency): 소리의 높낮이
• 진폭 (Amplitude): 소리의 크기
• 음색 (Tone Color, Timbre): 음의 특징
학습정리 (2)
3. 아날로그 사운드의 디지털 변환 단계
• 표본화(Sampling), 양자화(Quantizing) 및 부호화(Coding)
4. 부호화 방법
• PCM, DPCM, ADPCM, DM, ADM
학습정리 (3)
57
5. 디지털 사운드의 압축 방법
• μ-law 및 A-law, ADPCM, MP3
6. 심리음향의 특징
• 최소 가청 한계: 청각이 감각할 수 있는 음의 최소 레벨
• Loudness: 사람은 주파수에 따라서 소리의 크기를 다르게 느낌
• 마스킹 효과: 큰 소리에 가려 작은 소리가 들리지 않는 현상
• 임계대역: 마스킹 현상이 발생하는 주파수 폭을 의미
• 칵테일 파티 효과: 동시에 여러 소리가 나는 환경에서도 원하는(특정한) 소리만을 들을 수 있는 현상
• 선행음 효과: 소리가 먼저 들리는 곳에 음원이 있다고 판단
학습정리 (4)
7. 사운드 저장 파일 형식
• Wav, Au, MP3, AIFF/AIF, RealAudio, ASF
8. 입체 음향
• 음원이 존재하는 공간에 직접 위치하지 않은 청취자가 재생된 음향을 들 었을 때 음향으로부터 공간적 단서(방향감, 거리감 및 공간감)를 지각할 수 있는 음향을 의미
• 입체 음향의 원리: 두 귀에 도달하는 소리의 시간차 및 세기차