학습 목표

(1)

3장

사운드 (SOUND)

김성영교수 금오공과대학교 컴퓨터공학부

(2)

학습 목표

 사운드의 의미와 기본 요소를 설명할 수 있다.

 디지털 사운드로의 변환 과정을 설명할 수 있다.

 디지털 사운드의 부호화 방법을 구분하여 설명할 수 있다.

 디지털 사운드의 압축 방법을 구분하여 설명할 수 있다.

 심리 음향의 특징에 대해 설명할 수 있다.

 입체 음향의 원리 및 방식에 대해 설명할 수 있다.

(3)

개요

3



사운드(sound)란 무엇인가?

 귀로 들을 수 있는 모든 정보를 의미함

 물체의 진동(vibration of material)에 의해 발생하는 물리적 현상

공기 분자의 진동을 나타내는 하나의 파형

종의 진동 공기압의 변화 고막의 진동

(4)

기본요소 (Primitive)



주파수 (Frequency)

 소리의 높낮이



진폭 (Amplitude)

 소리의 크기



음색 (Tone Color, Timbre)

 음의 특징 (고유한 소리의 특징)

음압

시간 주기

진폭

(5)

주파수 (Frequency) : 1

5

 초당 사운드 파형의 반복횟수 (Hertz, HZ)

 주기와는 역수 관계

 주파수가 높으면 고음, 주파수가 낮으면 저음

1 초

주파수: 1Hz

1 초

주파수: 4Hz

음계 라(A3) 시(B3) 도(C4) 레(D4) 미(E4) 파(F4) 솔(G4) 라(A4)

주파수 220 250 262 294 330 349 392 440

(6)

주파수 (Frequency) : 2

 음계 주파수= 'A'의 주파수 x 2^(N/12) (A: '라' 음, N: 1~12)

음계 음계 주파수

A 라 220Hz

A♯, B♭ ♯라, ♭시 220*2^1/12= 233

B 시 220*2^2/12= 250

C 도 220*2^3/12= 262

C♯, D♭ ♯도, ♭레 220*2^4/12= 277

D 레 220*2^5/12= 294

D♯, E♭ ♯레, ♭미 220*2^6/12= 311

E 미 220*2^7/12= 330

F 파 220*2^8/12= 349

F♯, G♭ ♯파, ♭솔 220*2^9/12= 370

G 솔 220*2^10/12 = 392

G♯, A♭ ♯솔, ♭라 220*2^11/12 = 415

(7)

주파수 (Frequency) : 3

7

 주파수에 따른 분류

저주파음(Infrasonic): 0 to 20Hz

가청음(Audiosonic): 20Hz to 20kHz

초음파음(Ultrasonic): 20kHz to 1GHz

 사람이 낼 수 있는 주파수 대는 약 100Hz ~ 6KHz 임

 사람의 청각은 1KHz ~ 6KHz 에 가장 민감함

 순음

하나의 주파수로만 이루어진 소리

(8)

진폭 (Amplitude) : 1

 파형의 기준선에서 최고점까지의 거리

 소리의 크기와 관련 있음

(9)

진폭 (Amplitude) : 2

9

 소리의 크기는 음압 변화의 비율로 표현

사람의 귀는 소리 크기의 변화보다 변화의 비율(logarithm)에 영향을 받음

 최소 음압: 20 X 10^-6Pascal

 최대 음압: 20 X 10¹Pascal

 bel: 소리 크기(음압)에 대한 단위

실제 사용시에는bel 값을 10배 한 decibel을 사용

(10)

진폭 (Amplitude) : 3

 음압 레벨 (dB) = 10 x 2 x log₁₀ (P/P0)

P0: 기준 음압, P: 현재 음압

최소 가청 음압: 10x2xlog{(20x10^-6)/(20x10^-6)} = 0 dB

최대 가청 음압: 10x2xlog{(20x10¹)/(20x10^-6)} = 140 dB

음압 레벨(dB) 사운드

0 사람이 감지할 수 있는 최소 소리

10 조용한 숨소리, 나뭇잎 바스락 소리

20 매우 조용한 방

40~60 1m 정도의 거리에서 일상적인 대화 소리 60~80 10m 정도 거리에서 지나가는 자동차 소리 80~90 10m 정도 거리의 번잡한 거리의 소리

100 1m 정도 거리의 공기 드릴 소리 110~140 100m 정도 거리의 제트 엔진 소리

150 30m 정도 거리의 제트 엔진 소리

(11)

음색 (Tone Color, Timbre)

11

 기음 혹은 기본 주파수 (fundamental tone)

소리의 높낮이를 구분할 수 있는 기본이 되는 주파수

 배음 혹은 고조 주파수 (harmonic overtone)

기음의 정수배가 되는 주파수

 기음과 배음의 구성이 음색을 결정짓는 중요한 요소임

1

Hz 2

Hz 3

Hz 4

Hz

기음 1차 배음 2차 배음 3차 배음

1초

기음과 배음

(12)

학습 목표

 디지털 사운드로의 변환 과정을 설명할 수 있다.

(13)

아날로그 신호와 디지털 신호

13

 아날로그 (Analog) 신호의 특징

아날로그란 소리와 빛, 전류, 전압 등과 같이 선형적인 값을 갖는 연속된 물 리량 형태의 신호를 의미함

신호를 미세한 단위로 조정 가능함

신호의 처리속도가 빠른 장점이 있음

잡음에 의해 신호가 변하는 단점이 있음

 디지털 (Digital) 신호의 특징

디지털이란 불연속적인 단계의 값을 갖는 신호를 의미함

데이터에 가공 및 변환이 용이함

데이터 가공 단계에서 열화가 발생하지 않음

(14)

디지털 사운드로의 변환

 ADC(analog-to-digital converter) 변환장치 사용

 아날로그 사운드의 디지털 변환 단계

표본화(Sampling), 양자화(Quantizing) 및 부호화(Coding)

아날로그 신호와 디지털 신호 간의 변환 과정

(15)

표본화 (Sampling) : 1

15

 아날로그 파형을 디지털로 변환하기 위해 표본을 취하는 과정

 표본화율(Sampling Rate)

1초 동안에 취한 표본수를 의미

단위는 주파수와 같은Hz를 사용

(a) 아날로그 파형 (b) 표본화된 파형 아날로그 사운드의 표본화

(16)

표본화 (Sampling) : 2

 표본화율이 높을수록 원음에 가까운 음으로 디지털화 되지만 데이터 양이 증가

표본화 율의 차이

(17)

22,050Hz

44,100Hz

표본화 (Sampling) : 3

11,025Hz

22,050Hz

44,100Hz

(18)

표본화 (Sampling) : 4

 Hz의 의미

주파수: 1초 동안의 주기의 반복 횟수

표본화: 1초 동안의 표본화 횟수

 나이키스트 정리 (Nyquist theorem)

표본화 시 원음을 그대로 반영하기 위해서는 원음이 가지는 최고 주파수의 2배 이상으로 표본화

음악CD인 경우 표본화 율이 44.1KHz이고 여기서 재생할 수 있는 최고 주파 수는22.05KHz임(사람의 귀는 20KHz 이상의 사운드는 감지할 수 없음)

(19)

양자화 (Quantization) : 1

19

 디지털 형태로 표현할 때 정밀도의 정도를 결정하는 단계

음의 해상도: 값을 표현하는 정밀도 (Sampling Resolution)

(20)

양자화 (Quantization) : 2

 표본화된 데이터를 위해 사용되는 비트 수를 결정

8 bit 양자화 → 256 단계, 16bit 양자화 → 65536 단계

3단계 양자화 5단계 양자화

양자화비트: 16비트

양자화비트: 4비트

(21)

양자화 (Quantization) : 3

21

 양자화 오차(Quantization error) 발생

원래 신호와 양자화된 값 사이의 차이를 의미함

디지털 레벨(비트 수)을 조절함으로써 적절한 수준의 양자화 에러를 유지

(22)

부호화 (Coding)

 표본화 및 양자화된 데이터를 디지털 형태로 표현하여 사운드 파일 에 저장하는 과정

 사운드 파일은 크기가 크기 때문에 부호화한 과정에서 일반적으로 압축 과정을 수행

PCM, DPCM, ADPCM, DM, MPEG 등의 압축 방법 사용 가능

(23)

학습 목표

23

 디지털 사운드의 부호화 방법을 구분하여 설명할 수 있다.

(24)

PCM

 Pulse Coded Modulation

 입력된 값 그대로를 기록하는 방법 (용량이 큼)

 잡음과 간섭에 강하고 전송 중 코딩된 신호를 재생 가능

 CD나 DAT(Digital Audio Tape) 등에서 사용

♧ 빨간 선에 해당하는 양이 부호화되는 것

(25)

DPCM

25

 Differential Pulse Coded Modulation

 표본화 된 신호의 차이를 저장하는 방식

Interactive Multimedia Association; IMA

 서로 인접한 샘플링 지점의 데이터 값은 크게 변하지 않는 원리 이용

DPCM은 인접한 값과의 차이가 크면 비효율적이 됨

(26)

ADPCM

 Adaptive Differential Pulse Coded Modulation

 인접한 값과의 차이가 크면 비효율적인 DPCM의 단점을 극복하기 위 해 개발됨

적응적 양자화 방법 사용

 PCM 대비 최대 4:1 정도까지 압축이 가능

(27)

DPCM과 ADPCM의 비교 예제

27

 데이터: 8비트, 차이값: 5비트

원 데이터 16 40 89 75 24 32 66 19

DPCM

차이값 16 25 59 30 -36 -8 34 -28 부호화 +15 +15 +15 +15 -16 -8 +15 -16

복호화 15 30 45 60 44 32 47 31

ADPCM

차이값 16 25 50 6 -49 7 33 -46

부호화 +15 +12 +15 +1 -12 +3 +15 -11

복호화 15 39 69 73 25 33 65 21

스케일 x1 x2 x2 x4 x4 x2 x2 x4

ADPCM: 차이값이 범위를 초과하면 스케일은 2의 배수 단위로 증가하며 2회 연속으로 범위 내에 존재하면 감소

121

29

(28)

DM : 1

 Delta Modulation

 DPCM방식과 동작하는 원리는 같으나 두 인접한 표본의 값의 차이를 1비트(DM비트)로 표현

이전 표본값에 대하여 증가하면 1, 감소하면 0, 변하지 않으면 0과 1의 값을 교차하여 전송

미리 정해진 차이 값을 더하거나 빼서 원래 정보를 복원

 음질이 중요하지 않은 음성을 전송하기 위해 주로 사용

 특징

간단하면서도 진폭이 높은 신호의 잘림(peak-clipping)이 없음

샘플 크기 변화가 갑자기 커질 때DM값이 크기 변화를 따라가지 못하는 slope-clipping 문제 발생

(29)

DM : 2

29

(30)

ADM

 Adaptive DM

 차이 정보의 순서에 따라 차이 값의 규모를 변화시킴

p ⅹ q = 1, p > 1 (p, q는 실수)

(+, +), (-, -) : 차이 값의 규모를 키움 → L ⅹ p

(+, -), (-, +) : 차이 값의 규모를 줄임 → L ⅹ q

 DM에 비해 원래 데이터와의 오차를 더 줄임

(31)

DM과 ADM의 비교 예제

31

 데이터: 8비트, p = 3/2, q = 2/3, L = 16

원 데이터 16 40 89 75 24 32 66 19

DM

부호화 + + + + - - + -

복호화 16 32 48 64 48 32 48 32

L_DM 16 16 16 16 16 16 16 16

ADM

부호화 + + + - - + + -

복호화 16 40 76 52 16 40 76 52

L_ADM 16 24 36 24 36 24 36 24

115

95

(32)

디지털 사운드 파일의 크기 : 1

 파일의 크기 =

표본화률 x 해상도 x 모드(mono=1, stereo=2) x 시간(초)

 초당 비트 수(bps) =

표본화률 X 해상도 X 모드

 예)

1분 길이의 음악 CD

= 44100 (Hz) x 16 (bit) x 2 (stereo) x 60 (초)

= 84,672,000 bit = 10,584,000 byte = 10.6 MB

CD 한 장에 약 10곡에서 15곡의 음악 저장 가능 (650MB 기준)

(33)

디지털 사운드 파일의 크기 : 2

33

표본화률 해상도 모드 bps Data size

(1분당) 음질

11.025KHz 8 Mono 88.2 Kbps 650 KB 전화 22.05KHz 8 Mono 176.4 Kbps 1.3 MB AM Radio 22.05KHz 16 Stereo 705.6 kbps 5.25 MB FM Radio

44.1KHz 16 stereo 1411 kbps 10.6 MB CD

표본화, 양자화 및 모드에 따른 음질의 비교

(34)

학습 목표

 디지털 사운드의 압축 방법을 구분하여 설명할 수 있다.

(35)

μ-law, A-law

35

 전화망을 통한 디지털 음성 통신을 목적으로 정한 압축 방식

ITU-T G.711의 companding 알고리즘 (1972년)

8비트를 사용하여 14비트(μ-법칙) 혹은 13비트(A-법칙)와 동일한 음질을 나 타냄

 PCM에서의 비선형 양자화 방법을 나타냄

(36)

ADPCM 관련 표준

 이론적으로 표준화되어 있지만 각 방식간 호환성은 없음

 ADPCM 관련 표준

ITU-T 권고 G.721

 표본화율은8KHz를 사용하고 차분 양자화 비트 수를 4bit로 압축하여 32Kbps로 전송하는 규격

 이 규격의ADPCM 대규모 집적회로가 개발되어 전송 회선뿐만 아니라 음성 사서 함 등에 이용되고 있음

ITU-T 권고 G.722

 표본화율은16KHz를 사용하고 차분 양자화 비트 수를 14bit로 압축하여 64Kbps 로 전송하는 규격

 종합정보통신망(ISDN)의 64Kbps 디지털 회선 등과의 정합성이 높음

(37)

MP3 (MPEG Layer 3)

37

 MPEG-1 오디오 부분에 대한 압축을 의미

Layer 1(4:1), Layer 2(6:1~8:8), Layer3(10:1~12:1)

 AAC(Advanced Audio Coding) : MPEG-2 오디오 부분

 음성 심리학적인 방법인 마스킹(Masking) 효과를 이용

마스킹 효과: 큰소리와 작은 소리가 동시에 발생하면 작은 소리는 들리지 않게 되는 것처럼 어떤 소리에 의해 다른 소리가 가리워지는 현상을 의미

(38)

학습 목표

 심리 음향의 특징에 대해 설명할 수 있다.

(39)

최소 가청 한계 (Absolute Threshold of Hearing)

39

 청각이 감각할 수 있는 음의 최소 레벨

(40)

라우드니스(Loudness)

 사람은 주파수에 따라서 소리의 크기를 다르게 느낌

등라우드니스 곡선

125Hz 4KHz

(41)

마스킹 효과 (masking effect)

41

 큰 소리에 가려 작은 소리가 들리지 않는 현상

(42)

임계대역 (critical band)

 마스킹 현상이 발생하는 주파수 폭을 의미

(43)

시간적 마스킹 효과

43

(44)

칵테일 파티 효과

 동시에 여러 소리가 나는 환경에서도 원하는(특정한) 소리만을 들을 수 있는 현상

(45)

선행음 효과

45

 소리가 먼저 들리는 곳에 음원이 있다고 판단

선행음 효과 선행음 효과의 활용

(46)

사운드 저장 파일 형식



Wav (Wave)

 MS사와 IBM사가 PC상의 사운드 표준 형식으로 공동개발

 Windows 기반 PC에서 주로 사용

 구체적인 압축 방식은 상이할 수 있음

일반적으로PCM, ADPCM방식이 많이 사용되고, 그 외에 Truespeech, μ- Law 등도 많이 사용



Au (Audio)

 μ-law 방식으로 압축된 형식으로 유닉스 환경에서 사용

 다른 형식으로 변환하기 위한 크로스 플랫폼 형식

 Sun이나 NeXT가 표준으로 채택

(47)

사운드 저장 파일 형식

47



MP3

 압축효과가 뛰어나고, 음질도 우수

 인터넷 상에서 음악을 압축하는데 많이 사용

 Layer 2는 .mp2, Layer 3는 .mp3의 확장자를 가짐



AIFF/AIF (Audio Interchange File Format)

 WAV처럼 샘플링된 디지털 오디오 파일

 8비트 스테레오 혹은 모노로 저장되지만 압축되지 않아 파일 크기가 크다는 것이 단점

(48)

학습 목표

 입체 음향의 원리 및 방식에 대해 설명할 수 있다.

(49)

입체음향

49



입체 음향이란?

 음원이 존재하는 공간에 직접 위치하지 않은 청취자가 재생된 음향 을 들었을 때 음향으로부터 공간적 단서(방향감, 거리감 및 공간감) 를 지각할 수 있는 음향을 의미

 영화, TV 혹은 오디오 등에서는 서라운드(Surround) 방식으로 입체 음향을 제공

(50)

입체음향



입체음향의 원리

 두 귀에 도달하는 소리의 시간차 ( Interaural Time Difference – ITD )

두 귀에 들어오는 소리의 시간 차에 의해 음원의 위치에 대한 방향성을 인 지할 수 있음

가까운 방향에 있는 귀가 먼저 그 소리를 들음으로써 음원의 방향을 알 수 있음

(51)

입체음향

51

 두 귀에 도달하는 소리의 세기차

( Interaural Intensity Difference – IID )

두 귀에 들어오는 소리의 크기 차에 의해 음원의 위치에 대한 방향성을 인 지할 수 있음

소리의 위치감과 거리감을 알 수 있음

 그 외에 사람의 다른 공간적 단서로는 시각적 효과, 머리의 움직임, 소리의 종류에 따른 친숙도 등이 있음

(52)

입체음향



서라운드(Surround)

 사람이 있는 위치를 기준으로 사방에서 소리를 들려주는 방식으로 공간감 및 입체감 제공 (5.1채널 등)

 스테레오와 마찬가지로 청취자가 음의 중심점에 있어야 입체감을 적 절하게 느낄 수 있음

 돌비 서라운드(Dolby Surround), AC-3, DTS 등

2.2m

(53)

입체음향

53



2채널 방식

 2채널 스테레오 저장 방식

전면의 좌, 우 스피커용 2채널, 센터 스피커용 채널, 후방의 신호를 재생하 는 서라운드(리어)채널의 총 4개 채널을 2채널로 변경하여 저장하는 방식 (1982년 상용화됨)

 종류

돌비 서라운드(Dolby Surround): encoding technology

돌비 프로 로직(Dolby Pro Logic): decoding technology

(54)

입체음향



5.1채널 방식

소리를 각 채널별로 별도 채집, 녹음하기 때문에 재생 시 음장감이 뚜렷

저음 부분이 별도 채널로 구성돼 서브 우퍼로 재생되므로 현장감도 우수

 돌비디지털

극장용 사운드 시스템 용도로 개발

홈시어터 시스템도 기본 지원

AC-3(Audio-Code 3)

‘배트맨’에 최초로 도입(1992년)

 DTS (Digital Theater System)

DTS Professional Audio Group에서 개발한 시스템

극장에서 상영하는 디지털화 된 음성을 재생하기 위한 시스템 유니버설社의“쥬라기 공원”에 최초로 도입 (1993년)

(55)

학습정리 (1)

55

1. 사운드(sound)란 무엇인가?

• 귀로 들을 수 있는 모든 정보를 의미함

• 물체의 진동에 의해 발생하는 물리적 현상

2. 사운드의 기본 요소

• 주파수 (Frequency): 소리의 높낮이

• 진폭 (Amplitude): 소리의 크기

• 음색 (Tone Color, Timbre): 음의 특징

(56)

학습정리 (2)

3. 아날로그 사운드의 디지털 변환 단계

• 표본화(Sampling), 양자화(Quantizing) 및 부호화(Coding)

4. 부호화 방법

• PCM, DPCM, ADPCM, DM, ADM

(57)

학습정리 (3)

57

5. 디지털 사운드의 압축 방법

• μ-law 및 A-law, ADPCM, MP3

6. 심리음향의 특징

• 최소 가청 한계: 청각이 감각할 수 있는 음의 최소 레벨

• Loudness: 사람은 주파수에 따라서 소리의 크기를 다르게 느낌

• 마스킹 효과: 큰 소리에 가려 작은 소리가 들리지 않는 현상

• 임계대역: 마스킹 현상이 발생하는 주파수 폭을 의미

• 칵테일 파티 효과: 동시에 여러 소리가 나는 환경에서도 원하는(특정한) 소리만을 들을 수 있는 현상

• 선행음 효과: 소리가 먼저 들리는 곳에 음원이 있다고 판단

(58)

학습정리 (4)

7. 사운드 저장 파일 형식

• Wav, Au, MP3, AIFF/AIF, RealAudio, ASF

8. 입체 음향

• 음원이 존재하는 공간에 직접 위치하지 않은 청취자가 재생된 음향을 들 었을 때 음향으로부터 공간적 단서(방향감, 거리감 및 공간감)를 지각할 수 있는 음향을 의미

• 입체 음향의 원리: 두 귀에 도달하는 소리의 시간차 및 세기차