2017 년 12 월
17ZR1200-01-4120P
12
미디어 접근편의성 향상을 위한
Active Audioprint 기술 개발
The Development of Active Audioprint Technologies to
Enhance the Media Accessiibility
- 1 -
인 사 말 씀
방송분야에서는 1929 년 영국 BBC 에 의해 처음 흑백 TV 방송 서비스가 시작된 이래로 2000 년에 디지털 TV 및 HDTV 방송 서비스가 실시되었고, 2017 년 5 월 세계 최초로 지상파 UHDTV 가 대한민국에서 서비스를 시작하였습니다. 통신분야에서는 1876 년 미국의 벨에 의해 전화기가 발명된 이래로, 1990 년대에 들어와서는 인터 넷 통신 서비스가 실시되고 있습니다. 이와 같이 서로 독립적으로 발전해 오던 방 송과 통신 분야가 1990 년대 후반부터는 방송과 통신이 서로 융합되어 발전하고 있 습니다. 이렇게 통신과 방송이 융합되면서 단방향의 단순 시청형 방송 서비스가 양방향의 정보 선택형 및 정보 맞춤형 서비스로 발전하고 있으며, 최근에는 이용 자가 스스로 정보를 만드는 정보 창조형으로 진화하고 있습니다. 미디어 접근편의성 향상을 위한 Active Audioprint 기술은 사용자가 스스로 정보를 창조하는 정보창조형 시대에 적합한 서비스로, 미디어 빅 데이터를 효과적 으로 검색하고, 미디어를 손쉽게 접근할 수 있는 기술 입니다. Active Audioprint 기술 개발을 통해 새로운 오디오 시장의 확대 및 고품질 디지털 콘텐츠 제작, 편집, 유통과 관련된 새로운 엔터테인먼트 서비스 문화의 창 출이 기대됩니다. 끝으로, 본 연구에 참여하여 좋은 결과를 얻기 위하여 노력하신 연구원들의 노고를 치하하는 바입니다. 2017 년 12 월 한국전자통신연구원 원장 이 상 훈- 2 -
제 출 문
본 연구보고서는 주요사업인 "미디어 접근편의성 향상을 위한 Active Audioprint 기술 개발에 관한 연구"의 결과로서, 본 과제에 참여한 아래의 연구팀 이 작성한 것입니다. 2017 년 12 월 연구책임자 :책임연구원 이태진 (ETRI) 연구참여자 :책임연구원 성종모 (ETRI) 책임연구원 백승권 (ETRI) 책임연구원 이미숙 (ETRI) 책임연구원 정영호 (ETRI) 책임연구원 강경옥 (ETRI) 책임연구원 최진수 (ETRI) 책임연구원 박재현 (SBS) 책임연구원 유 성 (SBS) 선임연구원 김영윤 (SBS) 연 구 원 전재영 (SBS) 책임연구원 경노겸 (쿨리오) 연 구 원 김형우 (쿨리오) 연 구 원 서주형 (쿨리오) 책임연구원 이상일 (브릿지미디어솔루션즈) 책임연구원 하돈수 (브릿지미디어솔루션즈) 선임연구원 이한얼 (브릿지미디어솔루션즈)- 3 -
요 약 문
Ⅰ. 제 목
미디어 접근편의성 향상을 위한 Active Audioprint 기술 개발Ⅱ. 연구목적 및 중요성
유통되는 미디어 콘텐츠의 양이 급속히 증가함에 따라, 미디어 콘텐츠를 효율적으로 관리, 검색, 추천 혹은 관련 정보를 제공해 줄 수 있는 기술의 필요성이 증대되고 있으며, 드라마, 스포츠, 영화, 음악 등 여러 장르의 다양화된 방송 콘텐츠에 대한 부가 서비스 제공을 위해서는 기존의 음악 검색 위주로 개발된 기술의 한계를 극복하기 위한 새로운 방식의 데이터 삽입 및 검색 기술 개발이 필요
최근 음향 신호를 통한 데이터 삽입 및 검색 기술에 대한 연구가 활발히 이루어지고 있으나, 현재 기술 수준에서는 낮은 데이터 전송률로 인해 제 한적인 서비스만 가능하므로 다양한 서비스에서 활용 가능한 수준의 전송 데이터양을 확보할 수 있는 관련 기술의 선점이 필요Ⅲ. 연구내용 및 범위
미디어 접근편의성 제공을 위한 Active Audioprint 핵심기술 개발 음질 왜곡을 최소화하고 채널왜곡(시청환경)에 강인한 삽입 기술 데이터 전송률: 100 bps 수신 거리: 5 m 음질: MUSHRA 90점, BER: 2.5% 빠른 응답 속도를 보이는 음향 특징 기반 검색 기술 실시간 정보 삽입/검색 및 동기화가 가능한 오디오 데이터 전송 기술- 4 - Active Audioprint 기술 검증 시스템 개발 방송실험을 위한 Active Audioprint 기술 검증 S/W, H/W 구현 Active Audioprint 기반 광고 모니터링 시스템 기술 개발
Ⅳ. 연구결과
미디어 접근편의성 제공을 위한 Active Audioprint 핵심기술 음질 왜곡을 최소화하고 채널왜곡(시청환경)에 강인한 삽입 기술 데이터 전송률: 120 bps 수신 거리: 5 m 음질: MUSHRA 92점 BER: 1.9% 빠른 응답 속도를 보이는 음향 특징 기반 검색 기술 실시간 정보 삽입/검색 및 동기화가 가능한 오디오 데이터 전송 기술 Active Audioprint 기술 검증 시스템 방송용 실시간 AAP 색인/삽입 시스템 휴대단말 플랫폼을 위한 AAP SW 색인기능 지원 AAP 저작도구 AAP 기반 광고 모니터링 시스템Ⅴ. 연구개발결과의 활용계획
Active Audioprint 기술 개발을 통해 음향 채널을 통한 안정적 부가 정보 전송 기술을 확보하여 방송 콘텐츠 내 정보 은닉을 위한 새로운 부가 정 보 전달 수단 제공하며, 검색과 색인이 융합된 Active Audioprint 기술 개발을 통해 현재 주로 음악 검색에만 특화된 관련 기술 수준을 콘텐츠 검색뿐만 아니라 다양한 형태의 서비스에도 활용 가능한 수준으로 향상- 5 - 별도의 추가적인 장치가 필요한 종래의 근거리 통신 방식(RFID, NFC, Bluetooth, QR code 등)과 달리 단말에 기본적으로 장착된 스피커와 마이 크만을 이용하는 Active Audioprint 기술은 저비용의 편리한 사용자 인터 페이스를 제공하기 위한 새로운 근거리 통신 방식에 활용
Ⅵ. 기대성과 및 건의
Active Audioprint 요소기술인 음향 데이터 전송 기술은 부가 정보를 필 요로 하는 방송 콘텐츠, 광고, 디지털 사이니지 등에 활용될 수 있는 기 술로, 각 매체 및 서비스 형태에 따른 API를 포함하는 시스템 요구사항을 비즈니스 모델 연구로부터 도출하고 기술개발에 반영하여 서비스별 음향 데이터 전송 기술을 제공함으로써, 다양한 형태의 기술지원을 통해 상용 화를 성공적으로 수행하고 관련 시장 활성화를 도모- 6 -
ABSTRACT
Ⅰ. TITLE
The Development of Active Audioprint Technologies to Enhance the Media Accessiibility
Ⅱ. THE OBJECTIVES
As the media contents increases rapidly, the need for technologies to efficiently manage, search, recommend or provide the relevant information of media contents is increasing In order to provide additional services for various types of broadcast contents, such as drama, sports, movies, music, etc., it is necessary to develop a new method of data insertion and retrieval technology to overcome the limitations of the technology developed mainly for music retrieval
Recently, researches on data insertion and retrieval technology using acoustic signals have been actively carried out. However, only a limited service is available due to a low data transmission rate Therefore, it is necessary to develop new technologies that solve
these problems
Ⅲ. THE CONTENTS AND SCOPE OF THE STUDY
The Development of Active Audioprint Technologies to Enhance the Media Accessiibility- 7 -
Data insertion technology which could minimizes sound quality distortion and robust to channel distortion
Data rate: 100 bps Distance: 5 m
Sound Quality: MUSHRA 90, BER: 2.5%
Acoustic feature-based search technology with fast response Real-time information insertion/retrieval and synchronization
audio data transmission technology
Active Audioprint technology verification system development
The implementation of Active Audioprint technology verifcation S/W, H/W for broadcasting experiment
Active Audioprint based advertisements monitoring systemⅣ. RESULTS
Active Audioprint Technologies to Enhance the Media Accessiibility Data insertion technology which could minimizes sound qualitydistortion and robust to channel distortion Data rate: 120 bps
Distance: 5 m
Sound Quality: MUSHRA 92, BER: 1.9%
Acoustic feature-based search technology with fast response Real-time information insertion/retrieval and synchronization
- 8 -
Active Audioprint technology verification system Real-time Active Audioprint index/insert system AAP SW for mobile platform
Active Audioprint authoring tool
Active Audioprint based advertisement monitoring system
Ⅴ. Plans to use R&D results
Through the development of Active Audioprint technology, we have secured stable additional information transmission technology through the acoustic channel, providing new additional information transmission means for information concealment in broadcasting contents, and by developing active audioprint technology that combines search and index, can be applied not only to content search but also to various types of services
Active Audioprint technology, which uses only speakers and microphones installed in the terminal unlike the conventional short-range communication method (RFID, NFC, Bluetooth, QR code, etc.) requiring a separate additional device, could be a new short range communication method
Ⅵ. EXPECTED RESULT & PROPOSITION
Active Audioprint technology can be used for broadcast contents, advertisement, digital signage, etc. that require additional information
- 9 -
CONTENTS
Chapter 1 Introduction ... 15
Section 1 Purpose and necessity of R&D ... 15
Section 2 Importance of R&D ... 17
Chapter 2 R&D status and approach ... 18
Section 1 status ... 18
Section 2 Key elements and approach ... 25
Chapter 3 R&D goal and scope ... 27
Section 1 Final goal ... 27
Section 2 Goal and scope by year ... 28
Section3 system and method ... 29
Chapter 4 R&D Results ... 30
Section 1 Performance indicators and achievements ... 30
Section 2 Data insertion technology robust to acoustic channel distortion . 30 Section 3 Light-weight finger print technology robust to acoustic channel distortion ... 63
Section 4 MCLT based audio watermark technology ... 81
Section 5 AAP standard for broadcasting service ... 92
Section 6 Broadcasting experiment ... 110
Section 7 AAP technology based AD monitoring system ... 117
Section 8 Quantitative results(Paper/Contribution/Prototype,ect) ... 122
Chapter5 Utilization plan of R&D results ... 133
Section1 Effects ... 133
Section 2 Difussion plan of results ... 136
Chapter 6 Conclusion ... 137
- 10 -
목 차
제1장 서론 ... 15 제1절 연구개발과제의 목적 및 필요성 ... 15 제2절 연구개발과제의 중요성 ... 17 제2장 연구개발 현황 및 접근방법 ... 18 제1절 국내외 현황 ... 18 제2절 핵심요소 및 접근방법 ... 25 제3장 연구개발 목표 및 내용 ... 27 제1절 최종목표 ... 27 제2절 연차별 연구개발 목표 및 내용 ... 28 제3절 연구개발 추진 체계 및 방법 ... 29 제4장 연구 수행 결과 ... 30 제1절 기술개발 성과 지표 및 달성도 ... 30 제2절 오디오 품질 손실 최소화 및 음향 채널 왜곡에 강인한 데이터 삽입 기술 . 30 제3절 음향 채널 왜곡에 강인한 경량 음향 데이터 색인 기술 ... 63 제4절 MCLT 기반 오디오 워터마크 기술 ... 81 제5절 방송 서비스용 AAP 표준 ... 92 제6절 방송실험 ... 110 제7절 AAP 기술기반 광고 모니터링 시스템 ... 117 제8절 정량적 연구 결과(논문/기고서/시제품/TM/TDP 등) ... 122 제5장 연구개발결과의 활용계획 ... 133 제1절 파급효과 ... 133 제2절 성과확산계획 ... 136 제6장 결론 ... 137 약 어 표 ... 139- 11 -
표 목 차
<표4-1> 오프셋 왜곡 성능 측정을 위한 비교 시스템 ... 56 <표4-2> 테스트 아이템 ... 60 <표4-3> 테스트 시스템 ... 61 <표4-4> ODG 점수 기반 객관적 음질 측정 및 비교... 62 <표4-5> AAP LWFP 프로젝트 파일 설명 ... 71 <표4-6> AAP_LWFP interface 함수 프로토타입 및 기능 ... 77 <표4-7> 부-핑거프린트 추출 파라미터 ... 79 <표4-8> 핑거프린트 검색 파라미터 ... 79 <표4-9> 음향 신호 왜곡 ... 79 <표4-10> MCLT 기반 오디오 워터마크 알고리즘의 BER 측정 결과 ... 84 <표4-11> 개선된 MCLT 기반 오디오 워터마크 기술의 BER 측정 결과 ... 89 <표4-12> 개선된 MCLT 기반 오디오 워터마크 기술의 BER 측정 결과 ... 90 <표4-13> adt_data_extractor() 신택스 ... 99 <표4-14>‘payload_available’ 정의 ... 100 <표4-15> preamble_sync() 신택스 ... 100 <표4-16> adt_data_frame() 신택스 ... 101 <표4-17>‘TypeOfInfoIs’ 정의 ... 104 <표4-18> GetTextHeader() 신택스 ... 105 <표4-19> GetTableHeader() 신택스 ... 105 <표4-20> TextPayloadData() 신택스 ... 106 <표4-21> TablePayloadData() 신택스 ... 107 <표4-22> TimecodePayloadData() 신택스 ... 108 <표4-23> 광고 데이터베이스 ... 119 <표4-24> 광고 편성 데이터베이스 ... 120- 12 -
그 림 목 차
<그림1-1> Active Audioprint 기술 개념도 ... 15 <그림2-1> 오디오 핑거프린트를 이용한 음악 검색 서비스 ... 19 <그림3-1> 음향신호를 이용한 Active Audioprint 서비스 개념도 ... 28 <그림3-2> 연구개발 추진 체계도 ... 29 <그림4-1> MCLT 기반 프레이밍 과정 ... 33 <그림4-2> 에일리어싱을 최소화 하기 위한 MCLT 기반 데이터 은닉 프레임 ... 35 <그림4-3> 에일리어싱을 최소화 하기 위한 음향데이터 삽입 프레임 구조 ... 35 <그림4-4> 에일리어싱을 최소화 하기 위한 인위적 에일리어싱 상쇄 과정 ... 37 <그림4-5> MCLT 변환 방법에 근거한 간섭신호에 강인한 음향데이터 삽입 과정 . 40 <그림4-6> PPS 방법에 근거한 음향데이터 삽입 시스템 ... 41 <그림4-7> PPS 기반 시스템 프레임 동기화 과정 ... 45 <그림4-8> 동기화 수행과정에서 발생하는 위상차이 정보 ... 47 <그림4-9> 음향 데이터 비트스트림 패키징 및 메시지 동기화 과정 구조도 ... 49 <그림4-10> 상관도 기반 우도측정 및 동기 비트열 위치 추정과정 ... 49 <그림4-11> RT60, 5 m 음향채널 공간에서 잔향신호... 51 <그림4-12> 음향채널 잔향 왜곡 전/후 오디오 신호 스펙트로그램 비교 ... 52 <그림4-13> 음향채널 잔향 왜곡에 의한 BER 성능평가 ... 53 <그림4-14> 음향채널 왜곡에 의한 BER 성능 평가... 55 <그림4-15> 음향채널 왜곡에 의한 BER 성능 평가... 57 <그림4-16> 음향채널 왜곡에 의한 BER 성능 평가... 58 <그림4-17> 음향채널 왜곡에 의한 BER 성능 평가... 59 <그림4-18> 평균 절대 점수기반 청취평가 결과 ... 61- 13 - <그림4-19> 오디오 부-핑거프린트 추출 블록도 ... 66 <그림4-20> 개선된 핑거프린트 블록 검색 방법 ... 68 <그림4-21> 해쉬 테이블 예시 ... 69 <그림4-22> Soft decoding 방법을 이용한 핑거프린트 검색 ... 70 <그림4-23> 경량 음향 데이터 색인 기술 성능 분석 결과 ... 80 <그림4-24> 오디오 워터마크 기술의 개요 ... 81 <그림4-25> MCLT 기반 오디오 워터마크 삽입 ... 82 <그림4-26> MCLT 기반 오디오 워터마크 검출 ... 83 <그림4-27> 선행 오디오 워터마크 기술에 대한 BER 측정 결과 ... 84 <그림4-28> 선행 오디오 워터마크 기술에 대한 PEAQ 측정 결과 ... 85 <그림4-29> 비동기화 환경에서 오디오 워터마크 선행기술의 BER 측정 결과 .... 86 <그림4-30> 개선된 MCLT 기반 오디오 워터마크 삽입 ... 86 <그림4-31> 개선된 MCLT 기반 오디오 워터마크 검출 ... 88 <그림4-32> 동기검출 모듈이 추가된 워터마크 검출 ... 89 <그림4-33> 비동기화 공격에 대한 BER 측정 결과... 89 <그림4-34> DTV 방송 환경에서 오디오 워터마크 기술의 성능 측정 ... 90 <그림4-35> 워터마크 삽입 신호에 대한 PEAQ 측정 결과 ... 91 <그림4-36> DTV 방송 시스템 환경에서의 PEAQ 측정 결과 ... 91 <그림4-37> AAP 표준화 필요성 ... 92 <그림4-38> 차방포럼 내 AAP 표준화 추진 현황 ... 94 <그림4-39> ADT 기술 구성도 ... 95 <그림4-40> 텍스트 타입 음향데이터 비트스트림 구조 ... 96 <그림4-41> 테이블 인덱스 타입 음향데이터 비트스트림 구조 ... 96 <그림4-42> 타임 코드 타입 음향데이터 비트스트림 구조 ... 97
- 14 - <그림4-43> 타임코드 구조 ... 98 <그림4-44> 테이블 타입({001}) 정보에 대한 ‘Type of Info’ 비트스트림 구성 예 . 104 <그림4-45> ADT 기술 개념도 ... 110 <그림4-46> ADT 기술 워크플로우 ... 111 <그림4-47> FM 기반 AAP 방송실험 시스템 구성도 ... 112 <그림4-48> FM 기반 AAP 방송실험 송신시스템 구성... 115 <그림4-49> FM 기반 AAP 방송실험 수신시스템 구성... 116 <그림4-50> 광고 분석 시스템 전체 구성도 ... 117 <그림4-51> 광고 분석 시스템 데이터 흐름도 ... 118 <그림4-52> 실시간 광고모니터링 시스템 인식 화면 ... 120 <그림4-53> 인식 광고 집계현황 분석 화면 ... 121 <그림4-54> 방송용 실시간 AAP 색인/삽입 장치(인코더) ... 126 <그림4-55> AAP 기술기반 광고 모니터링 시스템 ... 127 <그림4-56> AAP 저작도구 ... 128
- 15 -
제1장 서론
제1절 연구개발과제의 목적 및 필요성
<그림1-1> Active Audioprint 기술 개념도 유통되는 미디어 콘텐츠의 양이 급속히 증가함에 따라, 미디어 콘텐츠를 효율적 으로 관리, 검색, 추천 혹은 관련 정보를 제공해 줄 수 있는 기술의 필요성이 증대 되고 있으며, 드라마, 스포츠, 영화, 음악 등 여러 장르의 다양화된 방송 콘텐츠에 대한 부가 서비스 제공을 위해서는 기존의 음악 검색 위주로 개발된 기술의 한계를 극복하기 위한 새로운 방식의 데이터 삽입 및 검색 기술 개발이 필요하다. 현재 널리 보급된 다양한 스마트 기기와 향후 새롭게 등장할 스마트 서비스 및 장치들과의 호환성 문제를 해결할 수 있는 표준화된 서비스 접근 기술 개발이 필요하며, 종래 데이터 삽입 기술의 제한된 전송 데이터 양으로 인해 제공 가능한 부가 서비스가 매우 한정적이므로, 보다 다양한 형태의 부가 서비스 제공을 위해 서는 해당 콘텐츠의 품질 손실을 최소화하면서 전송 가능한 데이터양을 획기적으 로 개선할 수 있는 기술에 대한 요구가 증대되고 있는 추세이다.- 16 - 스마트 TV, 스마트폰, 태블릿 PC 등의 스마트 기기의 급속한 보급과 함께 OTT 서비스 이용은 증가하고 있으나 단순 멀티미디어 시청에 머물고 있으며, OHTV 와 같은 방송과 데이터 융합형 서비스에 대한 기술 개발 및 표준화가 추진되고 있으 나 아직 활성화되지 못하고 있다. 방송 프로그램 연동형 서비스 제공의 경우, 지상파 직접 수신이 아닌 유료채 널을 통한 방송 시청 시에는 해당 채널의 정보 인식이 어려워 서비스 연동이 불가 한 문제가 발생하며 매체 간 공통 시그널링을 위해 방송사 로고 인식 기술, 워터 마크, 핑거프린트 등의 방식 등이 후보 기술로 대두되고 있으며, 전반적인 디지털 콘텐츠(방송/영화/음악 등)의 불법 유통은 2009 년 4 월 저작권 삼진 아웃제 및 2012 년 5 월 웹하드 등록제 등이 시행되면서 감소하였으나, 다양한 스마트 기기를 통한 시청 환경 변화로 인해 방송 콘텐츠 불법 유통은 계속 증가 추세이다. 최근 콘텐츠 연동 메타데이터 활성화와 콘텐츠 불법 유통 및 저작권 보호를 위한 기술이 필요한 추세이며, 이를 위해 비디오 워터마킹 기반의 콘텐츠 보호 기 술이 개발되었으나 이미지 DNA 추출로 인한 비용 증가 및 화질 저하 등의 문제로 인해 활성화되지 못하고 있는 상황이다.
- 17 -
제2절 연구개발과제의 중요성
최근 포화 상태인 광고 시장으로 인해 어려움을 겪는 방송사를 비롯한 콘텐츠 제공업체에 2 차 단말 장치와 결합한 광고 및 부가 서비스 수단을 제공함으로써 새 로운 광고 시장 창출 및 사업 영역 확대를 통한 수익 모델 제시가 가능하므로 관 련 기술 개발이 필요하다. 스마트 폰, 태블릿 PC 등의 다양한 이동형 스마트 장치들의 등장에 맞추어 스 마트 TV 와 PC 등 고정형 단말과의 연동 서비스를 위한 사용자 편의성을 개선할 필 요성이 증대되고 있으며, 최근 음향 신호를 통한 데이터 삽입 및 검색 기술에 대 한 연구가 활발히 이루어지고 있으나, 현재 기술 수준에서는 낮은 데이터 전송률 로 인해 제한적인 서비스만 가능하므로 다양한 서비스에서 활용 가능한 수준의 전 송 데이터양을 확보할 수 있는 관련 기술의 선점이 필요하다. 최근 스마트 장치들의 보급으로 인한 미성년자들의 성인물 및 폭력물에 대한 노출 빈도 증가 문제를 해결하기 위한 다양한 매체 및 단말 장치에 공통적으로 적 용할 수 있는 편리한 시청 등급 관리 기술을 비롯하여, 방송법에서 명시한 TV 시 청률 조사의 범위가 기존 TV 가 아닌 다른 시청 형태를 반영하지 못하므로 이를 해 결할 수 있는 시청률 조사 기술 개발에 대한 사회적인 요구가 증대되고 있다. 본 과제 관련 기술은 방송 서비스 분야뿐만 아니라 클라우드, 웹 기반 콘텐츠 서비스, 장애인 접근성 향상 서비스, 재난 관련 서비스 등의 연관 산업에도 파급 효과가 매우 큰 기술임에도 불구하고 국내 연구/개발 활동이 해외 선진 연구기관 및 업체에 비해 상대적으로 저조하므로 지적재산권 확보를 통한 국내 시장 보호 및 글로벌 경쟁 기술 개발이 시급하다.- 18 -
제2장 연구개발 현황 및 접근방법
제1절 국내외 현황
1. 국내.외 기술동향 및 수준
국내의 경우, 주로 디지털 저작권 관리(DRM)를 위한 핑거프린팅 및 워터마킹 기술에 주력하고 있으며, 최근 학계와 연구소를 중심으로 음향 데이터 전송 기술 에 대한 관심이 증가하는 추세이다. 오디오 워터마킹 및 음향 데이터 전송 기술 관련하여 서울대학교는 MCLT(Modulated Complex Lapped Transform) 기반의 음향 채널을 통한 데이터 전송 기술을 제안하여 우수한 오디오 품질과 데이터 추출 성능을 보여주고 있으나, 상 대적으로 잡음 및 잔향과 같은 실제 환경에 대한 고려가 부족한 상태이다. ETRI 는 필터뱅크 기반의 워터마크 데이터 전송 기술을 제안하였으며, 실제 환경을 고려한 잡음 및 잔향에 대한 성능 분석 및 실험을 수행 하였다. 최근 콘텐츠 검색, 식별 및 관리 응용에 대한 기술적 요구가 증가함에 따라 종래의 오디오 핑거프린팅/워터마킹뿐만 아니라 음향 채널을 통한 데이터 전송에 특화된 기술에 대한 연구가 활발히 진행 중이나, 아직 실제 서비스 적용에 필요한 전송률, 검색 정확 도, 응답시간 및 채널왜곡에 대한 강인성 등의 성능이 충분히 확보되지 못한 상태이다. 오디오 핑거프린팅 기술은 음악 검색 전문 업체와 구글을 비롯한 검색 업체에서 자 사의 음악 검색 서비스 제공하기 위해 자체적인 오디오 핑거프린팅 기술 보유하고 있는 추세이다. Shazam 은 스펙트로그램 상의 주파수 특성으로부터 이미지 분석을 통해 추출 된 핑거프린트 특징을 매칭하는 방식을 이용하여 음악 검색 서비스 제공한다. MusicID 는 핑거프린트와 다른 부가데이터(태깅 정보)를 연계하여 음악 클립 신호의 ID 를 제공 한다. SoundHound 는 필립스가 제안한 해쉬코드 방식의 핑거프린트 특징을 추출하여 음 악 검색 서비스를 제공한다. 구글의 waveprint 는 응답 속도가 매우 빠른 장점을 가지 고 있으나, 실제 음향 채널에서 발생하는 왜곡에 대한 고려사항이 없어 추가적인 검증이 필요하다.- 19 -
(a) Shazam (b) MusicID
(c) SoundHound <그림2-1> 오디오 핑거프린트를 이용한 음악 검색 서비스 최근 안드로이드 마켓과 앱스토어 등을 통해 음악 검색 서비스가 대중화되고 사용자로부터 각광을 받음에 따라 향후 관련 기술 개발이 더욱 활발히 진행될 것 으로 예상되며 검색 정확도 향상과 검색 속도 개선에 주력할 것으로 전망된다. 오디오 워터마킹 및 음향 데이터 전송 기술 관련 대부분의 오디오 워터마킹 기술은 에코 방식, 스펙트럼 확산 방식 및 PSK(Phase Shift Keying) 방식 등을 근 간으로 개발되어 왔다. 에코 방식은 원음 대비 음질 손실을 최소화하도록 데이터 를 삽입할 수 있으나, 주로 콘텐츠 식별을 위한 기술로 활용되며 음향 채널 왜곡 에 취약하고 데이터 전송률이 낮다. 스펙트럼 확산 방식은 암호화된
- 20 - PN(pseudonoise) 코드를 오디오 프레임에 삽입하여 데이터를 전송하는 방식으로, 에코 방식보다 음향 채널 왜곡에 강인하지만 원음 대비 음질 열화가 심하고 가능 한 데이터 전송률이 수 bps 수준으로 많은 양의 데이터를 전송하기 어렵다. PSK 방식은 에코 및 확산 스펙트럼 방식에 비해 음질의 열화가 적고 상대적으로 많은 양의 데이터를 전송할 수 있으나, 코덱에 취약하다. 최근 방송사 및 TV 제조사를 중심으로 콘텐츠 자동 인식에 대한 기술적 수요 가 증가함에 따라 오디오 워터마킹 및 음향 데이터 전송 기술에 대한 연구가 활발 히 진행될 것으로 예상되며, 주로 실제 환경을 고려하여 다양한 채널 왜곡에 대한 강인한 동시에 더 많은 데이터 전송률을 확보하기 위한 기술 개발에 주력할 것으 로 전망된다. 최근 저작권 보호에 대한 사회적 관심과 규제가 강화되고 있는 추세에 따라 오디오 워터마킹 기술은 비디오 워터마킹과 함께 저작권 보호를 위해 필수적인 기 술 분야로 자리 잡을 것으로 예상되며, 오디오 워터마크 삽입으로 인한 품질 저하 방지와 다양한 형태의 공격에 강인한 기술이 주된 기술 개발 방향이 될 것으로 전 망된다.
2. 국내.외 표준화 현황(또는 향후 기술 발전 추세)
국내 방송사와 방송 수신기 제조업체들은 데이터 삽입 기술 혹은 핑거프린팅 기술 기반 동기화 방법에 많은 관심을 가지고 있으나, 업체들 간 이해가 서로 상 충되어 표준화된 방식 제정에 어려움을 겪고 있다. 스마트 TV 를 확장한 양방향 TV 서비스인 OHTV 에 대한 표준 초안이 TTA 에서 2010 년 12 월에 표준 초안이 발간되었으며 추가적인 개정 작업이 진행 중이며, 현재 방송 관련 표준화가 디지털 TV, 케이블방송, IPTV, 디지털라디오 등의 매체별로 담 당 프로젝트 그룹이 산재되어 있어 다매체를 통합한 관련 표준의 제정이 필요하다. 향후 업체 간 이해 조정 및 다양한 방송 매체에 공통적으로 적용 가능한 표준 화된 기술 및 서비스 모델 제정을 위한 활동이 필요할 것으로 전망된다.- 21 - 최근 일본 소니는 1 차 단말(TV)과 보조 단말(스마트 폰)간의 A/V 콘텐츠 동기 화를 위하여 오디오 핑거프린팅 기술을 이용하는 방법을 106 차 MPEG 회의에 제안 하였으며, 109 차 MPEG 회의에서 표준으로 제정되었다.(여기서, 임의의 핑거프린트 정보를 2 차 단말에 전송하는 방법이 표준으로 제정되었으나, 핑거프린트 추출 및 검색 방법은 표준화 범위에 포함되지 않는다.)
3. 동일, 유사내용에 대하여 국내⋅외 관련자들의 수행내용
사운드 코드(Sound Code) 성능 개선을 위한 기술 개발(서울대 휴먼인터페이스 연구실) 과제에서는 Sound 바코드 시스템을 통해 원하는 정보를 은닉한 오디오 신 호를 스피커를 통해 공기 중에 방사하고, 마이크로 수음된 오디오로부터 은닉된 정보를 획득하는 기술을 개발하였다. 기존의 콘텐츠 ID 정보 및 저작권 정보만 전 송하는 오디오 워터마킹 수준에서 벗어나 스피커와 마이크를 통하여 정보를 전송 하는 목적으로 연구를 수행하여 OFDM 방식에서 생길 수 있는 음질 열화를 감소시 키는 데이터 은닉 알고리즘 개발 하였다. Music Trace(독일, 프라운호퍼 연구소) 과제에서는 오디오 워터마킹을 통한 음악 검색 알고리즘을 개발하였는데, 유출된 음원의 최초 사용자를 추적하기 위해 오디오 워터마킹을 활용하는 저작권 보호 기술로 저작권 정보 등을 음원 내부에 삽입하여 음원 데이터만으로 저작권 정보 파악 가능 하다. Zoosh(미국, Naratte 사)는 음향 정보 송수신을 통한 모바일 결제 솔루션으로 기존의 NFC 칩셋을 통한 솔루션에 비해 상대적으로 저렴한 장치 가격이 장점이며 주로 PC 와 모바일 단말 혹은 모바일 단말간의 통신에 활용 가능하다.- 22 -
4. 동일, 유사내용과 관련하여 제안자가 이미 수행한 사업 또는
연구개발과제
사운드 코드를 이용한 사용자 접근성 강화 대화형 데이터 방송 과제를 통해 음 향 데이터 전송 기술에 대한 선행 연구 수행하여 제한된 환경에서 수신 거리 3m, 데 이터 전송률 43bps, MUSHRA(음질 청취 테스트) 점수 98 점, 사용자 대기시간 4.7 초 의 성능을 제공하는 음향 데이터 삽입 알고리즘 개발 하였다. 또한 Self-Synchronization 방식의 독자적인 데이터 삽입 기술을 확보하였으며, 데이터 삽입 기술에 대한 핵심 알고리즘 개발을 통해 해당 기술에 대한 실용화 가능성을 확인하 였으며 향후 기술 고도화 및 상용화를 위해 필요한 기술적 보완사항 도출 하였다.5. 국내.외 경쟁기관 현황
독일 프라운호퍼는 방송 모니터링 및 검사를 위해 최대 23.4 bps 의 전송 비트 율로 동작하고 잔향, 마이크 잡음, 수신기 이동 및 외부 음원으로 인한 간섭 등의 다양한 장애 요소들에 강인한 필터뱅크 기반 데이터 전송 방법을 제안하였으며, 청취 평가를 통해 실제 환경 시나리오에서도 잘 동작함을 입증 하였다. 그리스 데살로니키 대학은 오디오 샘플의 크기에 따라 원 신호를 변형하는 방 식으로 시간 영역에서 생성된 워터마크 신호를 삽입하는 기술을 제안하였으며, 워 터마크가 삽입된 신호가 원 신호와 인지적으로 유사하고 MPEG-2 오디오 코덱 압축 을 비롯한 다양한 신호 변형에 강인한 장점을 가지고 있으나, TSM(Time Scale Modification) 방식의 공격에는 취약한 단점이 있다. 네덜란드 필립스는 일정한 길이(11.8 ms)를 갖는 프레임 간격으로 시간-주파 수 영역에서의 에너지 차로부터 추출된 32 비트 핑거프린트를 이용하여 음악을 식 별하는 방법을 제안 하였다. 미국 구글은 기존의 컴퓨터-비전 기술로부터 착안하여 오디오 스펙트로그램에 서 일정 간격(11.6 ms)으로 스펙트럼 이미지에 해당하는 wavelet 을 계산하여 핑거 프린트를 생성하고, 이를 기반으로 데이터베이스를 구축하여 검색 과정을 수행하- 23 - 는 waveprint 시스템을 제안 하였는데, 상대적으로 짧은 오디오 신호로부터 검색 이 가능 하고, 10~60 초 길이의 쿼리로 잡음이 없는 환경에서 100%에 가까운 인식 률을 제공하며, 주변 잡음에 따라 70% 수준으로 인식률 저하되는 특징을 가지고 있다.
6. 국내.외 지식재산권 현황
국내에서는 방송 콘텐츠 관리를 위한 전반적인 기술보다 오디오 워터마크를 통한 단순 콘텐츠 ID 제공 및 저작권 보호와 단말 간 음향 데이터 통신을 위해 개 발된 기술 중심의 특허가 주로 출원되고 있다. ETRI 는 오디오 워터마크 삽입 장치 및 그 방법과 그의 검출장치 및 그 방법 (1020000082256)과, 디지털 오디오의 워터마크 삽입/추출 장치 및 방법 (1020000077645)을 출원하였다. ㈜엔써는 오디오 핑거프린트 데이터 생성 방법 및 장치 및 이를 이용한 오디오 데이터 비교 방법 및 장치(1008931230000)를 출원하였고, ㈜마크애니는 디지털 오디 오 컨텐츠 저작권 보호 및 복사 방지를 위한워터마크의 삽입/추출 방법 및 이를 이 용한 장치(1004584920000)를 출원하였으며 ㈜사운들리는 시변 주파수 기반의 심볼을 이용한 음파 송수신 방법 및 이를 이용한 장치(1014488230000)를 출원하였다. 국외에서는 단말 간 음향 데이터 전송에 한정된 기술과 콘텐츠 관리를 위한 오디오 핑거프린팅 기술의 적용 특허가 다수를 이루고 있다.오디오 워터마킹 분야로 Civolution 에서는 Watermark embedding (US7779271B2), Alternative audio(EP2628047) 등 오디오 워터마킹 은닉 및 추출 관련 특허를 보유 하고 있으며, Microsoft 는 Audio watermarking with dual watermarks(US6952774B1), Improved stealthy audio watermarking(WO2001006755A3) 등 외부 조작에도 안전하게 정보를 보호할 수 있는 오디오 워터마킹 관련 특허를 보유하고 있다. Yamaha 는 Tone reproduction apparatus and method(US8796527B2) 등 오디오 워터마킹을 위한 톤 신 호를 발생시키는 방법에 대한 특허를 보유하고 있다.
- 24 -
오디오 핑거프린팅 분야에서 Facebook 은 Generating Audio Fingerprints based on Audio Signal Complexity(US20140277640A1) 등 오디오 신호의 복잡도을 계산하 여 오디오 신호의 고유 특징을 추출하는 기술에 대한 특허를 보유하고 있으며, Yahoo 는 Audio Fingerprint for Content Identification(US20130160038A1) 등 오 디오 핑거프린트 데이터를 벡터화하여 매칭하는 방법에 대한 특허를 보유하고 있 다. Predixis 는 Audio fingerprinting system and method(US7013301B2) 등 오디오 핑거프린트 추출과 검색 시스템 구조에 대한 특허를 보유하고 있다.
- 25 -
제2절 핵심요소 및 접근방법
본 과제에서는 방송을 비롯한 다양한 미디어 콘텐츠에 대한 사용자의 접근편 의성을 향상을 제공하기 위해 음향 채널을 매개로 한 Active Audioprint 기술 개 발에 중점을 두고 수행하였다.1. 핵심요소
가. 고성능 Active Audioprint 삽입 기술
열악한 수신거리, 신호대잡음비 및 잔향 등의 환경적 방해 요인에도 안정적인 은닉 정보 추출이 가능하도록 하는 강인한 Active Audioprint 삽입 기술을 개발하 였으며, 응답속도로 인한 사용자 불편을 줄이기 위해 빠른 시간 내에 은닉 정보를 추출할 수 있는 고속 Active Audioprint 삽입 기술을 개발하였다.나. 고성능 Active Audioprint 색인 기술
열악한 수신거리, 신호대잡음비 및 잔향 등의 환경적 방해 요인에도 원 신호 와 동일한 특징을 추출함으로써 우수한 검색 성능을 제공할 수 있는 강인한 Active Audioprint 색인 기술 개발 하였으며, 느린 응답속도로 인한 사용자 불편 을 줄이기 위해 빠른 시간 내에 색인 정보를 추출함으로써 사용자의 대기시간을 줄일 수 있는 고속 Active Audioprint 색인 기술 개발 하였다.다. Active Audioprint 융합 기술
데이터 삽입 기술과 색인 기술을 상호 보완적으로 융합함으로써 개별 기술이 갖는 성능 한계를 극복할 수 있는 Active Audioprint 융합 기술 개발을 개발하였 으며, 데이터 삽입 기술과 색인 기술의 비효율적인 상호 간섭 및 성능 저하를 방 지할 수 있는 Active Audioprint 융합 기술 개발 하였다.- 26 -
2. 접근방법
고품질 Active Audioprint 기술은 국내외 기술 동향 조사를 통해 기존 음향 데이터 통신 기술의 알고리즘 및 장단점을 분석하여 수행하였고, 선행 연구개발과 제를 통해 자체적으로 확보된 음향 데이터 통신 알고리즘에 대한 고도화 작업을 수행 하였다. 동기화 및 삽입 알고리즘 개선을 통해 전송 가능 데이터 용량을 추 가 확보하였으며 잡음 환경에 대한 고려가 상대적으로 부족한 종래의 방식에 비해 진보된 잡음 환경 색인 데이터 추출 기술 연구를 수행하였다. 실제 환경과 동일한 주변 잡음 및 잔향을 갖는 환경에서 실험 및 검증을 수행 하기 위한 실험 환경 구축을 통해 상용화 수준의 기술 확보 하였고, 실제 환경에 서 빈번히 발생하는 수신 단말 이동으로 인해 영향을 분석하고 대응하기 위한 가 상 실험환경 구축을 통해 상용화 수준의 기술을 확보하였다.3. 혁신성과 독창성
정보 삽입과 정보 색인을 동시에 시행하는 오디오 기술(Active Audioprint)은 색인 기능의 부족한 점을 삽입기능을 통해 보완 하고, 삽입 기술로 구현하지 못하 는 부분을 색인 기술로 대체 하여 기존에 구현하지 못했던 서비스에 활용 가능하 며, 삽입 기술을 통한 보완으로 기존의 Fingerprinting 기술로 구현 하지 못한 생 방송 대응 가능한 미디어 관리가 가능하다. 전통적 방법과 다르게 정보 전달의 형태를 달리하는 혁신적인 정보 전송 기술 은 전자기파를 이용한 정보 전송과 다르게, 하드웨어 혹은 칩셋의 호환성 장벽이 없는 소프트웨어를 통한 정보 수신이 가능하며, 영상 정보에 비해 훨씬 용량이 적 은 음향 정보를 이용하여 대역폭 및 저장 공간 효율화가 가능하다. 사용자에게 복잡한 조작을 요구하지 않는 ‘One Touch’ 방식의 서비스를 위해 방송 관련된 정보를 얻기 위한 사용자가 검색 시간을 획기적으로 줄이고, 정보에 대한 진입장벽을 낮추어 매력적인 비즈니스 모델을 제공하며, 보이는 라디오, 인 터액티브 방송 등 방송 부가정보를 최소한의 서비스 구축비용으로 제공할 수 있다.- 27 -
제3장 연구개발 목표 및 내용
제1절 최종목표
구 분 내 용 최종목표 미디어 접근편의성 향상을 위한 Active Audioprint 기술 개발 방송 콘텐츠와 시청 환경에 적합한 미디어 접근 편의성 향상 기술 방송 시청 환경에 강인한 데이터 삽입/추출 기술 음향 채널을 통한 다양한 부가 정보 전달이 가능한 수준의 데 이터 전송 기술 세부목표 미디어 접근편의성 제공을 위한 Active Audioprint 핵심기술 개발 음질 왜곡을 최소화하고 채널왜곡(시청환경)에 강인한 삽입 기술 - 데이터 전송률: 100 bps - 수신 거리: 5 m - 음질: MUSHRA 90점 - BER: 2.5% 빠른 응답 속도를 보이는 음향 특징 기반 검색 기술 실시간 정보 삽입/검색 및 동기화가 가능한 오디오 데이터 전송 기술 Active Audioprint 기술 검증 시스템 개발 방송실험을 위한 Active Audioprint 기술 검증 S/W, H/W 구현 Active Audioprint 기반 광고 모니터링 시스템 기술 개발- 28 - <그림3-1> 음향신호를 이용한 Active Audioprint 서비스 개념도
제2절 연차별 연구개발 목표 및 내용
구 분 목 표 내 용 1차년도 (2015) Active Audioprint 요소 기술 개발 오디오 품질 손실을 최소화하는 데이터 삽입 기술 음향채널 왜곡에 강인한 음향 데이터 삽입 기술 음향채널 왜곡에 강인한 음향 데이터 색인 기술 2차년도 (2016) Active Audioprint 융합 기술 개발 음향채널 왜곡에 강인한 삽입/색인 정보기반 동기화 기술 손실데이터 은닉을 위한 삽입/색인 정보기반 채널 코딩 기술 동기화 향상을 위한 음향데이터 패키징 기술 3차년도 (2017) Active Audioprint 시스템 기술 개발 Active Audioprint 기술 검증 S/W, H/W 구현 Active Audioprint 기반 광고모니터링 시스템 기술 개발 Active Audioprint 방송실험 및 표준화- 29 -
제3절 연구개발 추진 체계 및 방법
최종 연구목표 달성을 위한 Active Audioprint 핵심 기술 개발은 ETRI DRP(Disruptive Research Project) 과제를 통해 확보한 음향 데이터 전송 기술을 기반으로 오디오 코덱 및 신호 분석, 재현 등의 오디오 신호 처리 분야 전문 인력 을 활용하여 ETRI 주도로 수행 하였다. ETRI 주도의 자체 핵심 기술 연구 활동을 통해 최종 기술개발 목표치 달성 및 국내외 기술 관련 지적 재산권 확보 하였으며, 보유기술 수준이 상대적으로 취약 한 무선 통신 관련 기술 분야는 국내외 전문가 초빙을 통해 보완함으로써 보유 기 술 수준을 향상 시켰다. 선행 기술 조사, 국내 표준화 협력 및 방송 연계 서비스 연구는 위탁 연구를 통해 추진 하였다. <그림3-2> 연구개발 추진 체계도 주관연구기관(ETRI) •AAP 기술 요구사항 수립 •AAP 핵심 알고리즘 개발 및 지식재산권 확보 •AAP 요소기술 및 검증 시스템 연구/개발 •서비스 시나리오 및 비즈니스 모델 연구 •국내 표준화 추진 공동연구기관(방송사) •방송 서비스 요구사항 제시 •시험용 콘텐츠 제작 •기술 검증 및 방송실험 실시 •기술 사업화 및 상용화 추진 (주)에스비에스 (주)CJ파워캐스트 •서비스 요구사항 •시험용 콘텐츠 •방송실험 환경 •서비스 시나리오 및 비즈니스 모델 •AAP 핵심 기술 위탁연구기관(대학) •서비스 시나리오 및 비즈니스 모델 연 구 •오디오 워터마크 기술 동향 및 성능 분 석 용역기관(산업체) •AAP 기술 시연 시스템 제작 •AAP 연동 방송 플랫폼 제작 •AAP 저작 도구 제작 •서비스 시나리오 및 비즈니스 모델 •국내 표준화 협력 •오디오 워터마크 기 술 분석 •AAP 기술 시연 시스템 •AAP 연동 방송 플랫폼 •AAP 저작 도구 정부기관(과학기술정보통신부) •정책 수립 및 과제 지원 국내 표준화 기구 •국내 표준안 공동연구기관(중소기업) •AAP 색인 요구사항 도출 •AAP 색인 기술 연구 및 서버 구축 •디지털극장 환경 기반AAP 실험환경 구 축 및 서비스 개발 •앱기반AAP 모바일 서비스 환경 구축 (주)코난테 크놀로지 브릿지미디어솔루션즈㈜ ㈜쿨리오
- 30 -
제4장 연구 수행 결과
제1절 기술개발 성과 지표 및 달성도
성과지표 (주요성능 Spec) 단위 세계 최고수준 기술개발 목표치 (‘17) 목표치 산출근거 달성도 ① 데이터 전송률 bps 25 100 음향 채널을 통한 데 이터 전달 기술은 최 근 국내외에서 활발 한 연구 활동이 진행 중이며, 세계 최고 수준을 근거로 전송 률, 수신 거리, 음 질, BER 등의 정량적 세부 목표를 설정 120 ② 수신거리 m 3 5 5 ③ 음질 MUSHRA 90 90 92 ④ BER % 10 2.5 1.9제2절 오디오 품질 손실 최소화 및 음향 채널 왜곡에 강인한
데이터 삽입 기술
1. 음향데이터 삽입기술 고도화 방안 연구
1 차년도 음향데이터 삽입 기술 관련하여 음향데이터 송/수신 시스템 프로토타 입을 구현하였다. 2 차년도에는 이를 기반으로 삽입기술의 성능 개선과 전송을 위 한 패키징 기술 및 동기화 기술 개발을 수행하였다. 3 차년도에는 기 개발된 알고 리즘을 최적화 하고 안정적인 성능을 보일 수 있도록 성능 검증을 추가적으로 수 행하였고 삽입기술을 응용한 활용 기술 솔루션 개발에 주력하였다. 3 차년도의 알- 31 -
고리즘 개선사항은 MCLT 기반의 음향데이터 삽입 기술에 있어서 완전한 간섭신호 제거로 수신 성능을 개선하였다. 그리고 본 과제에서 목표로하는 100 bps 전송율 과 BER 2.5%를 달성하기 위하여 PPS(Polarized Piolot Sequence) 기반 음향데이터 삽입 기술을 고도화 하였다.
2 차년도에 검증한 바와 같이, 음향데이터 삽입 방식은 주파수 영역에서 수행 하며, 오디오 신호의 프레임 단위 변조 방식중의 하나인 BPSK(Binary Phase Shift Keying)로 데이터를 은닉하여 전송한다. 3 차년도는 이를 기반으로 알고리즘을 세 가지 성능 측면에서 개선하여야 하며, 이는 다음과 같다. 전송 율 개선 - 최종 목표인 100 bps에 도달하기 위하여 음향신호 프레임 구간을 단구간으로 설정하여야 하며, 이때 발생하는 추가적인 음향채널 왜 곡에 강인하도록 알고리즘 성능이 개선되어야 한다. 음질 왜곡 개선 - 데이터 삽입 후 발생하는 원 오디오 신호의 왜곡을 최소화 하여 음 질을 개선하도록 한다. 이는 주파수 영역에서 변조방식을 수행할 때 최소의 음질 왜곡이 유도될 수 있도록 변조방식에 적용되는 주 파수 변환 방식의 특성과, 이에 따른 음질 왜곡 정도를 측정하고 최소 왜곡이 발생할 수 있도록 데이터 은닉 변조방식을 설계한다.
2. 복소영역(complex domain) 음향데이터 삽입 기술 고도화
본 연구에서 선택한 음향데이터 삽입 방식은 주파수 영역에서 이진코드화된 음향데이터를 BPSK 방식으로 삽입하는 것이다. 이러한 시도는 종래의 연구에서도 찾아 볼 수 있는 접근 방식으로 대표적인 방법이 MCLT(Modulated Complex Lapped Transform) 기반 음향 데이터 삽입 기술이다. MCLT 기반의 음향 데이터 삽입 기술 은 음질 왜곡에 강점을 지니는 방식으로 조사된 바 있다. 이미 1 차년도에 이와 유- 32 - 사한 음질 성능을 보임을 검증하였으나, 본 연구에서는 MCLT 방식의 근본적인 문 제점을 제조명하고 이를 개선하기 위한 새로운 접근 방식을 검토하고자 한다. 먼 저 MCLT 변환 방식에서 수행되는 음향데이터 전송방식을 이하 절에서 살펴보고 문 제점에 대한 분석과 이를 개선하기 위한 방안을 제시한다. 이후 이를 참조하여 현 재 음향데이터 전송 시스템을 개선하고 그 성능을 제시하고자 한다.
가. MCLT 기반 음향 데이터 삽입 기술
MCLT 주파수 변환 방식은 DCT-IV 를 기반으로 위상정보가 lapping 된 형태로 주파수 영역으로 분석하는 방식으로 위상차가 90 인 sine lapping 파트를 두어 복 소영역으로 해석되는 변환 방법이다. 가장 큰 장점은 50% 중첩 윈도우를 적용하더 라도 전송 데이터 량을 유지 시킬 수 있다는 것이다. 이는 DCT-IV 가 시간 영역에 서 2 배로 데이터가 확장되는 대신에, 불완전한 신호로 복원되는 특성을 가지며, 이러한 불완전한 특성이 에일리어싱(Aliasing) 파트로서 이전/이후 프레임에서 상 쇄가 가능하기 때문에 원 본 신호를 복원할 수 있는 장점이 있다. 두 가지 대표되 는 장점은 아래와 같이 정리할 수 있다. 높은 데이터 전송율 - 음향데이터 전송 기술은 오디오 프레임에 삽입되는 음향데이터로 인한 잡음 왜곡을 최소화 하기 위하여 이웃한 프레임간에 중첩 윈 도우를 적용하고 신호를 중첩하여 출력 신호를 생성한다. 중첩 영 역은 해당 데이터 프레임의 간섭 신호로 작용하므로 50% 이하의 중 첩영역으로 설정한다. 이는 1차년도 연구 결과에서 조사된 바 있다. 그러나 MCLT 방식은 50% 중첩을 수행하여야 시간영역에서 발생하는 에일리어싱을 상쇄시킬 수 있으며, 이로 인하여 중첩되지 않은 전 송환경과 비교하여 두배로 높일 수 있다.- 33 - 음질 왜곡 최소화 - 언급한 바와 같이, 윈도우 중첩을 50%로 최대화 하면 이웃한 프레 임간의 이질적 음향데이터 삽입으로 인한 음질 왜곡이 무뎌지는 효 과를 볼 수 있다. 이는 일반적인 오디오 신호처리 과정에서 윈도우 중첩으로 기대할 수 있는 효과이다. <그림4-1> MCLT 기반 프레이밍 과정 본 과제의 최종연도 연구에서는 위와 같이 언급한 MCLT 장점이 유효한지를 이 론적으로 증명해보고 실험적 결과로 이를 검증해 보고자 하였다. 이를 기반으로 현재 구현된 시스템의 성능 개선을 유도할 수 있을 것으로 판단하였다. 먼저 MCLT 방식의 데이터 삽입 방식을 아래와 같이 수학식으로 정리하였다. 그림 4-1 은 MCLT 변환을 가정한 프레이밍 과정에서 발생하는 입력신호 및 변환 후 신호에 대한 수 학적 도식화 그림이다. 입력 프레임 신호는 [x(b-1), x(b)]와 같이 구성된다. 이 를 MCLT 변환하면, 𝒙𝒙(𝑏𝑏 − 1) 𝒙𝒙(𝑏𝑏) 𝒙𝒙 𝑏𝑏 = 𝐶𝐶 𝑏𝑏𝑀𝑀 , 𝐶𝐶 𝑏𝑏𝑀𝑀 + 1 , … , 𝐶𝐶(𝑏𝑏𝑀𝑀 + 𝑀𝑀 − 1)𝑇𝑇 𝑿𝑿 𝑏𝑏 = 𝑿𝑿𝑐𝑐 𝑏𝑏 + 𝑗𝑗𝑿𝑿𝑠𝑠(𝑏𝑏) 𝑿𝑿 𝑏𝑏 = 𝑪𝑪𝑪𝑪𝑇𝑇+ 𝑗𝑗𝑪𝑪𝒋𝒋𝑇𝑇 𝑿𝑿(𝑏𝑏) +
+
=
MCLT:- 34 - 𝑿𝑿(𝑏𝑏) = (𝑪𝑪𝑪𝑪 + 𝒋𝒋𝒋𝒋𝑪𝑪) �𝒙𝒙(𝑏𝑏 − 1)𝒙𝒙(𝑏𝑏) � (4-1) 와 같다. 여기서, 𝑪𝑪는 윈도우 행렬로 diagonal element 를 갖는 행렬이며, 𝑪𝑪와 𝒋𝒋 는 주파수 변환을 위한 cosine, sine 함수이다. 본 변환과정에 사용되는 행렬은 이미 알려진 기술로 정의에 대해서는 기술을 생략하였다. 따라서 MCLT 변환 계수는 복소수로 나타난다. 𝑿𝑿(𝑏𝑏) = 𝑿𝑿𝑐𝑐(𝑏𝑏) + 𝑗𝑗𝑿𝑿𝑠𝑠(𝑏𝑏) (4-2) 역변환 과정도 다음과 같이 수식으로 나타낸다. �𝒙𝒙1(𝑏𝑏) 𝒙𝒙2(𝑏𝑏)� = 0.5(𝑪𝑪𝑪𝑪 𝑇𝑇+ 𝑪𝑪𝒋𝒋𝑇𝑇)𝑿𝑿(𝑏𝑏)
(4-3) 여기서 T 는 transpose 에 대한 연산자이다. 복원된 신호는 각각의 텀에 대해서 에일리어싱이 발생하지만, 서로 상쇄되는 효과가 있어 원신호를 복원할 수 있다. 이렇게 복원된 신호를 �𝒙𝒙1(𝑏𝑏) 𝒙𝒙2(𝑏𝑏)� 와 같이 나 타내었다. 그러나 오디오 신호는 윈도우를 적용하기 때문에, 중첩과정을 거쳐야 원신호를 복원할 수 있다. 그림 4-2 에서, 윈도우 함수는 간단하게 삼각창으로 표 현하였으며, 각각의 프레임은 중첩되고 더해져야 원 신호의 파형을 얻을 수 있다. 이때, 음향데이터를 삽입하는 프레임은 한프레임씩 건너뛴 프레임이며, 그 사이의 오디오 신호 프레임에는 데이터를 삽입하지 않는다.
- 35 - <그림4-2> 에일리어싱을 최소화하기 위한 MCLT 기반 데이터 은닉 프레임 그렇다면 음향데이터가 삽입되는 오디오 프레임을 그림으로 나타내어 보겠다. 그림 4-3 은 이를 나타낸 것이다. 본 그림에서, 이웃한 프레임은 본 발명의 의도를 분명히 하기 위하여 음향데이터를 삽입한 현재 프레임이 완벽하게 복원되는 이웃 한 프레임의 반절씩을 표현한 그림이다. <그림4-3> 에일리어싱을 최소화 하기 위한 음향데이터 삽입 프레임 구조 따라서 원 오디오 신호 복원 신호는 아래와 같다. �𝒙𝒙(𝑏𝑏 − 1)𝒙𝒙(𝑏𝑏) � = �𝒙𝒙2(𝑏𝑏 − 1) 𝟎𝟎 � + �𝒙𝒙𝒙𝒙12(𝑏𝑏)(𝑏𝑏)�+� 𝟎𝟎 𝒙𝒙1(𝑏𝑏 + 1)� (4-4) 그렇다면 수식 4-4 로부터 MCLT 변환 과정을 살펴보고 간섭신호가 어떻게 발생 하는지 살펴보기로 한다. 먼저 정의된 MCLT 변환에 사용되는 행열식, C, S, W 를 아래와 같이 표현할 수 있다. (각각은 Cosine, Sine, Window 행렬이다)
- 36 - 𝑪𝑪 = [𝑪𝑪1𝑪𝑪2] (𝑀𝑀 × 𝑁𝑁)
(4-5-1) 𝒋𝒋 = [𝒋𝒋1𝒋𝒋2] (𝑀𝑀 × 𝑁𝑁) (4-5-2) 𝑪𝑪 = �𝑪𝑪1 𝟎𝟎 𝟎𝟎 𝑪𝑪2� (𝑁𝑁 × 𝑁𝑁) (4-5-3) 이를 이용하여 수식 4-4 의 �𝒙𝒙2(𝑏𝑏 − 1) 𝟎𝟎 �와 �𝒙𝒙1(𝑏𝑏 + 1)�𝟎𝟎 의 MCLT 변환 수식은 다음 과 같이 유도 된다. 𝑿𝑿2(𝑏𝑏 − 1) = 𝑿𝑿𝑐𝑐,2(𝑏𝑏 − 1) + 𝑗𝑗𝑿𝑿𝑠𝑠,2(𝑏𝑏 − 1) = 𝑪𝑪2𝑪𝑪2∙ 𝒙𝒙(𝑏𝑏 − 1) + 𝑗𝑗𝒋𝒋2𝑪𝑪2∙ 𝒙𝒙(𝑏𝑏 − 1) (4-6-1) 𝑿𝑿1(𝑏𝑏 + 1) = 𝑿𝑿𝑐𝑐,1(𝑏𝑏 + 1) + 𝑗𝑗𝑿𝑿𝑠𝑠,1(𝑏𝑏 + 1) = 𝑪𝑪1𝑪𝑪1∙ 𝒙𝒙(𝑏𝑏 + 1) + 𝑗𝑗𝒋𝒋1𝑪𝑪1∙ 𝒙𝒙(𝑏𝑏 + 1) (4-6-2) 원 프레임 신호에 대한 주파수 영역에서 중첩한 결과(overlap-add)는 아래와 같다. 𝑹𝑹(𝑏𝑏) = 𝑿𝑿2(𝑏𝑏 − 1) + 𝑿𝑿(𝑏𝑏) + 𝑿𝑿1(𝑏𝑏 + 1) (4-7) 𝑹𝑹(𝑏𝑏)는 aliasing 이 없는 원 오디오 신호로, 역변환 과정에서 구해진 것으로 표현하기 위하여 𝑹𝑹(𝑏𝑏)로 표기하였으며, 데이터를 은닉하지 않았다면, �𝒙𝒙(𝑏𝑏 − 1) 𝒙𝒙(𝑏𝑏) �와 동일하다. 여기서 역으로 𝑹𝑹(𝑏𝑏)를 MCLT 역변환 수식으로 변환하여보자. 𝒓𝒓(𝑏𝑏) = �𝒙𝒙(𝑏𝑏 − 1)𝒙𝒙(𝑏𝑏) � =12 𝑪𝑪2𝑪𝑪2𝑇𝑇𝑿𝑿𝑐𝑐,2(𝑏𝑏 − 1) +12 𝑪𝑪2𝒋𝒋2𝑇𝑇𝑿𝑿𝑠𝑠,2(𝑏𝑏 − 1) +1 2 𝑪𝑪1𝑪𝑪1𝑇𝑇𝑿𝑿𝑐𝑐,1(𝑏𝑏 + 1) + 1 2 𝑪𝑪1𝒋𝒋1𝑇𝑇𝑿𝑿𝑠𝑠,1(𝑏𝑏 + 1) +12𝑪𝑪𝑪𝑪𝑇𝑇𝑿𝑿 𝑐𝑐,1(𝑏𝑏) +12𝑪𝑪1𝒋𝒋1𝑇𝑇𝑿𝑿𝑠𝑠(𝑏𝑏) (4-8)
- 37 - 수식 4-8 의 모든 term 들은 alaising 을 상쇄하고 원신호를 복원하기 위한 것 이지만, 이웃한 프레임의 값들은 간섭신호를 유발한다. 본 최종연도 연구에서는 이러한 간섭신호를 제거하기 위하여 아래와 같이 도면에 수식을 포함하여 개념을 전달하고자 한다. <그림4-4> 에일리어싱을 최소화하기 위한 인위적 에일리어싱 상쇄 과정 먼저 S 에 의하여 imaginary 파트에서 생성된 모든 신호를 간섭신호로 보고 제 거한다. 그렇게 된다면 그림에서와 같이 원 오디오 신호는 아래와 같이 MDCT(Modified DCT)의 행렬형태로 표현된다. 𝒓𝒓(𝒃𝒃) = �𝒙𝒙(𝒃𝒃 − 𝟏𝟏)𝒙𝒙(𝒃𝒃) � = �𝑪𝑪𝟐𝟐𝑪𝑪𝟐𝟐𝑻𝑻𝑿𝑿𝒄𝒄,𝟐𝟐(𝒃𝒃 − 𝟏𝟏) 𝟎𝟎 � + � 𝟎𝟎 𝑪𝑪𝟏𝟏𝑪𝑪𝟏𝟏𝑻𝑻𝑿𝑿𝒄𝒄,𝟏𝟏(𝒃𝒃 + 𝟏𝟏)� + 𝑪𝑪𝑪𝑪 𝑻𝑻𝑿𝑿 𝒄𝒄(𝒃𝒃) (4-9) 여기서, 𝑪𝑪2𝑪𝑪2𝑇𝑇𝑿𝑿𝑐𝑐,2(𝑏𝑏 − 1) + 𝑪𝑪1𝑪𝑪1𝑇𝑇𝑿𝑿𝑐𝑐,1(𝑏𝑏 + 1) 는 에일리어싱을 상쇄 시키기 위한 부 분이면서 이웃한 프레임으로부터 발생한 간섭신호이다. 따라서, 𝑪𝑪𝑪𝑪𝑇𝑇𝑿𝑿 𝑐𝑐,1(𝑏𝑏) 에 데 이터를 삽입할 경우, 𝑪𝑪2𝑪𝑪2𝑇𝑇𝑿𝑿𝑐𝑐,2(𝑏𝑏 − 1)와 𝑪𝑪1𝑪𝑪1𝑇𝑇𝑿𝑿𝑐𝑐,1(𝑏𝑏 + 1)는 간섭신호로 작용한다. 𝒙𝒙(𝑏𝑏 − 1) 𝒙𝒙(𝑏𝑏)
Taking real part
- 38 - 삽입한 음향데이터 신호에 간섭신호를 최소화 하기 위해서 다음과 같이 처리 할 수 있다. 따라서 완전하게 간섭신호를 제거 하기 위해서는 다음과 같이 표현되 어야 한다. 𝒓𝒓�(𝒃𝒃) = − �𝑪𝑪𝟐𝟐𝑪𝑪𝟐𝟐𝑻𝑻𝑿𝑿𝒄𝒄,𝟐𝟐(𝒃𝒃 − 𝟏𝟏) 𝟎𝟎 � − � 𝟎𝟎 𝑪𝑪𝟏𝟏𝑪𝑪𝟏𝟏𝑻𝑻𝑿𝑿𝒄𝒄,𝟏𝟏(𝒃𝒃 + 𝟏𝟏)� + 𝑪𝑪𝑪𝑪 𝑻𝑻𝑿𝑿 𝒄𝒄(𝒃𝒃) (4-10) 그러나 수식 4-10 을 그대로 적용하게 된다면, 시간영역 aliasing 을 제거하지 못하므로 음질의 열화를 초래한다. 따라서 데이터를 전송하기 위하여 선택된 요소 들에 대해서만 수식 4-10 을 적용한다. 다음의 수식을 살펴보면, 𝑪𝑪𝑪𝑪𝑇𝑇𝑿𝑿 𝑐𝑐(𝑏𝑏) = 𝑪𝑪𝑪𝑪𝑇𝑇� 𝑋𝑋0𝑐𝑐(𝑏𝑏) ⋮ 𝑋𝑋𝑀𝑀𝑐𝑐(𝑏𝑏) � (4-11) 마찬가지로 수식 4-10 의 aliasing term 을 풀면 아래와 같다. 𝑪𝑪2𝑪𝑪2𝑇𝑇𝑿𝑿𝑐𝑐,2(𝑏𝑏 − 1) = 𝑪𝑪2𝑪𝑪2𝑇𝑇� 𝑋𝑋0𝑐𝑐,2(𝑏𝑏) ⋮ 𝑋𝑋𝑀𝑀𝑐𝑐,2(𝑏𝑏)�
(4-12) 𝑪𝑪1𝑪𝑪1𝑻𝑻𝑿𝑿𝒄𝒄,𝟏𝟏(𝑏𝑏 + 1) = 𝑪𝑪𝟏𝟏𝑪𝑪𝟏𝟏𝑻𝑻� 𝑋𝑋0𝑐𝑐,1(𝑏𝑏 + 1) ⋮ 𝑋𝑋𝑀𝑀𝑐𝑐,1(𝑏𝑏 + 1) � (4-13) 이하 수식은 앞서 유도되어 얻게된 간섭신호 파트와 현재 프레임의 주파수 영 역 신호에 음향데이터를 삽입할 경우, 간섭신호를 억제하기 위한 방법이다. 음향 데이터는 현재 프레임인 수식 4-11 에 입력한다. 만일에 PSK(Phase Shift Key) 방 식을 따를 때, 수식 4-11 에서 특정 주파수 빈들은 그 위상값이 의도적으로 변형된 다.
- 39 -
예를들어 BPSK(Binary Phase Shift Key)방식을 따르고, 입력하고자 하는 비트
정보를 1 과 −1 값으로 표현한다면 수식 4-11 은 4-12 와 같이 수정된다. 𝒙𝒙�𝑐𝑐(𝑏𝑏) = 𝑪𝑪𝑪𝑪𝑇𝑇𝑿𝑿𝑐𝑐(𝑏𝑏) = 𝑪𝑪𝑪𝑪𝑇𝑇 ⎣ ⎢ ⎢ ⎢ ⎢ ⎡ 𝑋𝑋0𝑐𝑐(𝑏𝑏) |𝑋𝑋1𝑐𝑐(𝑏𝑏)|𝒆𝒆−𝒋𝒋𝟎𝟎 𝑋𝑋2𝑐𝑐(𝑏𝑏) |𝑋𝑋3𝑐𝑐(𝑏𝑏)|𝒆𝒆−𝒋𝒋𝒋𝒋 ⋮ 𝑋𝑋𝑀𝑀𝑐𝑐(𝑏𝑏) ⎦ ⎥ ⎥ ⎥ ⎥ ⎤ (4-14) 수식 4-14 는 두번째 빈과 네번째 주파수 빈에 BPSK 로 0 과 1 을 삽입한 결과 이다. 본 정보가 간섭신호에 영향없이 전달되기 위해서는 본 프레임 신호에 간섭 신호에 해당하는 수식 4-12 와 수식 4-13 은 다음과 같이 제어되어야 한다. 𝒙𝒙�𝑐𝑐,2(𝑏𝑏 − 1) = 𝑪𝑪2𝑪𝑪2𝑇𝑇𝑿𝑿𝑐𝑐,2(𝑏𝑏 − 1) = 𝑪𝑪2𝑪𝑪2𝑇𝑇 ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎡ 𝑋𝑋0𝑐𝑐,2(𝑏𝑏 − 1) 𝛿𝛿1𝑐𝑐,2∙ 𝑋𝑋1𝑐𝑐,2(𝑏𝑏 − 1) 𝑋𝑋2𝑐𝑐,2(𝑏𝑏 − 1) 𝛿𝛿3𝑐𝑐,2∙ 𝑋𝑋3𝑐𝑐,2(𝑏𝑏 − 1) ⋮ 𝛿𝛿𝑘𝑘𝑐𝑐,2∙ 𝑋𝑋𝑘𝑘𝑐𝑐,2(𝑏𝑏 − 1) ⋮ 𝑋𝑋𝑀𝑀𝑐𝑐,2(𝑏𝑏 − 1) ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎤ (4-15) 수식 4-15 는 수식 4-12 로부터 데이터가 삽입된 위치의 간섭신호를 𝛿𝛿𝑘𝑘로 크기 를 조절한다. 완전하게 간섭의 영향을 배제시키기 위해서는 𝛿𝛿𝑘𝑘 = 0 이며, 해당 빈 의 크기가 수식 4-14 와 비교하여 크지 않을 경우 0 ≤ 𝛿𝛿𝑘𝑘≤ 1 범위내에서 설정될 수 있다. 예를 들어, �𝑋𝑋𝑘𝑘𝑐𝑐,2(𝑏𝑏 − 1)� ≪ |𝑋𝑋𝑘𝑘𝑐𝑐(𝑏𝑏)|이라면 𝛿𝛿𝑘𝑘≅ 1이 될 것이다.
- 40 - 마찬가지로, 수식 4-13 에 대한 간섭신호는 아래와 같이 제어될 수 있다. 𝒙𝒙�𝑐𝑐,1(𝑏𝑏 + 1) = 𝑪𝑪1𝑪𝑪1𝑻𝑻𝑿𝑿𝑐𝑐,1(𝑏𝑏 + 1) = 𝑪𝑪1𝑪𝑪1𝑇𝑇 ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎡ 𝑋𝑋0𝑐𝑐,1(𝑏𝑏 + 1) 𝛿𝛿1𝑐𝑐,2∙ 𝑋𝑋1𝑐𝑐,1(𝑏𝑏 + 1) 𝑋𝑋2𝑐𝑐,1(𝑏𝑏 + 1) 𝛿𝛿3𝑐𝑐,2∙ 𝑋𝑋3𝑐𝑐,1(𝑏𝑏 + 1) ⋮ 𝛿𝛿𝑘𝑘𝑐𝑐,2∙ 𝑋𝑋𝑘𝑘𝑐𝑐,1(𝑏𝑏 + 1) ⋮ 𝑋𝑋𝑀𝑀𝑐𝑐,1(𝑏𝑏 + 1) ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎤ (4-16) 수식 4-15 와 수식 4-16 으로부터 유추할 수 있는 또하나의 제약사항은 overlap-add 되는 인접한 프레임 신호에 대해서는 간섭신호를 제거하기 위하여 데 이터를 삽입할 수 없다. 최종적으로 그림 4-5 를 통해 간섭을 제거하여 음향데이터 를 삽입하는 과정을 요약할 수 있다. <그림4-5> MCLT 변환 방법에 근거한 간섭신호에 강인한 음향데이터 삽입 과정 𝒙𝒙(𝑏𝑏 − 1) 𝒙𝒙(𝑏𝑏) 𝒙𝒙(𝑏𝑏 − 1) 𝒙𝒙(𝑏𝑏) 𝑪𝑪𝑪𝑪 𝑿𝑿𝑐𝑐𝑏𝑏 𝑪𝑪𝑪𝑪𝑇𝑇 𝑪𝑪2𝑪𝑪2 𝑿𝑿𝑐𝑐,2𝑏𝑏 − 1 𝑪𝑪2𝑪𝑪2𝑇𝑇 𝑪𝑪1𝑪𝑪1 𝑿𝑿𝑐𝑐,1𝑏𝑏 + 1 𝑪𝑪1𝑪𝑪1𝑇𝑇 𝒙𝒙� 𝑐𝑐,1𝑏𝑏 + 1 𝒙𝒙�𝑐𝑐,2𝑏𝑏 − 1 𝒙𝒙�𝑐𝑐𝑏𝑏
-- 41 --
나. PPS기반 음향 데이터 삽입 기술
상기 살펴본 바와 같이, MCLT 알고리즘 기술에도 진보를 보였으나, 최종년도 에 선택된 기술은 DFT 변환 방법을 활용한 PPS 기반 음향 데이터 삽입 기술이다. 이를 선택한 배경은 시뮬레이션 과정에서 증명이 될 것이며, MCLT 방식보다 실제 음향채널 전송 및 동기화에 강인한 특성을 보이기 때문이다. <그림4-6> PPS 방법에 근거한 음향데이터 삽입 시스템 음향 데이터 삽입부 그림 4-6 은 PPS 기반 음향데이터 전송기술을 나타낸다. 먼저 삽입부를 살펴보 면, 일반적인 워터마크 기술과 마찬가지로 일단 음질 손상을 최소화 하기 위하여 PAM(Perceptual Audio Model)을 적용하였다. 그림에서 굵은 화살표는 행렬값의 흐Time to Frequency PAM Noise generator Data embedding Bits encoding Pilot sequence Bit to
Frequency to Time 𝒑𝒑(𝑏𝑏) 𝑤𝑤(𝑛𝑛) 𝑠𝑠(𝑛𝑛) 𝒏𝒏(𝑏𝑏) 𝜸𝜸(𝑏𝑏) 𝒔𝒔𝑓𝑓(𝑏𝑏) Carrier Index generator Message synchronization Message encoding Message Decoding Frame Synchronization & Data extraction 𝐼𝑛𝑛𝑓𝑓𝑜. 𝑐𝑐𝑜𝑛𝑛𝑓𝑓𝑖𝑖𝐷𝐷 . 𝑐𝑐(𝑛𝑛) 𝜷𝜷(𝑏𝑏) 𝒔𝒔𝑤𝑤𝑤𝑤𝑓𝑓 (𝑏𝑏) 𝑠𝑠𝑤𝑤𝑤𝑤(𝑛𝑛) 𝑠𝑠̂𝑤𝑤𝑤𝑤(𝑛𝑛) Bits Decoding 𝑐𝑐̂(𝑏𝑏) 𝑤𝑤�(𝑛𝑛) 𝑤𝑤�(𝑛𝑛 ± 𝛿𝛿) 𝐼𝑛𝑛𝑓𝑓𝑜. Acoustic channel Data embedder Data extractor 𝝎𝝎(𝑏𝑏) 𝒔𝒔�𝑓𝑓(𝑏𝑏)
- 42 - 름을 의미하며, 일반 화살표는 스칼라 값의 전송을 나타낸다. 음향데이터 삽입부 에서 핵심이 되는 블록은 “bit-to-pilot sequence”블록이다. 여기서 입력된 비트 정보는 PPS 정보로 변환된다. 음향데이터 삽입모듈에 입력되는 신호는 두가지 형태로, “info.”는 오디오 입 력신호, 삽입하고자 하는 부가데이터 정보가 되겠으며, “config.” 정보는 정보가 삽입되는 위치를 인지하기 위한 정보이다. 즉, 입력 프레임내에 데이터가 삽입될 DFT 변환후 주파수 빈의 위치를 알려준다. 따라서 “config.”정보는 음향데이터 추 출부에도 존재하여야 한다. 음향데이터 삽입부의 동작원리를 살펴보자. 벡터 𝝎𝝎(𝑏𝑏) 주파수 빈의 위치를 알 려주는 인덱스 벡터로 입력정보가 실릴 케리어 주파수 빈 위치이다. 𝝎𝝎(𝑏𝑏) = [𝜔𝜔(0) … 𝜔𝜔(𝑘𝑘) … 𝜔𝜔(𝐿𝐿 − 1)]𝑇𝑇 0 < 𝐿𝐿 ≤ 𝑁𝑁/2, (4-17) 여기서 L 은 삽입될 케리어 주파수 빈의 개수가 되겠다. 케리어로 활용될 오 디오 신호는 간혹 묵음 구간이나 신호가 약한 구간이 발생할 수 있다. 이때 잡음 𝒏𝒏(𝑏𝑏)을 삽입하여 그 파워를 키워 줄수 있으며, 이를 키워주기 위한 파라미터가 𝜷𝜷(𝑏𝑏)와 𝜸𝜸(𝑏𝑏)이며, 𝜷𝜷(𝑏𝑏)는 오디오 프레임 신호의 주파수 변환된 𝒔𝒔𝑓𝑓(𝑏𝑏) 에 적용될 것이며, 𝜸𝜸(𝑏𝑏)는 삽입되는 𝒏𝒏(𝑏𝑏)의 파워를 조절한다. 비트스트림 흐름을 살펴보면, 입력된 정보는 비트정보로 변환되고 메시지 단위로 전달되기 위하여 메시지 단위 인코딩 과정을 수행한다. 메시지 단위로 인코딩하는 과정은 동기화 파트에서 설명 하기로 한다. 메시지 인코딩이된 비트열은 1 과 0 의 값을 가지며, 이는 PPS 로 변 환된다. PPS 는 다음과 같이 정의한다. 𝒑𝒑𝑖𝑖= [𝑝𝑝𝑖𝑖(0) 𝑝𝑝𝑖𝑖(1) … 𝑝𝑝𝑖𝑖(𝑘𝑘) … 𝑝𝑝𝑖𝑖(𝐿𝐿 − 1)]𝑇𝑇 𝑖𝑖 ∈ {0,1}, (4-18) 여기서 아래첨자는 0 과 1 로 입력된 비트열에 따라 선택된다. PPS 는 두가지 특성을 갖는다. 먼저 각각의 코드워드를 나타내는 PPS 는 상호간에 독립적이다.
- 43 - ∑ 〈𝑒𝑒𝐶𝐶 𝑗𝑗𝒑𝒑𝑖𝑖⋅ 𝑒𝑒𝑗𝑗𝒑𝒑𝑗𝑗 〉 𝑖𝑖≠𝑗𝑗 = ∑𝑖𝑖≠𝑗𝑗𝐶𝐶 ∑𝑘𝑘=0𝐿𝐿−1𝑒𝑒𝑗𝑗𝑝𝑝𝑖𝑖(𝑘𝑘)⋅ 𝑒𝑒𝑗𝑗𝑝𝑝𝑗𝑗(𝑘𝑘) = 0, (4-19) 그리고 PPS 시퀀스는 시퀀스내에 주기를 갖는다. 𝑝𝑝𝑖𝑖(𝑘𝑘) = 𝑝𝑝𝑖𝑖(𝑘𝑘 + 𝑃𝑃𝑖𝑖), 𝑃𝑃𝑖𝑖≠ 𝑃𝑃𝑗𝑗 (4-20) 삽입되는 과정을 살펴보면 다음과 같다. 입력된 오디오 프레임 신호는 주파수 로 변환된뒤, PAM 모델에 의하여 파워 이득 조절값들이 계산되고 이를 적용하여 다음의 수식을 얻는다. 𝑠𝑠�𝑓𝑓(𝑘𝑘) = �𝛾𝛾(𝑘𝑘)𝑠𝑠𝑓𝑓(𝜔𝜔(𝑙𝑙)) + 𝛽𝛽(𝑘𝑘)𝑛𝑛(𝜔𝜔(𝑙𝑙)) 𝑘𝑘 = 𝜔𝜔(𝑙𝑙) 𝑠𝑠𝑓𝑓(𝑘𝑘) 𝑘𝑘 ≠ 𝜔𝜔(𝑙𝑙) , (4-21) 삽입되는 캐리어 위치에서의 입력신호 주파수 빈의 값은 다음과 같이 표현된다. 𝒔𝒔𝑤𝑤𝑤𝑤𝑓𝑓 (𝑘𝑘) = ��𝑠𝑠� 𝑓𝑓(𝜔𝜔(𝑗𝑗))�𝑒𝑒𝑗𝑗𝑝𝑝𝒊𝒊(𝑙𝑙) 𝑘𝑘 = 𝜔𝜔(𝑙𝑙) 𝑠𝑠�𝑓𝑓(𝑘𝑘) 𝑘𝑘 ≠ 𝜔𝜔(𝑙𝑙) . (4-22) 상기 수식에서 알수 있듯이, 캐리어 주파수의 크기값은 고정하고 위상정보만 을 보정하여 PPS 시퀀스를 삽입한다. 이렇게 삽입되고 난 이후에는 다시 시간축 상의 신호로 변환하여 전송한다. 전송은 음향채널을 통하여 전송되므로, 스피커를 통해 재생이 되는 것이 전송과정이라 할 수 있겠다. 𝒔𝒔𝑤𝑤𝑤𝑤(𝑏𝑏) =𝑁𝑁1��𝒔𝒔𝑤𝑤𝑤𝑤𝑓𝑓 (𝑏𝑏)� ∙ 𝑭𝑭𝐻𝐻� ⊙ 𝒘𝒘(𝑏𝑏) (4-23)
- 44 - 음향 데이터 추출부 음향데이터를 단순하게 추출하는 과정은 매우 간단하다. 그러나 추출과정이 복잡해 지는 이유는 동기화도 고려하여야 하기 때문이다. 본 세션에서는 샘플동기 화관련하여 음향데이터 추출하는 과정을 설명한다. 마이크로 녹취된 오디오 신호로부터 프레임 단위로 주파수영역으로 변환한뒤 케리어 위치에서 위상정보를 추출한다. 이는 다음과 같이 표현할 수 있다. 𝑝𝑝�(𝑙𝑙) = 𝑄𝑄𝑄𝑄𝑄𝑄𝑛𝑛𝑄𝑄 �∡