사회문제 해결을 위한 소리데이터

(1)

사회문제 해결을 위한 소리데이터

데이터 산업의 성장과 관련 정책 촉진, 산업 규제 완화, 데이터와 첨단 과학기술의 활용을 통한 사회문제 해결 요구 증대 등으로 인해 데이터 및 AI 관련 분야의 성장이 기대되고 있다. 이와 관련하여 기존의 이미지, 텍스트와 같은 데이 터뿐만 아니라, 소리데이터 활용에 대한 관심이 증가하고 있는데, 본고에서는 사회문제 해결을 위한 소리데이터 활용 방안과 KISTI가 수행한 소리데이터 연구를 소개한다. 우선 소리데이터 활용 이해를 위해 소리데이터 Life-Cycle 기반 으로 활용을 위한 기술과 국내·외 활용 사례를 제시하였다. 또한 KISTI 연구진이 설계한 소리데이터 프레임워크와 이 를 기반으로 수행한 사회문제해결을 위한 소리데이터 활용 방안 실증 연구를 소개하였다. 마지막으로 목적 및 활용 방 안에 따른 데이터 종류가 파편화되어 있어 수집 및 접근이 어려운 한계점이 있는 소리데이터 활용·확산을 위한 공공 부문에서의 역할과 생태계 활성화를 위한 방안을 제안한다.

https://doi.org/10.22810/2024KIB066 2024. 02. 29.

제 66 ^호

최지우 · 이인우 · 김은진

1. 소리데이터 개요

• 소리데이터의 필요성

• 소리데이터 정의

2. 소리데이터 활용 사례

• 국내 활용 사례

• 국외 활용 사례

• 국내·외 활용 사례 분석

3. 소리데이터 활용 및 연구 결과

• 개요

• 소리데이터 수집 및 처리

• AI 모델 분석 및 결과

4. 기대 효과 및 제언

• 기대 효과

• 소리데이터 활용·확산 체계 구축을 위한 제언

(2)

1. 소리데이터 개요

소리데이터의 필요성

● (배경) 정책 환경이 변화하고 소리데이터의 중요성이 증대되고 있음.

- 사회문제 해결을 위한 소리데이터 활용 및 데이터 산업의 성장과 관련 정책 촉진으로 소리데이터 분야의 발

전이 예상됨.

※ 데이터 시장 규모 (국내) ’20년 20.24조 원 → ’27년 47조 원 (CAGR 12.6%), (글로벌) ’20년 41.4 Bn USD → ’27년 243.4 Bn USD (CAGR 19.4%)

- 첨단과학기술과 데이터 기반의 공익을 위한 사회문제 해결 요구가 증가하고 있음.

- 소리데이터 활용을 위한 제반 조건이 충족되면서 AI 기술과 접목하여 활용하기 위한 노력과 관련 기술에 대

한 관심이 증가하고 있음.

- 소리데이터는 수집, 전처리, 분석에 있어 상대적으로 복잡한 컴퓨팅 성능과 전문성을 요구하는 특성이 있음.

- 컴퓨팅 성능의 향상, 다양한 데이터 축적, AI 기술 발달 등으로 소리를 활용한 AI 솔루션 개발이 가능한 환경

이 조성됨.

- 주요 선진국의 데이터 산업 규제 완화와 국내 법률의 복잡성에 따라, 데이터 활용 기술 발전과 산업 환경 변

화에 대응하는 다양한 데이터 정책이 필요한 상황임.

<그림 1> 데이터 관련 국내외 주요 정책

※ ’20~’23년 주요 정책 내용 반영 출처) KISTI 자체 작성

(3)

● (효율성) 데이터 확보를 위한 장비 등 비용이 저렴하여 접근성 측면에서 유리함.

- 데이터 획득 방법과 목적에 따라 크게 달라질 수 있으나, 단순 음파 수신을 위한 마이크로폰은 저가이며 시

스템 구축 비용 절감 가능함.

- 적은 비용으로 인해 일반 대중의 접근성이 크게 증대될 수 있음.

● (확장성) 다른 유형 데이터와의 융합을 통해 가치 확장이 가능함.

- 사람은 오감을 통해 획득하는 복합적인 정보를 조합하여 상황 파악이 가능함.

- 시각 정보가 부족할 경우 청각을 비롯한 다른 감각을 활용하여 부분적인 상황을 인지할 수 있음.(예: 수박을

두드리는 행위, 청진기를 통해 진단하는 행위 등)

- 이와 유사하게 모니터링, 진단과 같은 상황에서 소리는 기존의 시각 정보 위주의 데이터로는 파악하기 어려

운 추가적인 정보를 제공할 수 있음.

- 여러 종류의 데이터를 동시에 처리할 수 있는 Multi-modal AI 기술이 대두되고 있음.

- 시각적인 데이터(비디오, 이미지 등)로는 특이점을 확인할 수 없으나, 소리를 통해 이상을 확인하는 등 보완

적으로 활용이 가능할 것으로 기대됨.

소리데이터 정의

● (정의) KISTI는 소리데이터를 “가청 및 비가청 음파를 2진수로 디지털화한 소리”로 정의함.

● (개념) 음파를 2진수로 디지털화한 소리를 의미함.

- 소리는 매질의 진동을 통해 전달되는 파동이자 아날로그 신호로 정의됨.

- 소리는 표본화-양자화-부호화를 거쳐 컴퓨터가 인식 가능한 형태로 변환 및 저장될 수 있음.

- 소리는 일반적으로 주파수(혹은 파장) 음압(진폭), 소리의 속도, 방향으로 특징지어짐.

- 소리의 인지 측면에서는 피치(높이), 크기, 길이, 음색과 같은 요소로 특징지어질 수 있음.

● (분류) 주파수, 음원, 연구목적 등에 따라 다각도 측면으로 소리를 분류함.

- 주파수에 따라 초저주파(~20Hz), 가청주파(20Hz~20kHz), 초음파(20kHz~)로 분류함.

- 연구 목적에 따라 가청주파 대의 소리를 인간음, 환경음, 음악으로 분류할 수 있음.

- Audio Set Ontology에서는 소리를 Human, Animal, Natural, Music, Sounds of things 등 7개의 대분류 로 분류(세부분류 총 632개)하고 있음.

(4)

<그림 2> 소리데이터의 분류

출처) Audio set: An ontology and human-labeled dataset for audio events. Gemmeke, Jort F. et al.(2017)

● (Life-Cycle) 소리데이터의 활용 이해를 위해서는 데이터 Life-Cycle 측면에서의 접근이 필요함.

- 데이터의 생성부터 파기까지의 Life-Cycle을 기반으로 활용을 위한 기술을 정리할 수 있음.

- 사회문제 해결을 위한 소리데이터 활용에 맞추어 수집-저장-처리-분석-응용의 5단계로 구성하였음.

<그림 3> 소리데이터 Life-Cycle

출처) KISTI 자체 작성

(5)

※ (수집) 연구나 프로젝트의 목적에 맞게 소리데이터를 수집하기 위해서는 적절한 데이터 수집 인프라의 구축이 필수적이며 다 양하고 균형 잡힌 데이터를 확보가 필요함.

※ (저장) 원시 데이터를 적절한 형태로 저장장치에 보관할 때 효과적이고 효율적인 데이터 품질 유지를 위한 기술이 필요하며, 데이터의 특성, 카테고리, 속성 등을 명시적으로 표시하는 라벨링 과정을 통해 분석의 정확성을 높일 수 있음.

※ (처리) 데이터 품질 향상을 위한 노이즈 제거와 데이터 변형 및 확장을 통해 다양성을 높이는 데이터 증강 기술을 바탕으로 분 석에 적합한 형태로 변환함.

※ (분석) 데이터의 유용한 정보를 추출하고, 추출한 특징 또는 원시 데이터를 바탕으로 적합한 인공지능 알고리즘에 기반한 학습 모델을 선정함.

※ (응용) 인공지능을 실제 직면한 문제에 적용하여 예측, 분류, 추천과 같은 Task를 수행하여 문제 해결 솔루션을 제공함.

(6)

2. 소리데이터 활용 사례

국내 활용 사례

● (산업 부문) 산업 현장의 설비 기계류의 작동 중 이상을 진단할 수 있는 기술을 위주로 개발하여 일

부 활용이 되고 있음.

- MOVIC Lab은 초음파 음향데이터를 수집할 수 있는 AI Edge 디바이스와 설비 이상 작동 감지를 모니터링

할 수 있는 AI 솔루션을 개발함.

- POSCO는 중소기업 싸이언과 함께 설비 가동상태 모니터링을 위한 이상음을 감지하는 기술을 개발하여 적

용함.

- 서울대 연구진은 공장에서 장비가 작동하는 소리를 AI를 통해 인지/분류하는 기술을 개발하여 중소기업 현

장 모니터링(장비 작동시간 확인 등)에 적용하여 실증함.

- LG CNS는 SecuXper AI-Safety 솔루션에 AI 음원 분석을 적용하여 비명, 유리창 깨짐, 폭발, 차량사고 등을

감지할 수 있도록 함.

● (교통 부문) 교통 수단 운행으로 인해 발생하는 소리 등을 통해 AI로 모니터링, 진단할 수 있는 기술

을 활용하고 있음.

- SK플래닛은 도로변에서 발생하는 주행 소음을 분석해 결빙 등 도로 위험 상황을 자동으로 모니터링할 수 있

는 음향식 노면 검지 솔루션(ARHIS)을 개발하여 시범사업을 진행하고 있음.

- 현대기아자동차 남양연구소 엔진NVH리서치랩에서는 엔진에서 나는 소리를 AI로 학습시켜 고장을 진단하

는 기술을 개발함.

- 에이엔제이솔루션은 사고에 동반되는 충돌, 폭발, 스키드 등의 소리를 통해 사고 여부를 실시간으로 판단하

여 사고 지역 진입 차량에서 사전에 알려주는 사고음향검지시스템(AADS)을 개발하여 서비스하고 있음.

● (기타 부문) 산업, 교통 부문 이외에도 도시 생활 환경을 비롯한 다양한 부문에서 소리데이터를 활용

한 AI 솔루션 적용 사례를 확인할 수 있음.

- KT는 공중화장실 범죄 예방용 비상벨 서비스에 AI 기능을 적용하여 비명 혹은 도움 요청 음성을 인식하여

구조 요청이 가능하게 함.

- 위플랫은 실시간으로 송수관 누수음을 수집하여 AI로 분석, 누수 지점을 모니터링하는 기술을 개발하여 플

랫폼 운영하고 있음.

- 아이브스는 지능형 이상음원 및 영상분석 기술을 개발하여 방사청의 음원 활용 AI 경계시스템 사업에 참여함.

- 코클은 총소리, 비명, 아기 울음 소리, 비상 알람, 기침, 벨소리 등 다양한 소리를 인지하여 사용자에게 정보

를 제공하는 플랫폼인 Cochl.Sense를 서비스하고 있음.

(7)

- 디플리는 소리를 통한 실시간 도시 위험 감지, 건강 안전 관리, 화자 특성 분석, 기계소리 이상 음원 탐지 등 의 AI 기반 솔루션을 제공함.

국외 활용 사례

●

선진국을 중심으로 다양한 분야에서 소리데이터를 활용한 사례를 확인할 수 있음.

- (미국) V2M은 차량 작동 불량, 고장 등을 소리를 통해 진단, 모니터링 할 수 있는 AI 기반 장비를 개발함.

- (독일) Fraunhofer IKTS에서는 소리 기반 고장 진단 시스템을 개발하여 ICE(고속철도) 열차 차량 차륜, 풍력

발전기 로터 블레이드, 항공기 구조물 등의 모니터링에 활용함.

- (독일) IAV는 주행중인 차량의 이상과 향후 발생할 수 있는 문제를 차량에 설치된 마이크로폰을 통해 수집된

소리 기반으로 진단하는 AI 솔루션을 개발함.

- (일본) Hitachi Power Solutions는 공장이나 발전소 등에서 설비 가동에 따른 소음을 상시 모니터링하고

ML을 적용해 이상 소음을 자동 식별하는 시스템을 제공하고 있음.

- (독일) Fraunhofer FKIE에서는 자연재해가 발생한 현장에서 마이크로폰 어레이를 탑재한 드론으로 구조 요

청이나 기타 생존자의 소리를 정확하게 탐지하여 생존자 구조에 도움을 줄 수 있는 기술을 개발함.

- (일본) 도쿄대 연구진은 사육 환경 개선에 도움을 줄 수 있는 닭의 울음소리를 통해 닭의 감정 상태를 파악하

는 AI 시스템을 개발함.

국내·외 활용 사례 분석

● (종합) 소리데이터와 AI를 활용한 기술개발 및 적용 사례를 다양하게 확인할 수 있으나, 사회 전반에

걸쳐 광범위하게 활용되고 있지는 않아 기술 및 시장 측면에서 초기 단계인 것으로 판단됨.

- 산업 부문에서는 설비 이상 진단을 위한 기술로 활용하기 위한 노력이 활발하게 이루어지고 있음.

- 교통 부문에서는 교통수단 운행 중 실시간 이상 진단을 위한 기술로 활용되고 있음.

- 그 외에 일상생활 곳곳에서 시각적으로 확인이 어려운 정보를 얻기 위해 소리데이터를 활용한 기술개발 노

력이 이루어지고 있음.

- 활용 사례 확인은 가능하지만, 실제 현장에서의 효과나 유용성에 대한 정보는 제한적으로 체감할 수 있는 소

리데이터 활용 특장점을 분석하기에는 어려움이 있음.

- 지금까지는 소리데이터의 AI 활용 활성화는 미진한 상황으로 보이며, 확인되는 활용 사례가 지속적이고 유

의미한 성과를 거두고 있는지는 미지수이지만, 향후 발전 가능성이 높은 만큼 관련 생태계 참여자가 늘어나 고 있음.

(8)

3. 소리데이터 활용 및 연구 결과

<그림 4> 사회문제 해결을 위한 소리데이터 AI 활용 프레임워크

※ 소리데이터를 활용한 인공지능 모델링에서는 음성 인식, 감정 분석, 소리 분류와 같은 응용 기술들이 도출되며, 이를 통해 사용자에게 서비스 가능한 형태로 다양한 솔루션을 제공

개요

●

KISTI에서는 소리데이터와 AI를 활용하여 산업, 교통, 생활 안전 등의 분야에서 사회문제 해결을 하 고자 함.

- 재난/사고를 막기 위한 AI 감시 시스템이 증가하고 있으나, 영상 기반 기술인 경우가 대다수임.

※ 이태원 참사와 같은 사고에서는 인구 밀집도가 높은 상황의 영상을 통한 위험 감지에 어려움 존재

- 이와 같은 문제 해결을 위해 소리데이터를 활용한 재난/사고 탐지 기술개발이 필요함.

※ 주변 소음이 많은 공공장소에서 발생할 수 있는 재난이나 사고를 효과적으로 예방하고 신속하게 대응하기 위해 응급상황뿐 아 니라, 일상에서 발생 가능한 소음이 포함된 데이터를 활용하여 실험

소리데이터 수집 및 처리

● (수집 및 저장) AI 통합 플랫폼(AI-Hub)에서 제공하는 재난안전 환경과 관련된 ‘위급상황 음성/음

향’과 소음 환경 반영을 위한 ‘도시 소리데이터’를 활용함.

- 수집 단계는 데이터 분석 모델 구축을 위한 기반으로 알맞은 데이터 확보가 중요함.

- 위급상황과 다양한 소음 환경을 반영하기 위한 교통, 생활, 공사장 소음 등 다양한 도시 소리를 포함하여 소

음 발생 시 AI 기반 상황 인지 목적으로 데이터셋을 구축함.

※ ‘위급상황 음성/음향’ 데이터셋 16종, ‘도시 소리’ 데이터셋 24종으로 구성 ※ 연구 및 분석에서 쉽게 활용할 수 있도록 표준화된 형식으로 저장(WAV 등)

(9)

<그림 5> 소리데이터 레이블링

출처) AI-Hub, 위급상황 음성/음향 데이터 세트 ‘어노테이션 포맷 및 데이터 구조’

● (처리) 분석 모델 성능 향상 및 계산 효율성 증대를 위해 분석에 적합한 형태로 변환하고 최적화 과

정을 진행함.

- 이 과정에는 데이터 정제, 특징 추출 외 추가적인 전처리 기법이 포함됨.

- 전통적인 오디오 특징인 Mel-Spectrogram¹⁾ 이나 MFCC²⁾ 대신 원본 Waveform 데이터를 직접 소리데이터 분석에 사용함.

※ 최근 딥러닝 방식은 정보 손실을 최소화하며 원본 데이터에서 모델이 다양한 특징을 스스로 학습할 수 있도록 설계되는 추세

- 데이터의 일관성을 위해 길이 고정 및 통일 기술을 적용하였음.

(10)

<그림 6> Waveform 전처리 전/후

AI 모델 분석 및 결과

● (AI 모델) 소리데이터 분류 모델로 BEATs(Bidirectional Encoder Representation from Audio

Transformers)

³⁾

를 활용하였음.

- 본 모델은 데이터셋 구성에 따라 40개의 유형을 학습하여 각각을 식별할 수 있도록 설계함.

- 입력된 소리데이터에 대해 어떤 소리 유형에 속하는지 확률값으로 출력되며, 가장 높은 값을 가진 유형이 해

당 소리데이터의 유형으로 간주됨.

3) 2022년 12월에 공개된 Transformers 기반의 최신 아키텍처로 Google AudioSet과 같은 오디오 분류 분야에서 가장 광범위하게 활용되는 데이터셋에서 높 은 성능을 보임.

(11)

<그림 7> BEATs 아키텍처

출처) Beats: Audio pre-training with acoustic tokenizers. Chen, S. et al. (2022).

● (분석 결과) 총 61,897개의 학습되지 않은 40개의 서로 다른 유형의 소리데이터를 통해 평가한 결

과 99.66%와 98.99%의 f1-score를 달성함.

- AI 모델이 소음 환경에서의 위급상황 소리를 구분할 수 있음을 확인하였으며, 이는 도시 환경 속에서 위급상

황을 탐지할 수 있는 모니터링 시스템에 적용할 수 있음.

- 높은 평가 정확도는 현대의 소리데이터 분석 기법의 능력을 입증하지만, 실제 복잡한 환경에서의 적용은 어

려울 수 있음.

- 실제 환경에서는 다양한 노이즈와 복잡성을 가진 데이터에 대한 모델의 성능을 검증하는 것이 중요하며, 이

를 위해 특정 문제에 최적화된 접근 방법과 전략을 구축하는 것이 필요함.

(12)

<그림 8> 소리데이터 분석 결과 Confusion Matrix

※ 인위적으로 재현된 소리데이터나 동일한 환경과 장비에서 녹음된 데이터는 특정한 패턴이나 노이즈의 부재로 인해 모델이 최적 화하기 쉬운 상황을 제공

(13)

4. 기대 효과 및 제언

기대 효과

●

공공장소에서 발생하는 이상 상황에 대한 신속한 대처 및 예방으로 사회 전반의 안전 확보에 기여할 수 있음.

- 공공장소에서 발생하는 각종 문제 상황 발생 시, 시각데이터와 소리데이터의 융합 분석을 통해 상세하고 정

확한 정보 확인이 가능함.

- 공공장소 안전사고, 범죄 행위에 대한 신속한 감지 및 대응을 통해 안전 사회 구현이 가능함.

●

선제적인 교통 고장 진단을 통한 사고 예방으로 교통 안전 확보에 기여할 수 있음.

- 기존에는 운행 정지 후 전문인력 점검으로 진단이 이루어져 운행 중 이상의 신속한 발견이 어려운 문제가 존

재하였음.

- 소리데이터 기반 실시간 모니터링으로 운행 중인 교통 수단 및 관련 설비의 이상을 신속하게 감지하여 교통

분야 안전 확보가 가능함.

●

산업재해예방 솔루션 개발을 통한 산업 안전 확보에 기여할 수 있음.

- 전문가 기반의 고장 진단을 소리데이터로 전환함으로써 공간적, 시간적 한계를 극복하여 첨단 IT기술 활용

의 진입장벽이 높은 소규모 중소기업의 산업 안전 확보를 지원할 수 있음.

소리데이터 활용·확산 체계 구축을 위한 제언

● (법·제도) 소리데이터 수집 및 활용 관련 법·제도 개선 방향 연구가 필요함.

터 수집·활용 규제 가이드라인 개발 필요함.

- 민간의 연구개발 활성화를 위한 소리데이터 규제 샌드박스 활성화 지원이 중요함.

● (기획) 소리데이터 활성화를 위한 연구 과제 기획 및 발굴 노력이 필요함.

- 수요 조사 및 사회적 이슈 모니터링을 통해 신규 영역을 선제적으로 발굴할 필요가 있음.

- 소리데이터 관련 홍보, Challenge, 컨퍼런스 등을 통해 소리데이터에 관한 국민 전반의 관심도와 이해도를

높여야 함.

(14)

● (기반 조성) 소리데이터 생태계 조성 및 활성화를 위한 기반이 필요함.

- 소리데이터 생태계 활성화를 위한 국가적 전담 컨트롤 타워 및 소리데이터 기술연구 추진을 위한 연구인력

수행 직무 도출과 교육 활성화가 필요함.

- 소리데이터 저장 및 활용이 지속 가능한 선순환 체계를 구축하고, 분석 및 연구의 장을 마련하는 것이 생태

계 조성 및 활성화에 필수적임.

● (공공성 확보) 소리데이터는 대규모 데이터 확보가 어렵고, 목적에 따라 수집되는 데이터의 종류가

파편화되어 있어 접근이 어렵기 때문에 이와 관련한 공공 부문의 지원 역할이 매우 중요함.

- 국내·외 여러 기업과 연구소에서 소리데이터와 딥러닝 기술을 융합하여 문제 해결 솔루션을 개발하고자 노

력하고 있으나, 스타트업이나 중소기업 등은 학습에 필요한 대규모 데이터 확보가 어려움.

- 소리데이터의 다양성과 수집의 어려움 등으로 인해 시장의 성장보다는 개별적인 수집 위주로 나아갈 것으

로 예상됨.

- 소리데이터만으로는 충분한 수익성과 효율성을 담보할 수 없는 관계로 민간 기업에서 대규모의 소리데이터

를 수집, 가공, 판매하는 것은 현실적으로 어려움.

- 향후 AI와 소리데이터의 활용이 중요해지는 만큼 다양한 소리데이터를 제공하여 연구와 산업 현장에 제공하

는 것을 공공 부문에서 주도할 필요가 있음.

(15)

참고문헌

• KISTEP. 대전환 시대의 과학기술혁신 정책 이슈. KISTEP 이슈페이퍼 통권 제324호

• KISTEP. ‘데이터 보안’ 시대의 10대 미래유망기술. KISTEP 이슈페이퍼 통권 제342호

• KISTEP. STI 인텔리전스 기능 강화 방안 - 12대 과학기술혁신 정책 이슈를 중심으로. KISTEP 이슈페이퍼 통권 제345호

• Chen, S., Wu, Y., Wang, C., Liu, S., Tompkins, D., Chen, Z., & Wei, F. (2022). Beats: Audio pre-training with acoustic tokenizers. arXiv preprint arXiv:2212.09058.

• GEMMEKE, Jort F., et al. Audio set: An ontology and human-labeled dataset for audio events. In: 2017 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2017. p. 776-780.

• Martín-Morató, I., Heittola, T., Mesaros, A., & Virtanen, T. (2021). Low-complexity acoustic scene classification for multi-device audio: Analysis of DCASE 2021 Challenge systems. arXiv preprint arXiv:2105.13734.

• Sigtia, S., Stark, A. M., Krstulovi , S., & Plumbley, M. D. (2016). Automatic environmental sound recognition:

Performance versus computational cost. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 24(11), 2096-2107.

• Takahashi, N., Gygli, M., Pfister, B., & Van Gool, L. (2016). Deep convolutional neural networks and data augmentation for acoustic event detection. arXiv preprint arXiv:1604.07160.

(16)

최 지 우

KISTI 정책전략본부 연구전략센터 책임연구원

T. 042-869-1641 E. [email protected]

이 인 우

KISTI 정책전략본부 연구전략센터 박사후연구원

김 은 진

KISTI 정책전략본부 연구전략센터 책임연구원

발 행 일 2024. 02. 29.

발 행 인 김재수

편 집 위 원 조민수, 서태설, 김한국, 고미현, 이상환, 최희석, 최선희, 곽영

발 행 처 34141 대전광역시 유성구 대학로 245 한국과학기술정보연구원 정책연구센터 https://www.kisti.re.kr

I S S N 2635-5728

저 자

제66호

사회문제 해결을 위한 소리데이터