스마트폰에서의 음성 처리 앱 기술

(1)

목 차 >>> 1. 서 론 2. 음성인식 기술

3. 모바일 음성인식 활용 사례 4. 결론 및 향후 전망

출처: www.youtube.com

(그림 1) 구글 음성검색 사례

1. 서 론

구글 한국어 음성검색을 활용한 “100% 소개팅 성공전략” 동영상(그림 1)에서는 테이블 밑에 스 마트폰을 놓고 음성을 통해 정보를 얻는 과정을 보여주고 있다. 이러한 음성처리는 사용자 편의 성에 따라 다양한 분야에서 실생활에 적용될 수 있으며, 구글, 애플, 마이크로소프트 등 많은 IT 업계에서 스마트폰을 중심으로 음성처리 기술을 주요 서비스에 적용하면서 모바일 음성처리 기술

이 다시 주목받고 있다^[1].

음성은 사람이 정보를 교환하는 가장 자연스러 우면서 기초적인 통신 수단이다. 음성정보 처리 기술은 단순히 저장, 변환하는 수준을 넘어, 음성 을 인식하거나 합성하는 기술, 언어로 표현된 정 보를 체계화하고 검색하는 기술, 다른 언어로 번 역하는 기술 등을 포괄적으로 포함하며, 차세대 사용자 인터페이스이 핵심요소로 부각되고 있다

[12]. 이러한 음성정보 처리기술은 입력되는 사용 자의 음성정보를 인식하는 과정이 선행되어야 하 이용환 (단국대학교), 이준환 (극동대학교), 이상범 (단국대학교)

스마트폰에서의 음성 처리 앱 기술

특집 05

(2)

(그림 2) 음성정보처리 기술과 세부기능 처리기술 관계도 ^[12]

며, 효율적인 음성 인식률이 전체 시스템의 성능 을 향상시킬 수 있다. (그림 2)는 음성인식 기술 을 기반으로 다양한 음성처리 기술로 활용될 수 있는 음성정보 처리모듈간 관계도이다^[12].

음성정보 처리의 핵심 요소기술이 되는 음성인 식(Speech Recognition)은 컴퓨터 프로그램으로 구현된 알고리즘을 통해 음성 신호를 단어의 순 서로 변환하는 과정을 의미한다^[2]. 이러한 음성인 식 기술은 사람이 실생활 속에서 사용하는 단말 기 제어, 정보서비스를 키보드, 마우스를 사용하 지 않고 사용자가 갖는 가장 친화적이고 편리한 의사소통 도구인 발성을 통하여 원하는 단말기 제어, 정보서비스를 받을 수 있도록 지원한다^[6]. 즉, 음성인식 기술의 궁극적 목표는 음성 모델링 을 통해 입력되는 음성 정보를 “듣고(hear), 이해 (understand)하고 적절하게 동작(act)할 수 있는”

시스템을 개발하는 것이다^[4]. 음성인식 시스템은 주어진 음성 신호에서 사람이 말하는 단어의 순

서와 가장 일치된 부분을 검색하여 매칭시킨다.

음성은 사람의 정보 전달 방식들 중에서 가장 익 숙한 방식으로써, 다른 인식 기술보다 사용자에 게 친숙하고 편리한 방식으로 적용이 가능하다.

음성인식을 통한 시스템 입력은 다른 여타의 입 력 장치를 사용하는 것보다 입력 속도가 빠르다 는 특징이 있다. 또한 사용자가 이동 중에도 입력 이 가능하기 때문에 모바일 단말 이용 또는 운전 중의 내비게이션 조작을 위한 입력 등에서도 높 은 안전성과 효율성을 유지할 수 있다는 것이 장 점이다^[1].

현재까지 사람의 모든 자연어 표현을 분석하고 이해하는 음성인식 기술은 개발되지 않았지만, 특정 범위의 정형화된 문장으로 한정할 경우에는 활용 가능한 수준의 정확도를 제공할 수 있다는 측면에서 상당한 기술적 발전이 이루어졌다. 이 러한 음성인식 관련 기술은 최근 스마트폰으로 대표되는 휴대용 컴퓨팅 환경 지원과 클라우드

(3)

스마트폰에서의 음성 처리 앱 기술 ❙

37

(그림 3) 음성인식 기술 구성도 ^[5]

인프라 확산과 맞물려 보다 빠르게 발전되고 있 다^[5]. 특히, 애플 아이폰(Apple iPhone)에 탑재된 음성인식 기능 시리(Siri)가 제공되면서 음성인식 서비스에 대한 사용자 관심이 높아지고 있다.

본 논문에서는 음성인식 기술의 원리와 활용 사례를 살펴보고, 다양한 분야에서 활용이 가능 한 음성인식 기술의 발전 전망을 알아본다.

2. 음성인식 기술

2.1 음성인식 기술

음성인식 기술은 일종의 패턴인식(Pattern Recognition) 과정으로, 입력받은 음성 신호를 분 석하고 특징을 추출한 다음, 미리 수집되어 분석 한 음성 모델 데이터베이스와의 유사도를 측정하 여 가장 유사한 단어, 문장 또는 명령어로 변화하 고 인식 결과로 반환한다(그림 3)^[5].

이러한 음성인식 기술은 크게 네 단계로 수행 되며, 각 단계는 “전처리부”로 표시된 분석 (Analysis), 특징 추출(Feature Extraction), “음성 모델DB”로 표시된 모델링(Modeling)과 “비교”로 표시된 매칭(Matching)이다^[4].

첫 번째는 분석(Analysis) 단계이다. 음성 신호 는 화자의 독자성(Speaker Identity)을 내포하는 서로 다른 다양한 정보를 가지고 있으며, 성대 및 행동 특성 등 화자만의 특정 정보를 포함한다. 이 러한 모든 정보들이 입력되는 음성 신호에 내포 될 수 있으며, 음성인식을 위해 활용될 수 있다.

분석단계에서는 다음 단계에서 특징을 추출하기 위해 음성 신호를 적절한 크기로 분할하고 분석 하는 과정을 수행한다.

다음으로, 특징 추출(Feature Extraction) 단계 이다. 음성 특징 추출은 음성 신호의 차별화된 기 능을 유지하면서 입력 신호의 벡터 차원을 감소 시키는 과정이다. 화자 식별 및 검증 시스템에 대 한 기본적인 형태를 구성하기 위해 필요한 훈련 (Training)과 시험(Test) 벡터의 차원은 입력되는 차원에 따라 증가한다. 따라서 음성 신호에 대한 특징 추출이 반드시 필요하다^[4].

세 번째는 모델링(Modeling) 단계이다. 모델링 기법의 목적은 화자의 특별한 특징 벡터를 사용 하여 화자 모델을 생성하는 과정으로, 모델링은 화자 인식(Speaker Recognition)과 화자 식별 (Speaker Identification)로 분류된다. 화자 식별 기 법은 음성 신호에 통합된 개별 정보를 기반으로 누가 말하는지를 자동적으로 식별하는 기술이며, 주요 목적은 알려지지 않은 화자로부터 화자의 데이터베이스간의 음성 신호를 비교하여 여러 화 자로부터 훈련된 화자를 식별해 낸다. 화자 인식 기법은 화자 종속적(Dependant) 방법과 화자 독 립적인(Independent) 방법으로 분류된다. 음성인 식의 화자 독립 모드에서는 화자에 특화된 음성 신호의 특성들은 무시되며, 의도하는 메시지만을 추출한다. 이에 반해, 화자 종속 모드에서는 음향 (Acoustic) 신호에서 화자 특성을 추출한다^[7].

마지막으로, 매칭(Matching) 단계이다. 음성인 식 엔진은 전체-단어 매칭(Whole-word) 또는 부

(4)

분-단어 매칭(Sub-word) 중의 하나를 사용하여 알려진 단어에서 검색 단어와 일치하는 부분을 검색한다^[8]. 전체-단어 매칭 엔진은 사전에 녹취 된 템플릿 단어에 대해 입력되는 디지털 오디오 신호의 비교를 수행한다^[9]. 이 기술은 부분-단어 매칭에 비해 처리량이 적다는 장점이 있지만 인 식되어야 하는 모든 단어들을 사전에 녹음해야 하는 단점이 있다. 또한 전체-단어 템플릿은 대용 량의 저장 공간이 필요하며, 개발 응용 프로그램 에서 인식 어휘를 인식하고 있을 때만 실용적으 로 사용할 수 있는 기법이다. 부분-단어 매칭 엔 진에서는 하위 단어 또는 현상을 검색하고, 검색 된 하위 단어에 대해 패턴 인식을 수행한다. 이 기술은 전체-단어 매칭 보다 많은 처리량이 요구 되지만, 저장 공간 측면에서는 보다 효율적이다.

또한, 사전에 사용자 발음을 입력하지 않고도, 단 어 발음은 영문 텍스트에서 추측이 가능하다.

2.2 음성인식 기술 분류 및 동향

음성인식 기술은 발성 형태, 인식 대상 화자 (Speaker) 및 인식 대상 단어(Vocabulary)에 따라 분류된다^[3]. 발성 형태별 분류에는 고립단어 (Isolated Word) 인식, 연결단어(Connected Word) 인식, 연속적(Continuous) 인식 및 즉흥적 (Spontaneous) 인식으로 세분화된다^[4]. 고립단어 인식은 조용한 환경에서의 화자 발성이 요구되 며, 한 단어 또는 한 번의 발성에 의한 음성만을 인식하는 초보적인 인식 기술이다. 일반적으로

“들음(Listen)”와 “못 들음(Non- Listen)”의 상태 를 갖는다. 연결단어 인식은 고립단어 인식과 유 사하지만, 분리된 발성을 허용하여 여러 단어들 로 발성되는 음성을 인식하는 기술이다. 연속적 인식은 사용자의 자연스러운 발성에서 나타나는 음성을 인식하는 기술로, 연속적으로 발성되는

음성을 인식하기 위해 발성 영역을 결정하는 특 정 기법이 필요하기 때문에 구현이 어렵고 현재 까지의 기술에서 인식률이 높지 않다. 즉흥적 인 식은 사용자가 말하듯이 자연스럽게 발성하는 음 성을 인식하는 기술로, 말더듬, 감탄사, 머뭇거림 등의 발성뿐만 아니라 단어의 반복적 사용, 발음 상 오류, 비문법적이면서 미완성된 문장 등이 포 함될 수 있는 음성 신호를 인식하는 기술이다.

인식 대상 화자별 분류에는 화자 또는 발성자 의 음성을 사전에 인식기에서 훈련을 통해 음성 신호를 인식하는 화자 종속적 인식(Dependent Recognition), 사용자의 임의의 발성을 인식하는 화자 독립적(Independent) 인식 및 음성인식률 향 상을 위해 특정 사용자의 발성을 인식기에 적응 시키는 화자 적응(Speaker Adaptive) 인식으로 세 분화된다^[10].

인식 대상 단어별 분류에는 인식 가능한 단어 의 수를 고정적으로 적용하는 고정단어 인식 (Fixed Vocabulary), 인식 대상 단위를 가변적으 로 적용하는 가변 단어(Flexible Vocabulary) 인식 으로 분류된다^[5].

최근 음성인식 기술은 모든 사용자를 대상은 여러 단어를 자연스럽게 발성하는 대화체에서 인 식률을 향상시키는 방향으로 발전하고 있으며(그 림 4), 이를 위해 언어 모델링 기술과 대화체 처 리 기술 등이 적용되고 있다^[5].

언어 모델링(Language Modeling) 기술은 언어 적 패턴의 규칙성을 형태화하여 인식 성능 향상 에 활용하는 기법이다. 일반적으로 N-gram 차수 를 이용한 통계적 모델링 기법이 보편화되어 있 으며, 어휘 수에 제한이 없는 대용량 분산 언어 모델링을 활용하고 있다^[11]. 대화체 처리 기술에 서는 언어 이해(Language Understanding), 대화 관리(Dialogue Management), 언어 생성(Language Generation) 모듈로 구성된다^[4].

(5)

39

(그림 4) 음성인식 기술 발전 방향 ^[5]

(a) 구글 음성인식

(b) 다음 음성인식

(c) Vlingo 음성인식 그림출처: 인터넷 구글 검색

(그림 5) 모바일 음성 검색 앱 실례

3. 모바일 음성인식 활용 사례

사용자 입력의 편의성에 따라 다양한 음성처리 앱들이 출시되고 있으며, 본 장에서는 대표적인 모바일 음성인식 기술의 활용 사례로, 모바일 환 경에서 제공하는 애플의 음성인식 앱 시리와 구 글 음성인식 앱을 포함한 여러 응용 프로그램들 을 살펴본다. 구글(Google), 다음(Daum)에서는 기존의 검색 서비스에 음성인식 기능을 추가한 모바일 음성 검색 서비스를 제공하고 있으며(그 림 5), 파란(Paran)에서는 모바일 여행 서비스에 서 음성인식 기능을 시범 운영하고 있다. 위치 기 반 블링고(Vlingo)는 포스퀘어 서비스 계정을 연 결하여 음성으로 친구 찾기 서비스를 제공하고 있으며, Jibbigo 앱은 영어와 스페인어, 중국어,

일본어 간의 음성 번역 서비스를 지원하고 있다.

3.1 애플 음성인식 앱 시리(Siri)

애플에서 iPhone 4S를 출시하면서 사용자의 음성 명령을 인식하고 응답 서비스를 제공하는 음성인식 앱 시리(Siri)를 발표하였다(그림 6). 시 리 앱은 단순하게 사용자 음성을 인식하는 기능 뿐만 아니라 스마트폰의 특성을 보다 활용하여 현재 위치와 일정, 주소록 등의 상황 맥락에 따른 답변과 사용자 선호도를 파악한 답변을 제공하는 기능도 포함되어 있다^[14].

시리는 특정 명령어가 필요하지 않고 사람의 말을 해석하는 기능과 사용자 목소리를 학습하는 기능을 포함하여 보다 높은 인식률과 정확한 답

(6)

그림출처: 인터넷 구글 검색

(그림 6) 애플 음성인식 앱인 시리 실행 화면

그림출처: 인터넷 구글 검색

(그림 7) 구글 보이스액션 실행 화면 변을 도출할 수 있다. 시리의 핵심적 기술 차이는

스티븐 울프람(Stephen Wolfram)이 개발한 지능 형 검색 엔진인 울프람알파(Wolframalpha)을 적 용한 것이다. 울프람알파는 자체적으로 수집한 방대한 정보를 활용하여 문맥에 맞는 의미 있는 해답을 찾아주는 “연산능력을 갖춘 지식 엔진”이 다^[15]. 시리의 구현 동작은 아이폰에서 음성을 입 력받아 웹 DB에서 텍스트로 변환하고, 이들 중 웹 검색이 필요한 부분에서 울프람알파 검색 엔 진에 전달하여 결과값을 도출한 다음, 아이폰에 적용되는 클라우드 방식과 동일하다.

3.2 구글 음성인식 앱

구글 음성인식 서비스는 안드로이드(Android) 2.1을 탑재한 넥서스원(Nexus One)을 출시하면서 다이얼, 이메일, 트위팅 등의 기능을 음성인식 서 비스로 제공하였으며, 이후 후속 버전으로 출시 되는 안드로이드 단말기에서 모두 공통적으로 적 용하고 있다^[16]. 안드로이드 2.2 버전이 탑재된 스 마트폰에서는 전화 걸기, 문자 메시지 보내기, 메 일 작성, 일정 예약, 알람, 목적지 찾기 및 지도 검색 등을 사용자 음성으로 실행할 수 있는 보이 스 액션(Voice Action) 서비스를 지원한다(그림 7).

구글 음성인식 기술은 사람의 음성 파형을 통 계적으로 분석하여 사용자의 의도를 유추하고 있 으며, 클라우드 컴퓨팅을 활용하여 음성인식 서 비스의 속도와 정확도 향상을 진행하고 있다. 클 라우드 서버를 이용하고 있기 때문에 사용자가 증가할수록 보다 많은 음성 데이터가 축적되고 인식률도 향상될 것이다.

3.3 ETRI 지니톡(Genie Talk)

ETRI에서 개발한 양방향 자동 통역 앱 지니톡 (Genie Talk)은 순수 국내 음성인식 기술을 적용

(7)

41

(그림 8) ETRI에서 개발한 스마트폰 자동 번역/통역 앱 지니톡(Genie Talk)

(a) 오늘의 날씨 검색 화면 (b) 트윗 올리기 화면 (c) 메시지 전달 화면 (d) 일정 기록화면

(그림 9) S보이스에서 음성을 통해 스마트폰을 제어한 결과 화면 ^[18]

한 앱으로, 자연어 대화체 음성을 인식하여 선택 한 언어로 번역한 후 화면에 문자를 보여주거나 음성으로 들려주어 의사소통이 가능한 응용 프로 그램이다(그림 8). 지니톡은 음성인식 기술을 통 한 대화체 음성 자동 통역기능뿐만 아니라, 다른 번역결과 자동 검색, 문장 수정, 생활회화 검색 기능도 지원한다^[17].

3.4 삼성전자 S보이스

삼성전자 S보이스, LG전자 Q보이스, 팬텍 스 마트보이스 등은 사용자 음성을 입력받아 적절한 응답이나 기능을 구현하는 지능형 음성인식 서비

스들이다^[18]. 삼성전자의 S보이스는 음성명령을 통해 전화번호 검색, 날씨 검색, 음악 실행, 지도 검색, 인터넷 검색등이 가능하며(그림 9-a), 트위 터나 페이스북에 계정을 등록하면 음성을 통해 게시물을 등록할 수 있고(그림 9-b), 음성을 통해 메일 또는 메시지를 전달하고(그림 9-c), 음성 명 령을 이용하여 일정 관리가 가능하다(그림 9-d).

이외에, 네이버 글로벌회화 앱은 사용자의 실 생활에서 쓰는 언어를 그대로 인식하고 형태나 의미 등을 자연어로 분석해서 그에 적합한 서비 스를 제공하는 링크 기술을 사용하였다. 해당 앱 은 13개 언어의 표현이 가능하며, 상황에 따른 4,000 여개의 표현을 제공한다(그림 10-a)^[19], 순

(8)

(a) 네이버 글로벌회화

(b) 다이얼로이드

(c) SK텔레콤 원포인트스피킹

(그림 10) 국내 음성인식 앱 사례

수 국내기술로 만든 음성인식 문자전송 서비스 앱인 “다이얼로이드”는 동작의 편의성에 초점을 맞추고 화면 터치 없이 100% 음성으로만 문자전 송을 처리할 수 있다(그림 10-b)^[20]. SK텔레콤에 서는 음성인식, 평가시스템인 타스(TASS, Tyche Automatic Scoring System)을 적용한 말하기 학 습을 지원하는 “원포인트스피킹” 앱을 출시하였 으며, 해당 앱은 한국 사람의 영어 말하기 습관을 고려해 인식율을 높이고 개선 방향을 제시하는 특징이 있다(그림 10-c)^[21].

4. 결론 및 향후 전망

최근 IT 업계의 빅3 기업인 구글, 애플, 마이크 로소프트가 음성 기술을 확보하고 주요 제품과 서비스에 적용하면서 음성인식 기술을 둘러싼 경 쟁이 본격화되고 이에 따라 중요한 핵심 인터페 이스 기술로 부상하고 있다. 본 논문에서는 음성 인식 기술의 원리와 특성, 모바일 환경에서 음성 인식 기술을 적용한 사례를 살펴보았다.

이러한 음성인식 기술은 다른 입력 방식과의 차별화된 강점을 통하여 다양한 분야에서 활용되 며, 직관적인 인터페이스를 통하여 음성을 인식 하고 문맥에 맞게 해석하는 기술이 실용화될 것

으로 전망한다. 이는 스마트 TV에서 음성을 이용 한 프로그램 검색, 지능형 자동 응답 시스템 및 환경 제어 시스템 등 다른 IT 기기 또는 서비스와 결합된 형태로 나타날 것이다. 이를 위해 향후의 음성인식 기술은 인공지능, 정황인식, 개별화 등 의 서비스와 결합하고 사용자 경험 인터페이스를 기반으로 지능형 음성인식 시스템으로 발전해야 할 것이다.

참 고 문 헌

[ 1 ] 삼성경제연구소, “SERI 경영노트 – 음성인식 기 술의 재발견”, 2011년.

[ 2 ] 위키 웹사이트http://en.wikipedia.org/wiki/

Speech_recognition

[ 3 ] 한국콘텐츠진흥원, “문화기술(CT) 심층리포트 – 음성인식 기술의 동향과 전망”, 2011년.

[ 4 ] Santosh K. Gaikwad, Bharti W. Gawali, Pravin Yannavar, “A Review on Speech Recognition Technique”, International Journal of Computer Applications (0975-8887), vol.10, no.3., Nov., 2010.

[ 5 ] KT 종합기술원, “모바일로 부활하는 음성인식 기술”, 2010년.

[ 6 ] 강점자, 강병옥, 정호영, 정훈, 이윤근, “신성장 동력산업용 대어휘 음성인식 기술 동향 및 응 용”, 전자통신동향분석 23권 1호, 2008년.

(9)

43

[ 7 ] Samudravijay K., “Speech and Speaker Recognition Report”, http://cs.jounsuu.fi/

pages/ tkinnu/research/index.html

[ 8 ] Zaidi Razak, Noor Jamaliah Ibrahim, Emran Mohd Tamil, Mohd Yamani Idna Idris,

"Quarnic Verse recitation feature extraction using Mel-Frequency Cepstral Coefficient (MFCC)", Department of Al-Quran & Al-Hadith, Academy of Islamic Studies, University of Malaya.

[ 9 ] Moore R., Russell M.J., Tomlinson M., “The Discriminative Network: A Mechanism for Focusing Recognition in Whole-Word Pattern Matching”, International Conference on ICASSP.

[10] X.D.Huang, “A Study on Speaker-Adaptive Speech Recognition”, Proceedings of the Workshop on Speech and Natural Language, pp.278-283, 1991.

[11] Magdin V., Hui Jiang, “Discriminative Training of N-gram Language Models for Speech Recognition via Linear Programming”, Workshop on Automatic Speech Recognition and Understanding, 2009.

[12] 한국정보통신기술협회, “음성언어 정보처리”, Standardization Roadmap for IT839 Strategy.

[13] Dmitry Zaykovskiy, “Survey of the Speech Recognition Techniques for Mobile Devices”, SPECOM, 2006.

[14] KT 경제경영연구소, “Siri에서 보는 지능형 음성 인터페이스 기술”, 2012.

[15] http://www.wolframalpha.com

[16] KT 경제경영연구소, “구글나우(Google Now)를 통해본 구글서비스 진화방향”, 2012.

[17] http://genietalk.etri.re.kr/

[18] http://navercast.naver.com/contents.nhn?

rid=112&contents_id=13418

[19] https://itunes.apple.com/app/id489378283?

mt=8

[20] www.dialoid.com/

[21] http://blog.tsmartlearning.com/176?cosemkid

=nc1366677798737640

저 자 약 력

이 용 환

․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․

이메일 :[email protected]

∙ 1993년 단국대학교 전자계산학과(학사)

∙ 1995년 단국대학교 전산통계학과(석사)

∙ 2007년 단국대학교 전자컴퓨터공학과(박사)

∙ 1995년~2000년 (주)한국정보시스템 기술개발연구소/

선임연구원

∙ 2000년~2003년 (주)이칼로스 팀장

∙ 2003년~2007년 (주)한국e문화 기술이사

∙ 2007년~2009년 성균관대학교 박사후연구원

∙ 2009년~현재 단국대학교 응용컴퓨터공학과 연구교수

∙ 관심분야 : 멀티미디어 검색, 모바일 멀티미디어 통신, 증강현실

이 준 환

․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․

∙ 1994년 단국대학교 전자공학과(학사)

∙ 1996년 단국대학교 전자공학과(석사)

∙ 2001년 단국대학교 전자공학과(박사)

∙ 2001년~현재 극동대학교 스마트모바일학과 교수

∙ 관심분야 : 음성 처리 시스템, 멀티미디어 응용, 스마트 미디어, 모바일 앱

(10)

이 상 범

․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․

∙ 1974년 연세대학교 전자공학과(학사)

∙ 1978년 서울대학교 전자공학과(석사)

∙ 1986년 연세대학교 전자공학과(박사)

∙ 1979년~현재 단국대학교 응용컴퓨터공학과 교수

∙ 2005년 한국정보처리학회장

∙ 관심분야 : 영상 및 음성 신호 시스템, 멀티미디어 응용, 임베디드 시스템