A Study on the Voice Interface for Mobile Environment

http://dx.doi.org/10.7236/JIIBC.2013.13.1.199

모바일기반 음성인터페이스에 관한 연구

A Study on the Voice Interface for Mobile Environment

요 약 구글의 안드로이드 기반 음성인터페이스는 웹 어플리케이션에 국한되어 있으며 사용자층 또한 극히 드문 현 실이다

본 연구에서는 기존의 안드로이드기반 음성엔진을 사용하여 음성인터페이스가 이루어 질 수 있는 방법론을 제시하고 관련 어플리케이션을 개발하였다

또한 안드로이드기반 어플리케이션에 있어서 일상 잡음환경에서 음성인식 어플리케이션의 음성인식 성능 즉

음성인터페이스에 관한 환경을 연구하였으며 그에 알맞은 모바일 환경에서의 음성 인터페이스를 제시하였다

*정회원, 부천대학교 모바일통신과

**정회원, (주)유라테크 R&D 연구소

접수일자 2013년 1월 9일, 수정완료 2013년 2월 6일 게재확정일자 2013년 2월 8일

Received: 9 January 2013 / Revised: 6 February 2013 / Accepted: 8 February 2013

Dept. of Mobile Telecommunications, Bucheon University, Korea

2. 안드로이드(Android)

그림 1. 안드로이드 구조

Fig. 1. Android Architecture

3. 클라우드 음성인식 인터페이스

그림 2. 안드로이드 음성인식 어플리케이션 아이콘 Fig. 2. Android Voice Recognition Application

그림 3. 안드로이드 음성인식 어플리케이션

Fig. 3. Android Voice Recognition Application

그림 4. 음성인식 실행화면

Fig. 4. Voice Recognition Execution Image

그림 5. 안드로이드 음성인식 어플리케이션

Fig. 5. Android Voice Recognition Application

표 1. 인식단어 리스트

Table 1. Recognition Word List

S/N 비 인식률(%)

표 2. 인식률(%)

Table 2. Recognition rate(%)

클라우드 음성엔진 자체 음성엔진

∙엔진개발 필요 없이 사용

∙어플리케이션 개발이 용 이함

∙사용자 인증기능 가능(화 자종속)

∙잡음처리 등 인식률 향상 이 가능

∙인터넷 없이 사용 불가(사 용지역 제한적)

∙잡음처리 등 인식률 향상 이 불가능

∙어플리케이션 개발이 다 소 어려움

표 3. 클라우드 음성엔진과 자체음성엔진 사용비교표 Table 3. Voice recognition Comparisons

between Cloud and Embedded Engine

※ 이 논문은 2012년도 부천대학교 교비지원연구비에 의하여 지원된 연구의 결과임

A Study on the Voice Interface for Mobile Environment

JIIBC 2013-1-27

A Study on the Voice Interface for Mobile Environment

김수훈

, 안종영

Soo-Hoon Kim, Jong-Young Ahn

.

.

,

.

Key Words : Android-based, Voice Interface, Voice Recognition

요즘 지하철이나 버스에서 사람들이 손에 모바일 장 비를 하나씩 쥐고 있는 모습은 전혀 낯설지 않다. 이러한 모바일 생활의 중심 역할을 스마트폰이 수행하고 있다.

클래식 펜티엄 수준의 속도를 낼 수 있으며 가격은 점점 더 저렴해 지고 배터리의 효율도 점점 더 높아지고 있다.

따라서 현재 스마트폰 사용자들의 증가추세에 따라 관련 분야의 소프트웨어 수요가 그 만큼 증가할 것이다.

이에 본 논문에서는 스마트 폰에 적용될 수 있는 응용

프로그램에 있어서 음성인터페이스에 관련된 내용을 연

구하였다. 기존의 음성인식 방법에는 특정화자, 불특정화

자를 구별하여 화자종속, 화자독립으로 나눌 수 있으며

인식단어에 따라 고립단어인식과 연속단어인식으로 나

누어진다. 화자종속에는 화자인증, 핵심어인증으로 나눌

수 있다. 화자 종속은 화자 자신의 음성데이터만을 기초

로 하여 비교패턴을 만들고 인식 시 화자의 패턴과 비교

하여 구성된 패턴과의 일치 여부를 판단하여 인식하게

된다. 화자독립의 경우 예상되어지는 모든 화자의 나이, 지역, 연령, 성별 등 모든 화자데이터의 기초 패턴을 만들 어 어느 화자가 이야기하든지 인식가능하게 하는 음성인 식방법이다.

하지만 아직도 일반인들이 쉽게 사용하지 못하고 있고 음성 인식률저하 및 응용인터페이스가 익숙지 않아 사용 예가 극히 드문 현실이다.

이에 본 연구에서는 기존의 안드로이드 음성엔진을 이용하여 쉽게 접근가능한 음성인터페이스 구조와 어플 리케이션에 대하여 연구 하고 그 음성인식 성능을 평가 하였다.

상기와 같은 운영체제를 적용한다면 모바일 운영체제가 될 수 있다. 어떤 운영체제를 기반으로 하느냐에 따라서 디바이스의 전반적인 특징이 결정되며 기능이나 성능에 도 많은 차이가 발생한다.

현재 많이 사용되는 모바일 운영체제는 Palm, RIM, 윈도우모바일, 심비안, iPhone, 안드로이드(Android)등이 있다.

현재는 iPhone과 안드로이드(Android)가 가장 많 이 사용되는 모바일 운영체제이다.

안드로이드의 개발은 OHA(Open Handset Alliance) 로 되어 있지만 실제적인 주체는 인터넷 검색 업체인 구 글이다. OHA는 개방된 모바일 환경을 위한 하드웨어, 소 프트웨어 업체의 공동 연합으로서 세계적으로 유명한 30

그림 1에 안드로이드의 구조를 나타내었다. 가장 하위

에 있는 부분은 리눅스 커널에 해당하는 부분으로 하드

웨어와 직접적인 인터페이스를 담당하는 부분으로 메모

실제로 폰이나 Target Board위에 올리기 전에 AVD (Android Virtual Device) 에뮬레이터가 있어 미리 실행 화면을 실행시켜 볼 수가 있다. 하지만 관련 하드웨어가

지원되지 않으면 동작 하지 않을 수도 있다.

이는 장점이 될 수 있지만 인터넷 환경이 불안정한 모바 일 기기에서는 단점으로 작용 할 수가 있다.

그림 3과 그림 4는 본 논문에서 사용한 안드로이드 플

랫폼의 음성인식엔진이다.

에서는 인식률이 떨어진다는 것이다.

본 연구에서는 실생활에서 사용가능한 안드로이드 어 플리케이션을 개발하여 실험 하였고 그림 5와 같이 인식 결과를 나타내어 그 인식성능을 평가 하였다.

다음은 실험에 사용된 인식부의 소스코드이다.

Intent intent = new

Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH);

intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_MO DEL,

RecognizerIntent.LANGUAGE_MODEL_FREE_FORM);

intent.putExtra(RecognizerIntent.EXTRA_PROMPT, "음성 인식실행중..");

startActivityForResult(intent, REQUEST_CODE);

실험은 모바일환경(잡음 60∼80dB)에서 진행하였다.

표 1과 같이 모바일 기기에 사용 가능한 20개의 음절데이

터를 사용 하여 신호 대 잡음비 각 20dB, 10dB, 5dB로 실

험 하였다.

표 2에서 알 수 있듯이 조용한 환경에서는 90%의 양 호한 인식률을 보였으나 실생활에 가까운 S/N 비 10dB 에서는 다소 사용하기가 힘든 60%의 인식률을 보였다.

특히 신호 대 잡음비가 10dB이하에서는 인식률의 편차 가 큰데 이는 아직도 주변 잡음은 인식을 수행하는데 많

[1] J.Y..Ahn, S.B. Kim, S.H. Kim ,K.I. Her “A study on Voice Recognition using Model Adaptation HMM for Mobile Environment” The Journal of The Institute of Webcasting, Internet and Telecommuni- cation , Vol.11 No. 3 pp.175-180. June 2011.

[2] S.H. Kim, “Android Programming Complete Guide”,

Hanbit Media Inc. 2011

저자 소개

∙1990년: 동아대학교 전자공학과 공학 사

∙1992년 : 동아대학교 전자공학과 공학 석사

∙1999년 : 동아대학교 전자공학과 공학 박사

∙2001년 ～ 현재 : 부천대학교 모바일 통신과 부교수

<주관심분야： DSP, 음성인식, 모바일콘텐츠>

∙1993년 : 동아대학교 전자공학과 공학 사

∙1996년 : 동아대학교 전자공학과 공학 석사

∙2011년 : 동아대학교 전자공학과 공학 박사

∙1996년 ～ 2000년 : 현대오토넷 전임 연구원

∙2001년 ～ 2003년 : 한국폴리텍 아산캠퍼스 영상매체과 교수

∙2004년 ～ 2006년 : (주)대성전기 선임연구원

∙현제 : (주)유라테크 R&D연구소 수석연구원(부장)

<주관심분야 : 음성신호처리, 임베디드 시스템, DSP, 전장 ECU>

[3] J.N. Woo, B.K. Lee “Android Progrmming”,Hanbit Media Inc. 2011

[4] FURUKAWA, Hidekazu “Android2.1 Programming

Bible”, Published by IPG inc. 2010 [5] Ed Burnette, " Hello, Android", ITC inc.

[6] http://developer.android.com/sdk/index.html