제 출 문
산업통상자원부 장관 귀하 본 보고서를 “실환경하에서 인지센서네트워크(PSN)기반 지능형 로봇의 사용자 정보(신원, 행동, 위치) 자동 추출 및 인식 기술 개발” (개발기간:2012. 06. ~ 2017. 05.) 과제의 최종보고서 10부를 제출합니다. 2017 . 07 . 12 . 주관기관명 ː 한국전자통신연구원 이상훈 (직인 생략) 참여기관명 ː 한국과학기술원 신성철 (직인 생략) 참여기관명 ː 서울대학교 산학협력단 김성철 (직인 생략) 참여기관명 ː 서울시립대학교 원윤희 (직인 생략) 참여기관명 ː Univ. of Southern California C.L. Max Nikias (직인 생략)
총괄책임자 : 한국전자통신연구원 윤호섭 참여기관책임자 : 한국과학기술원 양현승 참여기관책임자 : 서울대학교 최진영 참여기관책임자 : 서울시립대학교 유하진
기술개발사업 최종보고서 초록
1. 일반 현황 사업명 산업원천기술개발 기술분류 로봇 제어 및 지능화기술 과제명(과제번호) 실환경하에서 인지센서네트워크(PSN)기반 지능형 로봇의 사용자 정보(신원, 행동, 위치) 자동 추출 및 인식 기술 개발 (10041610) 주관기관 기관 (기업)명 한국전자통신연구원 설립일 1976.12.30. 주소 대전시 유성구 가정로 218 대표자 (기관장) 이상훈 연락처 042-860-6114 홈페이지 https://etri.re.kr Fax 042-860-6790 기술 개발 현황 총괄책임자 윤호섭 연락처 042-860-5233 실무담당자 윤영우 (e-mail)연락처 [email protected] 참여기관 (책임자) KAIST(양현승), 서울대학교(최진영), 서울시립대학교(유하진), Univ. of Southern California(Gerard Medioni)총사업비 (천원) 정부출연금 민간부담금 합계 현금 현물 5,416,667 0 199,875 5,616,542 총수행 기간 2012. 06 . 01 . ~ 2017. 05 . 31 . 2. 기술개발 개요 공간내 설치된 다중 인식 자원(카메라, 마이크, Kinect 등)과 로봇의 자원을 융합 하여 다중 사용자가 혼재하는 상황에서 로봇과 인터렉션이 요구되는 사용자의 3W(사용자가 누구인지, 무슨 행동을 하는지, 어디에 있는지) 정보 인식 기술 개발. 로봇 기반 영상 인식에서의 문제점을 센서 네트워크로 해결하며, 연속적 인 모니터링에 의한 3W 인식 성능을 개선 함.
3. 개발결과 요약 키워드 인간로봇상호작용, 인지센서네트워크, 사용자신원인식, 얼굴인식, 객체추적, 제스처인식, 행동인식 핵심기술 다중 환경 카메라와 로봇 센서를 이용한 사용자 신원, 위치, 행위 인식 기술 최종목표 공간내 설치된 다중 인식 자원과 로봇의 자원을 융합하여 다 중 사용자가 혼재하는 상황에서 로봇과 인터렉션이 요구되는 사용자의 3W 정보의 최고 수준 인식성능 확보 개발내용 및 결과 인지센서네트워크 통합 플랫폼을 개발하였으며, 플랫폼 내에 서 아래와 같은 고수준의 인식 기술을 개발 함 - 30명 이내의 사용자 대상으로 하여 98% 이상의 신원 인식 기술 개발 - 10가지 제스쳐에 대해 98% 이상, 5가지 행동 에 대한 98% 이상의 인식 기술 개발 - 다중시점기반 객체 추적을 통한 99% 이상의 위치 인식 기 술 개발 기술개발 배경 인간과 로봇의 상호작용 문제를 다루는 HRI는 지능형 서비 스 로봇의 실용화에 있어 가장 우선적으로 해결되어야 할 기 술이나, 로봇이 가진 인식 자원의 제약에 따라 사용자가 원하 는 고수준의 인식 성능을 제공하기 어려움. 로봇 내부가 아 닌, 로봇이 활용되는 공간내에 설치된 다수의 인식 자원(카메 라, 마이크, 3D 카메라 등)을 연동하여 고수준의 인식 성능을 얻고자 함 핵심개발 기술의 의의 HRI 기술은 개인서비스 로봇뿐만 아니라 전문서비스 로봇 분야까지 폭넓게 적용되어 로봇융합산업에 대한 파급력이 큰 기술 적용 분야 스마트 클래스, 스마트 실버타운, 스마트 전시관, 스마트 은행, 스마트 마트 스마트 오피스, 스마트 홈 등
개발된 기술을 평가하였으며, 다중 카메라를 이용한 사람 추적, 얼굴 인식 등의 분야에서 세계 최고 수준의 성능을 달성 - 얼굴 인식 기술의 경우 KISA 인증을 통해 기술성 우수성을 입증 받음 경제적 성과 - 기업으로의 기술 이전을 통해 본 과제에서 개발된 인식 기술 을 시장에서 활용할 수 있도록 하였음 * 딥러닝 기반 얼굴인식 기술 등 총 10건 (4.9억원) 기술이전 - 지능형 CCTV, 지능형 서비스 등의 다양한 분야에서 본 과제 의 인식 기반 기술을 활용 5. 파급 효과 및 기대 효과 파급 효과 o HRI 기술은 개인서비스 로봇뿐만 아니라 전문서비스 로봇 분야까지 폭넓게 적용되어 로봇융합산업에 대한 파급력이 가장 큰 기술 o 인간 로봇간 의도 및 상황인식 기술에 대한 주요 선진국간 의 기술 격차를 해소하고, 세계 최고 수준의 기술력 확보 - 기술격차 축소 주요 기술분야 기술 선도국 및 기업/연구 소 구분 기술격차(년) 상대적 수준(%) 멀티센서 융합 사용 자 인식 기술 Microsoft /MIT Media Lab. 현재 2 85 종료연도 - 100 멀티센서 융합 사용 자 의도 파악 기술 Apple/CM U 현재 2 80 종료연도 - 100 멀티 센서 융합 상황 인식 기술 MIT Media Lab. 현재 3 75 종료연도 - 100 < 주요 기술 분야 및 주요 선진국간의 기술격차 및 상대적 수준 > 기대 효과 o 로봇의 수요가 인간친화 서비스 부문으로 영역이 확대될 것 으로 보고 인식, 판단, 표현 등 HRI 기술 투자가 강화됨 o 특히, 인식기능이 일체화된(연동된) 지능형 인식(Perception) 센서를 환경에 내장하고, 로봇에 장착된 센서와 협업함으로 써 다중 사용자 및 사물의 신원(Who), 행동(What), 위치 (Where) 및 감정 상태에 관한 정보를 완성도 높게 인식하 는 기술이 가장 선결될 HRI 기술이 개발됨
6. 해당 기술, 제품의 시장 현황 국내 시장 o 국내 로봇 시장은 9,137억년(‘09년)으로 전년대대 10.5%이상 꾸준히 성장하는 추세(로봇 산업실대 조사보고서)로 수입 대체 효과 가능 - 서비스용 로봇 분야의 국내 시장 규모는 해외보다 더 가파 른 상승을 보임 < 서비스용 로봇 시장 동향 (단위 : 억원, %) > 구분 2005 2006 2007 2008 2009 (e) 전년대비 증감율( %) 개인서비스용 264 323 353 361 714 97.7% 전문서비스용 54 124 88 122 192 57.2% 제조업용 5,138 6,272 6,410 7,016 7,201 2.6% 로봇부분품 267 478 691 769 1,030 34.0% 국내시장(생산 기준) 5,723 7,197 7,542 8,268 9,137 10.5% * 자료출처 : 2007, 2008, 2009 로봇산업실태조사보고서 해외 시장 o 본 대상기술의 진입 시장은 다양할 것으로 예상되나 그 중 에서도 유망한 제스처인식 시장, 얼굴인식 시장을 대상으로 2020년까지 예측하면, 각 시장의 성장률(제스처인식 25.6%, 얼굴인식27.5%)을 적용하여 2020년까지의 시장규모를 예측 한 결과 제스처인식시장은 2011년 251백만달러, 2020년 1,954백만달러, 얼굴인식시장은 2011년 386백만달러 2020년 6,984백만달러로 성장할 것으로 추정됨 < 제스처 인식과 얼굴인식 시장 동향 (단위 : 백만 달러) > 구분 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 CAG R 제스처 인식 251 316 396 498 625 785 986 1,23 9 1,55 6 1,95 4 25.6 % 얼굴인식 386 1,00 0 1,27 5 1,62 6 2,07 3 2,64 3 3,36 9 4,29 6 5,47 7 6,98 4 27.5 %
7. 제품 사진 <다중 카메라를 이용한 사용자 인식 S/W> <얼굴인식 / 사용자추종 / 제스처인식 OPRoS 컴포넌트> <제스처 인식 S/W> <얼굴 인식 및 합성 S/W> <사람 검출 S/W> <다중시점기반 사용자 추적 S/W> <화자 인식 S/W>
<기술개발사업 주요 연구성과>
사업명 산업융합원천기술개발사업 과제명(과제번호) 실환경하에서 인지센서네트워크(PSN)기반 지능형 로봇의 사용자 정보(신원, 행동, 위치) 자동 추출 및 인식 기술 개발 (10041610) 주관기관명 한국전자통신연구원 설립일 1976.12.30. 주소 대전시 유성구 가정로 218 대표자(기관장) 이상훈 연락처 042-860-5233 총괄책임자 윤호섭 FAX 042-860-6796 총수행기간 2012. 06. 01 ~ 2017. 05. 31 총사업비(백만원) 5,617 정부출연금 5,417 민간부담금 200 참여기관(책임자) KAIST(양현승), 서울대학교(최진영), 서울시립대학교(유하진), Univ. of Southern California(Gerard Medioni)성과지표 세부지표 성 과 비 고 사업화 성과 매출액 개발제품 개발후 현재까지 억원 향후 3년간 매출 억원 관련제품 개발후 현재까지 억원 향후 3년간 매출 억원 시장 점유율 개발제품 개발후 현재까지 국내 : % 국외 : % 향후 3년간 매출 국내 : % 국외 : % 관련제품 개발후 현재까지 국내 : % 국외 : % 향후 3년간 매출 국내 : % 국외 : % 세계시장 경쟁력 순위 현재 제품 세계시장 경쟁력 순위 위 3년 후 제품 세계 시장경쟁력 순위 위 기술적 성과 특허 국내 출원 12 건 등록 8 건 국외 출원 3 건 등록 1 건 논문발표 국내 23 건 국외 52 건 파급효과 고용효과 개발 전 명 개발 후 명 선진국 대비 기술수준 %
□ 구체적인 연구 성과
1. 지식재산권 번 호 종 류 명 칭 출원일 등록일 국 명 등록번호 발생차수 1 국내특허 휴먼 정보 인식 방법 및 장치 2013.02.06 - 대한민국 - 1차년도 2 국내특허 사람 추종 방법 및 로봇 장치 2012.10.16 - 대한민국 - 1차년도 3 국제특허 Method and apparatus for recognizing human information 2013.07.01 - 미국 - 2차년도 4 국내특허 상호작용성 로봇 - 2013.02.26 대한민국 10-1239274 2차년도 5 국내특허 멀티모달 융합을 위한 환경변수 측정방법 - 2013.06.12 대한민국 10-1276204 2차년도 6 국내특허 휴먼 정보 인식 방법 및 장치 2013.02.06 - 대한민국 - 2차년도 7 국내특허 객체 추적 방법 및 장치 2013.05.24 - 대한민국 - 2차년도 8 국내특허 행동 인식 기반의 응용 서비스 제공 장치 및 그 방법 2013.10.01 - 대한민국 - 2차년도 9 국내특허 행동 인식 장치 및 그 방법 2013.12.05 - 대한민국 - 2차년도 10 국내 특허 AR Paint : 실시 간으로 그린 그림 이 물체에 정합되 는 증강현실의 새 로운 응용 2013-05-27 2014.06.09 대한민국 10-1407325 B 2차년도 11 국내 특허 영상기반 강인한 방향 동작 인식 방법 2013-05-22 2014.10.21 대한민국 10-1455261 B1 2차년도 12 국제특허 A P P A R A T U S AND METHOD F O R P R O V I D I N G A C T I V I T Y RECOGNITION B A S E D APPLICATION SERVICE 2014.01.23 - 미국 - 3차년도 13 국제특허 METHOD AND APPRATUS FOR T R A C K I N G OBJECTS 2014.01.24 - 미국 - 3차년도 14 국내 특허 1인칭 시점 손 인식 기반 증강현실 키보드 2014-10-10 2015.10.05 대한민국 10-1559424 B1 3차년도15 국내 특허 스마트 티비를 위한 손든 사용자 모습 인식 방법 및 장치 2014-02-19 - 대한민국 - 3차년도 16 국내 특허 증강현실장치 2014.06.09. - 대한민국 - 3차년도 17 국내 특허 방향 동작 인식 시스템 2014.10.21. - 대한민국 - 3차년도 18 국제특허 METHOD FOR FOLLOWING PERSON AND ROBOT APPARTUS FOR THE PERFOMING THE SAME 2013.09.09 2015.12.01 미국 9201425 4차년도 19 국내특허 로봇 청소기의 사람 검출 장치 및 그 방법 2015.05.26 - 대한민국 - 4차년도 20 국내특허 사용자인증장치 2015.06.16 - 대한민국 - 4차년도 21 국내 특허 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법 2015.05.06 2016.04.28 대한민국 1016185120000 4차년도 22 국내 특허 영상 또는 지리 정보에서 음성 인식을 통한 텍스트 위치 탐색 시스템 및 그 방법 2015.10.06 2017.01.09 대한민국 1016965550000 4차년도 23 국내특허 유사도 분석 장치 2016-03-23 - 대한민국 - 5차년도 24 국내 특허 상거래 공간에서 화자 인증 기반의 결제 서비스를 제공하는 방법, 서버 및 컴퓨터 판독가능 매체 2016.07.08 - 대한민국 10-2016-0086833 5차년도
2. 논문 게재/발표 실적 번 호 구분(논문게재 or 학회발표) 논문명 저자명 저널명 일시 구분(국내, 국외) SCI 등재 여부 발생 차수 1 논문게재 A Long-Range Touch Interface for Interaction with Smart TVs
Jaeyeon Lee ETRI Journal 2012.12 국외 SCI 1차년도
2 논문게재 MUSIC 스펙트럼을 이용한 잡음환경에서의 목표 신호 구간 검출 박상준 말소리와 음성과학 2012.09 국내 - 1차년도 3 논문게재 Target signal detection using MUSIC specturm in noise environment 박상준 World Academy of Science, Engineering and Technology 2012.10 국내 - 1차년도 4 학회발표 HRIDemon: A Framework for Recognition of Human Location, Identity and Behavior in Human-Robot Interaction
DoHyung Kim URAI2012 2012.11 국외 - 1차년도
5 학회발표 Number Detection in Natural Image with Boosting Classifier
Kyu-Dae Ban URAI2012 2012.11 국외 - 1차년도
6 학회발표 Person Following with a RGB-D Camera for Mobile Robots Youngwoo Yoon URAI2012 2012.11 국외 - 1차년도 7 학회발표 Hierarchical Feature Grouping for Multiple Object Segmentation and Tracking Moonsub Byeon Image and Vision Computing New Zealand (IVCNZ) 2012.11. 국외 - 1차년도 8 학회발표 Vision-based Sleep Mode Detection for a Smart TV Yeong Nam Chae International Conference on Consumer Electronics 2013.01 국외 - 1차년도
9 학회발표 Smartphone as an Augmented Reality Authoring Tool via Multi-touch based 3D Interaction Method Jinki Jung Virtual-Realit y Continuum and its Applications in Industry 2012.12. 국외 - 1차년도 10 학회발표 Lightweight Random Ferns Using Binary Representation Suwon Lee nternational Conference on Pattern Recognition 2012.11. 국외 - 1차년도 11 논문게재 Vision-based arm gesture recognition for a long-range human–robot interaction DoHyung Kim Journal of Supercomputi ng 2013.07 국외 SCI 2차년도 12 학회발표 Visual Object Tracking for Handheld Devices Woo-han Yun IEEE International Symposium on Industrial Electronics 2013 2013.05 국외 - 2차년도 13 학회발표 A Discussion on a Framework to Orginize Perception Technologies for the Integrated Understanding of the Environments Jaeyeon Lee International Conference on Computer Applications and Information Processing Technology 2013 2013.06 국외 - 2차년도 14 학회발표 Robotic Person-Tracking with Modified Multiple Instance Learning
Woo-han Yun RO-MAN2013 2013.08 국외 - 2차년도
15 학회발표 A Perception Framework for Supporting Robots to Recognize Human Better in Human-Robot
17 학회발표 A Development of the Perception Framework to Make the Robots Conscious with the Aid of Perception Sensor Network
Jaeyeon Lee RO-MAN
2013 2013.08 국외 - 2차년도 18 학회발표 Comparing strategies for 3D face recognition from a 3D sensor Choi, Jongmoo, Ayush Sharma, and Gérard Medioni IEEE RO-MAN 2013 국외 - 2차년도 19 학회발표 Matching Heads of Multiple People in Multiple Camera Networks Moonsub Byeon International Symposium on Robot and Human Interactive Communicati on (RO-MAN) 2013.08. 국외 - 2차년도 20 학회발표 3차원 세류 군집화를 이용한 다중 카메라 다중 물체 추적 유한주 전자정보통신 학술대회 2013.12. 국내 - 2차년도 21 학회발표 Initialization-Inse nsitive Visual Tracking Through Voting with Salient Local Features Kwangmoo yi International Conference on Computer Vision (ICCV) 2013.12. 국외 - 2차년도 22 논문게재 Lightweight generic random ferns for multi-target augmented reality on mobile devices
Suwon Lee Electronics
Letters 2013.06 국외 SCI 2차년도 23 논문게재 Spatiotemporal 3D motion vector filtering method for robust visual odometry
G.I. Kwon ElectronicsLetters 2013.02 국외 SCI 2차년도
24 논문게재 Automatic registration of a virtual experience space with Kinect
Jaemin Soh MultimediaTools and Applications
25 논문게재 Efficient foreground extraction using RGB-D imaging Sang-Wook Lee Multimedia Tools and Applications 2013.12 국외 SCI 2차년도 26 학회발표 Head Pose Estimation Based on Image Abstraction for Multiclass Classification ByungOk Han International Conference on Intelligent Robotics, Automations, Telecommuni cation facilities, and applications 2013 2013.07 국외 - 2차년도 27 학회발표 Vision-based Sleep Mode Detection for a Smart TV Yeong Nam Chae IEEE International Conference on Consumer Electronics 2013 2013.01 국외 - 2차년도 28 학회발표 User-friendly 3D object manipulation gesture using kinect Jaemin Soh International Conference on Virtual Reality Continuum and Its Applications in Industry (VRCAI) 2013.11 국외 - 2차년도 29 논문게재 Robust Sign Recognition System at Subway Stations Using Verification Knowledge
Dongjin Lee ETRI Journal 2014.09 국외 SCI 3차년도
30 학회발표 Real-time Visual Target Tracking in RGB-D Data for Person-following Robots Youngwoo Yoon ICPR 2014 2014.08 국외 - 3차년도
31 학회발표 Action Recogntion with Depth Maps Using HOG Descriptors of Multi-view Motion Appearance and History DoHyungKim UBICOMM20 14 2014.08 국외 - 3차년도 32 학회발표 픽셀 분류기 부스팅을 활용한 보행자 검출 반규대 대한전자공학 회 추계학술대회 2014.11 국내 - 3차년도 33 학회발표 UBM 구성 화자의 연령에 따른 화자인식 성능 비교 허희수, 윤길노, 양일호, 김명재, 백록선, 유하진 한국음성학회 봄 학술대회 2014.05 국내 - 3차년도 34 논문게재 View invariant action recognition using generalized 4D features
Sun Jung Kim
Pattern Recognition Letters 2014.06. 국외 SCI 3차년도 35 학회발표 MAP-based Online Data Association for Multiple People Tracking in Crowded Scenes
Soo Wan Kim
International Conference on Pattern Recognition 2014 2014.08. 국외 - 3차년도 36 학회발표 다중카메라를 이용한 움직이는 물체의 3차원 위치 추적 김기경 2014년도 대한전자공학 회 하계종합학술 대회 2014.06. 국내 - 3차년도 37 논문게재 Head pose estimation using image abstraction and local directional quaternary patterns for multiclass classification ByungOk Han Pattern Recognition Letters 2014.08 국외 SCI 3차년도
38 학회발표 Reponse Surface Learning For Face Misalignment Correction Youngmin Park International Workshop on Robot Interaction, Control, Communicati on and Cooperation 2014.11. 08 국외 - 3차년도 39 학회발표 Augmented Keyboard_a Virtual Keyboard Interface for Smart glasses Jinki Jung International Conference on Virtual-Realit y Continuum and its Applications in Industry 2014.11. 30 국외 - 3차년도 40 학회발표 Avatar Recommendatio n Method Based On Facial Attribute Youngmin Park, International Conference on Virtual Systems and Multimedia (VSMM) 2014.12. 11 국외 - 3차년도 41 학회발표 MCT 특징 기반 사람 상반신 검출 방법 반규대 대한전자공학 회 추계학술대회 2015. 11. 국내 - 4차년도 42 학회발표 Perception sensor network space for intelligent robot 윤호섭 International Conference on Electrical Engineering and Computer Sciences 2015. 12. 국외 - 4차년도 43 논문게재 Near laser-scan quality 3-D face reconstruction from a low-quality depth stream Hernandez, Matthias, Jongmoo Choi, and Gérard Medioni Image and Vision Computing 36: 61-69 2015 국외 SCI 4차년도 I-vector와 음향 대한전자공학
45 학회발표 Efficient Spatio-Temporal Data Association Using Multidimensiona l Assignment in Multi-Camera Multi-Target Tracking Moonsub Byeon British Machine Vision Conference (BMVC), 2015 2015.09. 국외 - 4차년도 46 학회발표 Robust Feature Extraction for Shift and Direction Invariant Action Recognition Younghan Jeon Pacific-Rim Conference on Multimedia(P CM), 2015 2015.09. 국외 - 4차년도 47 학회발표 추적 세류와 다중 가정 추적을 이용한 다중 카메라 다중 물체 추적 알고리즘 유한주 Workshop on Image Processing and Image Understandin g(IPIU 2015) 2015.02. 국내 - 4차년도 48 학회발표 광류를 이용한 특성 벡터 추출 및 행동인식 전영한 Workshop on Image Processing and Image Understandin g(IPIU 2015) 2015.06. 국내 - 4차년도 49 학회발표 보행자 3차원 위치탐지를 위한 바텀센터 디텍터 김기경 2015년도 대한전자공학 회 하계종합학술 대회 2015.06. 국내 - 4차년도 50 논문게재 Sorted Consecutive Local Binary Pattern for Texture Classification Jongbin Ryu Image Processing, IEEE Transactions on 2015. 04 국외 SCI 4차년도 51 학회발표 다중시점기반 강인한 얼굴인식기법 ByungOk Han 2015년도 대한전자공학 회 하계종합학술 대회 2015. 06. 22 국내 - 4차년도 52 학회발표 지능형 로봇을 위한 실환경의 사용자 신원, 위치 정보 자동 추출 및 인식 S/W 개발 반규대 2016년 대한전자공학 회 하계학술대회 2016. 06. 국내 - 5차년도 53 학회발표 개별 검출기 융합을 통한 사람 검출률 향상 반규대 제11회 한국로봇종합 학술대회 2016. 01. 국내 - 5차년도
54 학회발표 Person Re-Identification in a Person-Followin g Robot Youngwoo Yoon The 25th IEEE International Symposium on Robot and Human Interactive Communicati on 2016. 08 국외 - 5차년도 55 학회발표 3차원 얼굴 모델 기반 얼굴 교체 전승혁 제 2016년도 대한전자공학 회 하계종합학술 대회 2016. 06 국내 - 5차년도 56 학회발표 Frontal Face Reconstruction with Symmetric Constraints 전승혁 Ubiquitous Robots and Ambient Intelligence (URAI), 2016 2016.08 국외 - 5차년도 57 학회발표 1X1 필터를 이용한 CNN 요약모델 장재윤 제 11회 한국로봇종합 학술대회 2016. 01 국내 - 5차년도 58 학회발표 A Pseudo Ensemble Convolutional Neural Networks 장재윤 Ubiquitous Robots and Ambient Intelligence(U RAI 2016) 2016. 08 국외 - 5차년도 59 학회발표 합성곱 신경망을 이용한 성별인식 장재윤 2016년도 대한전자공학 회 하계학술대회 2016. 06 국내 - 5차년도 60 학회발표 Continuous gesture recognition by using gesture spotting
Daeha Lee ICCAS 2016 2016.10 국외 - 5차년도
61 학회발표 Expression Invariant 3D Face Modeling from an RGB-D Video Donghyun Kim, Jongmoo Choi,Toy Leksut, Gerard Medioni International conference on pattern recognition (ICPR) 2016 국외 - 5차년도 Accurate 3D
63 학회발표 유치원 환경에서의 이상 상황 검출을 위한 DNN 기반의 울음소리 검출 시스템 허희수, 양일호, 윤성현, 정지원, 유하진 대한전자공학 회 하계종학학술 대회 2016.06 국내 - 5차년도 64 학회발표 잡음에 강인한 화자인증을 위한 I-vector 후처리 기법 연구 허희수, 양일호, 윤성현, 유하진 한국음성학회 봄 학술대회 2016.05 국내 - 5차년도 65 학회발표 ADVANCED B-VECTOR SYSTEM BASED DEEP NEURAL NETWORK AS CLASSIFIER FOR SPEAKER VERIFICATION 허희수, 양일호, 김명재, 윤성현, 유하진 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2016.04 국외 - 5차년도 66 학회발표 실 환경 보행자 탐지를 위한 선택적 피라미드 탐색 알고리즘 김기경 2016 대한전자공학 회 하계종합학술 대회 2016.06. 국내 - 5차년도 67 학회발표 실환경 적용을 위한 다중 시점 다중 객체 탐지 및 추적 시스템 전영한 2016 대한전자공학 회 하계종합학술 대회 2016.06. 국내 - 5차년도 68 논문게재 Locality-preservi ng descriptor for robust texture feature representation
Jongbin Ryu Neurocomput
ing 2016.11 국외 SCI 5차년도 69 학회발표 얼굴과 의복 정보를 활용한 딥러닝 기반 신원인식 Sungeun Hong 대한전자공학 회 하계종합학술 대회 2016.06 국내 - 5차년도 70 학회발표 Deep 3D Face Identification Donghyun Kim, Hernandez, Matthias, Jongmoo Choi, and Gérard Medioni The International Joint Conference on Biometrics (IJCB 2017) 2017.10 국외 - 6차년도
71 학회발표 APPLYING COMPENSATIO N TECHNIQUES ON I-VECTORS EXTRACTED FROM SHORT-TEST UTTERANCES FOR SPEAKER VERIFICATION USING DEEP NEURAL NETWORK 양일호, 허희수, 윤성현, 유하진 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2017.04 국외 - 6차년도 72 학회발표 Joint Training of Expanded End-to-end DNN for Text-dependent Speaker Verification 허희수, 정지원, 양일호, 윤성현, 유하진 Annual Conference of the International Speech Communicati on Association (INTERSPEE CH) 2017.08 (발표 예정) 국외 - 6차년도 73 논문게재 Histogram equalization using a reduced feature set of background speakers’ utterances for speaker recognition 김명재, 양일호, 김민석, 유하진 Frontiers of Information Technology & Electronic Engineering 2017.05 국외 SCI 6차년도 74 학회발표 SSPP-DAN: DEEP DOMAIN ADAPTATION NETWORK FOR FACE RECOGNITION WITH SINGLE SAMPLE PER Sungeun Hong International Conference on Image Processing (ICIP'17), IEEE 2017.09 국외 - 6차년도
75 논문게재 Deep Age Estimation with Artificially Generated Imageset 장재윤, 전승혁,
3. 기술이전 실적 번호 기술이전 내역 대상국명 대상기관명 이전일시 수입금액 (백만원) 발생차수 1 영상기반 사용자 검출 기술 대한민국 ㈜뉴런 2012.11.26. 30 1차년도 2 영상처리를 이용한 유동인구 카운팅 기술 대한민국 ㈜FDF코리아 2013.11.22. 140 2차년도 3 얼굴인식기술 대한민국 ㈜가온 2014.04.28. 50 3차년도 4 딥러닝 기반 성별/연령 인식기술 대한민국 ㈜이노스피치 2016.11.01. 10 5차년도 5 딥러닝기반 조명, 표정, 포즈 변화에 강인한 얼굴인식 기술 대한민국 ㈜이노스피치 2016.11.01. 50 5차년도 6 딥러닝 기반 성별/연령 인식기술 대한민국 ㈜핀텔 2016.12.20. 10 5차년도 7 딥러닝기반 조명, 표정, 포즈 변화에 강인한 얼굴인식 기술 대한민국 ㈜핀텔 2016.12.20. 50 5차년도 8 딥러닝기반 조명, 표정, 포즈 변화에 강인한 얼굴인식 기술 대한민국 ㈜지와이네트 웍스 2017.02.01. 50 6차년도 9 딥러닝기반 조명, 표정, 포즈 변화에 강인한 얼굴인식 기술 대한민국 ㈜다통 2017.06.08. 50 6차년도 10 딥러닝기반 조명, 표정, 포즈 변화에 강인한 얼굴인식 기술 대한민국 ㈜원더플시스 템 2017.05.22. 50 6차년도 * 기술이전 신청내역 번호 기술이전 신청 대상국 명 대상기관명 이전일시 수입금액(백 만원) 발생차수 1 딥러닝기반 조명, 표정, 포즈 변화에 강인한 대한민국 ㈜아임클라우 드 2017.06.13. 50 6차년도
4. 인증/포상 실적 등 (국내 및 국외)
번호 구분 명칭 일시 국명 수여기관명 발생차수
1 인증 연구 품질관리
SPICE Level 3 2014.11.20 미국 ISO 3 차년도
2 인증 인지센서네트워크 기반 신원인식기 (부분 성능인증) 2016.04.20 한국 한국인터넷 진흥원 5 차년도 3 인증 인지센서네트워크 기반 신원인식기 (전체 성능인증) 2017.04.20 한국 한국인터넷 진흥원 6 차년도
5. 사업화 계획 및 매출 실적 (해당없음) 항 목 세부 항목 성 과 사업화 계획 사업화 소요기간(년) 소요예산(백만원) 예상 매출규모 (억원) 현재까지 3년후 5년후 시장 점유율 단위(%) 현재까지 3년후 5년후 국내 국외 향후 관련기술, 제품을 응용한 타 모델, 제품 개발계획 무역 수지 개선 효과 (단위 : 억원) 현재 3년후 5년후 수입대체(내수) 수 출 6. 고용 창출 (해당없음) 항목 세부 항목 성 과 고용 효과 개발 전 연구인력 명 생산인력 명 개발 후 연구인력 명 생산인력 명 7. 기타 성과 * 표준화 성과 (총 6건)
- RoIS: Robotic Interaction Service Framework OMG 국제 표준 승인 (2012) - OPROS 기반 HRI 기본 컴포넌트 API 표준 승인 (KOROS 1067-7-1:2015, 2015) - 인지센서네트워크 프레임워크 국내외 표준안 4건 제안 (TTA, 2016)
(1) 개방형 로봇 소프트웨어 플랫폼 – 제6부 : 장치 추상화를 위한 공통 로봇 인터페이스 (2) 개방형 로봇 소프트웨어 플랫폼 – 제7-1부 : 인간로봇 상호작용 응용 컴포넌트 프로파일
목 차
제 1 장 서론 ··· 26 제 1 절 과제의 개요 ··· 26 제 2 장 과제 수행의 내용 및 결과 ··· 29 제 1 절 최종 목표 및 평가 방법 ··· 29 제 2 절 연차별 개발 내용 및 개발 범위 ··· 36 제 3 절 수행 결과의 보안등급 ··· 42 제 4 절 유형적 발생품 구입 및 관리 현황 ··· 42 제 3 장 결과 ··· 43 제 1 절 연구개발 최종 결과 ··· 43 제 2 절 연구개발 추진 체계 ··· 94 제 3 절 고용 창출 효과 ··· 97 제 4 절 자체보안관리진단표 ··· 98 제 4 장 사업화 계획 ··· 99 제 1 절 시장 현황 및 전망 ··· 99 제 2 절 사업화 계획 ··· 101 제 3 절 향후 추가 기술 개발 계획(개발기술 응용 등) ··· 104 부 록 : 인증서 ··· 105제 1 장 서론
제 1 절 과제의 개요
□ 인식센서 네트워크(PSN)를 이용한 3W 인식률 제고
o 개념도
<그림 9> Perception Sensor Network(PSN) 개념도
* 인식 센서 네트워크 PSN(Perception Sensor Network): 제한된 특정한 공간내에 로봇
및 다수의 영상, 음성, 3D 센서 등이 연계된 네트워크
o
공간내 설치된 다중 인식 자원(카메라, 마이크, Kinect, Laser sensor 등)과 로 봇의 자원을 융합하여 다중 사용자가 혼재하는 상황에서 로봇과 인터렉션이 요구되는 사용자의 3W(사용자가 누구인지, 무슨 행동을 하는지, 어디에 있는 지) 정보의 최고 수준 인식성능 확보 가능 * 30명 이내 98% 이상 / 10가지 제스처, 5가지 행동인식 99% 이상 / 휴먼 검출 99%, 추종 95% 이상 (장점) - 서로 다른 다양한 사양의 로봇 H/W 및 S/W와 관계없이 일정 수준 이상 의 안정적인 3W 인식 성능 제공 가능 - 로봇 기반 영상 인식에서의 카메라 협소한 카메라 시야각, 겹침(occlusion),조명변화, 포즈 변화, 거리 변화 문제 등을 다중 카메라 기반 PSN으로 해 결 가능 - 단발성 인식이 아닌 연속적인 모니터링에 의한 3W 인식 성능 향상 가능 - 실환경에서 사용가능한 인식 성능 제공에 따른 다양한 응용 시나리오 및 콘텐츠 활용 가능 (단점) - PSN 설치가 가능한 제한된 크기의 공간에서 유용함 - PSN 구축 및 연동 S/W, H/W를 위한 비용 발생(최소한의 설치비로 최대 의 인식율을 갖도록 설계 필요) o 로봇 내부의 센서기반 기존 인식기술 고도화 및 PSN 연계 - Come to me 기술: 호출제스처 인식 기술, 음원 추적 기술 - Who am I 기술: 단일 카메라 기반 얼굴인식, 화자인식 기술 - Do it 기술: 원거리, 근거리 제스처 인식 기술, 음원 향상 기술 - 휴먼 검출기술: 얼굴검출, 오메가 검출, 바디 검출 기술 - HRI Demon 기술: 멀티모달(영상+음성) 휴먼 추적기술 □ 실환경 응용 기술 o HRI 평가 DB 및 라이브러리 마켓 활용 - 구축된 PSN 통해 얻어진 다양한 실환경 3W 인식 성능 평가용 DB를 구축 하고, 이를 온라인 싸이트 등에 오픈함으로써 과제에 참여한 기관만이 아 닌 여러 기관에서 기 개발된 결과물을 평가하고 실용화를 위해 새로운 시 도에 참여 유도 - 30명 정도가 수업받는 스마트 클래스에 실환경 서비스 모델을 구축 적용 o 클라우드 기반 실시간 분산 처리 제어 기술 및 OPRoS 컴포넌트 화 - 구축된 PSN 통해 동시에 많은 영상 및 음성 신호가 입력되므로 이를 PSN server의 컴퓨팅 자원을 클라우드 기반 실시간 분산 처리 제어 기술로 활 용이 필요함 - PSN기반의 다양한 인식 S/W는 우리나라의 표준 로봇 미들웨어인 OPRoS
- 3W 인식 모듈간의 API 표준화 추진
- OMG RoIS(Robot Interaction Service) 프레임워크 표준화와 연계
o 적용 분야
- 스마트 클래스, 스마트 실버타운, 스마트 전시관, 스마트 은행, 스마트 마트 스마트 오피스, 스마트 홈 등
제 2 장 과제 수행의 내용 및 결과
제 1 절 최종 목표 및 평가 방법 (1) 최종 목표 실환경하에서 로봇이 주변센서와 융합하여 사용자의 신원, 행동 및 위치정보를 인식하는 기술 개발 ○ 공간내 설치된 다중 인식 자원과 로봇의 자원을 융합하여 다중 사용자가 혼재하는 상황에서 로봇과 인터렉션이 요구되는 사용자의 3W 정보의 최고 수준 인식성능 확보- 다중 인식 자원: 카메라, 마이크, Kinect, Laser sensor 등
- 3W: 사용자 신원(who), 사용자 행동(what), 사용자 위치(where) - 성능목표:
▪신원 인식률: 98% 이상 (30명 이내의 사용자 대상)
▪행동 인식률: 99% 이상 (10가지 제스처, 5가지 행동 대상) ▪위치 인식률: 검출 99% 이상, 추종 95% 이상
<최종 연구개발 목표> (2) 개발기술의 평가 방법 및 평가 항목 평가 항목 (주요성능 Spec1)) 단위 전 체 항목 에 서 차 지 하는 비중2) (%) 세계최고 수준 보유국/ 보유기업 연 구 개 발 전 국 내 수 준 개발 목표치 평 가 방법3) 성능수준 성 능 수준 1차 년도 2차 년도 3차 년도 4차 년도 5차 년도 6차 년도 1. 정면 얼굴 인식률 % 10 독일/Cognitec95 90 - 93 94 95 96 98 주관기관 자체평가 2. 사용자 검출률 % 10 미국/CMU95 94 - 95 96 97 98 99 주관기관 자체평가 3. 사용자 추종 성공률 % 5 미국/CMU90 80 - 85 85 90 90 95 주관기관 자체평가 4. 제스처 인식률 % 5 미국95/MS 90 - 95 96 97 98 99 주관기관 자체평가 5. 3D기반 정면 얼굴 인식률 % 5 미국/Safran95 90 94 95 96 97 98 98 주관기관 자체평가 6. 음향기반 상황인식률 % 5 미국83/USC 70 75 80 85 90 95 95 주관기관 자체평가 7. 잡음제거기반 음성(화자) 인 식률 % 5 중국/ShihuaUniv. 85 80 - - 90 93 95 95 주관기관 자체평가 8. 다중시점기반 얼굴 인식률 % 5 영국/런던대90 80 85 90 93 95 - - 주관기관 자체평가 9. 다중시점기반 신원 인식률 % 10 영국/런던대90 80 - - 95 97 98 98 주관기관 자체평가 10. 객체 탐지율 % 5 스위스70/EPFL 70 80 90 95 99 - - 주관기관 자체평가 11. 다중시점기반 객체 추적률 % 10 스위스80/EPFL 75 - 85 95 97 99 99 주관기관 자체평가 12. 행동 인식률 % 5 미국80/UCF 70 - - 85 95 98 98 주관기관 자체평가 13. 인지센서네트워크 통합 S/W 플랫폼 사용자 인식률 % 10 미국/MIT 95 90 - - 96 98 99 99 주관기관 자체평가 14. 서버당 카메라 처리대수 대 5 미국/IBM 4 2 - - - 4 - 8 주관기관 자체평가 15. PSN 통합 사용자 인식 속도 sec 5 - - - 1 0.5 0.5 주관기관자체평가
(3) 정량적 목표 항목의 평가방법 및 평가환경 테스트 항목 단 위 평가 기준 테스트 방법 1. 정면얼굴 인식률 % 98% (최종 30인 등록대상, 로봇과의 거리 50cm이상 1.5m 이내, 상하좌우 15도 이 내의 정면얼굴 기준, 상하좌우 전면에서 의 조명방향 및 조명의 종류 변화 허용, 표정변화 허용, Rank-1 인식률 계산) 공인 데이터베이스 (FERET DB)로 실험. 256x384 pixel, 1 명/image, gray-scale, 1명당 1 장 등록. 총 등록 인원 수 100 명 이상 사용 예정. 영상 데이 터베이스로부터 사용자 특징벡 터를 추출하고 인식해야 할 대 상의 특징벡터와 비교하여 rank-1 유사도를 갖는 대상을 인식 결과로 이용 2. 사용자 검출률 % 99% (사용자와 로봇과의 거리 5m 이내. 사용자의 얼굴 포함한 상반신이 보이는 상황 가정. 동시 사용자 최소 1명 최대 5 명) 인지센서네트워크 환경내의 로 봇단말의 2D 또는 3D 카메라 로 획득한 평가용 데이터베이 스로 실험. 데이터 베이스는 시퀀셜한 영 상(동영상)으로 1,000프레임 이 상 길이의 5개 이상 영상으로 구성. 각기 다른 장소에서 캡 처. 검출 결과가 실제 manual bounding box와 50% 이상 겹 쳐야 올바르게 검출한 것으로 판단. 3. 사용자 추종 성 공률 % 95% (장애물 회피 및 장애물과 사용간의 겹침 상황 포함, 사용자 이동속도 50cm/sec 기준) 모바일 로봇을 이용하여 사용 자 대상 반복 실험 - 20회 이상 반복 실험 - 서로 다른 사용자 3명 이상 포함 - 서로 다른 환경 3개 이상 포
- 평가용 DB 구성 : 10가지 제스처에 대해 3D 카메라 (Kinect2)로 1,000 개의 제스처 수집 - 평가용 DB 운용 : 수집된 DB에서 학습할 데이 터 및 테스트할 데이터를 랜덤 하게 선택한 다음, 인식률을 구 하고, 이를 10회씩 반복하여 평 균 인식률을 구함 5. 3D기반 정면 얼 굴 인식률 % 98% (최종 30인 등록대상, 로봇단말의 3D 카메라와의 거리 1m 이내, 상하좌우 15도 이내의 정면얼굴 기준, 자연스러운 표정변화 허용, 실내조명환경, Rank-1 인 식률 계산) 로봇단말의 3D 카메라로 획득 한 평가용 데이터베이스로 실 험 - DB 구성: 각 피험자로부터, 2 셋 이상의 RGB-D 비디오를 수 집하여 데이터베이스를 구성 (30명 이상). 갤러리 DB는 무표 정, 정면얼굴로 구성. 프로브 DB는 자세변화, 표정 변화를 고려하여 데이터 획득. - 분석: 자세 변화, 표정 변화 를 고려한 성능 평가 (ROC, CMC 그래프 분석) 6. 음향기반 상황인 식률 % 95% (수업시간에 발생할 수 있는 4개 이 상의 상황, 15초 이상의 음향 데이터 이 용, [올바르게 인식한 음향 수 / 전체 음 향 수] 로 인식률 계산) 실제 수업이 진행되는 유치원 환경에서 수집한 약 7.7 시간 분량의 데이터베이스로 실험 전체 데이터 중 약 5.7 시간 (75%) 분량의 데이터로 4개의 상황 학습 학습에 사용되지 않은 데이터 를 사용해 15초 단위로 상황 식별 실험 진행 실 환경 데이터의 부족을 극복 하기 위하여 cross-validation 방식으로 실험을 반복 수행해 결과 검증 7. 잡음제거 기반 음성(화자) 인식률 % 95% (문장종속형 발화, 최종 30명 등록대 상, 로봇과의 거리 2m 이내, 사용자가 로 5, 6세 아동 화자 30명으로부터 획득한 평가용 데이터베이스로
봇을 정면으로 바라보고 발화하는 환경 기준, 동일 오류율(EER)을 가정함) 실험 각 화자 당 6개의 문장 발성을 사용해 모델 학습(총 약 25초) 3초 길이의 발성을 사용해 화 자인증 실험 수행 추가로 RSR 2015 등의 공인 데이터베이스를 활용한 성능 평가 실험 병행 8. 다중시점기반 얼 굴 인식률 % 95% (최종 30인 등록대상, 100x100 픽셀 이상의 얼굴 영상, 상하좌우 45도 이내의 정면얼굴과 측면얼굴이 함께 존재하는 상황 기준) 인지센서네트워크 환경내 장착 된 다중 카메라로 획득한 스마 트 클래스 평가용 데이터베이 스로 실험. 등록: 30명 대상, 1인당 50장 등록 영상. 테스트: 최대 30명이 포함된 스 마트 클래스 영상 2500장에서 얼굴을 검출하고 검출된 얼굴 영상들에 대해서 face identification 실험 수행 9. 다중시점기반 신 원 인식률 % 98% (최종 30인 등록대상, 100x100 픽셀 이상의 얼굴 영상. 상하좌우 45도 이내의 정면얼굴과 측면얼굴이 함께 존재하는 상황 기준) 인지센서네트워크 환경내 장착 된 다중 카메라로 획득한 스마 트 클래스 평가용 데이터베이 스로 실험. - 등록: 30명 대상, 1인당 50장 등록 영상 - 테스트: 최대 30명이 포함된 스마트 클래스 영상 2500장에 서 얼굴을 검출하고 검출된 얼 굴 영상과 부가정보를 선택적 으로 활용하여 person identification 실험 수행 99% (고정카메라 VGA급 환경에서의 인지센서네트워크 환경내 장착 된 다중 카메라로 획득한 평가 용 데이터베이스로 실험
테스트 : 스마트 클래스 Test DB(최대 30명, 4-5fps, VGA급) 에서 미리 학습된 탐지기를 이 용하여 테스트 수행 11. 다중시점기반 객체 추적률 % 99% (고정카메라 VGA급 환경에서의 50x80 픽셀이상의 객체크기, 적어도 한 개 이상의 카메라에서 물체의 80% 이상 이 보이는 상황, 최종 30명 대상 기준) 인지센서네트워크 환경내 장착 된 다중 카메라로 획득한 평가 용 데이터베이스로 실험 테스트 : 스마트 클래스 Test DB(최대 30명, 4-5fps, VGA급) 에서 탐지 결과를 이용하여, 정 해진 시나리오 하에서 추적 수 행 12. 행동 인식률 % 98% (VGA급 입력영상 환경에서의 50x80 픽셀이상의 객체의 5가지 이상의 지정된 행동, 사용자의 전신이 보이고 가려짐이 없는 환경 기준) 인지센서네트워크 환경내 장착 된 다중 카메라로 획득한 평가 용 데이터베이스로 실험 학습 : 30명의 사람에 대해 각 프레임별로 행동의 라벨이 붙 어있는 DB에서 행동별로 이미 지를 모아 학습 테스트 : Bounding box가 주어 져 있고 가려짐이 없는 환경에 서 30명 각각에 대해 프레임별 로 행동 인식 수행 13. 인지센서네트워 크 통합 S/W 플랫 폼 사용자 인식률 % 99% (인지 대상 공간 내 최종 30명 환경, 평가 시나리오 상의 영상 데이터베이스 를 기준, 최종 카메라 구성 8대) 인지센서네트워크 환경내 장착 된 다중 카메라로 획득한 평가 용 데이터베이스(DB)로 실험. . DB의 인원 및 카메라 대수는 당해연도 평가 기준 충족 . DB는 최소 5분 길이의 시나 라오를 반영, 각각의 카메라에 해당하는 DB는 1,000 frame 길 이 이상. . 인식률은 추적된 사람의 얼굴 인식 성공률로 정의. 또한 Offline Test로서 이전 시점의 인식 결과를 재조정(역방향 시 간 고려)한 결과를 최종 인식 률로 제시함. 14. 서버당 카메라 대 8대 (USB, IPCam 모두 포함하여 처리대 인지센서네트워크 환경에서의
처리대수 수 계산) 테스트 시나리오 구동시의 서 버당 카메라 처리 대수 확인 15. PSN 통합 사용 자 인식 속도 sec 0.5sec (14 항목의 서버 기준 처리 속도) 인지센서네트워크 환경에서의 테스트 시나리오 구동시, 입력 프레임에 대한 처리 속도 확인
제 2 절 연차별 개발 내용 및 개발 범위 1 차 년 도 개 발 목 표 1) 한국전자통신연구원 o 인지센서네트워크 프레임워크 설계 및 테스트베드 구축 - 인지센서네트워크 프레임워크 요구사항분석 및 설계 - 인지센서네트워크 테스트베드 구축 o 실환경 이동로봇단말에서의 3W 인식 컴포넌트 설계 및 기반기술 개발 - 3W 인식 컴포넌트 요구사항분석 및 설계 o 테스트베드 환경에서의 인식엔진 개발/평가용 대용량 데이터베이스 설계 및 구축 o 인지센서네트워크 프레임워크 및 3W 인식 컴포넌트 국내외 표준화 작업 참여 2) KAIST o 다중 시점 기반 얼굴 인식 요소 기술 구현 - 얼굴 위치 추정용 얼굴 DB/다중 시점 기반 얼굴 인식 DB 구축 - 얼굴 위치 추정(Localization) 기술 개발 - 얼굴 정면, 측면 인식 위주의 다중 시점 기반 얼굴 인식 초기 버전 개발 3) 서울대학교 o 단일 시점 기반 객체 추적 컴포넌트 구현 - 배경 모델링 기반 객체 탐지 기술 개발 - 단일카메라 상에서의 객체 단위별 추적 기술 개발 4) Univ. of Southern California(USC)
o 3차원 얼굴 모델링 및 1:1 인증 기술 개발 5) 경상대학교
2 차 년 도 개 발 목 표 1) 한국전자통신연구원 o 인지센서네트워크 프레임워크 프로토콜 개발 - 개별 센서 데이터 획득 및 제어 프로토콜 개발 - 인지센서네트워크 통합 S/W 플랫폼 개발 및 기능 검증 - 다중 이종 카메라간 위치 정합 기술 개발 - 인지센서네트워크 모니터링을 위한 사용자 인터페이스 개발 o 실환경 이동로봇단말에서의 3W 인식 기반기술 개발 - 3W 인식 컴포넌트 기반 기술 개발 - 실환경 정면 얼굴 인식, 사용자 검출, 사용자 추종, 제스처 인식 성능 향상 o 스마트 클래스 환경에서의 인식엔진 개발/평가용 대용량 데이터베이스 구축 o 인지센서네트워크 프레임워크 및 3W 인식 컴포넌트 국내외 표준화 작업반 구성 2) KAIST o 환경 변화에 강인한 다중 시점 기반 얼굴 인식 컴포넌트 개발 - 얼굴 위치 추정 (Localization) 기술 고도화 - 얼굴 위치 추정 기술을 통한 다중 시점 기반 얼굴 모델 합성 기술 개발 - 자세/조명 변화에 강인한 다중 시점 기반 얼굴 인식 기술 개발 3) 서울대학교 o 다중시점 기반 객체 추적 컴포넌트 구현 - 객체모델 기반 객체 탐지 기술 개발 - 다중카메라 상에서의 객체 단위별 추적 기술 개발 4) Univ. of Southern California(USC)
o 확장된 삼차원 얼굴모델링 및 1:1 인증 기술의 고도화 5) 경상대학교
o 잡음제거 기술 고도화
3 차 년 도 개 발 목 표 1) 한국전자통신연구원 o 인지센서네트워크 프레임워크 프로토타입 구축 - 이동로봇과 프레임워크간의 통신 프로토콜 개발 - 다중시점기반 3W 인식정보 융합 및 사용자 모델 생성 기술 개발 - 사용자 모델 갱신 및 사용자 히스토리 관리 기술 개발 - 인지센서네트워크 통합 S/W 플랫폼 평가 o 이동로봇단말에서의 3W 인식 컴포넌트 개발 - 실환경 사용자 신원인식 컴포넌트 개발 - 실환경 사용자 위치인식 컴포넌트 개발 - 실환경 사용자 행동인식 컴포넌트 개발 o 스마트클래스 환경에서의 인식엔진 개발/평가용 대용량 데이터베이스 추가 o 실환경 이동로봇단말에서의 3W 컴포넌트 OPRoS화 o 3W 인식 컴포넌트 국내외 표준안 제안 2) KAIST o 다중 시점 기반 얼굴 인식 컴포넌트 고도화 및 신원인식 컴포넌트 개발 - 다중 시점 기반 얼굴 모델 합성 기술 고도화 - 신체특징추출 및 융합을 통합 신원인식 기술 개발 3) 서울대학교 o 다중시점 기반 객체 추적 컴포넌트 고도화 및 행동인식 컴포넌트 개발 - 객체 탐지 기술 고도화 - 다중카메라 상에서의 객체 추적 기술 고도화 - 단일 객체의 행동 인식 기술 개발
4) Univ. of Southern California(USC) o 표정 분류 및 3D 얼굴 1:N 식별 기술 개발 5) 서울시립대학교
o 음향신호 기반 상황인식 기술 고도화 o 화자인식 시스템 구축
4 차 년 도 개 발 목 표 1) 한국전자통신연구원 o 인지센서네트워크 프레임워크 실환경 적용 및 테스트 (스마트 클래스 환경) - 스마트 클래스 환경 분석 및 테스트 시나리오 개발 - 인지센서네트워크 물리적 환경 구축 - 온라인 사용자 등록 시스템 구축 - 시나리오에 따른 인지센서네트워크 프레임워크 테스트 o 인지센서네트워크 프레임워크 실시간 처리 성능 확보 o 3W 인식 컴포넌트 실환경 적용 및 성능개선 - 신원인식 컴포넌트 실환경 적용 - 위치인식 컴포넌트 실환경 적용 - 행동인식 컴포넌트 실환경 적용 o 인지센서네트워크 프레임워크 국내외 표준안 제안 2) KAIST o 다중시점 기반 신원 인식 컴포넌트 고도화 - 자세/조명 변화에 강인한 다중시점 기반 얼굴 인식 기술 고도화 - 사용자 추적 정보와의 융합을 통합 신원인식 기술 고도화 3) 서울대학교 o 추적 신뢰도 향상을 위한 신원 정보 활용 및 단일 객체에 대한 행위 분석용 기초 기술 개발 - 추적 신뢰도 향상을 위한 신원 정보 활용 - 단일 객체에 대한 행위 분석용 기초 기술 개발 4) Univ. of Southern California(USC)
o 3D 얼굴 1:N 식별 기술 고도화 5) 서울시립대학교
o 상황인식 기술 고도화
- I-vector 및 DNN 시스템 도입 o 화자인식 기술 고도화
5 차 년 도 개 발 목 표 1) 한국전자통신연구원 o 인지센서네트워크 프레임워크 구축 및 성능 고도화 - 인지센서네트워크 프레임워크 구축 - 인지센서네트워크 통합 S/W 플랫폼 고도화 - 3W 인식 정보에 기반한 공간 내의 상황 인식 기술 개발 - 인지센서네트워크 프레임워크 실시간 처리 성능 개선 o 3W 인식 컴포넌트 최적화 - 신원인식 컴포넌트 최적화 - 위치인식 컴포넌트 최적화 - 행동인식 컴포넌트 최적화 o 인지센서 네트워크 기반의 3W 컴포넌트 OPRoS화 o 인지센서네트워크 프레임워크 국내외 표준안 제안 2) KAIST o 다중시점기반 신원인식 컴포넌트 성능개선 및 최적화 - PSN 환경 적용시 적용시 나타난 문제점 분석 및 인식 성능 개선 - 얼굴/의복/사용자 추적 정보 융합 기반 신원 인식 기술 고도화 3) 서울대학교 o 다중시점기반 객체추적 및 행동인식 컴포넌트 문제점 분석 및 성능개선 - 실시간성 향상을 위한 온라인 다중시점기반 객체추적 알고리즘 개발 - 성능 향상을 위한 시공간 통합 신원 정보 활용 기술 개발 - 다중시점기반 단일 객체에 대한 행위 분석용 기술 개발 4) Univ. of Southern California(USC)
o 3D 얼굴 인식 컴포넌트 성능개선 및 최적화 - 스마트 클래스 적용시에 나타난 문제점 분석 및 인식 성능개선 - 인지센서네트워크의 확장을 위한 컴포넌트 고속화 및 최적화 5) 서울시립대학교 o 화자인식 컴포넌트 성능개선 및 최적화 - 짧은 발성에 대한 화자인식 성능 개선 - 도메인이 다른 대량의 데이터를 활용하여 성능 개선 - 인지센서네트워크의 확장을 위한 컴포넌트 고속화 및 최적화
6 차 년 도 개 발 목 표 1) 한국전자통신연구원 o 인지센서네트워크 프레임워크 실환경 적용 및 최종 테스트 - 실환경에 적용 및 최종 테스트 o 이동로봇단말에서의 3W 인식 컴포넌트 현장시험평가 및 최적화 - 성능개선 및 고속화, 컴포넌트 패키징 및 open source 제공 o 인지센서네트워크 프레임워크 및 3W 인식 컴포넌트 국내 표준화 채택 2) KAIST o 다중시점기반 신원인식 컴포넌트 안정화 - 성능 안정화, 컴포넌트 패키징 및 open source 제공 3) 서울대학교 o 다중시점기반 객체추적 및 행동인식 컴포넌트 안정화 - 성능 안정화, 컴포넌트 패키징 및 open source 제공
4) Univ. of Southern California(USC) o 3D 얼굴 인식 컴포넌트 안정화
- 성능 안정화, 컴포넌트 패키징 및 open source 제공
5) 서울시립대학교
o 화자인식 컴포넌트 안정화
제 3 절 수행 결과의 보안등급 - 보안등급 : 일반과제 번호 보안등급 분류 및 심사기준 점검 결과 예 아니오 1 세계 초일류 기술제품의 개발과 관련되는 수행과제 V 2 외국에서 기술이전을 거부하여 국산화를 추진 중인 기술 또는 미래핵심 기술로서 보호의 필요성이 인정되는 수행과제 V 3 「산업기술의 유출방지 및 보호에 관한 법률」제2조 제2호의 국가핵심 기술과 관련된 연구개발과제 ※「산업기술의 유출방지 및 보호에 관한 법률」에서 정한 국가핵심기술 해당 여부 V 4 「대외무역법」 제19조 1항 및 같은법 시행령 제32조의2의 수출허가 등의 제한이 필요한 기술과 관련된 연구개발과제 V 5 (기타 수행기관 및 사업별 특성에 따른 항목 추가 가능) 최종 확인 결과 :
□
보안과제 ■ 일반과제 ※ 상기 검토 결과, 한 가지 항목이라도 “예”가 있을 경우, 보안 과제로 분류 제 4 절 유형적 발생품 구입 및 관리 현황 구입 기관 연구시설/ 연구장비명 규격 (모델명) 수량 구입 연월일 구입 가격 (천원) 구입처 (전화번호) 비고 (설치 장소) 한국전 자통신 연구원 인지센서네 트워크 구축 시스템 워크스테이 션 (I7, GPU 포함) 및 고정형 카메라 4대 1 2012.11.08 26,427,000 목원대학교 산학협력단 목원대학교 테스트베드 활용 후 현재 ETRI 보관 중제 3 장 결과
제 1 절 연구개발 최종 결과 - 연구개발 추진 일정 1차년도 일련 번호 개발내용 추진 일정 기간 (주) 1 2 3 4 5 6 7 8 9 10 11 12 1 계획 수립 및 조사 4 2 PSN프레임워크설계/테스트베드구축 12 3 데이터베이스구축인식엔진평가용 8 4 다중시점기반얼굴인식요소기술구현 42 5 단일시점기반객체인식요소기술구현 42 6 3W인식컴포넌트개발이동로봇단말용 42 7 3차원얼굴모델링및1:1인증기술개발 42 8 잡음제거및화자인식시스템구현 42 9 3W컴포넌트OPRoS화 12 10 데이터베이스를 이용한 기반기술 성능평가 4 2차년도 1 계획 수립 및 조사 4 2 PSN프레임워크프로토콜구현 42 3 데이터베이스구축인식엔진평가용 8 4 환경변화에강인한 428 잡음제거기술고도화및화자등록기술구현 42 9 데이터베이스를 이용한 개발컴포넌트 성능평가 4 3차년도 1 계획수립 및 조사 3 2 PSN프레임워크프로토타입구현 42 3 평가용데이터베이스구축스마트클래스환경 8 4 다중시점기반신원인식컴포넌트개발 42 5 추적고도화및행동인식컴포넌트개발 42 6 3W인식컴포넌트성능개선 42 7 표정분류및1:N식별기술개발3D얼굴 42 8 화자인식기술개발음향상황인지 및 42 9 3W컴포넌트OPRoS화 12 10 실환경데이테이스기반개발컴포넌트성능평가 8 4차년도 1 실환경 적용 계획수립 12 2 스마트클래스 환경분석 및 등록/평가모델개발 12 3 실환경적용 및 테스트PSN프레임워크 20 4 인식컴포넌트고도화다중시점기반신원 42 5 추적성능향상및행동인식컴포넌트고도화 42 6 컴포넌트고도화3W인식 42 7 3D얼굴1:N식별기술고도화 42 8 화자인식기술고도화 42 9 3W컴포넌트OPRoS화 12 10 스마트클래스환경에서의 개발 컴포넌트 성능평가 20
5차년도 1 계획수립 및 조사 4 2 개발형구현및성능고도화PSN프레임워크 42 3 인식컴포넌트최적화다중시점기반신원 42 4 다중시점기반위치추적및행동인식최적화 42 5 이동로봇단말용 3W인식컴포넌트최적화 42 6 컴포넌트최적화3D얼굴인식 42 7 컴포넌트최적화화자인식 42 8 3W컴포넌트 OPRoS화추가 42 9 계획수립및환경분석실환경적용을위한 12 6차년도 1 최종평가 계획수립 4 2 적용및안정성확보PSN프레임워크 12 3 인식컴포넌트안정화다중시점기반신원 12 4 다중시점기반위치추적및행동인식안정화 12 5 이동로봇단말용 3W인식컴포넌트최적화 12 6 컴포넌트안정화3D얼굴인식 12 7 컴포넌트안정화화자인식 12 8 개발된 컴포넌트의 최종평가PSN기반 3W 8 9 개발 컴포넌트 패키징 및 오픈 소스 제공 8
- 연구개발 추진 실적
[로봇단말용 위치인식 기술 개발]
o 2D 영상 기반 사용자 검출 기술 구현
- 로봇 단말용 사용자 움직임 검출의 기반 기술 개발
- MCT feature, AdaBoost classifier, Pyramid image 방법 활용
<Caltech DB 에서의 시험 환경>
o Depth 영상 기반 사용자 검출 기술 구현
- Depth 영상에서 HOG( histogram of oriented gradient) 특징 사용.
<뎁스 영상에서의 사용자 검출>
개발
- 전방향 얼굴 검출기 개발, Local Binary Pattern 특징, AdaBoost 활용. - 정면 얼굴 검출기, 측면 얼굴 검출기, 전방향 상반신 검출기 및 전신 검출기 를 동시에 활용, 불완전한 개별 인식기의 한계를 극복. 연속된 프레임 사이에 서 검출에 실패하는 객체를 meanshift 트래킹 통해 예측된 결과를 검출기에 재 적용함. o 사용자 검출 평가 - Ground-Truth 22,003명 기준 21,919명의 사용자 검출 - 검출률은 99.62% (평가기준 99% 만족) - 속도: 7.0fps, (5 fps 이상 기준 충족, Intel i7 2.6GHz CPU, 640x480) o 세계 선진 기술과의 비교 평가 - OpenCV의 얼굴, 상반신, 전신 검출기 활용 결과: 동일 DB에서 96.60% o 사용자 검출 평가 - Ground-Truth 22,003명 기준 21,919명의 사용자 검출 - 검출률은 99.62% (평가기준 99% 만족) - 속도: 7.0fps, (5 fps 이상 기준 충족, Intel i7 2.6GHz CPU, 640x480) o 세계 선진 기술과의 비교 평가 - OpenCV의 얼굴, 상반신, 전신 검출기 활용 결과: 동일 DB에서 96.60% <개별 검출기 융합 사람 검출; 빨강: 얼굴검출, 초록: 상반신검출, 파랑: 전신검출, 노랑: 검출결과 영역, 흰색: Ground-Truth>
- 화면 등장 사람 수: 0~3명 - 검출 대상 카운트 사람 수: 22,003명 - 특징: 거리 변화, 사람 겹침, 포즈 변화 등 무제약 환경 o Ground Truth - 매 프레임의 사람 얼굴 해당 x, y, w, h 정보 <사용자 검출 결과 테스트 예 >
[로봇단말용 사용자추종 기술 개발] o 영상기반 사용자 추종 기술 개발 - 컬러 유사도와 깊이 유사도를 결합한 실시간 사용자 추적 기술 개발 - 영상기반 사용자 추적 결과 따른 로봇 제어 기술 개발 <사용자추종 기술> o 장애물과의 겹침 처리를 위한 추적기 개선 및 사용자 인식 기술 개발 - 사용자 주변에 존재하는 장애물 검출 후 다중 객체 추적을 이용하여 사용자 와 장애물간의 겹침 여부 확인 - 다중 컬러 히스토그램과 사용자 키 정보를 이용한 사용자 인식 기술 개발 - 타겟 사용자 재인식을 위해 Metric Learning 기반 인식 기술 적용 및 Multi-shot 학습 기능 추가 - 장애물과 타겟 사용자의 겹침 상황 처리를 위한 위치 및 Appearance 특징 기반 장애물 검출 기술 개발
<장애물 회피와 특정 사용자 재인식을 포함하는 사용자 추종 시스템 순서도> o 겹침 상황이 없는 환경에서의 영상기반 사용자 추종 기술 개발 - 컬러 유사도와 깊이 유사도를 결합한 실시간 사용자 추적 기술 개발 - 영상기반 사용자 추적 결과 따른 로봇 제어 기술 개발 - 장애물이 없는 환경에서 추종 성공률 93% (실환경 30회 반복 테스트 결과, 2차년도 수행) o 부분 겹침 상황을 고려한 영상기반 사용자 추종 기술 개선 - 부분 겹침 상황을 포함한 환경에서 추종 성공률 88% (실환경 25회 반복 테 스트 결과, 3차년도 수행) o 완전겹침(occlusion) 및 사용자가 일시적으로 사라진 상황에서 특정 사용자를 추종하는 기술 개발 - 완전겹침 상황 지원을 위한 사람 재인식(re-identification) 기술 개발 완료, 사용자 추종에 적용 완료 - 딥러닝 기술을 이용하여 사람 재인식 성능 개선, 이를 위한 Siamese network 구성 및 학습
- 사람 재인식의 경우 기존 metric learning 방법과 비교시 Rank-10 인식 정 확도 약 28%p 향상 (기존: 52%, 개선: 80%, CUHK03 DB 기준)
- 완전 겹침 상황을 포함한 환경에서 추종 성공률 95% (실환경 반복 테스트 결과) <겹침 상황에서의 사용자 추적 테스트> <실환경 사람추종 테스트> o 영상기반 사용자 추종 기술 성능평가 - 완전 겹침 상황을 포함한 환경에서 추종 성공률 95.8% (6차년도 목표: 95% 이상)
- Mobile 플랫폼 Pioneer P3-DX, Depth 카메라 ASUS xTion 사용 - 실환경 24회 반복 테스트 결과
[로봇단말용 신원인식 기술]
o 로봇단말용 2D 정면 얼굴인식 기반기술 개발 - AAM기반 정면얼굴 판별법 개발
- HOG 기반 Descriptor 및 Holistic + Facial component 기반 특징 추출법 개발
<2D 정면얼굴 인식 기술 순서도>
o 얼굴 인식용 특징 추출 기술 구현
- Spatial Facial Region Descriptor로 특징 추출
- Cosine Similarity Metric Learning을 적용하여 거리 측정 및 비교 - Template Update 기반 Gallery Face Alignment 방법 개발
o 실환경 로봇단말용 신원인식 컴포넌트 개발
- STASM기반 얼굴 구성요소(눈, 코, 입) 정밀 추출 기술 개발 - 구성요소 형태 변화에 강인한 정면 얼굴 매칭 기술 개발
- ERT(Ensemble Regression Tree) 기반 얼굴 구성요소(눈, 코, 입 등 80개 포인트) 정밀 추출 기술을 개발 함
<얼굴 구성요소 정밀 추출 결과 샘플>
- Deep Convolutional Neural Network 방식을 적용하여 기존 방식에 비해 정밀도가 높은 얼굴 구성요소(68개 포인트) 검출 기술을 개발함.
- 실시간 추출 가능(45ms)
- ICCVW 2014 300-W 챌린지 1위에 상응하는 성능
< DCNN 기반 추출되는 68개 포인트 예시(파란색)>
- 얼굴인식 학습을 위한 추가 DB생성 기술 개발
. 딥러닝 학습을 위해선 얼굴 빅 데이터 획득이 매우 중요함 . 추가 학습데이터 생성을 위해 Face-off 기술을 적용함
. PCA 3D face model을 이용한 3D landmark 복원 기술 및 3D rendering 을 사용함
. Landmark 위치를 조절하여 감은 눈을 생성함
< Average Block Score 적용 예시 >
o Deep Convolutional Neural Network 방식을 적용하여 deep feature extraction을 통해 조명, 표정 등에 강인한 얼굴 매칭 기술 개발 - Data augmentation을 통하여 안경 등 악세서리에 의한 영향력 최소화 < 인공적인 안경 데이터 생성 예시 > - 총 9개 layer만을 사용한 shallow 한 구조체 설계 및 신원인식에 효과적인 activation function을 이용하여 실시간성이 보장되면서 성능은 좋은 신원인식용 model 개발 <CNN을 이용한 특징 추출 system flow. 얼굴 검출 및 정규화 후 CNN 연산을 통해 deep feature를 추출> o 정면 얼굴 인식 - LFW DB(6,000쌍): wild 환경에서 촬영된 다양한 조명, 표정, 포즈, 화질을
포함한 공인 신원인식 성능평가용 DB. 동일인물 300쌍, 다른인물 300쌍을 하나의 셋으로 총 10개의 셋으로 구성. 결과: 98.27% (목표: 98%) - 국가공인 KISA DB: 조명, 표정, 포즈, 액세서리 변화가 포함된 얼굴 영상 데이터베이스로 부터 얼굴 검증 인식율 테스트. 조명, 표정, 포즈 변화해 대 해 테스트. 셋당 정면 1장 등록, 17장의 동일 얼굴 테스트 및 499명x17장의 타인 얼굴 테스트를 EER 1%이내로 달성, 인식율 기준 99% <Deep feature를 이용한 신원인식 실행 결과> <얼굴인식기 GUI>
[로봇단말용 손 제스처 인식 기술 개발] o 로봇 단말용 손 제스처 인식 기반기술 개발 - 3D 센서 기반 복수 사용자 분리 및 직관적 User 설정 모듈 개발 - 사용자 뼈대 모델 생성 및 양손 추적 기술 개발 o 명령형 3D 손 제스처 인식 기술 개발 - 사용자 뼈대 모델 생성 및 고속 손 추적 기술 개발 - 3D 센서 기반 복수 사용자 분리 및 직관적 User 설정 모듈 개발 - 총 6가지 제스처에 대하여 95.93% 인식률 (2차년도 목표: 95% 이상) o 3D 행동인식을 위한 실시간 특징 추출 기술 개발
<멀티뷰 기반 행동 인식 기술>
<주요 기술과의 성능 비교 분석>
o 동작기반 시멘틱 제스처 인식 기술 개발
- 템플릿 매칭을 이용한 Circle, Cross 제스처 인식 기술 개발 - 가상 좌표계를 이용한 Waving, Calling 제스처 인식 기술 개발 - 4가지 목표 제스처에 대하여 98.055% 인식률 (3차년도 목표: 96% 이상) 제스처 정인식률 (%) 오인식률 (%) 미인식률 (%) Circle 100 0 0 Cross 100 0 0 Wave 92.22 0 7.78 Call 100 0 0 Total 98.055 0 1.945 - 2차년도의 6가지 제스처(상하좌우, 거수, 그만)를 포함한 총 10가지 목표 제스처에 대하여 96.11% 인식률 제스처 정인식률 (%) 오인식률 (%) 미인식률 (%) UP 94.44 0 5.56 Down 93.33 5.56 1.11 Left 95.56 3.33 1.11 Right 94.44 5.56 0 Raising 100 0 0 Stop 94.44 4.44 1.11 Circle 98.89 0 1.11 Cross 98.89 0 1.11 Wave 92.22 6.67 1.11 Call 98.89 0 1.11 Total 96.11 2.56 1.33