영상 빅데이터 기반의 객체인식 및 시각지능 플랫폼 기술 동향

(1)

목 차 >>> 1. 서 론

2. 영상의 내용을 이해하는 기술 3. 시각지능을 위한 이미지 뱅크 기술 4. 시각지능을 위한 플랫폼 기술 5. 결 론

1. 서 론

최근 하드웨어, 소프트웨어 기술의 눈부신 발 전은 사람들의 생활에도 큰 변화를 가져왔다. 과 거에 불가능한 것으로 여겨지던 많은 기술들이 실제 구현되고 실생활에 접목되고 있는 것이다.

이는 하드웨어 기술의 발전과 더불어 대규모의 클러스터링을 이용하는 빅데이터 기술의 비약적 인 발전에 기인하고 있다.

많은 데이터를 실시간 수집하고 빠르게 분석할 수 있는 기반 환경이 구축되면서 더 다양한 빅데 이터 솔루션들이 등장하고 있다. 빅데이터 기술 은 기존의 정형화되어 있는 데이터를 분석하는 대신 그동안 분석되지 못하고 있던 비정형 데이 터에 주목하고 있으며 이를 분석하여 새로운 가 치를 발구하고 있다. 실제 전 세계 데이터의 90%

이상이 2년 이내에 만들어졌으며, 그중 80%가 비 디오 또는 이미지 같은 비정형 영상 데이터로 파 악되고 있다^[1].

시장 조사 기관의 많은 자료에서 예견하고 있 듯이 스마트폰, CCTV, 블랙박스, 디지털 카메라 등에서 수집되는 영상 데이터의 양은 기하급수적 으로 증가하고 있으며, 이에 따른 비정형 영상 데 이터를 인식하고 내용을 분석하여 활용할 수 있 는 기술에 대한 요구가 점차 증대되고 있다. 하지 만 현재 기술은 대규모 영상을 동시적으로 처리 하는 것에는 많은 제약이 존재한다.

본고에서는 최근 주목을 받고 있는 영상 빅데 이터를 포함하여 다양한 영상 이해 기술에 대한 사례를 살펴보고, 시각지능이라는 측면에서의 대 용량 영상 빅데이터를 동시에 처리 가능한 기술 의 방향을 제시하고자 한다.

2. 영상의 내용을 이해하는 기술

영상의 내용을 이해하는 기술은 미국을 중심으 로 많은 연구가 진행되고 있으며, 상황의 이해와 배유석 ․ 오봉진 ․ 박종열 ․ 박경 (한국전자통신연구원)

영상 빅데이터 기반의 객체인식 및 시각지능

플랫폼 기술 동향

(2)

❙ 정보처리학회지 제 21권 제 3호(2014. 5)

60

(그림 1) DARPA VIRAT 프로젝트 개념도 행동을 분석하여 다음에 발생할 상황을 예측하는

기술로 까지 이어지고 있다. 현재 가장 널리 알려진 기술은 DARPA 주도의 프로젝트로 VIRAT(Video/

Image Retrieval and Analysis Tool) 과제^[2]와 Mind’s Eye 과제^[3]가 대표적이다.

2.1 DARPA VIRAT (Video/Image Retrieval and Analysis Tool)

대규모 감시 비디오 데이터에서 관심 있는 콘 텐츠를 신속하게 검색하고 특정 행위를 자동 인지 하는 분석 도구 개발을 목표로 하고 있으며, 국방 용 시스템에 활용을 목적으로 시작되었다. VIRAT 은 2008년 시작하여 현재 2단계 기술 개발에 접 어들고 있으며, 5개 기업과 13개 대학이 참여하는 방대한 분량의 이미지/동영상의 내용 분석 및 검 색을 효과적으로 수행하는 기술을 개발하고 있다.

VIRAT은 대용량 비디오 클립에서 선택된 객 체를 빠르게 검색하고 등록된 객체의 출현이나 학습된 행위를 자동 인지하는 기술을 핵심으로

하여 대용량의 이미지/비디오를 모니터링 하는 시스템에 효과적으로 적용할 수 있게 설계되었 다. 실제 인지되는 내용도 객체보다는 행동 인식 을 중점적으로 연구하고 있으면 현재 23가지 행 동을 인지할 수 있는 것으로 알려져 있다.

검색 기술은 2시간 분량의 비디오에서 수초에 서 수분 안에 응답이 오는 것을 목표로 시스템 개 발이 진행 중에 있으며, 정확한 분석 수준이나 분 석의 대상이 되는 프레임의 규모는 알려져 있지 않다.

2.2 DARPA Mind’s Eye

Mind’s Eye 프로젝트는 영상에서 객체를 인식 하고 인식 객체의 행위를 인지하여 상황을 판단 할 수 있는 시각 지능 개발을 목표로 하고 있다.

실제 행동 인식을 위한 마이크로 수준의 객체 구 분과 분류를 통해 개별 행동에 대한 인식과 이를 통한 즉각적인 행동 인지 기술을 개발하고 있으 며 최종 48종 동사(행동) 인식을 목표로 기술 개

(3)

(그림 2) Mind’s Eye에서 행동을 인식하는 방식, 출처: CMU 2012

발하고 있다.

실제 장면에 대한 분석을 위해 HOMIE(Hybrid Ontology for the Mind’s Eye)를 구축하고 입력 비디오에 대해 저수준 비전과 오브젝트 추출을 통해 장면을 분석하고 있으며 행동과 행동의 연 계분석을 통해 다음 행동을 예측한다. Mind’s Eye 프로젝트는 CMU의 ACT-R의 인지 시스템 을 도입하여 영상에서 상황을 인지하고 이해하는 기술을 적용하고 있으며 미인식 이벤트의 시계열 보간(Interpolation), 행동/사건의 예측(Prediction) 등의 적극적인 영상 이해를 목표로 하고 있다.

3. 시각지능을 위한 이미지 뱅크 기술

시각지능은 영상인식의 수준과 다양성이 기반 이 되는 분야로 많은 종류의 데이터와 이를 통한 지식 체계를 만드는 것이 중요한 기술이다. 특히 시각지능을 위한 학습 데이터 세트를 구성하는 것은 객체, 장면, 비디오의 다양한 환경에서 구축 이 본격화 되고 있다.

영상 데이터를 구축하는 것은 주로 미국의 대 학들이 중심이 되어 진행되고 있으며, Stanford,

MIT, NYU 및 Penn. State 대학이 중심되어 데이 터를 축적하고 다양한 연구를 적용하고 있다. 다 음에서는 각각의 시각 데이터 스토어의 특징을 살펴본다.

3.1 Stanford ImageNet 데이터베이스

Stanford는 대규모 이미지 검색 데이터베이스 인 ImageNet^[4]을 운영하고 있으며, 태깅되지 않 은 영상 데이터 소스에서 스스로 학습하는 자기 학습 (Self-taught Learning) 방식을 연구하고 있 으며, 구글 브레인 프로젝트에서 시각 인식 기반 의 인공 지능 기술 개발에 참여하고 있다.

ImageNet은 WordNet을 기반으로 21,841개 이미 지 데이터베이스를 구축하고 개별 단어의 의미 표현을 위해 개별 평균 1,000개의 이미지를 매핑 하고 있다.

계층적으로 구성된 객체 이미지 데이터베이스 를 구축하여 객체 분류 및 인식을 위한 계층적 학 습에 활용 중에 있으며 데이터를 지속적으로 확 대 추진하고 있다. 객체(명사) 중심의 데이터 온 톨로지 체계에 따르며 객체의 동작이나 객체간의 상호 관계에 기반을 둔 의미 부여가 불가능한 단

(4)

❙ 정보처리학회지 제 21권 제 3호(2014. 5)

62

(그림 3) 이미지/영상 인식을 위한 지식 스토어 구축 사례 점이 있다.

3.2 MIT SUN 데이터베이스

MIT는 대규모 장면 인식과 분류를 위한 SUN (Scene UNderstanding) 데이터베이스^[5]를 구축하 고 벤치마크 자료를 공유하고 있다. 웹으로부터 장면 관련 이미지를 유형별로 수집하여 데이터베 이스로 구축하고, 정제된 397개 카테고리를 사용 하여 최대 908개 카테고리까지 확장이 가능한 특 징이 있다. 최대 확장 가능한 카테고리는 독립된 형태로 분류가 가능하다는 것을 의미하며, 인식 의 정확도를 고려하여 908개 중에서 상위 397개 카테고리를 사용하고 있다. 컴퓨터에 의한 이미 지 장면 검출은 23개 카테고리에서 104개의 사진 을 사용하여 분류 시험한 결과 평균 30.1%의 정 확도를 보이고 있다.

3.3 Databrary 프로젝트

뉴욕대학교(NYU)와 펜실베이니아 주립대(Penn.

State U.)가 추진하고 있는 오픈소스 프로젝트로 연구와 관련된 비디오와 연관 메타데이터를 저장 하고 공유할 수 있는 웹 기반 비디오 공유 데이터

도서관 구축을 추진하고 있다^[6].

발달 및 행동 과학 분야에서 비디오 분석을 통 한 인간의 사회적 행동 이해를 목적으로 추진하고 있으며 미국 NSF(National Science Foundation), NIH(National Institutes of Health) 지원을 받아 수행하고 있으며, 학습관점, 정보검색 및 재활용, 셀프 큐레이션 그리고 자동 업데이트와 자동 변 환 등의 특징을 포함하도록 설계되고 있다. 특히 비디오 공유를 위한 저장소, 스코어링 및 분석 도 구, 관리 도구를 제공한다

4. 시각지능을 위한 플랫폼 기술

IBM, MIcrosoft, 구글 등의 글로벌 기업들은 이미지/동영상의 심층 분석을 기반으로 하는 차 세대 지식 산업 창출을 목적으로 다양한 연구를 추진하고 있으며, 기존의 영상 인식 기술과 달리 특정인 혹은 특정 사물을 인식하는 대신에 영상 이 가지고 있는 포괄적인 정보를 인식하는 것을 목적으로 하는 점이 다르다. 다음에서는 각각의 기업이 추진하고 있는 기술에 대해 소개한다.

(5)

(그림 4) IBM 비디오 빅데이터 시스템 – Video/Imagery Analytics

(그림 5) Google 브레인 프로젝트 개념도 4.1 IBM IMARS

IBM은 2000년 초반부터 T.J. Watson 연구소를 중심으로 IMARS (IBM Multimedia Analysis and Retrieval System)을 개발하고 알마덴 연구소를 중심으로 빅데이터 기술을 접목한 시각 데이터 내용 이해 기술을 연구하고 있다^[7,8].

기존의 영상 인식과 달리 대규모 영상 특징을 분석하면 객체가 아닌 상황에 대한 이해가 가능 하다는 것을 제시하고 있다. 실제 분석하여 인식

하는 상황은 다리, 음식, 화재, 지진, 퍼레이드, 불 꽃놀이, 군인, 전쟁 등의 상황을 포함하는 내용이 다. 또한 데이터의 규모가 커지면 더 다양하고 세 부적인 상황을 인식할 수 있는 것으로 알려져 있 다. 현재는 객체 추적, 안면 인식, 교통량 분석, 이벤트 합성 기술 도메인에서 객체, 사람, 장면, 활동의 4가지 범위로 이미지/영상을 이해하는 기 술을 개발하고 있다.

(6)

❙ 정보처리학회지 제 21권 제 3호(2014. 5)

64

(그림 6) 버지니아 대학에서 개발하고 있는 HIPI 기술 4.2 Google Brain

2011년 이미지/영상에서 랜드마크 자동 인식 기 술을 공개하고 최근에는 Deep Neural Networks 기 반의 영상 인식 기술을 선보이고 있다^[9-11]. Google 은 사람이 훈련시키는 영상 인식이 아닌 스스로 생각하여 시각 지능을 만들어 가는 기술을 개발 하고 있다. 이를 위해 Google은 1,000대의 클러스 터 기반 9계층 10억 개 신경만을 구축하여 스스 로 사람 얼굴과 고양이를 인식하는 기술을 개발 하였다.

Google이 개발한 시스템은 유투브에서 무작위 로 크롤링된 이미지 데이터를 대상으로 비지도 심층 학습을 수행하였다. 학습을 통해 만들어진 인식기를 바탕으로 MIT ImageNet의 21,841개 카 테고리의 1,400만개 이미지를 인식한 결과 15.8%

의 인식률을 달성하였다. 15.8%의 인식률은 기존 연구대비 70% 향상된 성능을 보이는 것으로 스 스로 학습할 수 있는 시스템이 가능하다는 것을 보여 주었다.

4.3 빅데이터 기술을 접목한 시각 지능

시각 지능에서 다양한 종류의 객체를 빠르고 광범위하게 인식하기 위해서는 대규모의 데이터 를 빠르게 처리하는 기술이 필요하며, 이를 위해

최근에 대두되고 있는 빅데이터 기술을 접목하는 다양한 시도들이 진행되고 있다. 특히 대규모 데 이터를 분석에 활용하는 MapReduce 기반의 분산 처리 기술과 GPGPU를 중심으로 병렬처리하는 기술이 핵심이 되고 있다.

빅데이터를 영상인식에 도입한 사례 중에 미국 지질조사국의 경우는 위성 영상을 분석하는 시스 템에 단순히 빅데이터 기술을 적용한 것으로 기존 의 하루 445장을 처리하던 시스템을 MapReduce 시스템 도입으로 하루 4,800장의 영상을 처리(10 배 성능 향상)하게 되었다^[12,13]. 이 경우 위성 영 상이 일정한 패턴과 업무를 가지고 있기 때문에 가능한 경우이지만, 다양한 가능성을 보여주고 있는 경우이다. 또한 다른 연구로는 빅데이터 기 술을 쉽게 영상 처리에 적용하기 위한 인터페이 스를 개발하는 연구가 진행 중에 있다. 이 연구는 HIPI (Hadoop Image Processing Interface)^[14]라는 이름으로 버지니아 대학에서 개발하고 있는 기술 로 Google, IBM 등의 글로벌 기업의 지원을 받아 수행하고 있다. 이미지 처리 SW와 Hadoop을 결 합하여 대규모 데이터를 처리할 수 있도록 하는 기술이며, 현재는 소규모 라이브러리를 제공하는 수준이다.

빠르게 영상을 처리하기 위한 기술로 대규모 분산 처리하는 빅데이터 기술과 더불어 고속의

(7)

병렬처리 기술을 적용하는 GPGPU 기술도 활용 되고 있다. 실제 영상처리 알고리즘에 따라 성능 차이는 있지만 기존 시스템 대비 GPGPU를 사용 하는 경우 2배에서 9배정도의 속도 향상(평균 5 배)을 보이는 것으로 연구되고 있다^[13]. 또한 GPU의 성능은 2018년에 지금의 6배 정도 빨라질 것으로 예상하고 있어 4년 뒤에는 약 30배(5배 X 6배) 이상이 빨라질 것으로 예상되고 있다^[12]. 실 제 IBM의 IMARS에서 1시간 비디오를 학습하는 데 약 100시간이 소요되는데 대규모 분산 처리와 고속 병렬처리 기술을 적용하면 이론적으로 약 300배 빠르게 하여 20분 안에 끝낼 수 있을 것으 로 예상한다. 실제 시스템 적용하면 기능과 기능 의 결합으로 속도 향상의 폭은 줄어 들 수 있지 만, 동영상 스트림에 대한 학습을 실시간 진행하 는 것이 가능해 질 것으로 예측한다.

5. 결 론

멀티미디어 데이터는 그 자체로 많은 데이터를 포함하고 있지만, 분석이나 활용 측면에서 많은 제약이 있다. 실제 영상기반의 많은 제품이나 서 비스들이 더 고도화된 영상 인식 알고리즘이나 기법들을 적용하고 싶으나 컴퓨터 자원의 한계로 적용되지 못하는 사례가 많다. 하지만, 최근 클라 우드 컴퓨팅 기술과 빅데이터 기술의 대두로 모 든 알고리즘을 단말에서 실행하지 않고 주변 서 버를 이용한 다양한 기술들이 소개되고 있다. 대 표적인 연구 사례는 앞에서 설명한 IBM이다. 대 규모의 영상을 인식하고 학습하는데 있어서 기존 의 사례 중심이 아닌 대규모 데이터의 통계적 분 석을 통해 다양한 객체나 상황을 인식하는 기술 은 향후 영상 인식이 특정 상황에서 정확한 사물 의 인식/인지에서 영상이나 이미지가 가지고 있

는 본질인 의미를 이해하는 기술로 발전할 것으 로 보인다. 또한 Stanford, MIT, NYU 등의 대학 중심의 시각 지능에 대한 데이터를 축적하는 연 구가 진행되고 있는데, 이는 보편적인 시각 지식 (지능)을 만들어 가는 연구로 이해할 수 있다.

따라서 이제 특정 상황에서 영상을 활용하 는 기술에서 영상이 내포하고 있는 의미를 이해 하고 산업에 적용할 수 있는 영상 이해 기술로 발 전하고 관련 산업도 태동할 것으로 기대한다.

참 고 문 헌

[ 1 ] Chunsheng (Victor) Fang, “Large-Scale Video Analytics on Hadoop,” Aug. 2013. [Online]

http://blog.gopivotal.com/features/large-scal e-video-analytics-on-hadoop.

[ 2 ] DARPA, “BAA-08-20: Video and Image Retrieval and Analysis Tool (VIRAT),” March 03, 2008.

[ 3 ] DARPA, Mind’s Eye, [Online] http://www.dar pa.mil/Our_Work/I2O/Programs/Minds_Eye.

aspx.

[ 4 ] Stanford, ImageNet, [Online] http://www.ima ge-net.org/

[ 5 ] MIT, SUN database, [Online] http://groups.cs ail.mit.edu/vision/SUN/

[ 6 ] Databrary, [Online] http://databrary.org/

[ 7 ] A. Natsev, J. R. Smith, J. Tesle, L. Xie and R. Yan, “IBM Multimedia Analysis and Retrieval System,” International Conference on Content-based Image and Video Retrieval (CIVR ‘08), pp. 553-554, 2008.

[ 8 ] IBM Multimedia Analysis and Retrieval System, [Online] http://mp7.watson.ibm.com/imars/.

[ 9 ] Google Goggles, [Online] http://www.google.

com/mobile/goggles.

[10] Google, Automatic large scale video recognition, US Patent 8,254,699, Aug.

2012.

(8)

❙ 정보처리학회지 제 21권 제 3호(2014. 5)

66

[11] Quoc V. Le et al, “Building High-level Feature Using Large Scale Unsupervised Learning,”

ICML 2012, pp. 81-88, Jul. 2012.

[12] M. H. Almeer, “Hadoop Mapreduce for Remote Sensing Image Analysis,” IJETA Vol.2, Issue 4, April 2012.

[13] USGS, “Satellite Image Processing And Production with Apache Hadoop,”

http://davidvhill.com/static/Hill-AGU-Final.ppt [14] GPGPU Roadmap, NVIDIA GTC (GPU

Technology Conference) 2013.

[15] B. He, W. Fang, N. Govindaraju, Q. Luo, T.

Wang, “Mars: A MapReduce Framework on Graphics Processors”, PACT 2008.

[16] U. of Virginia, “HIPI : Hadoop Image Processing Interface”, http://hipi.cs.virginia.edu/

저 자 약 력

배 유 석

․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․

이메일 : [email protected]

∙ 1995년 경북대학교 전산학과(학사)

∙ 1997년 경북대학교 전산학과(석사)

∙ 2011년 경북대학교 전산학과(박사)

∙ 1997년~현재 한국전자통신연구원 분석소프트웨어연 구실 책임연구원

∙ 관심분야 : 빅데이터 플랫폼, IPTV, 방송미들웨어, 유비 쿼터스 컴퓨팅

오 봉 진

․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․

∙ 1993년 부산대학교 전산학과(학사)

∙ 1995년 부산대학교 전산학과(석사)

∙ 2012년 충남대학교 컴공학과(박사)

∙ 1995년~1997년 시스템공학연구소 / 연구원

∙ 1998년~현재 한국전자통신연구원 / 책임연구원

∙ 2014년~현재 UST대학교 컴퓨터소프트웨어 및 공학 과 / 겸임 교수

∙ 관심분야 : 빅데이터 플랫폼, IPTV, 디지털방송, N-스 크린

박 종 열

․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․

∙ 1996년 충남대학교 컴퓨터공학과(학사)

∙ 1996년~1997년 데이콤중앙연구소 / 연구원

∙ 1999년 광주과학기술원 정보통신공학과(석사)

∙ 2004년 광주과학기술원 정보통신공학과(박사)

∙ 2001년~2002년 University of Utah / 초빙연구원

∙ 2004년~현재 한국전자통신연구원 분석소프트웨어연 구실 실장

∙ 2005년~2007년 UST 컴퓨터소프트웨어 및 공학 / 겸 임교수

∙ 2011년~현재 충남대학교 컴퓨터공학과 / 겸임교수

∙ 2014년~현재 UST 컴퓨터소프트웨어 및 공학 / 겸임 교수

∙ 관심분야 : 빅데이터 플랫폼, 빅데이터 분석 SW, 시각 빅데이터, 시각 지능, 비정형 데이터 분석

(9)

박 경

․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․

∙ 1991년 전북대학교 컴공학과(학사)

∙ 1993년 전북대학교 컴공학과(석사)

∙ 2008년 고려대학교 전산학과(박사)

∙ 1993년~현재 한국전자통신연구원 / 부장

∙ 관심분야 : 빅데이터 플랫폼, 클라우드 컴퓨팅, 컴퓨터 아키텍쳐