디지털콘텐츠원천기술개발사업
빅데이터를 활용한 스마트 스타트업 콘텐츠 및 서비스 플랫폼 개발
Development of Smart Start-up Contents Service Platform
(주)영화조세통람
정보통신기술진흥센터
1 단계 보고서
사업명 디지털콘텐츠원천기술개발사업 과제번호 R-0184-15-1019
과제명
(국문) 빅데이터를 활용한 스마트 스타트업 콘텐츠 및 서비스 플랫폼 개발 (영문) Development of Smart Start-up Contents Service Platform
주관기관 (주)영화조세통람 총괄책임자 이 경 익
참여기관1 (책임자)
고려대학교 산학협력단 (정 순 영) 참여기관2
(책임자)
성결대학교 산학협력단 (김 종 완)
총수행기간 2015. 7. 1. ~ 2018. 8. 31. ( 2년 2개월)
협약기간 2015. 7. 1. ~ 2015. 9. 30. ( 3개월 ) 해당년도
수행기간 2015. 7. 1. ~ 2015. 9. 30. ( 3개월 ) 협약기간
총사업비(천원)
정 부
출연금 30,000 민 간 부담금
현금
계 40,000
현물 10,000 해당단계
사업비(천원)
정 부
출연금 30,000 민 간 부담금
현금
계 40,000
현물 10,000 키워드
(6 ~ 10개)
스마트 스타트업 콘텐츠, 창업 지원, 빅데이터 기반 지능형 서비스, 큐레이 션, 텍스트마이닝, 클라우드 서비스, 크라우드 소싱, 플랫폼
정보통신·방송연구개발 관리규정 제33조에 의거하여 연차보고서 10부를 제출합니다.
2015 년 09월 17일 총괄책임자: 이경익 (인)
주관기관장: 서동혁 (직인/인감)
정보통신기술진흥센터장 귀하
Ⅰ. 해당 단계 추진 현황
Ⅰ-1 기술개발 추진 일정
일련
번호 개발 내용 추진 일정(개월) 달성도
1 2 3 주요 실적 요약 (%)
1 계획수립 및 자료조
사 ㆍR&D 추진 계획서 100%
2 시장조사 및 요구 분 석
ㆍ스타트업 관계자 대상 설문조사 결
과 보고서 100%
3 비즈니스 모델 및 사 업화 계획 수립
ㆍVC 설명회 자료
ㆍ서비스 설계서 100%
4 전체 시스템
아키텍쳐 구성 ㆍ시스템 아키텍쳐 구성도 100%
5
창업자를 위한 정보 및 기반 지식 체계 정리
ㆍ창업자를 위한 정보 및 기반 지식 체계도
ㆍ창업 정보 분류 및 수집 데이터 출 처 리스트
100%
6 2단계 사업 진행을
위한 기술 개념 정리 ㆍ2단계 사업계획서 100%
7
성능평가항목 및 성 능평가 표준방법 정 리
ㆍ2단계 사업계획서(해당 파트) 100%
8 2단계 사업계획서 작 성
ㆍ2단계 사업계획서
ㆍ1단계 연구결과 보고서 100%
9 연구결과 보고서 작 성
ㆍ2단계 사업계획서
ㆍ1단계 연구결과 보고서 100%
당초계획
개발내용
구분 연구내용 연구결과 달성도 (%)
1단계
¦ 주관기관: (예비)창업자를 위한 정보 체계 및 기반 지식 체계 설계, 전체 시스템 아키텍쳐(Architecture) 설계와 기술 개념 확립, 창업자 대 상 설문 조사를 통한 창업콘텐츠 요 구분석
¦ 참여기관1: 빅데이터 처리, 소셜 미디어 데이터 마이닝, 스마트 스타 트업 콘텐츠 큐레이팅 등의 기술 개 념 설계
¦ 참여기관2: 네트워크(동업자, 투 자자 등) 추천 기술 개념 설계
¦ 주관기관
: 예비 창업자를 위한 정보 체계 및 기반 지식 체계 설계 완료
: 전체 시스템 아키텍쳐 및 기술 요소 도 출 완료
: 창업자 대상 창업콘텐츠에 대한 설문 조사완료
¦ 참여기관1
: 다양한 형식이 창업관련 데이터 처리에 대한 기술 개념 설계 완료
: 소셜 미디어 데이터 분석을 위한 마이 닝 기술 개념 설계 완료
: 사용자의 상황(Context)에 따른 콘텐츠 추전 기술 개념 설계 완료
¦ 참여기관2
: 스타트업 관계망 분석을 위한 데이터 전처리 기술 개념 설계 완료
: 네트워크(동업자 등) 추전을 위한 스타 트업 관계망 분석 기술 개념 설계 완료
네트워크(동업자 등) 추천 알고리즘 개념 설계 완료
100%
Ⅰ-2 해당 단계 추진 실적
1. 사용자(스타트업 관계자) 상황 인지를 위한 장애 요소 및 해결 방안 도출
[장애요소]
① 스타트업 진행절차상의 상황 모델링시, 다양한 스타트업 유형 존재로 인한 진행절차 모델링의 어려움이 발생함.
② 스타트업 형태나 업종 등의 요인은 스타트업의 유형을 다양화시킴. 스타트 업 유형이 달라지면 진행절차 역시 다양해지기 때문에, 모든 유형을 아우를 수 있는 정밀한 모델을 개발하는 것이 어려워짐.
[해결 방안]
① 규칙기반(Rule-based)의 사용자 정보 채집 기술을 통해 최소의 정보입력 으로 사용자 유형 파악하여 해결
⦁창업전문가에 의한 (예비)창업자의 창업유형을 분석하여 각 유형별로 필 요한 속성(창업성격, 관심업종, 사업아이템, 보유기술, 예산 등)을 정의하고 이에 대한 규칙 생성 필요.
⦁생성된 규칙을 토대로 사용자의 프로필 정보를 입력받을 수 있는 화면을 설계하며, 입력된 정보는 규칙기반 기법을 토대로 사용자의 유형을 파악할 수 있음.
⦁사용자의 유형이 정해진 후 해당 사용자의 서비스를 이용하며 시스템과 상호작용하는 다양한 행위에 의해 발생하는 이벤트를 기록하여 사용자의 상황인지를 분석하는 데 사용.
⦁이에 사용자의 유형이 정해진 후 해당 사용자가 서비스를 이용하며 시스 템과 상호 작용하는 다양한 행위는 (예비)창업자의 정확한 상황 인지를 위 한 분석 데이터로 다시 사용되며 개인정보 침해 우려가 있는 정보는 별도 의 보안 정책을 마련하여 해결 가능 함.
② 내용-사용자-활동-프로필에 기반한 사용자 관계망 구축하여 해결
⦁사용자의 최근 활동 정보를 분석하여 활동 프로필을 생성함. 활동 프로필 은 사용자가 생성한 로그 데이터와 시스템이 생성한 로그 데이터를 반영하 여 지속적으로 갱신되기 때문에 사용자의 최근 성향을 반영할 수 있음.
⦁활동 프로필에서 사용자의 성향을 반영한 대표 키워드를 생성하고, 사용 자와 유형이 같은 유사 사용자의 활동 프로필 키워드와 비교하여 자신의 활동 프로필 키워드 항목에 존재하지 않는 키워드를 반영한 콘텐츠 및 전 문가를 사용자에게 추천함.
⦁사용자 관계망은 사용자의 최근 성향을 반영한 활동 프로필 정보로부터 도출한 정보를 사용함. 유사 성향을 갖는 사용자에게 존재하는 키워드를 도 출하여 점수를 부여하고, 임계치 이상의 점수를 가지는 대표 키워드를 추출 하여 가장 많은 수의 대표 키워드가 매칭 되는 사용자와 연결함으로써 구 축할 수 있음.
Ⅱ. 기술개발결과
2. 스타트업 관련 소셜 미디어 데이터 및 웹 문서 수집 모듈 개발에 대 한 장애요소 및 해결 방안 도출
[장애요소]
① 다양한 자료원에 다양한 형식으로 산재되어 있는 스타트업 관련 문서 수 집의 어려움
② 소셜 미디어 데이터 및 창업관련 웹 문서는 수집 시 형식이 다르기 때문 에 별도의 수집 모듈이 필요함
③ 특히 창업관련 웹 문서의 경우 API, RSS와 같은 문서 제공 도구를 지원하 는 경우도 있으나, 그렇지 않은 경우도 있음
[해결 방안]
① 소셜 미디어 데이터의 경우 Streaming API 이용
⦁빠르게 생산되고 확산되는 SNS 데이터를 실시간으로 신속하게 수집함을 목적으로 SNS 사이트의 API를 통해 데이터를 수집-재사용을 극대화한 비 용 절감적 문서수집 자동화 도구(크롤러) 개발
⦁컴퓨팅 자원 절감 방안 : 웹 주소는 다르지만 내용이 같으면 한 주소만 수집하여 최대한 중복 없이 웹 페이지를 수집함으로써 컴퓨팅 자원을 줄이 고, 웹 서버로부터 정보에 대한 변경사항을 통보 받아 실제 연결 가능한 문 서만 수집하여 인터넷 상의 불필요한 트래픽을 줄이고 신뢰도를 높임
⦁재사용성 극대화를 통한 개발기간 단축 방안 : 제공되는 데이터 형식이 다르다면 크롤러의 형태 또한 달라져야 함. 이때 크롤러 개발 시 기 개발된 유사 자료 원 크롤러 모듈을 가급적 재사용한다면 개발기간 단축이 가능함
② 텍스트 전처리기 개발을 통한 문서 저장·처리·관리 비용 절감 및 쓰레기 데이터 문제 해소
⦁텍스트 전처리기 개발을 통해 스타트업 관련 문서가 아닌 문서를 필터링 하며, 잘못된 문법 및 띄어쓰기를 교정함
⦁개체명 인식기를 기반으로 스타트업 관련 문서와 관련된 개체명이 보이 지 않을 경우 해당 문서를 필터링함으로써 저장 공간을 절약할 수 있음 ⦁소셜 미디어 데이터의 경우 입력된 문자열의 띄어쓰기가 정확하지 않기
때문에 대규모 학습 말뭉치로부터 수집된 통계 정보와 사용자 띄어쓰기 여 부, 음절 띄어쓰기 확률 값을 통해 띄어쓰기를 보정하여 품사를 태깅하는 기법 도입
⦁문장을 구성하는 구성 성분들 사이의 위계 관계를 분석하여 정확한 문장 구조를 파악하기 위해 얕은 구문분석을 수행함. 문장 내의 특정 단어가 다 른 단어와 어떤 관계가 있는지를 분석함으로써 문장을 정확하게 이해할 수 있음
⦁창업 관련된 개체명 인식기는 제품, 업종, 조직, 회사, 인명, 장소 등의 개 체명을 추출하고, 다차원 감성분류를 위한 개체명 인식기는 긍정/부정/중립 이외의 다차원 감성(25개) 분류를 위한 개체명을 추출함. 인식된 개체명은 소비자의 반응 및 최신 트렌드 분석, 문서 분류를 위해 사용
3. 소셜 미디어 데이터 분석을 통한 Needs & Trend 마이닝 개발에 대 한 장애요소 및 해결 방안 도출
[장애 요소]
① Needs를 나타내는 어휘에 대한 기 개발 어휘사전 부재
⦁현재 기연구·개발되어 사용되는 일반적인 감성 분석 시스템의 경우 제한 된 감성어휘(sentiment lexicon)를 가지거나, 제한된 관점(aspect)의 분석 이 가능한 제한점을 가지고 있음.
⦁이러한 시스템의 경우 특정 도메인에 대해서는 높은 정확도의 분석 결과 를 예측할 수 있으나, 다른 도메인에 적용할 경우 일관된 성능을 보장할 수 없는 도메인 제한적인 기술임. 이는 ‘요구’와 관련된 감정을 담은 텍스트를 추출하는 데에 걸림돌로 작용함
[해결 방안]
① 부트스트래핑(bootstrapping) 기법 기반의 Needs 관련 어휘 추출
⦁Needs 어휘와 관점의 초기 정보(seed)로부터 반복적인 샘플링을 하는 부트스트 래핑(bootstrapping) 기법을 통해 요구와 관련된 어휘를 자동 으로 획득함.
② 기존의 기법이 단순한 키워드의 변화를 감지하였던 것에서 탈피하여 토픽 (topic)의 변화를 감지
⦁이를 위해 문서를 LDA(Latent Dirichlet Allocation) 기법을 이용하여 토 픽의 집합으로 클러스터링 및 날자 단위의 토픽 변화 분석
4. 사용자 관계 데이터 관리를 위한 전처리 및 그래프 데이터베이스 구 축에 대한 장애요소 및 해결 방안 도출
[장애 요소]
① 대용량 그래프 데이터 관리
⦁지속적인 사용자의 유입과, 플랫폼 상에서 형성되는 모든 관계를 단일 머 신에서 관리하는 상황에서 특정 사용자의 관계망을 분석하는 작업량이 집 중될 경우 과부하가 발생할 수 있음.
② 대용량 그래프 데이터 분할
⦁일반적으로 그래프 데이터를 최적으로 분할하는 문제는 NP 하드 문제로 특정시간 내에 대용량 그래프 데이터를 최적으로 분할하는 것은 어렵기 때 문에 휴리스틱을 사용하여 최적의 상황과 근사하게 그래프를 분할해야함 [해결 방안]
① 대용량 그래프 데이터 관리
⦁Titan은 오픈소스로 제공되는 그래프 데이터베이스로 대용량 그래프 데 이터를 분산환경에서 관리할 수 있는 기능을 제공함
⦁분석을 위해 노드에 태깅되어야할 속성이 증가하고, 사람간의 관계 데이
터를 넘 어서 컨텐츠와 사용자의 관계까지 관리할 경우 Titan은 대용량 쓰기 작업에 특화되어 있기 때문에 해당 플랫폼에 적합한 데이터베이스임
⦁결함포용 및 데이터 복제를 할 수 있어 지속적으로 사용자에게 서비스를 제공할 수 있기 때문에 Titan 상의 그래프 데이터베이스를 구축하고 해당 환경 상에서 사용자 관계 데이터를 가공하여 저장 및 관리할 필요 있음
② 대용량 그래프 데이터 분할용
⦁계층 그래프 이등분할 기법은 3단계인 압축, 분할, 압축해제로 나뉨. 압축 단계 에서는 특정기준에 따라 두 개 이상의 노드를 하나의 노드로 만들고 가중치를 합산하여 새로운 노드의 가중치로 정함. 노드를 합치는 기준은 다 양하지만 본 사업에서는 사용자의 영향력을 수치화하기 위해 연결된 사용 자의 수를 가중치를 정하여 가중치가 높은 노드를 합치기로 함. 모든 노드 의 가중치를 1이라고 할 때 무작위로 이웃노드 하나를 선택하여 합치는 압 축 과정을 보여줌. 해당 방법이 다계층 그래프 이등분할 기법으로 불리는 이유는, 압축을 여러 차례에 걸쳐 수행하기 때문임
⦁분할 단계에서는 나뉘는 양쪽 노드들의 가중치의 합이 최대한 동등하도록 분할을 하여, 데이터가 균일하게 나뉘어 저장되게 함. 에서는 그래프 분할 시 기준이 되는 노드들을 볼 수 있으며, 해당 노드를 기준으로 양쪽 노드들 의 가중치 합이 최대한 동등하게 나뉘게 됨.
⦁압축해제 단계에서는 압축단계에서 압축을 수행한 횟수와 동등하게 합쳐 진 노드를 다시 분리함. 분리하는 매 단계에서 분할 단계에서 나누는 기준 이 되었던 노드들도 압축이 해제되기 때문에 이를 다시 정밀화하는 작업이 요구됨
5. 스타트업 네트워크 분석을 위한 사용자 그룹 클러스터링 모듈 개발에 대한 장애요소 및 해결 방안 도출
[장애 요소]
① 관계 데이터 상에서 가장 강연결성이 높은 그룹은 그룹 내의 구성원들이 서로 모두 연결되어 구성원들 간의 상호 긴밀성이 유지되는 그룹을 말함.
하지만 이러한 특징을 갖는 집단은 드물며 집단의 규모가 클수록 모든 구 성원이 상호 긴밀하게 연결되기란 어려움.
② 지속적으로 변화하는 사용자의 관계망 파악
⦁사용자의 관계가 트랜드에 따라 혹은 새로운 사용자의 유입에 따라서 지 속적으로 변화할 수 있기 때문에 관계데이터를 한 번 그룹화 해놓고 이를 기반으로 사용자 상황을 파악하여 스마트 스타트업 네트워킹 서비스를 제 공한다는 것은 서비스의 질을 저하시키는 요인이 될 수 있음
[해결 방안]
① 강연결성이 높은 그룹을 찾기 위한 Tarjan 알고리즘 응용
⦁Tarjan 알고리즘은 강연결성이 높은 그룹을 찾을 수 있는 알고리즘임. 알
고리즘의 기본 작동원리는 임의의 노드에서 탐색을 시작하여 한번 방문한 노드는 다시 방문하지 않고 계속 깊게 우선 탐색을 진행함.
② 최근접 공동 이웃(Shared Nearest Neighbor) 노드 탐색을 활용한 사용자 그룹화
⦁강연결성이 높은 그룹만을 찾는 Tarjan 알고리즘과 달리 Jarvis-Patrick은 알고리즘을 사용하면 공동인 이웃이 몇 명인지에 따라 보다 유연하게 연관 성이 있 는 사용자를 그룹화할 수 있음.
③ 계층적 인덱스 구축을 통한 빠른 사용자 그룹 탐색 및 재그룹화
⦁분산하여 저장한 그래프 데이터에 대하여 그룹화를 한 후 계층적으로 트 리 형태의 인덱스를 구축할 수 있음. 최하위 단의 레이어는 분산된 머신상 에서 사용자들을 그룹화한 것을 볼 수 있음. 가운데 레이어에서는 그룹의 id와 그룹을 구성하는 사용자의 id를 관리하여 partition 1에 속한 사용자가 partition 2의 사용자들과 그룹을 형성하는지에 대한 정보와 partition 1의 그룹과 partition 2의 그룹이 또 하나의 그룹을 형성하고 있는지 정보를 관 리하게 되면 새로운 관계가 추가 되었을 때 영향을 받는 그룹에 대해서만 재계산을 수행할 수 있게 됨.
6. 스마트 스타트업 콘텐츠 재구성 모듈(Organizer) 개발에 대한 장애요 소 및 해결방안 도출
[장애 요소]
① 다양한 유형의 콘텐츠로 인한 구조화의 어려움
⦁스타트업 관련 Needs, 트렌드, 재경 노하우, 가이드, 지원사업 공고와 관 련된 다양한 유형의 데이터들이 존재하며 각 자료원의 모든 유형별 콘텐츠 를 구조화하는 것은 비용이 큰 작업이며 이를 기반으로 각 사용자에게 상 황별 맞춤형 스타트업 콘텐츠를 제공하기에는 어려움이 존재함.
② 사용자 상황에 따른 필요정보 판단의 어려움
⦁스타트업 관련 Needs, 트렌드, 재경 노하우, 가이드, 지원사업 공고와 관 련된 다양한 유형의 데이터들을 제공할 때 해당 사용자와 제공하고자 하는 콘텐츠간의 연관성 정도에 대한 척도 설정의 어려움.
[해결 방안]
① 메타데이터 기반 자료 유형별 콘텐츠 구조화
⦁추출한 각 자료의 메타데이터를 기반으로 전문가를 활용해 기사, 기술문 헌, 트렌드, 창업사례, 창업지원사업 공고 등 대표적인 유형을 설정하고 각 유형에 포함시킬 메타데이터를 정의함. 이렇게 함으로써 다양한 유형의 자 료들에 대한 메타데이터만을 추출하여 구조화된 콘텐츠를 제작하여 재사용 성도 높이고 사용자의 상황에 따른 정보 재구성도 용이해짐.
②사용자 상황인지에 요구되는 속성들과 관련된 메타데이터 분석 및 연관성 수치화
⦁어떠한 준비도 되지 않은 창업자에게는 기술문헌보다 사회적 트렌드와 관 련된 콘텐츠가 더 중요하기 때문에 콘텐츠 재구성 모듈이 이러한 점을 고 려할 수 있도록 사용자 상황에 따라 재구성할 콘텐츠의 우선순위에 대한척 도가 요구됨.
⦁따라서 메타데이터 기반 유형별 콘텐츠 구조와 관련된 사용자 상황인지에
요구되는 사용자 데이터를 분석함. 이를 통하여 사용자의 어떤 정보가 무슨 콘텐츠와 밀접하게 연관되어 있는지 관련도를 수치화하는 모델을 구축하고, 한정된 화면에 제공될 정보 중 어떤 콘텐츠의 조합을 우선시해야 하는지 기준을 설정함.
7. 스타트업 업무 관리 서비스 개발(2)-비즈니스 관리서비스 개발에 대 한 장애 요소 및 해결방안 도출
[장애 요소]
① 다양한 유형의 콘텐츠로 인한 구조화의 어려움
⦁스타트업 관련 Needs, 트렌드, 재경 노하우, 가이드, 지원사업 공고와 관 련된 다양한 유형의 데이터들이 존재하며 각 자료원의 모든 유형별 콘텐츠 를 구조화하는 것은 비용이 큰 작업이며 이를 기반으로 각 사용자에게 상 황별 맞춤형 스타트업 콘텐츠를 제공하기에는 어려움이 존재함.
② 사용자 상황에 따른 필요정보 판단의 어려움
⦁스타트업 관련 Needs, 트렌드, 재경 노하우, 가이드, 지원사업 공고와 관 련된 다양한 유형의 데이터들을 제공할 때 해당 사용자와 제공하고자 하는 콘텐츠간의 연관성 정도에 대한 척도 설정의 어려움.
[해결 방안]
① 메타데이터 기반 자료 유형별 콘텐츠 구조화
⦁추출한 각 자료의 메타데이터를 기반으로 전문가를 활용해 기사, 기술문 헌, 트렌드, 창업사례, 창업지원사업 공고 등 대표적인 유형을 설정하고 각 유형에 포함시킬 메타데이터를 정의함. 이렇게 함으로써 다양한 유형의 자 료들에 대한 메타데이터만을 추출하여 구조화된 콘텐츠를 제작하여 재사용 성도 높이고 사용자의 상황에 따른 정보 재구성도 용이해짐.
② 사용자 상황인지에 요구되는 속성들과 관련된 메타데이터 분석 및 연관성 수치화
⦁어떠한 준비도 되지 않은 창업자에게는 기술문헌보다 사회적 트렌드와 관 련된 콘텐츠가 더 중요하기 때문에 콘텐츠 재구성 모듈이 이러한 점을 고 려할 수 있도록 사용자 상황에 따라 재구성할 콘텐츠의 우선순위에 대한척 도가 요구됨.
⦁따라서 메타데이터 기반 유형별 콘텐츠 구조와 관련된 사용자 상황인지에 요구되는 사용자 데이터를 분석함. 이를 통하여 사용자의 어떤 정보가 무슨 콘텐츠와 밀접하게 연관되어 있는지 관련도를 수치화하는 모델을 구축하고, 한정된 화면에 제공될 정보 중 어떤 콘텐츠의 조합을 우선시해야 하는지 기준을 설정함.
8. 텍스트 마이닝 기반 문서 자동 분류 기법 개발에 대한 장애 요소 및 해결방안 도출
[장애 요소]
①분류기 생성을 위한 학습 데이터 확보의 어려움
⦁일반적으로 텍스트 마이닝 기술 기반의 문서 분류를 위해서는 학습 데이 터가 필요함. 학습 데이터란 문서의 종류가 명시되어 있는 문서들의 집합으 로, 학습 알고리즘으로 학습 데이터를 학습시키면 문서 분류기를 만들 수 있음
⦁학습 데이터의 크기가 크면 클수록 분류기의 성능은 높아지지만, 구축에 필요한 시간 및 비용 역시 증가함
[해결 방안]
①최신 텍스트 마이닝 기법 적용
⦁효율적인 구축을 진행하기 위해 적은 개수의 학습 데이터를 초기 데이터 로하여 샘플링을 수행하여 학습을 촉진하고자 함. 샘플링은 통계학적으로 유의미한 데이터를 생성해야 하며, 이는 트렌드 분석의 핵심 기술인 LDA를 응용하여 성공적인 수행이 가능함
⦁문법 분석 및 중요 어휘 태깅이 완료된 텍스트 데이터를 Document Database에서 가져오며, 이에 대한 특징점(feature)을 추출함. 추출하는 특 징점은 문서에 나타나는 단어의 빈도(TF/IDF), N-gram, rewrite rule 등 이 있음
⦁다각적 분류의 기준은 창업진행절차와 업종에 따라 분류를 진행하며, 분류 기의 개발은 기계학습 기법을 이용하여 진행함. 분류기의 성능 향상을 위해 각각의 분류에 대한 학습 데이터(multi-facet corpus)를 수집하며, 이를 이 용하여 최대 선형 판별기를 SVM 기법을 이용하여 해결이 가능함
9. 사용자 상황 기반 콘텐츠 큐레이팅 기법 개발에 대한 장애 요소 및 해결 방안 도출
[장애 요소]
①유형분석을 통한 사용자 선호도 모델 개발의 어려움
⦁사용자마다 관심 분야가 다르며, 그 차이의 폭이 심하기 때문에 유한개의 선호도 유형을 분류하는 것이 쉽지 않음
⦁또한 복수 개의 분야에 동시에 관심이 있는 경우가 많기 때문에 특정 유 형으로 분류할 경우 정확하지 않은 문맥 분석이 이루어질 수 있음
② 스타트업 관계자의 상황 분석을 고려한 콘텐츠 큐레이팅 기법의 부재 ⦁사용자는 상황에 따라 선호하는 콘텐츠의 성격이 달라짐. 이를테면 스타트
업 초기 단계의 창업자는 사업 아이템을 구체화할 수 있는 Needs &
Trend 콘텐츠를 선호할 것임. 그러나 이 창업자가 시간이 지남에 따라 스 타트업이 안정화된다면, 세금 부담을 덜 수 있는 회계·재무·자금 노하우 콘 텐츠를 선호하게 될 것임
⦁현재까지는 스타트업 관계자 상황을 고려한 콘텐츠 큐레이팅 기법은 고안 되지 않았음
[해결 방안]
① Collaborative Filtering 기반 콘텐츠 추천 기법 개발을 통한 해결
⦁사용자 선호도 모델을 직접적으로 개발하는 것 대신, 유사한 선호도를 가 진 사용자 집단을 찾은 후 해당 집단 내에서 서로 열람하지 않은 콘텐츠를 교차로 추천하는 방식을 도입함
⦁이와 관련된 기술로는 Collaborative Filtering이 있음. 해당 기술은 사용 자의 feedback(사용자의 콘텐츠 열람 기록)을 분석하여 유사한 콘텐츠 열 람 기록을 가진 사용자 집단을 찾아낸 후, 집단 내에서 콘텐츠를 교차 추천 함
⦁최근까지 다양한 Collaborative Filtering 기술이 제안되어 왔으며, 그 중에 서도 Matrix Factorization 기반의 SVD++ 기반의 Collaborative Filtering 이 가장 좋은 성능을 보였음
② 스타트업 관계자의 상황을 고려한 Collaborative Filtering 기법 도입 필 요
⦁최근 이와 관련된 기술로 사용자 상황 기반(User Context-based) Collaborative Filtering 기법이 개발되었음. 이 기법은 기존 2차원
<User-Content> Matrix에 대한 Factorization을 3차원인
<User-Context-Content> Tensor에 대한 Factorization으로
확장시킴으로써 사용자 문맥을 고려한 콘텐츠 큐레이팅 기법을 고안했음 ⦁사용자 상황 기반 Collaborative Filtering 기법과 스타트업 관계자에 대한
상황 인지 기법을 결합하여 스타트업 관계자 상황 기반 Collaborative Filtering 기법을 개발하여 해결 가능
⦁또한 이를 위해 동적으로 변화하는 사용자의 상황을 관리하는 모듈(Dynamic User Profile Manager)을 개발해야 함
10. 지능형 스타트업 네트워킹을 위한 파트너 추천 기법 개발에 대한 장 애 요소 및 해결방안 도출
[장애 요소]
① 유사 그래프를 찾는 문제의 높은 계산 복잡도
⦁그래프의 유사도를 비교하는 문제는 NP-완전 문제에 해당되며 계산 복잡 도가 높은 문제이다. 컴퓨터 과학 분야에서 NP 문제는 어떤 주어진 문제에 대한 답이 맞는지를 확인하는 시간만 다항식 시간만큼만 걸리는 문제이며 NP-완전 문제는 그 중에서도 어려운 문제로 구성된다
② 사용자와 관계가 밀접한 스타트업 파트너 추천의 어려움
⦁스마트 네트워킹에 있어서 사용자와 관계가 밀접한 사람을 추천하여 최대 한 지인의 범주 안에서 사람과 협업을 할 수 있도록 하는 것이 중요하다.
하지만 기존의 추천 기법들은 사용자의 요구사항을 만족하는 대상만을 추 천하기 때문에 요구사항만 동일하다면 일률적인 추천결과를 반환한다.
[해결 방안]
① 창업 규모와 구성원 조합 정보를 활용한 일차적 비교 대상 축소
⦁주어진 사용자가 속한 네트워크와 모든 유형의 네트워크를 비교하는 것은 장애요소 1에서 설명했듯이 시간이 오래 걸리는 작업이다. 따라서 이를 해 결하기 위하여 창업의 규모와 현재 구성원의 조합에 대한 정보를 기반으로 일차적으로 유사한 구성원들을 가진 그룹들과 비교할 수 있도록 범위를 축 소시킨다
② 피쳐 기반 부분 그래프 탐색
⦁피쳐 기반 부분 그래프 유사도 탐색 기법을 이용하여 질의로 들어온 사용 자의 네트워크 구조와 사용자가 창업 하고자하는 분야의 다양한 유형의 그 룹의 유사성을 파악할 수 있다.
③ 그래프 유사도 척도 설정
⦁네트워크 구조가 얼마나 유사한지 수치화하기 위해 네트워크간의 거리 함 수를 활용하여 유사도를 수치화 할 수 있다.
④ 그래프 스카이라인 질의처리 기법 개발
⦁기존의 스카이라인 기술로는 사용자와 밀접하면서 요구사항을 만족하는 사람을 추천하기 어렵기 때문에 본 사업에서 그래프 기반 스카이라인 질의 처리 기법을 개발하여 해결
11. 지능형 스타트업 네트워킹을 위한 스타트업 네트워크 분석 기법 개 발에 대한 장애 요소 및 해결방안 도출
[장애 요소]
① 유의미한 그룹의 구성 파악
⦁그래프의 유사도를 비교하는 문제는 NP-완전 문제에 해당되며 계산 복잡 도가 높은 문제이다. 컴퓨터 과학 분야에서 NP 문제는 어떤 주어진 문제에 대한 답이 맞는지를 확인하는 시간만 다항식 시간만큼만 걸리는 문제이며 NP-완전 문제는 그 중에서도 어려운 문제로 구성된다.
② 분산 환경에서의 전체 그래프 데이터기반 빈번한 관계 패턴 추출기법 ⦁ 창업자에게 파트너를 추천해줄 때 서로 어떠한 역할로 창업에 임할 것인
가에 대한 그룹 관점에서의 추천도 중요하다. 하지만 사용자의 창업 성향이 나 관심분야 등을 맞춰서 추천하기 위해서는 어떠한 특징을 가진 사용자들 간의 관계가 빈번히 생성되는지 분석할 필요가 있다. 하지만 대용량 그래프 데이터가 분산되어 저장되어 있기 때문에 일반적인 방식으로 그래프를 순 회하면서 사용자의 관계를 분석하게 되면 네트워크 비용이 증가하는 문제 점이 발생한다.
[해결 방안]
① 창업 규모와 구성원 조합 정보를 활용한 일차적 비교 대상 축소
⦁주어진 사용자가 속한 네트워크와 모든 유형의 네트워크를 비교하는 것은 장애요소 1에서 설명했듯이 시간이 오래 걸리는 작업이다. 따라서 이를 해
결하기 위하여 창업의 규모와 현재 구성원의 조합에 대한 정보를 기반으로 일차적으로 유사한 구성원들을 가진 그룹들과 비교할 수 있도록 범위를 축 소시킨다.
② 계층적 인덱스 탐색을 통한 proximity 패턴 분석
⦁proximity 패턴이란 긴밀하게 연결된 다수의 부분 그래프(subgraph)에서 반복적으로 발생하는 레이블들의 집합을 의미한다. 아래와 같은 부분 그래 프들이 주어졌을 때 proximity 패턴을 분석을 하면 여러 부분 그래프에서 a, b, c라는 정보가 함께 나타나는 것을 알 수 있다. 즉 Proximity 패턴 분 석을 활용하면, 어떤 특징을 갖는 유저들이 함께 다양한 그룹들에서 빈번하 게 나타나는지 파악할 수 있다. 하지만 이러한 기법이 분할되지 않은 하나 의 거대한 그래프 데이터에 대해서만 분석이 이루어졌기 때문에 본 사업에 서는 이를 해결하기 위해 1차년도에 개발한 계층적 인덱스 탐색을 통하여 분할된데이터 간의 정보를 고려한 proximity 패턴 분석 기법을 개발하여 해결한다.
Ⅲ. 결론 및 차후 계획
o 본 연구는 스타트업분야뿐만이 아니라 정보/콘텐츠 서비스를 하고 있는 사 업자에게 사용자 상황 및 관계망에 근거한 서비스 개발에 필요한 참고 자료 로 활용 될 수 있음.
o 본 연구는 소셜 미디어 데이터를 활용하고자 하는 사업자에게 다양한 형식 으로 산재되어 있는 관련 데이터를 어떠한 방식으로 활용할 것인가에 대해 참고 자료로 활용 될 수 있음
o 본 연구를 통해 소셜 미디어 상에서 소비자 Needs 및 Trends를 분석 위해 고려해야 할 사항에 대해 제시함. 이는 소셜 미디어 데이터를 활용하고자 하 는 사업자에게 다양한 형식으로 산재되어 있는 관련 데이터를 어떠한 방식 으로 활용하여 추출해 낼 것인가에 대한 참고 자료로 활용 될 수 있음
o 본 연구를 통해 사용자의 요구사항에 부합하는 네트워크를 구축하기 위해 고 려해야 할 사항에 대해 제시함. 이는 네트워크기반의 플랫폼을 구축하고자하 는 사업자에게 사용자 및 사용자와 연관되는 사람들과의 관계를 어떻게 설 정해야 하며 무엇을 수집하고 분석해야 하는 것인가에 대한 물음에 대한 참 고 자료로 활용 될 수 있음
o 본 연구를 통해 사용자의 요구사항에 부합하는 네트워크를 구축하기 위해 고 려해야 할 사항에 대해 제시함. 이는 네트워크기반의 플랫폼을 구축하고자하 는 사업자에게 상호 밀접한 관계를 갖는 사용자들의 그룹화를 어떻게 설정 해야 하며 무엇을 고려해야하는 것인가에 대한 물음에 대한 참고 자료로 활 용 될 수 있음
o 본 연구를 통해 사용자에게 최적화된 콘텐츠 디스플레이를 설계하기 위해 고 려해야 할 사항에 대해 제시함. 이는 정보/콘텐츠 플랫폼을 구축하고자하는 사업자에게 사용자 유형별 콘텐츠 디스플레이를 어떻게 설정해야 하며 무엇 을 고려해야하는 것인가에 대한 물음에 대한 참고 자료로 활용 될 수 있음 o 본 연구를 통해 서로 다른 상황에 있는 사용자에게 맞는 문서를 추천하기 위
해 고려해야 할 사항에 대해 제시함. 이는 사용자 맞춤형 정보/콘텐츠 모듈 을 개발하고자 하는 사업자에게 사용자별 상황에 맞는 문서를 어떻게 분류 해야 하며 무엇을 고려해야하는 것인가에 대한 물음에 대한 참고 자료로 활 용 될 수 있음
o 본 연구를 통해 사용자의 선호도 및 상황기반으로 콘텐츠를 제공하기 위해 고려해야 할 사항에 대해 제시함. 이는 사용자 맞춤형 정보/콘텐츠 모듈을 개발하고자 하는 사업자에게 사용자가 선호할 만한 콘텐츠를 선별하여 큐레 이팅 하는 방안에 대한 참고 자료로 활용 될 수 있음
o 본 연구를 통해 기존의 추천 시스템을 한 단계 더 업그레이드 하여 사용자의 요구사항을 만족시킬 사용자와 최대한 밀접한 사람을 추천할 수 있는 방안 을 제시함. 이는 사용자 맞춤형 정보/콘텐츠 모듈을 개발하고자 하는 사업자 에게 추천 모듈을 활용한 지식 플랫폼 고도화 방안 중의 하나로 참고가 가 능함.
o 본 연구를 통해 지능형 네트워킹 서비스 개발을 가능하게 하는 특정 유저간 의 관계 형성을 분석하기 위해 고려해야 할 사항에 대해 제시함. 이는 사용 자 네트워킹 서비스를 개발하고자 하는 사업자에게 지능형 네트워킹 서비스
를 구축하기 위해 필요한 참고항 분석 자료로 활용 될 수 있음
Ⅳ. 사업비 사용현황
① 주관기관 : 영화조세통람
(단위: 천원) 구 분
비 목
당 초 계 획(A) 사 용 금 액(B) 잔액(A-B)
증감사유 현 금 현 물 현 금 현 물 현 금 현 물
1. 직접비 30,000 10,000 30,000 10,000 0 0
1.1 인건비 22,607 10,000 22,607 10,000 0 0
1.2 학생인건비
1.3 연구장비· 재료비
1.4 연구활동비 5,750 5,750 0 0
1.5 연구과제추진비 1,643 1,643 0 0
1.6 연구수당
1.7 위탁연구개발비
2. 간접비
2.1 인력지원비
2.2 연구지원비
2.3 성과활용지원비 2.4 간접비
(비영리기관은 일괄기입) 3. 이 자
4. 전년도 이월금
합 계 30,000 10,000 30,000 10,000 0 0
Ⅴ. 자체보안관리진단표
구분 체크항목 결과 체크
(√표) 비고
(미실시 사유)
보안관리 체계
o 기관 내 보안관리규정을 제정/적용하고 있다 O(√ ), X( )
o 보안관리 조직이 있으며, 자체 보안점검실시 등 잘 운영되고 있다 O(√ ), X( )
o 보안교육을 정기적(1회이상/연)으로 실시하고 있다 O(√ ), X( )
o 보안사고에 대한 방지대책 및 비상시 대응계획이 준비되어 있다 O(√ ), X( )
참여연구원 관리
o 참여연구원에 대하여 보안서약서를 받았다 O(√ ), X( )
o 참여연구원에게 보안관리의 중요성 등을 인식시키고 있다 O(√ ), X( )
연구개발 내용/결과
관리
o 주요 연구자료 및 성과물의 무단유출 방지대책을 수립하고 있다 O(√ ), X( )
o 보안성 검토 방법 및 절차를 이행하고 있다 O(√ ), X( )
o 기술이전 관련 내부규정 및 절차를 준수하고 있다 O(√ ), X( )
연구시설 관리
o 연구시설 보안관련 내부규정 또는 지침을 이행하고 있다 O(√ ), X( )
o 주요 시설에는 보안장비가 설치되어 있다 O(√ ), X( )
o 보호구역이 지정되어 있다 O(√ ), X( )
정보통신망 관리
o 정보통신망 보안관련 내부규정 또는 지침이 구비되어 있다 O(√ ), X( )
o 보안관리책임자의 승인 항목이 구분되어 있다 O(√ ), X( )
o 주요 데이터에 대해 백업을 실시하고 있다 O(√ ), X( )
o 개인용 정보통신장비(노트북, USB메모리)에 대하여 인가/관리중이다 O(√ ), X( )
o 전산망 보호를 위한 HW 및 SW 등을 도입하여 적용하고 있다 O(√ ), X( )
o 직책, 임무별 열람 권한을 차등화하여 부여하고 있다 O(√ ), X( )
Ⅵ. 유형적 발생품(연구시설, 연구장비 등) 구입 및 관리 현황
구입 기관
연구시설/
연구장비명
규격
(모델명) 수량 구입 연월일 구입 가격 (천원)
구입처 (전화번호)
비고 (설치 장소)
N/A N/A N/A N/A N/A N/A N/A N/A
※ 해당연도 연구개발 수행 시작부터 현 작성 시점까지 현금으로 구입한 1개(건)당 3,000만원 이상의 모든 유형적 발생품 표기