• 검색 결과가 없습니다.

R&D연구결과보고서

N/A
N/A
Protected

Academic year: 2021

Share "R&D연구결과보고서"

Copied!
33
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

연차 보고서

대규모 트랜잭션 처리와 실시간 복합 분석을 통합한 일체형 데이터 엔지니어링 기술 개발

1년차 보고서 2016. 8. 31.

주관기관 한국전자통신연구원 참여기관 티맥스데이터 참여기관 비아이매트릭스

참여기관 서울대학교 참여기관 전북대학교

미래창조과학부

(2)

1) 공고번호 제2015-0360호 2) 과제번호 R0113-15-0005

정보통신·방송 연구개발 1년차 보고서

3) 보안 등급 보안과제( ), 일반과제( ○ )

4) 과제 성격 기초( ), 응용( ), 개발( ○ )

5) 총괄과제명 6) 과제명

국 문 대규모 트랜잭션 처리와 실시간 복합 분석을 통합한 일체형 데이터 엔지니어링 기술 개발 영 문 Development of an Unified Data Engineering Technology for

Large-scale Transaction Processing and Real-time Complex Analytics 7) 주관기관 기관명 한국전자통신연구원 사업자등록번호 314-82-04099

주 소 대전광역시 유성구 가정로 218 (34129)

8) 총괄책임자

성 명 김창수 직위/직급 실장

전화번호 부서 데이터관리연구실

휴대전화번호 팩스번호 042-860-6699

과학기술인등록번호 10112229 전자우편 [email protected] 9) 총수행기간 2015. 10. 1. ~ 2019. 9. 30. ( 48개월 )

10) 협약기간 2015. 10. 1. ~ 2016. 9. 30. ( 12개월 ) 11)사업비현황

(천원) 연도 정부

출연금

민간부담금 정부외

출연금 합 계

현금 현물 소계

재원 해당여부 1차년도(2015년) 3,000,000 0 1,026,200 1,026,200 - 4,026,200 2차년도(2016년) 3,000,000 0 1,026,200 1,026,200 - 4,026,200

정진기금

3차년도(2017년) 3,000,000 0 1,026,200 1,026,200 - 4,026,200

방발기금 4차년도(2018년) 3,000,000 0 1,026,200 1,026,200 - 4,026,200

일반회계 합 계 12,000,000 0 4,104,800 4,104,800 - 16,104,800

12) 참여기관

기관명 책임자성명 직위/직급 휴대전화 전자우편 과학기술인등록번호 유형

티맥스데이터 이용재 실장

yongjae_lee

@tmaxdata.

com 10925982 중소 기업

비아이매트릭스 황선민 이사

smhwang

@bimatrix.

co.kr 10871591 중소

기업 서울대학교 김형주 교수 @snu.ac.krhjk 10055463 대학

전북대학교 장재우 교수 @jbnu.ac.krjwchang 10141928 대학

13) 참여기업 주관기관과 참여기관 중 중소기업( 2 )개, 중견기업( )개, 대기업( )개 14)주관기관

실무담당자

성 명 이미영 부서/직위 데이터관리연구실

전화번호 전자우편 [email protected]

휴대전화번호 팩스번호 042-860-6699

15) 과제특성

(해당사항 모두체크)

기술료비징수 사업화비적용 표준연계 경쟁과제 SW자산뱅크 공개SW 정책지정 일반형 병렬형 총괄 병렬형 세부 16) TRL등급 ( 3 ) ∼ ( 7 ) 17) 성격구분 창의( ), 전략( ), 혁신( )

*********

*******

**

*******

**

*******

**

*******

**

*********

(3)
(4)
(5)

<목 차>

<요약문>...3

1. 연구개발목표...8

2. 연구범위 및 연구 수행 방법...15

3. 연구개발 목표의 달성도 및 자체평가 ...18

4. 연구개발성과(해당되는 성과만 기재)...20

5. 구매 금액이 3천만원 이상인 연구시설ㆍ장비 구축 현황...25

6. 연구개발비 집행 실적...26

7. 연구 수행에 따른 문제점 및 개선 방향...27

8. 중요 연구변경 사항...27

9. 기타 건의 사항...27

붙임1. 자체 보안관리 진단표...28

붙임2. 연구실 안전조치 이행표...29

(6)

<국문요약문>

연구개발 목표

◯ 일체형 데이터 엔지니어링 플랫폼 요구사항 정의

◯ 일체형 데이터 엔지니어링 플랫폼 기능 및 구조 설계

◯ 일체형 데이터 엔지니어링 플랫폼 요소 기술 기본 기능 개발 : 인메모리 OLTP DB 엔진 프로토타입 등

연구개발 내용

◯ 일체형 데이터 엔지니어링 플랫폼 요구사항 정의

◯ 일체형 데이터 엔지니어링 플랫폼 기능 및 구조 설계

◯ 최신 HW기반 DB 병렬 처리 최적화 기술 개발

§ Just-in-Time 기반 SQL 실행 환경 구성 및 실행 기술 개발

§ HTM 기반 DB 트랜잭션 모델 및 트랜잭션 복구 기술 개발

◯ 트랜잭션 및 분석 일체형 데이터베이스 엔진 기술 개발

§ row 기반 인메모리 저장 및 기본 처리 기술 개발

§ 복합 데이터(텍스트, 다차원) 저장 및 기본 처리 개발

◯ 일체형 데이터베이스 엔진 탑재형 복합 데이터 분석 기술 개발

§ 시공간 순차 데이터 분석 기술 개발

§ 분석 결과 모니터링 및 시각화 기본 기능 개발

그림 1 일체형 데이터 엔지니어링 플랫폼 구성도 및 1차년도 개발 목표

연구개발성과

◯ 일체형 데이터 엔지니어링 플랫폼 요구사항 정의

§ 사례 분석을 통한 일체형 데이터 엔지니어링 플랫폼 세부 구성요소 기술별 개발 방향 정립 및 요구사항 도출

­사용자 요구사항 65건, 시스템 요구사항 96건 도출

§ 기술성, 사업성을 고려하여 트랜잭션 처리 DBMS 기반 분석 통합 처리를 지원하는 HTAP 지원 DBMS 요구사항 정의

§ JIT, SIMD, GPGPU, NUMA, HTM 등 최신 HW 특성을 최적 활용하기 위한 DBMS 요구사항 정의

(7)

§ 고성능의 복합 분석을 지원하기 위한 DB내 분석 요구사항 정의

◯ 일체형 데이터 엔지니어링 플랫폼 기능 및 구조 설계

§ HTAP 지원을 위한 DBMS 구조 및 기능 설계

§ 사업화를 위해 보유 솔루션에 HTAP 지원을 위한 기반 기술 확장 설계

§ 상용, 오픈 솔루션 대비 기술 경쟁력을 확보하기 위한 최신 HW에 최적화된 도전적 요소 기술 설계

§ 11개 핵심 블록 도출 및 세부 기능 134개 설계

◯ 최신 HW기반 DB 병렬 처리 최적화 기술 개발

§ Just-in-Time 기반 SQL 실행 환경 구성 및 실행 기술 개발

­MonetDB 환경에서 JIT 기반 질의 처리 개발(DUDE-JIT V0.5)

­질의 타입 기반 질의 실행 플랜을 IR로 변환, 최적화 및 실행 기술 개발(사용자 선택형 JIT 실행 환경 구성 지원)

­TPC-H 이용 JIT 기반 질의 처리 성능 영향 평가 시험

그림 2 일체형 데이터 엔지니어링 플랫폼 구성 요소별 요구사항

그림 3 일체형 데이터 엔지니어링 플랫폼 구성 SW 모듈 구조

(8)

§ HTM 기반 DB 트랜잭션 모델 및 트랜잭션 복구 기술 개발

­충돌 예측 기반 트랜잭션 처리, 재시도 정책 기반 HTM 활용 기술, HTM/STM 혼용 기반 트랜잭션 처리 기술 개선 알고리즘 개발

­개선 알고리즘 우수성 검증을 위해 성능 시험

. 기존(SEER 및 self-tunning 기법) 대비 10 ~ 30% 성능 향상

◯ 트랜잭션 및 분석 일체형 데이터베이스 엔진 기술 개발

§ row 기반 인메모리 저장 및 기본 처리 기술 개발

­row 기반 인메모리 저장 관리 기본 기술 개발

­디스크 DBMS와 row 기반 인메모리 저장 관리 기술 통합

­기술 개발 적정성 검증을 위해 기존 DBMS 와 비교 시험 . 트랜잭션 처리 정합성 시험

. 디스크 DBMS 대비 latency 5~ 30% 향상

. 디스크 DBMS 대비 throughput 190 ~ 220% 향상

그림 4 JIT 기반 질의 최적화 블록 구조 및 1차년도 개발 내용

그림 5 Hybrid TM 기반 제안 시스템 구조

(9)

§ 복합 데이터(텍스트, 다차원) 저장 및 기본 처리 개발

­inverted index, lexer 등 텍스트 분석 기술 개발

­DBMS 기반 텍스트 질의 처리 및 저장 기술 통합 개발

. 텍스트 질의 및 텍스트 변경시 인덱스 동기화용 SQL 확장

­MDX to SQL 질의 변환 기술 개발

◯ 일체형 데이터베이스 엔진 탑재형 복합 데이터 분석 기술 개발

§ 시공간 순차 데이터 분석 기술 개발

­PSM 기반 시공간 군집화 알고리즘 K-Means, DBSCAN 개발

­MonetDB에 군집화 알고리즘 통합 및 성능 시험

§ 분석 결과 모니터링 및 시각화 기본 기능 개발

­구글 스타일 검색어 기반 화면 자동 생성 및 변경 지원 기술 개발

­실시간 특성벡터 추출을 위한 알고리즘 개발

­검색어 기반 차원 및 메타 정보 자동 매칭 기술 개발

그림 6 In-Memory Row Store 블록 구조 및 1차년도 개발 내용

그림 7 In-DB 시공간 데이터 군집화 시스템 구조

(10)

그림 8 검색어 기반 화면 자동 구성 지원

활용계획 및 기대효과

◯ MonetDB에 통합된 JIT 기반 질의 처리 최적화 프로토타입

§ DBMS에 JIT 기반 질의 처리 기술 통합 방향 확립을 위한 테스트베드로 활용 및 상용시제품으로 확장 개발

§ JIT 기반 질의 처리 최적화로 DBMS 성능 향상을 통해 기술 경쟁력 확보

◯ HTM 기반 트랜잭션 처리 요소 기술 개발

§ HTM 기반 DB 트랜잭션 처리 시스템을 위한 요소 기술로 활용

◯ 디스크 DBMS와 통합된 row 기반 인메모리 데이터 저장 및 처리 프로토타입

§ OLTP용 디스크/인메모리 통합 DBMS 상용시제품으로 확장 개발

§ HTAP 지원용 DBMS의 기반 시스템으로 활용

§ 고성능 트랜잭션 처리 분야로 사업 확대를 통해 DBMS 시장 점유율 확대 가능

◯ MonetDB에 통합된 시공간 군집화 프로토타입

§ 1차년도 검증 결과를 바탕으로 기반상용제품에 통합하여 상용화

◯ 구글 스타일 검색창 기반 분석 지원 요소 기술 개발

§ BI 솔루션과 요소 기술 통합 개발을 통해 분석 비전문가 지원 솔루션으로 BI 시장 점유율 확대

핵심어(5개 이내)

국문 트랜잭션/

분석 통합 처리

인메모리 데이터 관리

시스템

HW 기반 DB 최적화

JIT 기반 질의 처리 최적화

DBMS 내 복합 분석

영문

Hybrid Transaction/

Analytical Processing

In-Memory DBMS

HW based DB Optimization

JIT based Query Processing Optimization

Complex Analytics in

Database

(11)

<기술개발사업 주요 연구 성과>

1. 연구개발 목표 가. 최종 목표

○ 글로벌 비즈니스 수준의 대규모 트랜잭션 처리를 지원하며, 데이터 이동없이 단일 DB 상에서 실시간 복합 분석(OLAP 분석, 스트림 분석, 비정형 데이터 분석 등)을 가능하게 하는 일체형 데이터 엔지니어링 플랫폼 개발

- 단일 데이터베이스 엔진에서 트랜잭션 처리, 복합 분석 등 이종 DB 워크로드 일체형 처리 기술 개발

- 대규모/대용량 DB 처리 확장성을 위해 분산 클러스터 기반 디스크와 인메모리 통합 DB 관리 기술 개발

- 성능 극대화를 위해 매니 코어/다중 CPU 등 최신 HW에 DB 병렬 처리 최적화 기술 개발

- DB 엔진 탑재형의 데이터베이스 기반 핵심 복합 데이터 분석 기술 및 지원 도구 개발

- 금융 이상 거래 실시간 탐지, APT 공격 징후 실시간 탐지 등 글로벌 비즈니스 수준의 서비스에 시범 적용 검증

그림 9 과제 최종 결과물 개념도

○ End Product

- 트랜잭션 및 분석 일체형 데이터베이스 엔진 (서버탑재형SW) - 이종 다중 프로세서 최적화 병렬 질의 처리 엔진 (서버탑재형SW)

- 데이터베이스 엔진 탑재형 복합 데이터 분석 라이브러리 (서버탑재형SW) - 복합 분석 워크플로 디자이너 및 시각화 도구 (단말탑재형SW)

(12)

나. 당해 (연도·단계) 연구개발 목표 및 결과

1) HTAP(Hybrid Transactional / Analytical Processing) : 트랜잭션과 분석 통합 처리 시스템 2) JIT(Just-in Time) : 코드 컴파일을 사전에 미리 하지 않고 필요시 수행

3) SIMD(Single Instruction Multiple Data): 하나의 인스트럭션을 여러 데이터에 동시에 적용 실행

4) NUMA(Non-Uniform Memory Access): 코어에서 접근하는 메모리 위치에 따라 메모리 접근 속도가 불균일한 메모리 5) HTM(Hardware Transactional Memory): 메모리 접근 트랜잭션 제어를 하드웨어에서 지원

6) HLE(Hardware Lock Ellison): 잠금이 필요 없는 트랜잭션을 위해 잠금을 무시하고 특성 메모리 접근을 허용 7) MVCC(Multi Version Concurrency Control): 다중 버전을 이용한 동시성 제어 기법

8) MDX(Multi-dimensional eXpressions) : 다차원 큐브 데이터 접근 언어 9) UDF(User Defined Function): SQL에 사용 가능한 사용자가 정의한 함수

10) PSM(Persistent Stored Module): SQL에서 모듈을 정의, 저장 관리하여 모듈을 공유할 수 있게 지원 구분

(연도)

세부

과제명 세부 연구 목표 연구개발 수행 내용 연구 결과

1차 연도 (2015)

대규모 트랜잭

처리와 실시간 복합 분석을 통합한 일체형 데이터 엔지니

어링 기술 개발

일체형 데이터 엔 지 니 어 링 플랫폼 요구사항 정의

l 일 엔 지 니 어 링 플랫폼 관련 기술 분석 l 일

엔 지 니 어 링 요 구 사 항 도출

l 일체형 데이터 엔지니어링 플랫폼 관련 기술 분석

§ HTAP1) 지원 기술 분석

­OLTP/OLAP 통합 워크로드 지원 사례 시스템 조사 분석

­스트림 처리 지원 사례 분석

§ HW 최적화 기반 성능 향상 기술 분석

­JIT2) 컴파일 기반 SQL 질의 처리 최적화 사례 분석

­SIMD3) 연산 분석 및 vector 활용 SQL 질의 성능 향상 사례 분석

­GPGPU 활용 DBMS 사례 분석

­NUMA4) 구조 DB 성능 영향 분석 및 NUMA-aware DBMS 사례 분석

­데이터베이스 시스템에 HTM5) 활용 사례 분석

§ 복합 분석 기술 분석

­DB 기반 분석 사례 시스템 분석

­시공간 데이터 분석 사례 분석

­시각화 기반 분석 제품 트렌드 분석

§ 사례 분석을 통한 일체형 데이터 엔지니어링 플랫폼 세부 기술 개발 방향 정립

l 일체형 데이터 엔지니어링 플랫폼 요구사항 도출

§ 기존 DBMS 기반 확장 요구사항 도출

§ 사용자 요구사항 65건 도출

§ 시스템 요구사항 96건 도출

§ 세부 요소기술별 사례분석 관련 연구노트 19건

§ 요구사항 도출 연구노트 7건

§ 요 구 사 항 정 의 서 ( 요 구 사 항 추 적 표 , 동료검토결과서)

그림 10 사용자 요구사항

그림 11 시스템 요구사항

(13)

그림 12 요구사항정의서 일체형 데이터

엔 지 니 어 링 플랫폼 설계 l 일

엔 지 니 어 링 플랫폼 기능 설계

l 일 엔 지 니 어 링 플랫폼 구조 설계

l 일체형 데이터 엔지니어링 플랫폼 기능 설계

§ 오픈 소스 DBMS 개략 분석 및 기반 DBMS 선정

­상용화 관련 라이선스 정책, 인메모리 저장 관리 지원 여부 고려 선정

­온라인 분석용 컬럼 기반 인메모리 최적화 DBMS인 MonetDB 선정

§ 기반 DBMS 세부 분석

­MonetDB의 컬럼 기반 저장 구조, MAL 기반 질의 처리 기술 분석

­Tibero의 분산 데이터 저장 구조 및 질의 처리 기술 분석

­HW 최적화 기반 질의 처리 성능 향상 세부 기술 개발 방향 도출

§ JIT 개발 환경 선정 및 분석

­JIT 컴파일러 개발 환경으로 다양한 DBMS에 적용 확대 중인 오픈 소스 LLVM 선정

­중간 코드 기반 최적화 및 JIT 컴파일 기술 분석

§ 기반 DBMS 확장 기능 설계

­ HTAP 지원을 위해 row 기반 저장을 기본으로 컬럼 기반 저장 및 이질 저장소간 동기화 지원

­하드웨어 최적화 기반 인메모리 컬럼 DB 온라인 분석 처리 성능, row 기반 트랜잭션 처리 성능 가속화 지원

­데이터베이스 엔진과 연동하여 DB 기반

§ 오픈 소스 DBMS, MonetDB, LLVM 등 분석 연구노트 16건

§ 시스템 설계 연구노트 14건

§ 시스템 설계서 ( 요 구 사 항 추 적 표 , 동료검토결과서)

§ 국제 논문지 1건 게재, SCIE 1건 심사 중

§ 국내 논문지 게재 3건, 1건 게재 예정

§ 국제 논문 발표 2건

§ 국내 논문 발표 1건

§ 국내/국제 특허 출원 2/2건 진행 중

그림 13 블록간 관계

(14)

복합 분석 환경 지원

l 일체형 데이터 엔지니어링 플랫폼 구조 설계

§ 시스템 블록 구조 설계

­HTAP 지원을 위한 5개 블록 설계

­하드웨어 최적화 기반 성능 향상을 위한 4개 블록 설계

­복합 분석 지원을 위한 2개 블록 설계

§ 블록 간 인터페이스 및 관련성 설계

§ 블록별 세부 기능 및 모듈 구조 설계

§ 핵심 블록 11개 및 세부 기능 134개 설계

그림 14 모듈 구조

그림 15 시스템 설계서 최신 HW기반 DB

병렬 처리 최적화 기술 : J u s t - i n - T i m e 기반 질의 처리 코드 최적화 기술 개발

l 중간 코드 기반 관계 연산자 기술 개발

l JIT 컴파일 기반 SQL 실행 환경 구성 및 실행 기술 개발

l 중간 코드 기반 관계 연산자 기술 개발

§ 관계 연산자 구현 코드로부터 LLVM IR 기반 관계 연산자 생성 환경 구축

l JIT 컴파일 기반 SQL 실행 환경 구성 및 실행 기술 개발

§ MonetDB 질의 처리 과정 세부 분석

§ MonetDB 환경에서 JIT 기반 질의 처리 기능 개발(DUDE-JIT V0.5)

­질의 타입 기반 질의 실행 플랜을 IR 프로그램으로 변환, 최적화 및 실행 기술 개발

­JIT 효과 분석을 위해 사용자 선택형 JIT 실행 환경 구성 기능 개발(최적화 대상, 방법 등 조정)

§ MonetDB 환경에서 JIT 기반 질의 처리 프로토타입 성능 영향 평가 시험

­TPC-H에서 scale factor가 커질수록 JIT 효율성 증대

­최적화 코드로 수행시 TPC-H 17개 질의에서 성능 향상(최대 약 6%)

§ 소스 코드 to IR 코드 생성 clang 스크립트

§ MonetDB 분석 연구노트 3건

§ JIT 기반 질의 처리 설계 연구노트 5건

§ 국제 논문 발표 1건

§ SW 프로그램 등록 1건

§ 국내/국제 특허 출원 1/1건 진행 중

§ DUDE-JIT V0.5 시스템

그림 16 JIT 기반 질의 최적화 블록 구조

(15)

최신 HW기반 DB 병렬 처리 최적화 기술 : HTM 기반 DB 트랜잭션 관리 기술 개발

l HTM 기반 트 랜 잭 션 처리 기술 분석

l HTM 기반 DB 트 랜 잭 션 처리 설계 및 개발

l HTM 기반 트랜잭션 처리 기술 분석

§ HTM 기술 분석 및 HTM 활용 데이터베이스 기술 사례 분석

­HTM 활용 인메모리 DB 시스템 사례 분석

­HTM을 활용한 트랜잭션 처리 기법 및 HLE6) 기반 충돌 관리 기법 사례 분석

§ 기존 HTM 기반 트랜잭션 처리 기술 문제점 도출

l HTM 기반 DB 트랜잭션 처리 설계 및 개발

§ 충돌 예측 기반 트랜잭션 처리 기술 개발

§ 재시도 정책 기반 HTM 활용 기술 개발

§ Hybrid TM(HyTM) 기반 트랜잭션 처리 기술 개발

§ 제안 요소 기술별 검증을 위한 성능평가 수행

­기존 SEER 및 Self-tuning 기법 대비 평균 10~30% 성능 향상

§ 트랜잭션 처리 및 HTM 기술 사례 분석 연구노트 5건

§ HTM 기반 트랜잭션 처리 블록 상세 설계 연구노트 5건

§ 국내 특허 출원 1건 진행 중

§ SW 프로그램 등록 1건 진행 중

§ 우수 국제학술대회 논문 발표 1건

그림 17 HyTM 기반 트랜잭션 처리 시스템

구조 트랜잭션

분석 일체형 데 이 터 베 이 스 엔진 기술 : 트랜잭션 분석 일체형 데이터 저장 관리 기술 개발 l 고

트 랜 잭 션 처리를 위한 row 기반 인 메 모 리 데이터 저장 및 처리 기본 기술 개발

l Row 기반 인메모리 데이터 저장 및 처리 기본 기술 개발

§ Row 기반 인메모리 데이터 저장 관리 기술 설계

§ Row 기반 인메모리 데이터 저장 관리 기본 기술 구현

­메모리 관리, 인메모리 저장 기술 개발

­MVCC7) 기반 동기화 제어 및 인메모리 데이터 트랜잭션 관리 기술 개발

§ 디스크 DBMS와 row 기반 인메모리 데이터 저장 관리 기본 기술 통합

§ Row 기반 인메모리 데이터 저장 관리 기본 기술 성능 평가

­디스크 기반 DBMS 대비 5% ~ 30%

latency 향상

­디스크 기반 DBMS 대비 190% - 220%

throughput 향상

§ 분석 연구노트 6건

§ 상세 설계 연구노트 6건

§ 국내/국제 특허 출원 1/1건

§ SW 프로그램 등록 1건

§ Tibero 기반 인메모리 row 저장 관리 시스템 V 0.5

그림 18 In-Memory Row Store 블록 구조 트랜잭션

분석 일체형 데 이 터 베 이 스 엔진 기술 : 복합 데이터

l 텍스트 질의 처리 및 저장 기술 개발

§ 텍스트 분석 기술 개발

­텍스트 데이터 분석에 최적화된 inverted index 저장 구조 개발

§ 텍스트 설계 연구노트 5건

§ MDX 질의 처리 연구노트 2건

(16)

저장 관리 및 처리 확장 기술 개발

l 텍스트 질의 처리 및 저장 기술 개발 l MDX 질의

처리 데이터 저장 기술 개발

­다양한 언어의 토큰을 찾기 위한 bigram lexer 개발

§ DBMS 기반 텍스트 질의 처리 및 저장 기술 통합 개발

­텍스트 데이터 질의 및 변경 문서 인덱스 동기화를 위한 SQL 확장

l MDX8) 질의 처리 및 다차원 데이터 저장 기술 개발

§ Materialized View를 이용한 다차원 데이터 저장 구조 설계

§ MDX to SQL 질의 변환 기술 개발

§ MDX to SQL 변환 SW

§ 국내/국제 특허 출원 2/2건

§ Tibero 기반 텍스트 저장 관리 시스템 V0.5

그림 19 텍스트 검색 API

데 이 터 베 이 스 엔진 탑재형 복합 데이터 분석 기술 : DB 저장 복합 데이터 분석 라이브러리 기술 l 시공간 순차

데이터 관련 알 고 리 즘 분석

l 시공간 순차 데이터 분산

알 고 리 즘 기술 개발

l 시공간 순차 데이터 관련 알고리즘 분석

§ 시공간 순차 데이터 군집화 알고리즘 및 분산 처리 사례 분석

­K-Means, DBSCAN, SOM 등 분석

§ DB 기반 분석 라이브러리 개발 및 연동 방법 분석

­DB 내 분석 기능 사례 분석

­Tibero, MonetDB의 UDF9) 및 PSM10) 분석

­기존 프로그래밍 언어로 구현된 알고리즘을 PL/SQL로 변환 방법 분석

l 시공간 순차 데이터 분석 처리 알고리즘 기술 개발

§ 시공간 순차 데이터 군집화 분산 처리 알고리즘 개발

§ MonetDB 기반 DBSCAN, K-Means 군집화 알고리즘 통합 및 성능 시험

§ 군집화 사례 분석 연구노트 4건

§ 설계 구현 연구노트 2건

§ 국내 논문지 2건 게재 준비 중

§ 시공간 데이터 군집화 분석 SW 2 건 ( D B S C A N , K-Means)

§ MonetDB 기반 시공간 데이터 군집화 시스템

그림 20 In-DB 시공간 군집화 구조

데 이 터 베 이 스 엔진 탑재형 복합 데이터 분석 기술 : 복합 분석 지원 도구 기술

l 화면 자동화 템플릿 생성

l 화면 자동화 템플릿 생성 기술 개발

§ 검색어 기반 화면 생성기술 구현

§ 생성된 UI의 자유로운 수정/보완 지원 모듈 구현

l 실시간 특성벡터 추출 기술 개발

§ 특성벡터 추출 알고리즘 설계

­차원 선택, 메저 자동 생성, 메타 자동

§ 기술 분석 연구노트 2건

§ 설계 구현 연구노트 11건

§ 국내 특허 출원 2건

§ SW 프로그램 등록 2건 접수

§ 화면 자동화 템플릿

(17)

기술 개발 l 실

특 성 벡 터 추출 기술 개발

l 차원 구조화 및 메타정보 매칭 기술 개발

분류, 메타 가중치 부여 알고리즘 및 보고서 가중치 부여 알고리즘 개발

l 차원 구조화 및 메타 정보 매칭 기술 개발

§ 차원+메저 동기화 기술 구현

­입력한 검색어에 대한 <차원>, <메저>,

<속성값> 자동 인식 및 추천

§ OLAP 메타 활용 화면 및 DB 설계

§ OLAP 메타 활용 기술 구현

§ 메타 활용 기술 단위 시험 설계 및 시험

생성 기술 시제품

그림 21 검색어 기반 화면 구성 및 변경

지원

(18)

2. 연구 범위 및 연구 수행 방법

연구 범위 연구 수행 방법

(이론적ㆍ실험적 접근방법) 구체적인 내용

일체형 데이터

엔지니어링 플랫폼 요구사항 정의

l 일체형 데이터 엔지니어링 플랫폼 관련 기술 분석 l 일체형 데이터

엔지니어링 플랫폼 요구사항 도출

SPICE11) 표준 요구사항 개발 프로세스 기반으로 수행(ETRI 표준 프로세스 활용)

§ DBMS 및 분석 업체, 과제 참여 기관 및 연구 관리 기관의 사용자 요구사항 반영

§ 사용자 요구 사항 기반 시스템 요구사항 도출

§ 시스템 구성 요소의 독립성을 고려하여 구성 요소별로 기능, 인터페이스, 성능, 확장성 등 요구사항 도출

§ 결과물 생명 주기를 고려하여 업체 보유 및 오픈 솔루션 활용 확장 요구사항 도출

§ 공동연구센터에서 요구사항 후보 검토 및 회의를 통해 요구사항 확정

§ 동료 검토 실시 및 요구사항 추적 관리

결과물 경쟁력 확보를 위해 기술 우수성 및 사업성을 고려하여 요구사항 도출

§ 최신 기술 분석 기반 미래 요구사항 도출로 우수성 확보

§ 사업화시 경쟁 상대로 예상되는 상용 및 오픈 소스 솔루션 분석 후 요구사항 도출

§ 국내 업체의 사업 역량 및 방향 고려하여 도출(트랜잭션 처리 기반 분석 확장)

일체형 데이터

엔지니어링 플랫폼 설계

l 일체형 데이터 엔지니어링 플랫폼 기능 설계

l 일체형 데이터 엔지니어링 플랫폼 구조 설계

사업화와 기술 경쟁력 확보를 위해 기반 기술 강화 기술과 도전적 요소 기술 설계 병행 추진

§ 사업화 제고를 위해 티베로, 비아이매트릭스 상용 솔루션의 기반 기술 강화 설계

­디스크 DB와 인메모리 DB 통합 설계

­BI 솔루션에 일반 사용자 활용을 위한 분석 도구 기술 통합 설계

§ 기술 경쟁력 확보를 위해 기반 시스템에 도전적 기술 접목 설계

­트랜잭션 처리와 분석 지원 기술 통합

­최신 HW 기반 최적화 기술을 컬럼 혹은 로우 저장소에 접목

도전 기술 검증 및 환경 변화 대응 단계별 사업화를 위해 요소기술별 독립 설계 추진

§ 도전적 요소 기술별로 독립 블록화 및 기반 시스템 의존성 최소화 설계

­기반 시스템에 선별 통합 가능한 별개의 블록들 5개로 구성

­확장 통합이 용이하도록 기반 시스템 블록 내 모듈화(클러스터 동기화 등) 구성

후보 솔루션 분석 평가 기반 설계 방향 도출 및 설계

§ 후보 설계안 중 기술성, 사업성, 달성 가능성 등을 고려하여 선정

(19)

검증 § 기관별 전체 참여 연구원 세미나 공동연구센터에서 주기적 회의로 설계 검증

최신 HW기반 DB 병렬 처리 최적화 기술 : Just-in-Time 기반 질의 처리 코드 최적화 기술 개발

l 중간 코드 기반 관계 연산자 기술 개발

l JIT 컴파일 기반 SQL 실행 환경 구성 및 실행 기술 개발

기존 DBMS와 통합 프로토타입 개발로 JIT 기반 질의 처리 효과 실증 환경 구축

§ MonetDB 기반으로 JIT 기반 질의 처리 프로토타입 시스템 개발로 JIT 기반 질의 처리 성능 효과 실증 가능

JIT 기반 질의 처리 방향성 확립이 가능하도록 JIT 효과 분석 환경 구축

§ 질의 종류별, 질의 전체 혹은 주요 연산자별 등 JIT 기반 처리 대상 및 최적화 방법을 조정할 수 있도록 프레임워크 개발

다양한 기반 DBMS 에 JIT 기반 처리 기술 통합 가능성을 고려하여 개발

§ 프로토타입 개발시 기반 시스템 의존적 부분과 독립적 부분을 구별하여 개발 추진함으로써 다른 DBMS와 통합 용이성 제고

최신 HW기반 DB 병렬 처리 최적화 기술 : HTM 기반 DB 트랜잭션 관리 기술 개발

l HTM 기반 트랜잭션 처리 기술 분석 l HTM 기반 DB

트랜잭션 처리 설계 및 개발

트랜잭션 메모리 기존 관련 연구에 대한 이론적 분석 및 성능 시험 분석으로 문제점 파악

§ 성능 시험 환경 구축을 통한 실험적 분석으로 기존 연구 검증 실시

­HTM, STM12)에 대한 성능 비교 분석

­충돌 예측 모델 검증 위한 성능 평가

­HyTM 기법의 실험적 성능 평가

문제점 해결을 위한 트랜잭션 메모리 기술 아이디어 발굴 및 성능 시험 기반 실험적 검증

§ 개선된 재시도 정책의 검증을 위한 성능 평가 수행

§ 개선된 충돌 예측 알고리즘에 대한 성능 평가 수행

§ 개선된 HyTM 기법의 성능 평가 수행 트랜잭션 분석

일체형 데이터베이스 엔진 기술 : 트랜잭션 및 분석 일체형 데이터 저장 관리 기술 개발 l 고성능 트랜잭션

처리를 위한 row 기반 인메모리 데이터 저장 처리 기본 기술 개발

프로토타입 개발을 통한 실제 통합형 DB 엔진 설계 및 성능 검증

§ 빠른 프로토타입 개발을 통해 통합형 DB 엔진 설계를 검증하고 실제 부하 실험을 통해 성능 검증

­디스크 DBMS Tibero에 인메모리 row 저장관리를 제공하는 통합형 엔진 개발

­테스트 부하를 1000 세션까지 동시 실행하여 성능 데이터 도출

­티맥스데이터에서 기확보한 테스트 케이스를 이용하여 트랜잭션 정합성 검증

트랜잭션 분석 일체형 데이터베이스

텍스트 분석 용이성을 위해 사용자 기반이 넓은 SQL

§ 비정형 텍스트를 기존 DB 테이블/인덱스에서 수용할 수 있는 저장 구조 개발

(20)

11) SPICE(Software Process Improvement and Capability Determination): 소프트웨어 개발 프로세스 표준 모델 12) STM(Software Transaction Memory): 공유 메모리 접근에 대한 동시성 제어 기법

엔진 기술 : 복합 데이터 저장 관리 및 처리 확장 기술 개발 l 텍스트 질의 처리

및 저장 기술 개발 l MDX 질의 처리 및

다차원 데이터 저장 기술 개발

사용 및 DB 관리 개념 고려 설계

§ 비정형 텍스트 저장 관리에 대한 SQL 및 메타데이터 저장 구조 개발

빠른 다차원 분석 쿼리 성능을 위해 인메모리 기반 SQL 질의 처리 환경 활용 추진

§ 분석용 MDX 언어를 SQL로 처리할 수 있는 MDX to SQL 변환기 개발

­materialized view, 인메모리 컬럼 저장소 기반 고속 MDX 처리 가능

일체형 데이터베이스 엔진 탑재형 복합 데이터 분석 기술 : DB 저장 복합 데이터 분석 라이브러리 기술

l 시공간 순차 데이터 관련 알고리즘 분석 l 시공간 순차 데이터

분산 처리 알고리즘 기술 개발

데이터베이스에 통합 가능성, 효용성 등을 고려하여 시공간 순차 데이터 분석 알고리즘 선정 개발 추진

§ K-Means, DBSCAN, SOM 등 시공간 데이터 군집화 알고리즘 분석을 통해 K-Means와 DBSCAN 알고리즘 채택

§ 선정 알고리즘의 병렬 처리 선행 연구 및 알고리즘의 발전 형태를 분석하여 분산 처리 방법 설계

데이터베이스 내 알고리즘 통합 방법에 따른 성능 분석으로 통합 방법 선정 추진

§ UDF 및 PSM 등 연동 방법 분석

§ 기존 프로그래밍 언어로 구현된 알고리즘을 PL/SQL 형태로 변환 방법 분석 및 언어 차이로 인한 성능 문제 해결위해 알고리즘 수정 개발

일체형 데이터베이스 엔진 탑재형 복합 데이터 분석 기술 : 복합 분석 지원 도구 기술

l 화면 자동화 템플릿 생성 기술 개발 l 실시간 특성벡터

추출 기술 개발 l 차원 구조화

메타정보 매칭 기술 개발

분석 전문가가 아닌 일반 사용자도 친숙하게 분석할 수 있는 환경을 제공하기 위해 일반 사용자들의 경험을 고려하여 설계

§ 구글 스타일의 검색창 기반으로 분석 환경 구성 방법 제공

­검색창에 입력된 주요 시각화 키워드 기반으로 사용자가 원하는 보고서 검색 및 화면 자동생성 기술 개발

­검색어 기반 자동생성 화면의 사용자 맞춤형 재구성 및 수정 지원 기술 개발

(21)

3. 연구개발 목표의 달성도 및 자체 평가 가. 연구개발성과 및 평가 방법

○ 일체형 데이터 엔지니어링 플랫폼 요구사항 정의

­기존 RDBMS 기반 최신 HW에 최적화된 HTAP 지원을 위한 확장 요구사항 도출

­요구사항 정의 프로세스 적용 여부 평가 및 요구사항정의서 품질 평가 (동료검토)

○ 일체형 데이터 엔지니어링 플랫폼 설계

­디스크 DBMS 기반 최신 HW에 최적화된 HTAP 지원 DBMS 구조 및 기능 설계

­시스템 설계 방향 적정성 평가 및 시스템설계서 품질 평가 (동료검토)

○ 최신 HW기반 DB 병렬 처리 최적화 기술: Just-in-Time 기반 질의 처리 코드 최적 화 기술 개발

­MonetDB 기반 JIT 기반 질의 처리 프로토타입 개발

­실제 DBMS 기반으로 JIT 기반 질의 처리 방향 분석 환경 구축

­1차년도 목표 기능 개발 여부 및 JIT 기반 질의 처리 접목 방향성 평가

○ 최신 HW기반 DB 병렬 처리 최적화 기술: HTM기반 DB 트랜잭션 관리 기술 개발

­HTM 기반 DB 트랜잭션 처리를 위한 요소 기술에 대한 개선 알고리즘 개발

­개선 알고리즘 우수성 평가 : 성능 평가, 논문 및 특허 등 지적재산권 산출 평가

○ 트랜잭션 및 분석 일체형 데이터베이스 엔진 기술: 트랜잭션 및 분석 일체형 데이 터 저장 관리 기술 개발

­디스크 RDBMS에 통합된 인메모리 row 기반 저장 관리 프로토타입 개발

­1차년도 개발 인메모리 row 기반 저장 관리 기술 적정성에 대한 성능 평가

○ 트랜잭션 및 분석 일체형 데이터베이스 엔진 기술: 복합 데이터 저장 관리 및 처 리 확장 기술 개발

­텍스트 분석 및 검색 기능이 통합된 DBMS 개발, MDX의 SQL 변환기 개발

­1차년 목표 기능 개발 여부 평가

○ 일체형 데이터베이스 엔진 탑재형 복합 데이터 분석 기술: DB 저장 복합 데이터 분석 라이브러리 기술

­MonetDB 기반 시공간 데이터 군집화 분석 처리 기술 개발

­In-DB 기반 군집화 분석 처리 기능 개발 여부 평가

○ 일체형 데이터베이스 엔진 탑재형 복합 데이터 분석 기술: 복합 분석 지원 도구 기술

­일반 사용자 활용 확대를 위한 분석 도구 핵심 요소 확장 개발

­1차년도 목표 기능 개발 여부 평가

(22)

나. 당해 (연도·단계) 정량적 연구성과 목표 및 달성도

다. 당해 (연도·단계) 질적 성과 목표 및 달성도 해당없음

구분 목표 달성도(%) 비고

특허 출원

국내 7 71% (5건) 4건 추가 출원신청

국외 5 60% (3건) 3건 추가 출원신청

12 67% (8건) 7건 추가 출원신청

특허 등록

국내 - -

국외 - -

- -

국외 논문 게재

SCI - - 1편 심사중 (SCIE)

비SCI 1 100% (1편)

1 100% (1편)

국내 논문 게재

SCI 0 0

비SCI 3 100% (3편)

추가 3편 (투고준비 2편,

게재예정 1편)

3 100% (3편)

국내 및 국제 학술회의 발표

SCI - 초과달성 (1편) 우수학술대회

(IEEE Cluster)

비SCI 2 200% (4편) 국제3, 국내1

2 250% (5편)

국제 표준화

기고서 제출 - -

기고서 채택 - -

표준안 채택 - -

국내 표준화

기고서 제출 - -

기고서 채택 - -

표준안 채택 - -

기술 이전

계약 건수 - -

계약액 - -

징수액 - -

등록ㆍ기탁 대상 성과물

보고서 원문 - 3건

연구시설·장비 - 3건

기술요약정보 - 3건

생명자원

생명정보 - -

생물자원 - -

신품종 - -

소프트웨어 1 100% (1건) 4건 등록신청

화학물 - -

인력 양성

학사 - 4

석사 - 7

박사 - 8

기타

시제품 - -

성과 홍보 - -

개발 전 개발 후

일자리 창출

연구인력 0 명 1 명

5 명

생산인력 0 명 5 명

(23)

4. 연구개발성과(해당되는 성과만 기재)

가. 지식재산권(특허, 실용신안, 의장, 디자인, 상표, 규격, 신품종, 프로그램)

번호

지식재산권 등 명칭 (건별 각각 기재)

국명

출원 등록

출원인 출원일 출원번호 NTIS

등록번호등록인 등록일 등록번호 NTIS 등록번호 데이터베이스

시스템에서 블록을 판독하기 위한 방법, 장치 및 컴퓨터 판독가능

매채에 저장된 컴퓨터-프로그램

한국 (주)티 맥스데 이터

2016.06.

21

10-2016-

0077188 - - - - 100

METHOD, APPARATUS, AND COMPUTER PROGRAM

STORED IN COMPUTER READABLE MEDIUM FOR READING BLOCK

IN DATABASE SYSTEM

미국 (주)티 맥스데 이터

2016.07.

21

US 15/215,9

29

- - - - 100

쿼리를 실행하기 위한 방법, 장치

및 컴퓨터 판독가능 매체

한국 (주)티 맥스데 이터

2016.06.

20

10-2016-

0076234 - - - - 100

METHOD AND APPARATUS FOR EXECUTING QUERY

AND COMPUTER READABLE MEDIUM

THEREFOR

미국 (주)티 맥스데 이터

2016.07.

26

US 15/220,2

47

- - - - 100

쿼리를 실행하기 위한 방법, 장치

및 컴퓨터 판독가능 매체

한국 (주)티 맥스데 이터

2016.06.

20

10-2016-

0076235 - - - - 100

METHOD AND APPARATUS FOR EXECUTING QUERY

AND COMPUTER READABLE MEDIUM

THEREFOR

미국 (주)티 맥스데 이터

2016.07.

26

US 15/220,0

05

- - - - 100

메타로 구성한 보고서의 중요도

계산 방법

한국

㈜비아 이매트 릭스

2016.08.

29

10-2016-

0110132 - - - - 100

캐시 테이블 통합을 통한 2단계

퀴리 파싱 방법 한국

㈜비아 이매트 릭스

2016.08.

29

10-2016-

0110143 - - - - 100

(24)

일체형 데이터 엔진에서 선택적

JIT 컴파일을 이용한 질의 최적화 방법

한국 ETRI

2016.07.

29.

(신청일)

PR201604 26 (관리 번호)

- - - - 100

Method for Query Optimization using Selective JIT Compilation in Unified Data

Engines

미국 ETRI

2016.07.

29.

(신청일)

PR201604 26 (관리 번호)

- - - - 100

불균일 메모리 접근(NUMA) 구조

다중 프로세서 환경에서 분산 인메모리 DB 관리

방법 및 장치

한국 ETRI

2016.08.

04.

(신청일)

PR201604 43 (관리 번호)

- - - - 100

Method and System for Distributed

In-Memory Database Management on NUMA platform

미국 ETRI

2016.08.

04.

(신청일)

PR201604 43 (관리 번호)

- - - - 100

이종 계산 장치 기반 질의 처리 장치 및 방법

한국 ETRI

2016.08.

03.

(신청일)

PR201604 44 (관리 번호)

- - - - 100

Method and Apparatus for Query Processing

based on Heterogeneous Computing Device

미국 ETRI

2016.08.

03.

(신청일)

PR201604 44 (관리 번호)

- - - - 100

멀티코어 환경의 In-Memory 데이터베이스 상에서 효율적인 트랜잭션 처리를 위한 충돌 예측 기반 트랜잭셔널

메모리 시스템

한국전북대

학교 출원중 - - - - 100

수치

그림 2 일체형 데이터 엔지니어링 플랫폼 구성 요소별 요구사항
그림 6 In-Memory Row Store 블록 구조 및 1차년도 개발 내용
그림 8 검색어 기반 화면 자동 구성 지원 활용계획 및  기대효과 ◯ MonetDB에 통합된 JIT 기반 질의 처리 최적화 프로토타입 § DBMS에 JIT 기반 질의 처리 기술 통합 방향 확립을 위한 테스트베드로 활용 및 상용시제품으로 확장 개발§JIT 기반 질의 처리 최적화로 DBMS 성능 향상을 통해 기술 경쟁력 확보◯ HTM 기반 트랜잭션 처리 요소 기술 개발§HTM 기반 DB 트랜잭션 처리 시스템을 위한 요소 기술로 활용◯ 디스크 DBMS와 통합된
그림 12  요구사항정의서 일체형  데이터  엔 지 니 어 링  플랫폼 설계 l 일 체 형  데 이 터  엔 지 니 어 링  플랫폼  기능  설계 l 일 체 형  데 이 터  엔 지 니 어 링  플랫폼  구조  설계 l 일체형 데이터 엔지니어링 플랫폼 기능 설계§ 오픈  소스 DBMS 개략 분석 및 기반 DBMS 선정­상용화  관련  라이선스  정책,  인메모리 저장 관리 지원 여부 고려 선정­온라인  분석용  컬럼  기반  인메모리 최적화 DBMS인 M

참조

관련 문서

표준편차로 표준화하고 표준정규분포에 의한

남원지역 동학농민운동 사전조사

표준편차로 표준화하고 표준정규분포에 의한

• 로샤검사(Rorcschach test)와 같은 앞에 있 는 패턴을 읽고, 선택, 해석하는 투영적 표 상과 대조적인 접근방법으로서 4면이 테 두리로 그어져 있는 구조화된 공간에

② 물고기 가족화는 그림 분석으로 끝나면 의미가 없으며, 친구 또는 교사가 상담 자 역할을 하여 고민이나 갈등관계로 인한 스트레스 또는 마음의 상처를 어루만져 줄

② 화장품책임판매업자는 화장품의 품질관리기준, 책임판매 후 안전관리기준, 품질 검사 방법 및 실시 의무, 안전성ㆍ유효성 관련 정보사항 등의 보고 및 안전대책

낮은 가지들 중의 하나에서 너 는 네가 특별히 가지고 싶어서 바라보는 사과를 본다.. 너는 사과를 딱 위해 너의 손을

• 고객이 다른 가격에 불쾌감을 느끼지 않도록 사전교육을 실시. • 수율 관리 시스템이