• 검색 결과가 없습니다.

빅데이터 프로젝트 가이드라인

N/A
N/A
Protected

Academic year: 2022

Share "빅데이터 프로젝트 가이드라인"

Copied!
23
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

2015.06

조완섭

충북대학교 경영정보학과

대학원 비즈니스데이터융합학과

빅데이터 프로젝트 가이드라인

제 6장

(2)

목차

 배경 및 개요

 데이터 수집

 데이터 저장관리

보안관리

품질관리

데이터 분석

가시화

 분석결과의 활용과 서비스

(3)

3. 데이터 보안관리

 정의

데이터 유출 방지와 안전한 사용을 보장함

빅데이터에 포함된 개인정보 처리 등 필요한 조치 수행

데이터 수집, 저장, 분석활용 등 전체과정에 관련된 사항

기술과 함께 법제도 및 지침서 활용

 업무절차

기능요건도출보안관리

기능요건적용보안관리

- 발생 가능한 보안 침해 가능성 확인 - 개인정보 처리 확인

관련 법제도, 지침서, 도구 등을 활용하여 데이터 보안 관리 조치

(4)

3. 데이터 보안관리

 보안관리 활용기술

사용자 인증, 접근제어, 암호화 등 다양한 기술 활용

(통신, 장치, 데이터, 프로그램 등 다양한 개체에 대한 접근제한 설정)

(5)

3. 데이터 보안관리

(6)

3. 데이터 보안관리

 수집단계

데이터 생성 주체로부터 사전동의를 받은 데이터만 수집

수집된 데이터에 대한 접근통제 적용

필요하면 웹로봇에 수집해가는 행위를 원천 차단하는 기술 적용

 저장단계

암호화 및 접근권한 설정 권장

개인정보 포함여부를 검사하여 암호화 조치

 분석 및 활용단계

개인정보는 비식별화 등의 조치를 취한 후 분석에 활용

** 참고자료

- DB 보안의 이해

http://www.dbguide.net/

- 개인정보 암호화 조치 안내서 (행정안전부, 2012.10)

(7)

3. 데이터 보안관리 - 비식별화

 개인정보 비식별화 조치방안 (예시)

개인을 식별할 수 있는 필드 (키워드) 도출

쉽게 개인을 식별할 수 있는 정보 (이름, 전화, 주소, 생년월일 등)

고유식별번호 (주민번호, 운전면허, 외국인등록번호, 여권번호 등)

생체정보 (지문, 홍체, DNA 정보 등)

기관, 단체 등의 이용자 계정 (등록번호, 계좌번호, 이메일 주소 등) –

비식별화 조치 수행

문서 파일을 키워드 단위로 분할

키워드 기반의 패턴 매칭으로 개인정보 검사 및 식별

– 주민번호, 여권번호, 의료보험번호 등

데이터가 메쉬업 되어도 문제가 없도록 해야 함

나이지리아 국적 + 억만장자 + 2012년 한국방문 => 추정가능

(8)

3. 데이터 보안관리 – 비식별화 기법

가능한자동 필터링 기법을 적용하여자동 비식별화 수행

(9)

3. 데이터 보안관리 - 비식별화

 조직의 비식별화 규정 (권고)

데이터 검증

개인정보 비식별화 여부 등을 검증할 수 있는 시스템을 보유 권고 –

데이터 인증

개인정보가 정상적으로 처리된 데이터는 사후관리를 위해 인증표 기 권고

사후 모니터링

관리가 필요한 데이터의 경우 목적에 맞게 데이터가 활용되고 폐 기되는 단계까지 사후 모니터링 권고

(10)

3. 보안 및 개인정보 - 관련기술

 데이터 보안관리 및 개인정보 처리 관련 기술과 활 용에서 고려사항

데이터 보안기술의 활용시 고려사항

개인정보 처리기술 활용시 고려사항

– Page 42 ~ 44 참고

(11)

4. 빅데이터 품질관리

 각 기관은 데이터 품질관리 체계 수립을 통하여 데이터의 정

확성, 완전성, 적시성, 일관성을 유지해야 함

(12)

4. 빅데이터 품질관리

 단계별 품질관리 점검사항

빅데이터의 용도에 따라 품질수준이 다르게

제정되어야 함

<= 추세 파악이 목적이라 면 품질 수준은 다소 낮게,

재난안전, 의료 등에서는 품질수준을 높게

(13)

4. 빅데이터 품질관리

 데이터 품질 확보방안

ETL 도구 혹은 DBMS 기능을 활용하여 데이터 품질 제고 를 자동화할 수 있음

참고문헌 : A Taxonomy of Dirty Data (Data Mining and Knowledge Discovery, Jan. 2003)

데이터 정제 도구 활용

Look-up tables (referential data)

Rule-based cleansing

Patterns

(14)

4. 빅데이터 품질관리

Data Cleansing with an ETL Tool

(15)

5. 데이터 분석

 정의

수집 및 저장된 빅데이터로부터 다양한 분석을 통해 유용한 통찰력을 발견하는 과정

다차원분석, 통계분석, 데이터 마이닝, 텍스트 마이닝, 소셜분석 등

 업무절차

분석계획의 수립

분석환경 구축과 분석수행

분석 서비스 운영

- 분석목적 정의, 분석 시스템 환경과 방법론 등 세부 분석계획 수립

- 분석 시스템과 환경의 구축

- 비용, 전문가 확보 등을 고려하여 자체 분석과 외부 분석 서비스 활용을 선택함

- 자체 분석의 경우 전문가 확보, 지속적인 교육 훈련으로 분석의 질을 제고

- 외부 시스템을 이용하는 경우 분석결과에 대한 품질, 보안 등에 대한 SLA 협약 권고

(16)

분석기술 소개

(17)
(18)

5. 데이터 분석

 다차원 분석

- Africa의 매출액은 ?

- Africa의 1분기 매출액은 ?

- Africa의 1분기 sea route 매출액? ….

(19)

5. 데이터 분석

 분석환경 구축

조직 내부에 분석전문가 확보 및 지 속적인 교육과 훈련필요; 보안담당

자 지정

데이터 분석결과에 대한 품질, 데이터 운영관련 보안사항

(20)

5. 데이터 분석

 분석 플랫폼 구축과 운영

HW 구축

빅데이터 수용 용량 및 분석작업에 대한 부하 등을 감안하여 HW 인프라 구축

수집 데이터 저장 서버, 데이터 처리서버(하둡기반 분석, 정형데이 터 분석 DW 등), 기타 보안, 통신장비 등 구축

SW 구축

분석에 필요한 수집, 저장, 관리, 분석, 사용자 환경 등 관련 SW

(21)
(22)

5. 데이터 분석 - 플랫폼

(23)

5. 데이터 분석 – 데이터 수명주기

 Data Life Cycle

Stream Data

Hadoop

DataSources

Mining

자연어 처리

Visualization

직관적 의사결정 지원

MapReduce

참조

관련 문서

본 가이드라인의 목적은 「적극행정 운영규정」 제14조 및 제15조 등에 따라 각 중앙행정기관이 적극행정 우수공무원을 선발하고, 인사상 우대 조치 등을 부여할

The contemporary music of the twentieth century due to various and new changes in the style of presentation, shows dramatic differences in comparison to

자료형태 &lt;physicalDescription&gt;&lt;form&gt; 필수 디지털 품질 &lt;physicalDescription&gt;&lt;reformattingQuality&gt; 필수

어떤‌ 것을‌ 알아낼‌ 수‌ 있으며‌ 또‌ 어떤‌ 파장에서는‌ 나타나지만‌ 다른‌ 파장에서는‌

[r]

귀하의 본 프로젝트에 대한 입찰의사결정 부문별 우선순위평가결과 프로젝트 수익성→입찰경쟁→프로젝트 리스크.

잎이 길고 길고 길고 길고 다소 다소 다소 다소 거칠며 거칠며 거칠며 거칠며 색깔이 색깔이 색깔이 짙고 색깔이 짙고 짙고 짙고 뒷면이.

[r]