2015.06
조완섭
충북대학교 경영정보학과대학원 비즈니스데이터융합학과
빅데이터 프로젝트 가이드라인
제 6장
목차
배경 및 개요
데이터 수집
데이터 저장관리
보안관리
품질관리
데이터 분석
–
가시화
분석결과의 활용과 서비스
3. 데이터 보안관리
정의
–
데이터 유출 방지와 안전한 사용을 보장함
–
빅데이터에 포함된 개인정보 처리 등 필요한 조치 수행
–
데이터 수집, 저장, 분석활용 등 전체과정에 관련된 사항
–
기술과 함께 법제도 및 지침서 활용
업무절차
기능요건도출보안관리
기능요건적용보안관리
- 발생 가능한 보안 침해 가능성 확인 - 개인정보 처리 확인
관련 법제도, 지침서, 도구 등을 활용하여 데이터 보안 관리 조치
3. 데이터 보안관리
보안관리 활용기술
–
사용자 인증, 접근제어, 암호화 등 다양한 기술 활용
(통신, 장치, 데이터, 프로그램 등 다양한 개체에 대한 접근제한 설정)
3. 데이터 보안관리
3. 데이터 보안관리
수집단계
–
데이터 생성 주체로부터 사전동의를 받은 데이터만 수집
–
수집된 데이터에 대한 접근통제 적용
•
필요하면 웹로봇에 수집해가는 행위를 원천 차단하는 기술 적용 저장단계
–
암호화 및 접근권한 설정 권장
–
개인정보 포함여부를 검사하여 암호화 조치
분석 및 활용단계
–
개인정보는 비식별화 등의 조치를 취한 후 분석에 활용
** 참고자료
- DB 보안의 이해
http://www.dbguide.net/
- 개인정보 암호화 조치 안내서 (행정안전부, 2012.10)
3. 데이터 보안관리 - 비식별화
개인정보 비식별화 조치방안 (예시)
–
개인을 식별할 수 있는 필드 (키워드) 도출
•
쉽게 개인을 식별할 수 있는 정보 (이름, 전화, 주소, 생년월일 등)•
고유식별번호 (주민번호, 운전면허, 외국인등록번호, 여권번호 등)•
생체정보 (지문, 홍체, DNA 정보 등)•
기관, 단체 등의 이용자 계정 (등록번호, 계좌번호, 이메일 주소 등) –비식별화 조치 수행
•
문서 파일을 키워드 단위로 분할•
키워드 기반의 패턴 매칭으로 개인정보 검사 및 식별– 주민번호, 여권번호, 의료보험번호 등
–
데이터가 메쉬업 되어도 문제가 없도록 해야 함
나이지리아 국적 + 억만장자 + 2012년 한국방문 => 추정가능
3. 데이터 보안관리 – 비식별화 기법
가능한자동 필터링 기법을 적용하여자동 비식별화 수행
3. 데이터 보안관리 - 비식별화
조직의 비식별화 규정 (권고)
–
데이터 검증
•
개인정보 비식별화 여부 등을 검증할 수 있는 시스템을 보유 권고 –데이터 인증
•
개인정보가 정상적으로 처리된 데이터는 사후관리를 위해 인증표 기 권고–
사후 모니터링
•
관리가 필요한 데이터의 경우 목적에 맞게 데이터가 활용되고 폐 기되는 단계까지 사후 모니터링 권고3. 보안 및 개인정보 - 관련기술
데이터 보안관리 및 개인정보 처리 관련 기술과 활 용에서 고려사항
–
데이터 보안기술의 활용시 고려사항
–
개인정보 처리기술 활용시 고려사항
– Page 42 ~ 44 참고
4. 빅데이터 품질관리
각 기관은 데이터 품질관리 체계 수립을 통하여 데이터의 정
확성, 완전성, 적시성, 일관성을 유지해야 함
4. 빅데이터 품질관리
단계별 품질관리 점검사항
빅데이터의 용도에 따라 품질수준이 다르게
제정되어야 함
<= 추세 파악이 목적이라 면 품질 수준은 다소 낮게,
재난안전, 의료 등에서는 품질수준을 높게
4. 빅데이터 품질관리
데이터 품질 확보방안
–
ETL 도구 혹은 DBMS 기능을 활용하여 데이터 품질 제고 를 자동화할 수 있음
•
참고문헌 : A Taxonomy of Dirty Data (Data Mining and Knowledge Discovery, Jan. 2003)–
데이터 정제 도구 활용
•
Look-up tables (referential data)•
Rule-based cleansing•
Patterns4. 빅데이터 품질관리
Data Cleansing with an ETL Tool
5. 데이터 분석
정의
–
수집 및 저장된 빅데이터로부터 다양한 분석을 통해 유용한 통찰력을 발견하는 과정–
다차원분석, 통계분석, 데이터 마이닝, 텍스트 마이닝, 소셜분석 등 업무절차
분석계획의 수립
분석환경 구축과 분석수행
분석 서비스 운영
- 분석목적 정의, 분석 시스템 환경과 방법론 등 세부 분석계획 수립
- 분석 시스템과 환경의 구축
- 비용, 전문가 확보 등을 고려하여 자체 분석과 외부 분석 서비스 활용을 선택함
- 자체 분석의 경우 전문가 확보, 지속적인 교육 훈련으로 분석의 질을 제고
- 외부 시스템을 이용하는 경우 분석결과에 대한 품질, 보안 등에 대한 SLA 협약 권고
분석기술 소개
5. 데이터 분석
다차원 분석 - Africa의 매출액은 ?
- Africa의 1분기 매출액은 ?
- Africa의 1분기 sea route 매출액? ….
5. 데이터 분석
분석환경 구축
조직 내부에 분석전문가 확보 및 지 속적인 교육과 훈련필요; 보안담당
자 지정
데이터 분석결과에 대한 품질, 데이터 운영관련 보안사항
5. 데이터 분석
분석 플랫폼 구축과 운영
–
HW 구축
•
빅데이터 수용 용량 및 분석작업에 대한 부하 등을 감안하여 HW 인프라 구축•
수집 데이터 저장 서버, 데이터 처리서버(하둡기반 분석, 정형데이 터 분석 DW 등), 기타 보안, 통신장비 등 구축–
SW 구축
•
분석에 필요한 수집, 저장, 관리, 분석, 사용자 환경 등 관련 SW5. 데이터 분석 - 플랫폼
5. 데이터 분석 – 데이터 수명주기
Data Life Cycle
Stream Data
Hadoop
DataSources
Mining
자연어 처리
Visualization
직관적 의사결정 지원