14. 데이터 사이언스
3강. 데이터 마이닝과 데이터 사이언스의 미래
학습내용
- 데이터 마이닝과 데이터 사이언스의 미래
학습목표
- 데이터 마이닝과 데이터 사이언스의 미래를 예상하여 정리할 수 있다.
1. 데이터 마이닝과 데이터 사이언스의 미래 1) 빅데이터
- 빅데이터 : 다양한 데이터를 많이 모아 놓은 것
- 최근 IT영역 10대 핵심기술로 빅데이터가 주목 받고 있음 - 기업들이 빅데이터를 통하여 새로운 성장 동력을 찾고 있음
- 엄청난 양의 데이터 집합으로부터 가치 있는 정보를 효율적으로 추출하고 결과 를 분석하는 최신 기술
- 빅데이터 활용 예
→ 미국의 포드 자동차 회사의 차량에 설치된 센서로 운전자의 주행 습관 빅데 이터 수집
→ 고객의 숨은 요구(needs)를 찾아 신제품 반영 → 맥도널드의 자체 고객 데이터 수집 빅데이터 활용 : 햄버거를 카드로 구매한 빅데이터 정보로 경영에 반영 - 빅데이터와 다른 기술의 연관성
→ 빅데이터는 정형화된 데이터 외에도 다양한 형태의 사진, 동영상, 행동 패턴, 센서와 같은 비정형 데이터들을 포함
→ 저장, 분석, 인터넷 등 다양한 기술과 연관성을 가짐 - 빅데이터의 문제점과 시장 규모
→ 빅데이터는 사생활 침해와 보안 측면의 문제점을 내포
구분 내용
크기(Volume) 엄청난 양의 데이터 수준
다양성(Variety) 정형 데이터 + 비정형 데이터
속도(Velocity) 실시간으로 생산되며 빠른 속도로 분석, 유통 → 수집과 분석 시 개인의 민감한 정보에 주의
→ 국내 빅데이터 시장 규모를 2023년 14억 달러로 추정 - 빅데이터 활용 분야
→ 대량의 정보를 분석하여 의미 있는 결론 도출
→ 정치, 사회, 경제, 문화 등 전 영역에서 사회와 인류에게 가치 있는 정보를 제공
- 빅데이터 활용 과정
→ 기업의 비즈니스 요구사항을 확인 → 필요한 빅데이터를 검색하여 수집 → 수집한 데이터를 적절한 형태로 가공 → 처리된 데이터를 분석하고 시각화하여 이용 - 빅데이터의 특징
- 빅데이터 6가지 기술 요소
→ 최근 의미 있는 정보, 가치 있는 정보를 활용하기 위해 기존의 3V요소(크기, 다양성, 속도)에 진실성, 시각화, 가치가 추가
시각화(Visualization) 사용자 친화적인 시각적 기능을 통해 빅데이터의 모든 잠재력 활용
가치(Value) 비즈니스에 실현될 궁극적 가치에 중점
- 데이터 과학자
→ 데이터 사이언스 전문가
→ 빅데이터를 다루고 분석하는 전문가
→ 통계학, 컴퓨터과학, 기계학습, 비즈니스 지식을 갖춘 사람 - 빅데이터의 요소 기술 구성과 분류
요소기술 설명 해당기술
빅데이터
수집 필요한 데이터를 검색하여 수집 ETL, RSS, Open API 등 빅데이터
공유 서로 다른 시스템 간의 데이터 공유 멀티 데이터 공유 등 빅데이터
저장 데이터를 실시간으로 저장 하둡(Hadoop)
빅데이터 처리
대량의 데이터 저장, 수집, 관리, 유통을
처리 실시간 데이터베이스 처리
빅데이터 분석
데이터를 효율적으로 정확하게 분석하여 비즈니스 등의 영역에 적용
통계분석, 데이터 마이닝, 예측 분석, SNS 분석 등 빅데이터
시각화 자료를 시각적으로 나타내는 기술 시간, 분포, 관계 등
2) 데이터 마이닝
- 데이터로부터 통계적 규칙이나 패턴을 찾아내는 과정 - 통계학, 인공지능, 기계학습 등의 기법을 활용
- 컴퓨터 사이언스와 통계학 연구 분야 - 데이터로부터 지식을 발견하는 분석 과정 - 데이터 마이닝의 주요 업무
→ 데이터로부터 정보를 추출 → 감춰진 패턴들을 발견 → 예측 모델을 개발
- 데이터 마이닝과 통계학의 차이
→ 통계학은 한정된 개수의 데이터를 추정 또는 검정 → 데이터 마이닝은 대규모 데이터를 분석하여 정보 추출
→ 데이터 마이닝은 기업 경영 활동용 분석하기 위한 목적으로 개발 → 다양한 산업 분야에 적용되는 표준화 처리 과정 제시
- 데이터 마이닝의 분석 기능
- 데이터 마이닝의 활용 분야
→ 데이터 마이닝을 이용하는 기업 관련 업무에 적용 → 기업의 생산 과정에서 불량률을 줄이는 품질관리 분야 → 패턴인식 기법을 적용한 의료 진단 분야
→ 고객의 신용을 평가하는 금융 관리 분야 등
3) 데이터 사이언스의 미래와 문제점
- 인터넷의 발달과 함께 데이터의 규모가 나날이 커짐
- 데이터 사이언스의 기법이 다양
- 기계학습을 이용한 인공지능적인 기법도 많이 적용 - 데이터 사이언스의 미래 전망
→ 데이터 사이언스의 역할 증대
→ 데이터 사이언스의 영역이 명확히 정의 → 관련 직업이 많아짐
→ 데이터 사이언스 교육이 일반화됨
→ 데이터 사이언스를 위한 기계학습의 발전 - 데이터 거래소의 필요성
→ 데이터와 빅데이터 거래 중개 역할
→ 정보기술 선진국에선 데이터 거래소 설립과 운영 중 → 미국 : 650개의 데이터 거래소 운영, 시장규모 184조 원 → 덴마크, 일본, 중국 등 또한 데이터 거래소 설립 시작 - 우리나라 데이터 거래소의 필요성
→ 기업이 손쉽게 필요한 데이터를 얻고 사업에 활용할 수 있음 → 중소기업의 절반이 데이터가 필요하나 데이터를 구할 수 없는 여건
평가하기
1. 다음 중 빅데이터 요소 기술과 설명이 올바르게 연결되지 않은 것은?
① 수집 : 필요한 데이터를 검색하여 수집
② 분석 : 자료를 시각적으로 나타내는 기술
③ 공유 : 서로 다른 시스템 간의 데이터 공유
④ 저장 : 데이터를 실시간으로 저장 - 정답 : ②번
해설 : 분석 단계에서는 데이터를 효율적으로 분석하는 단계로 통계분석, 데이터 마이닝 에 해당하며 자료를 시각적으로 나타내는 기술은 시각화 기술
2. 다음 중 데이터 마이닝의 특징과 주요 업무로 보기 어려운 것은?
① 데이터로부터 정보 추출
② 감춰진 패턴들 발견
③ 예측 모델 개발
④ 한정된 개수의 데이터를 추정 또는 검정 - 정답 : ④번
해설 : 한정된 개수의 데이터를 추정 또는 검정하는 방법은 통계학에 해당
학습정리
1. 데이터 마이닝과 데이터 사이언스의 미래 - 빅데이터
→ 엄청난 양의 데이터 집합으로부터 가치 있는 정보를 효율적으로 추출하고 결과를 분석 하는 최신 기술
- 빅데이터의 특징
→ 크기 / 속도 / 다양성+진실성 / 시각화 / 가치 - 데이터 마이닝
→ 데이터로부터 통계적 규칙이나 패턴을 찾아내는 과정 - 데이터 사이언스의 미래 전망
→ 데이터 사이언스의 역할 증대 / 관련 직업 증가 / 기계학습의 발전
다음 주 예고