14. 데이터 사이언스 1강. 데이터 사이언스 개요
학습내용
- 데이터 사이언스 개요
학습목표
- 데이터 사이언스의 발전 배경과 기본적인 사항들을 설명할 수 있다.
1. 데이터 사이언스 개요 1) 데이터 사이언스란?
- 통계 방법을 사용하여 대량의 데이터를 처리하는 여러 학문분야가 관련된 과학 - 데이터에 대한 직관력을 획득할 수 있게 해주는 학문 분야
- 데이터를 다루는 방법론, 프로세스, 알고리즘, 시스템을 다룸
- 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는 과학적 방법론
2) 데이터
- 사실을 나타내는 수치
- 신호, 기호, 숫자, 문자 등으로 기록되며 정보를 위한 기초적인 자료 - 정보
→ 데이터를 가공하고 처리하여 나온 결과
→ 사용자의 의사결정에 도움이 될 만한 정리된 데이터 가. 정형 데이터(Structured Data)
- 정해진 규칙(Rule)에 맞게 들어간 데이터 중 수치 만으로 의미 파악이 쉬운 데 이터
- 그 값의 의미를 파악하기 쉬우며 규칙적인 값으로 데이터가 들어가는 경우를 말함
나. 반정형 데이터(Semi-structured Data) - 완전한 정형 데이터가 아닌 약한 정형 데이터
- 대표적으로 HTML 혹은 XML 같은 문서 포맷 형태를 포함할 수 있음 - 일반적인 데이터베이스는 아니지만 스키마를 가지고 있는 형태
다. 비정형 데이터(Unstructured Data) - 정형 데이터와 반대되는 단어
- 정해진 규칙 없이 의미를 쉽게 파악하기 힘든 경우 - 텍스트, 음성, 영상 데이터가 비정형 데이터 범위에 속함 - 빅데이터의 탄생은 비정형 데이터의 역할이 크게 작용
→ 의미를 분석하기 힘들었던 대용량에 속한 비정형 데이터를 분석함으로써 새 로운 인사이트를 얻음
- 트위터, 페이스북과 같은 SNS에서 수집되는 데이터 또한 포함
✓ 데이터 활용 분야
- 데이터가 방대해지고 유용한 가치를 지니게 됨으로써 활용 가능한 분야 - 현재 상태를 객관적으로 파악
- 비정상적인 사건을 탐지
- 특정 사건과 행태에 대한 원인을 파악하고 진단 - 장래 사건을 예측
3) 데이터 사이언스의 영역
- 통계적 수학, 머신러닝, 빅데이터, 비즈니스 등의 융합
✓ 데이터 사이언스의 탐구 영역
- 데이터로부터 의미 있는 패턴을 찾아내고 통찰력을 획득 - 데이터를 분석하고 활용
- 통계학, 데이터 분석, 기계학습 등의 방법론 사용 - 다양한 데이터 사이언스의 탐구 영역
→ 통계적 모델링, 통계적 컴퓨팅, 가시화
✓ 데이터 사이언스 활용 - 발전된 컴퓨터 기술
→ 컴퓨터의 처리 속도가 빨라지고 널리 보급됨 - 인터넷을 통한 풍부하고 다양한 데이터
- 인공지능의 기계학습의 발전으로 빠르고 편리하게 구현
✓ 데이터 사이언스 응용 분야
- 경영, 인공지능, 사회학, 의학, 생물학 등 다양함 - 최근 들어 응용의 분야와 폭이 넓어지고 있음 - 기계학습 : 예측 모형
- 사물인터넷 : 스마트 워치, 하이패스, CCTV 등 - 딥러닝 : 자연어 처리, 이미지 인식
4) 데이터 사이언스의 발전 배경
- 통계학과 컴퓨터 사이언스가 밀접하게 융합되어 생긴 분야
- 1990년대에는 엑셀과 같은 소프트웨어를 바탕으로 한 데이터 사이언스를 통한
시장 전략으로 경영에 반영하기도 하였음
- 인터넷의 등장으로 규모가 큰 데이터에 접근할 수 있게 되면서 컴퓨터 처리 능 력의 발전으로 빅데이터에 대한 분석을 가능하게 됨
- 이후 데이터들을 수집하여 처리한 후 통계적으로 분석하는 기술들이 데이터 사 이언스의 주류가 됨
5) 데이터 사이언스의 비즈니스 접목
✓ 비즈니스 분석과 활용 - 의사 결정의 향상
→ 장기와 단기 전략을 수집하여 의사를 결정할 수 있는 보를 제공 - 경영상의 문제 개선
→ 경영상의 비효율적인 문제들을 제거하거나 개선 미래에 대한 예측
→ 기계학습 기법으로 인간이 하기 어려운 미래에 대한 예측 - 경영 목표 개선
→ 회사의 판매 목표 설정, 고객의 이해, 고객이 원하는 것을 예측 - 새로운 기회 창출
→ 데이터 분석을 통해 새로운 비즈니스 기회를 창출 - 위험 평가 향상
→ 위험도를 미리 테스트하여 잠재적 위험이나 실수를 피하거나 줄임 - 데이터 기반 의사 결정
→ 데이터에 기반을 둔 비즈니스의 의사 결정
6) 데이터 사이언스에 필요한 지식과 기술
- 컴퓨터 사이언스, 인공지능, 통계학의 방법론들 활용 - 인터넷으로 데이터를 효율적으로 수집하는 컴퓨터 지식 - 대규모 데이터를 다룰 프로그래밍 기술
- 데이터 분석 과정에서 통계처리의 기초 지식 - 분류와 클러스터링 등 기계학습 관련 지식과 기술 - 데이터를 분석한 결과를 시각화할 수 있는 기술
7) 데이터 사이언스 관련 직업
- 데이터 과학자 : 데이터 관련 전문가
→ 통계적 지식, 프로그래밍 능력, 기계학습 기술 등을 활용하여 과거를 분석하 거나 미래를 예측하는 일에 쓰일 수 있는 패턴을 찾음
- 데이터 전문가로서 데이터를 수집, 분석, 결과 보고 등의 업무 - 상당한 수준의 전문성을 갖추어야 함
- 데이터 사이언스가 빠르게 성장하는 분야인 만큼 데이터 과학자의 수요가 증가 - 미국에서는 데이터 사이언스 관련 직업에 대한 수요가 매우 크고 좋은 대우를
받고 있음
→ 미국의 데이터 과학자 연봉 : 2019년 기준 $120,000
- 컴퓨터 과학, 통계학, 데이터 시각화 등의 전문성을 필요로 하는 직업 - 향후 우리나라에서도 수요가 많고 인기 있는 직업이 될 것으로 예상
8) 데이터 사이언스 주요 도구 - Python
→ 데이터 사이언스에 사용되는 인기 있는 오픈소스 프로그래밍 언어 → 연산을 지원하는 수많은 라이브러리 활용 가능
- R
→ 오픈소스 통계적 프로그래밍 언어
→ 데이터를 분석하고 가시화하는 패키지 제공 - SAS
→ 통계적 연산을 편리하게 처리할 통계적 소프트웨어 → 안전성과 신뢰성을 가진 도구
- Apache Spark
→ 데이터 처리와 분석의 능력을 가진 빅데이터 도구 - TensorFlow
→ 딥러닝 알고리즘 수행에 사용되는 기계학습 도구
평가하기
1. 다음 중 데이터 사이언스에 필요한 지식과 기술 중 관련성이 적은 것은?
① 데이터 수집 기술
② 통계분석 및 시각화 기술
③ 기계학습과 관련된 지식과 기술
④ 컴퓨터 하드웨어 지식 - 정답 : ④번
해설 : 컴퓨터 하드웨어 지식은 데이터 사이언스에서 상대적으로 관련성이 적음 2. 다음 중 데이터 사이언스의 도구 중 가장 관련이 적은 것은?
① Ruby
② Python
③ R
④ SAS - 정답 : ①번
해설 : Ruby는 순수 객체 지향 언어로 프로그래밍 언어에서 자주 쓰임
학습정리
1. 데이터 사이언스 개요 - 데이터 사이언스
→ 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는 과학적 방법론
- 데이터
→ 사실을 나타내는 수치
→ 정보를 위한 기초적인 자료 / 정형 / 비정형 / 반정형 데이터 - 데이터 사이언스의 영역
→ 통계적 수학, 컴퓨터 사이언스, 비즈니스를 모두 아우르는 분야