• 검색 결과가 없습니다.

14. 데이터 사이언스1강. 데이터 사이언스 개요

N/A
N/A
Protected

Academic year: 2022

Share "14. 데이터 사이언스1강. 데이터 사이언스 개요"

Copied!
6
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

14. 데이터 사이언스 1강. 데이터 사이언스 개요

학습내용

- 데이터 사이언스 개요

학습목표

- 데이터 사이언스의 발전 배경과 기본적인 사항들을 설명할 수 있다.

1. 데이터 사이언스 개요 1) 데이터 사이언스란?

- 통계 방법을 사용하여 대량의 데이터를 처리하는 여러 학문분야가 관련된 과학 - 데이터에 대한 직관력을 획득할 수 있게 해주는 학문 분야

- 데이터를 다루는 방법론, 프로세스, 알고리즘, 시스템을 다룸

- 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는 과학적 방법론

2) 데이터

- 사실을 나타내는 수치

- 신호, 기호, 숫자, 문자 등으로 기록되며 정보를 위한 기초적인 자료 - 정보

→ 데이터를 가공하고 처리하여 나온 결과

→ 사용자의 의사결정에 도움이 될 만한 정리된 데이터 가. 정형 데이터(Structured Data)

- 정해진 규칙(Rule)에 맞게 들어간 데이터 중 수치 만으로 의미 파악이 쉬운 데 이터

- 그 값의 의미를 파악하기 쉬우며 규칙적인 값으로 데이터가 들어가는 경우를 말함

(2)

나. 반정형 데이터(Semi-structured Data) - 완전한 정형 데이터가 아닌 약한 정형 데이터

- 대표적으로 HTML 혹은 XML 같은 문서 포맷 형태를 포함할 수 있음 - 일반적인 데이터베이스는 아니지만 스키마를 가지고 있는 형태

다. 비정형 데이터(Unstructured Data) - 정형 데이터와 반대되는 단어

- 정해진 규칙 없이 의미를 쉽게 파악하기 힘든 경우 - 텍스트, 음성, 영상 데이터가 비정형 데이터 범위에 속함 - 빅데이터의 탄생은 비정형 데이터의 역할이 크게 작용

→ 의미를 분석하기 힘들었던 대용량에 속한 비정형 데이터를 분석함으로써 새 로운 인사이트를 얻음

- 트위터, 페이스북과 같은 SNS에서 수집되는 데이터 또한 포함

✓ 데이터 활용 분야

- 데이터가 방대해지고 유용한 가치를 지니게 됨으로써 활용 가능한 분야 - 현재 상태를 객관적으로 파악

- 비정상적인 사건을 탐지

- 특정 사건과 행태에 대한 원인을 파악하고 진단 - 장래 사건을 예측

3) 데이터 사이언스의 영역

- 통계적 수학, 머신러닝, 빅데이터, 비즈니스 등의 융합

(3)

✓ 데이터 사이언스의 탐구 영역

- 데이터로부터 의미 있는 패턴을 찾아내고 통찰력을 획득 - 데이터를 분석하고 활용

- 통계학, 데이터 분석, 기계학습 등의 방법론 사용 - 다양한 데이터 사이언스의 탐구 영역

→ 통계적 모델링, 통계적 컴퓨팅, 가시화

✓ 데이터 사이언스 활용 - 발전된 컴퓨터 기술

→ 컴퓨터의 처리 속도가 빨라지고 널리 보급됨 - 인터넷을 통한 풍부하고 다양한 데이터

- 인공지능의 기계학습의 발전으로 빠르고 편리하게 구현

✓ 데이터 사이언스 응용 분야

- 경영, 인공지능, 사회학, 의학, 생물학 등 다양함 - 최근 들어 응용의 분야와 폭이 넓어지고 있음 - 기계학습 : 예측 모형

- 사물인터넷 : 스마트 워치, 하이패스, CCTV 등 - 딥러닝 : 자연어 처리, 이미지 인식

4) 데이터 사이언스의 발전 배경

- 통계학과 컴퓨터 사이언스가 밀접하게 융합되어 생긴 분야

- 1990년대에는 엑셀과 같은 소프트웨어를 바탕으로 한 데이터 사이언스를 통한

(4)

시장 전략으로 경영에 반영하기도 하였음

- 인터넷의 등장으로 규모가 큰 데이터에 접근할 수 있게 되면서 컴퓨터 처리 능 력의 발전으로 빅데이터에 대한 분석을 가능하게 됨

- 이후 데이터들을 수집하여 처리한 후 통계적으로 분석하는 기술들이 데이터 사 이언스의 주류가 됨

5) 데이터 사이언스의 비즈니스 접목

✓ 비즈니스 분석과 활용 - 의사 결정의 향상

→ 장기와 단기 전략을 수집하여 의사를 결정할 수 있는 보를 제공 - 경영상의 문제 개선

→ 경영상의 비효율적인 문제들을 제거하거나 개선 미래에 대한 예측

→ 기계학습 기법으로 인간이 하기 어려운 미래에 대한 예측 - 경영 목표 개선

→ 회사의 판매 목표 설정, 고객의 이해, 고객이 원하는 것을 예측 - 새로운 기회 창출

→ 데이터 분석을 통해 새로운 비즈니스 기회를 창출 - 위험 평가 향상

→ 위험도를 미리 테스트하여 잠재적 위험이나 실수를 피하거나 줄임 - 데이터 기반 의사 결정

→ 데이터에 기반을 둔 비즈니스의 의사 결정

6) 데이터 사이언스에 필요한 지식과 기술

- 컴퓨터 사이언스, 인공지능, 통계학의 방법론들 활용 - 인터넷으로 데이터를 효율적으로 수집하는 컴퓨터 지식 - 대규모 데이터를 다룰 프로그래밍 기술

- 데이터 분석 과정에서 통계처리의 기초 지식 - 분류와 클러스터링 등 기계학습 관련 지식과 기술 - 데이터를 분석한 결과를 시각화할 수 있는 기술

(5)

7) 데이터 사이언스 관련 직업

- 데이터 과학자 : 데이터 관련 전문가

→ 통계적 지식, 프로그래밍 능력, 기계학습 기술 등을 활용하여 과거를 분석하 거나 미래를 예측하는 일에 쓰일 수 있는 패턴을 찾음

- 데이터 전문가로서 데이터를 수집, 분석, 결과 보고 등의 업무 - 상당한 수준의 전문성을 갖추어야 함

- 데이터 사이언스가 빠르게 성장하는 분야인 만큼 데이터 과학자의 수요가 증가 - 미국에서는 데이터 사이언스 관련 직업에 대한 수요가 매우 크고 좋은 대우를

받고 있음

→ 미국의 데이터 과학자 연봉 : 2019년 기준 $120,000

- 컴퓨터 과학, 통계학, 데이터 시각화 등의 전문성을 필요로 하는 직업 - 향후 우리나라에서도 수요가 많고 인기 있는 직업이 될 것으로 예상

8) 데이터 사이언스 주요 도구 - Python

→ 데이터 사이언스에 사용되는 인기 있는 오픈소스 프로그래밍 언어 → 연산을 지원하는 수많은 라이브러리 활용 가능

- R

→ 오픈소스 통계적 프로그래밍 언어

→ 데이터를 분석하고 가시화하는 패키지 제공 - SAS

→ 통계적 연산을 편리하게 처리할 통계적 소프트웨어 → 안전성과 신뢰성을 가진 도구

- Apache Spark

→ 데이터 처리와 분석의 능력을 가진 빅데이터 도구 - TensorFlow

→ 딥러닝 알고리즘 수행에 사용되는 기계학습 도구

(6)

평가하기

1. 다음 중 데이터 사이언스에 필요한 지식과 기술 중 관련성이 적은 것은?

① 데이터 수집 기술

② 통계분석 및 시각화 기술

③ 기계학습과 관련된 지식과 기술

④ 컴퓨터 하드웨어 지식 - 정답 : ④번

해설 : 컴퓨터 하드웨어 지식은 데이터 사이언스에서 상대적으로 관련성이 적음 2. 다음 중 데이터 사이언스의 도구 중 가장 관련이 적은 것은?

① Ruby

② Python

③ R

④ SAS - 정답 : ①번

해설 : Ruby는 순수 객체 지향 언어로 프로그래밍 언어에서 자주 쓰임

학습정리

1. 데이터 사이언스 개요 - 데이터 사이언스

→ 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는 과학적 방법론

- 데이터

→ 사실을 나타내는 수치

→ 정보를 위한 기초적인 자료 / 정형 / 비정형 / 반정형 데이터 - 데이터 사이언스의 영역

→ 통계적 수학, 컴퓨터 사이언스, 비즈니스를 모두 아우르는 분야

참조

관련 문서

[r]

미국 미국과학기술정책국(Office of Science and Technology Policy, OSTP)은 대학과 연구 기관의 광범위한 의견수렴을 바탕으로 연구자가 개발한 과학출판물과 디지털

Appendix C Projects for Teaching Data and Computer Communications Appendix D Standards Organizations. Appendix E The International Reference Alphabet Appendix F Proof

[r]

In this study, the point density for each data acquisition condition for UAV LiDAR applications was analyzed.. The data by flight altitude and flight speed were

In the model, four processes such as socialization, externalization, combination, and internalization (SECI) are defined: By socialization process they meant that

[r]

[r]