• 검색 결과가 없습니다.

14. 데이터 사이언스2강. 데이터의 수집, 관리, 분석, 보고

N/A
N/A
Protected

Academic year: 2022

Share "14. 데이터 사이언스2강. 데이터의 수집, 관리, 분석, 보고"

Copied!
6
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

14. 데이터 사이언스

2강. 데이터의 수집, 관리, 분석, 보고

학습내용

- 데이터의 수집, 관리, 분석, 보고

학습목표

- 데이터 수집 등 데이터 사이언스 작업의 흐름을 설명할 수 있다.

1. 데이터의 수집, 관리, 분석, 보고 1) 데이터 사이언스 작업의 흐름

- 데이터 관련 작업의 수행 방법은 분야에 따라 다룰 수 있음 - 데이터 과학자들이 일반적으로 수행하는 6단계 작업 과정

가. 문제 정의

- 명확한 문제 정의와 목표값 설정

- 새로운 구상을 위한 수요자나 의뢰자의 요구 확인 나. 데이터 수집

- 데이터들을 데이터베이스나 웹 사이트로부터 수집 - 각종 매체를 이용한 시장 유용성 조사

- 설정된 목표값에 부합하는 데이터 수집

(2)

다. 데이터 관리

- 데이터를 적절하게 저장 - 데이터를 적절하게 관리 라. 탐색적 분석

- 데이터로부터 패턴을 찾아내고, 탐색적 분석 수행 - 탐색적 분석의 결과를 시각화

마. 최종 분석

- 비즈니스 질문에 대해 최종적으로 데이터 분석 - 정확한 결과를 위해 예측모델을 미세조정하기도 함 바. 보고

- 최종 분석의 결과를 바탕으로 보고문서 작성

- 결과를 팀 구성원이나 의뢰인에게 보고하고 필요한 결정 권고

2) 문제 정의 단계

- 데이터 사이언스의 첫 단계로 중요성이 매우 큼 - 명확하지 않은 문제 정의는 잘못된 결과 초래 → 가정이 틀리면 결론이 의미가 없음

- 추상적인 아이디어를 구체적으로 나타내는 것

- 잘 정의된 문제 정의는 보다 효율적인 워크플로우가 가능 - 문제 정의를 여행에 비유하면 목적지를 정하는 것과 유사

✓ 문제 정의를 위한 목표 설정과 배경 파악 - 질문을 통한 문제 정의 방법

→ 이 워크플로우의 목표는 무엇인가?

→ 구체적으로 무엇을 이루고 싶은가?

→ 문제와 관련된 배경 지식 환경 파악 → 문제를 해결한 기존의 방법들 파악 → 성공적인 수행의 판단 기준 설정

3) 데이터 수집 단계

- 인터넷에서 다양한 출처로부터 대량의 데이터 찾기

(3)

- 인터넷 포털 사이트(네이버, 구글 등) 정보 검색 - 관련 데이터를 충분히 수집, 시장 유연성 조사

- 주요 수집수단으로 인터넷 검색, 인터뷰, 서적, 데이터베이스 등이 있음 - 인터넷 검색은 검증되지 않은 내용도 포함되어 있음을 유의

- 효율적인 데이터 수집을 위한 기초 질문

→ 어떤 데이터가 필요하고 어떤 처리 과정을 거칠 것인가?

→ 누가 얼마 동안 데이터를 수집해야 하는가?

→ 문제를 해결하는 현재의 방법에서 개선점은 무엇인가?

→ 문제의 해결법에서 중요한 요소가 무엇인가?

→ 해결법을 지배하는 경제적 요소는 무엇인가?

4) 데이터 관리 단계

- 수집된 데이터를 적절하게 저장하고 관리 - 체계화 된 데이터는 데이터베이스 형태로 저장

- 다수의 데이터가 섞인 데이터에서는 필요한 데이터만 분리 - 다른 저장 장치에 백업 저장

5) 탐색적 분석 단계

- 데이터로부터 패턴을 찾아내고 탐색적 분석

- 분류나 클러스터링을 통해 데이터의 특정 패턴을 분석 - 전통적 통계 방식 분석, 기계학습 기법 적용

- 다양한 방식의 분석 기법을 적용하여 분석 - 시각화

→ 탐색적 분석 결과를 이해할 수 있게 시각화 → 결과를 눈에 잘 띄도록 그래프나 표로 표현 → 고객에게 결과를 설명하는데 유용

- 시각화 모델과 시각화 도구

→ 시각화 모델 : 길이, 부피, 명암, 색상 등의 특징 표현

→ 시각화 도구 : 막대그래프, 히스토그램 (histogram), 상관관계 등 → 명암이나 색상을 적절하게 이용하여 분포를 시각화

(4)

6) 최종 분석 단계

- 탐색적 분석 단계 과정을 체크 리스트로 최종 점검

- 문제 정의에서 설정한 구체적인 비즈니스적 목표에 부합여부 분석 - 문제 정의에서 기대한 결과가 나오지 않을 경우

→ 예측 모델을 미세 조정 하는 작업 추가

7) 보고 단계

- 최종 분석의 결과를 바탕으로 보고서(시각화 포함) 작성 제출 - 최종 결과를 형식에 맞추어 항목별 기술

- 보고서를 팀 구성원, 의뢰인에 보고하고 필요한 결정 권고

8) 데이터 분석 단계 - 분류와 클러스터링

- 데이터 사이언스에서 기계 학습의 경우 분류, 회귀와 클러스터링에 의한 분석 이 많이 이루어짐

- 지도학습, 비지도 학습으로 나눌 수 있음

- 데이터 사이언스의 분류 방법

→ 분류 : 비슷한 특성을 가진 데이터끼리 묶어서 나누는 것

(5)

→ 데이터 사이언스의 분석 단계에서 중요 역할 → 분류 주요 방법 : Naive Bays 분류기 : 의사결정 트리 : SVM

: K-Nearest Neighbor(KNN) - 데이터 사이언스에서의 분류의 응용

→ 영화나 음식 추천에 대한 개인별 선호 예측 → 문자 인식, 얼굴 인식과 같은 컴퓨터 비전 → 피부암 등 질병의 진단, 유전자 데이터 인식 → 재정적 위험성의 파악과 관리

→ 주식 시장의 예측

- 데이터 사이언스의 클러스터링 방법

→ 클러스터링 : 데이터를 유사도에 따라 비슷한 클러스터들로 나누는 것 → 데이터 사이언스의 분석 단계에서 중요 역할

→ 클러스터링 주요 방법 : K-means 클러스터링 알고리즘 : 퍼지 알고리즘 접합

: C-means 알고리즘 - 데이터 사이언스에서의 클러스터링 응용 → 특정 기준에 따라 그룹을 묶는데 도움

→ 특정 상품에 대한 고객의 성향, 나이, 성별과 같은 기준을 토대로 고객을 묶 을 수 있음

→ 주택의 가치, 형태, 지리적 위치에 따라 그룹을 묶음

→ 지진이 일어난 지역들의 특징을 분석하여 다음 지진이 일어날 가능성을 예측 - 클러스터링을 이용한 데이터 분석

→ 피자 체인점에서 배달 센터 개설 시 : 피자 배달을 자주 주문하는 지역 분석

: 그 도시에서 배달 피자 가게가 몇 개나 가능한지 파악 : 배달할 수 있는 적절한 배달 센터의 위치를 선정

: 그 외에도 응급 병원의 위치 선정 등에서 활용할 수 있음

(6)

평가하기

1. 다음 중 데이터 사이언스 작업의 흐름 중 ‘데이터 수집’ 단계에 해당하지 않는 것은?

① 데이터들을 데이터베이스에서 수집

② 각종 매체를 이용한 시장 유용성 조사

③ 데이터를 적절하게 저장

④ 설정된 목표값에 부합하는 데이터 수집 - 정답 : ③번

해설 : 데이터를 적절하게 저장하고 관리하는 단계는 데이터 관리 단계 2. 다음 중 데이터 사이언스의 분류 방법 중 올바르지 않은 것은?

① Naive Bays 분류기

② K-means

③ SVM

④ KNN - 정답 : ②번

해설 : K-means 알고리즘은 클러스터링 방법에 해당

학습정리

1. 데이터의 수집, 관리, 분석, 보고 - 데이터 사이언스 작업의 흐름

→ 문제 정의 : 명확한 문제 정의와 목표값 설정

→ 데이터 수집 : 데이터들을 웹 사이트, 데이터베이스 등에서 수집 → 데이터 관리 : 데이터를 적절히 저장하고 관리

→ 탐색적 분석 : 데이터로부터 패턴을 찾아내고 분석 수행 → 최종 분석 : 비즈니스 질문에 대해 최종적으로 데이터 분석 → 보고 : 최종 분석의 결과를 바탕으로 문서 작성

- 데이터 분석 단계

→ 분류와 클러스터링에 의한 분석이 많음

참조

관련 문서

연구설계와

제4장

[r]

Based on them, we collected and analyzed the component failure data from TR and daily operation reports and made a data collection rule for the component operating data such

In this study, the point density for each data acquisition condition for UAV LiDAR applications was analyzed.. The data by flight altitude and flight speed were

즉, 임베디드 시스템에 임베디 드 데이터베이스를 설치한 다음 센싱 데이터를 저장 및 관리함으로써 센싱 데이터가 전송될 때마다 게이트웨이 를 통한 호스트와 통신하는 전송횟수를

"Milestones in the history of data visualization: A case study in statistical historiography." Classification—the Ubiquitous Challenge.. 빅데이터

The Characteristics of Dysfluency According to Sentence Types and Syntax Ability of Children Aged 4-5 Years Who Stutter 1).. Myung Sun Shin 1 , Jin Dong Kim 1 , Hyun