14. 데이터 사이언스
2강. 데이터의 수집, 관리, 분석, 보고
학습내용
- 데이터의 수집, 관리, 분석, 보고
학습목표
- 데이터 수집 등 데이터 사이언스 작업의 흐름을 설명할 수 있다.
1. 데이터의 수집, 관리, 분석, 보고 1) 데이터 사이언스 작업의 흐름
- 데이터 관련 작업의 수행 방법은 분야에 따라 다룰 수 있음 - 데이터 과학자들이 일반적으로 수행하는 6단계 작업 과정
가. 문제 정의
- 명확한 문제 정의와 목표값 설정
- 새로운 구상을 위한 수요자나 의뢰자의 요구 확인 나. 데이터 수집
- 데이터들을 데이터베이스나 웹 사이트로부터 수집 - 각종 매체를 이용한 시장 유용성 조사
- 설정된 목표값에 부합하는 데이터 수집
다. 데이터 관리
- 데이터를 적절하게 저장 - 데이터를 적절하게 관리 라. 탐색적 분석
- 데이터로부터 패턴을 찾아내고, 탐색적 분석 수행 - 탐색적 분석의 결과를 시각화
마. 최종 분석
- 비즈니스 질문에 대해 최종적으로 데이터 분석 - 정확한 결과를 위해 예측모델을 미세조정하기도 함 바. 보고
- 최종 분석의 결과를 바탕으로 보고문서 작성
- 결과를 팀 구성원이나 의뢰인에게 보고하고 필요한 결정 권고
2) 문제 정의 단계
- 데이터 사이언스의 첫 단계로 중요성이 매우 큼 - 명확하지 않은 문제 정의는 잘못된 결과 초래 → 가정이 틀리면 결론이 의미가 없음
- 추상적인 아이디어를 구체적으로 나타내는 것
- 잘 정의된 문제 정의는 보다 효율적인 워크플로우가 가능 - 문제 정의를 여행에 비유하면 목적지를 정하는 것과 유사
✓ 문제 정의를 위한 목표 설정과 배경 파악 - 질문을 통한 문제 정의 방법
→ 이 워크플로우의 목표는 무엇인가?
→ 구체적으로 무엇을 이루고 싶은가?
→ 문제와 관련된 배경 지식 환경 파악 → 문제를 해결한 기존의 방법들 파악 → 성공적인 수행의 판단 기준 설정
3) 데이터 수집 단계
- 인터넷에서 다양한 출처로부터 대량의 데이터 찾기
- 인터넷 포털 사이트(네이버, 구글 등) 정보 검색 - 관련 데이터를 충분히 수집, 시장 유연성 조사
- 주요 수집수단으로 인터넷 검색, 인터뷰, 서적, 데이터베이스 등이 있음 - 인터넷 검색은 검증되지 않은 내용도 포함되어 있음을 유의
- 효율적인 데이터 수집을 위한 기초 질문
→ 어떤 데이터가 필요하고 어떤 처리 과정을 거칠 것인가?
→ 누가 얼마 동안 데이터를 수집해야 하는가?
→ 문제를 해결하는 현재의 방법에서 개선점은 무엇인가?
→ 문제의 해결법에서 중요한 요소가 무엇인가?
→ 해결법을 지배하는 경제적 요소는 무엇인가?
4) 데이터 관리 단계
- 수집된 데이터를 적절하게 저장하고 관리 - 체계화 된 데이터는 데이터베이스 형태로 저장
- 다수의 데이터가 섞인 데이터에서는 필요한 데이터만 분리 - 다른 저장 장치에 백업 저장
5) 탐색적 분석 단계
- 데이터로부터 패턴을 찾아내고 탐색적 분석
- 분류나 클러스터링을 통해 데이터의 특정 패턴을 분석 - 전통적 통계 방식 분석, 기계학습 기법 적용
- 다양한 방식의 분석 기법을 적용하여 분석 - 시각화
→ 탐색적 분석 결과를 이해할 수 있게 시각화 → 결과를 눈에 잘 띄도록 그래프나 표로 표현 → 고객에게 결과를 설명하는데 유용
- 시각화 모델과 시각화 도구
→ 시각화 모델 : 길이, 부피, 명암, 색상 등의 특징 표현
→ 시각화 도구 : 막대그래프, 히스토그램 (histogram), 상관관계 등 → 명암이나 색상을 적절하게 이용하여 분포를 시각화
6) 최종 분석 단계
- 탐색적 분석 단계 과정을 체크 리스트로 최종 점검
- 문제 정의에서 설정한 구체적인 비즈니스적 목표에 부합여부 분석 - 문제 정의에서 기대한 결과가 나오지 않을 경우
→ 예측 모델을 미세 조정 하는 작업 추가
7) 보고 단계
- 최종 분석의 결과를 바탕으로 보고서(시각화 포함) 작성 제출 - 최종 결과를 형식에 맞추어 항목별 기술
- 보고서를 팀 구성원, 의뢰인에 보고하고 필요한 결정 권고
8) 데이터 분석 단계 - 분류와 클러스터링
- 데이터 사이언스에서 기계 학습의 경우 분류, 회귀와 클러스터링에 의한 분석 이 많이 이루어짐
- 지도학습, 비지도 학습으로 나눌 수 있음
- 데이터 사이언스의 분류 방법
→ 분류 : 비슷한 특성을 가진 데이터끼리 묶어서 나누는 것
→ 데이터 사이언스의 분석 단계에서 중요 역할 → 분류 주요 방법 : Naive Bays 분류기 : 의사결정 트리 : SVM
: K-Nearest Neighbor(KNN) - 데이터 사이언스에서의 분류의 응용
→ 영화나 음식 추천에 대한 개인별 선호 예측 → 문자 인식, 얼굴 인식과 같은 컴퓨터 비전 → 피부암 등 질병의 진단, 유전자 데이터 인식 → 재정적 위험성의 파악과 관리
→ 주식 시장의 예측
- 데이터 사이언스의 클러스터링 방법
→ 클러스터링 : 데이터를 유사도에 따라 비슷한 클러스터들로 나누는 것 → 데이터 사이언스의 분석 단계에서 중요 역할
→ 클러스터링 주요 방법 : K-means 클러스터링 알고리즘 : 퍼지 알고리즘 접합
: C-means 알고리즘 - 데이터 사이언스에서의 클러스터링 응용 → 특정 기준에 따라 그룹을 묶는데 도움
→ 특정 상품에 대한 고객의 성향, 나이, 성별과 같은 기준을 토대로 고객을 묶 을 수 있음
→ 주택의 가치, 형태, 지리적 위치에 따라 그룹을 묶음
→ 지진이 일어난 지역들의 특징을 분석하여 다음 지진이 일어날 가능성을 예측 - 클러스터링을 이용한 데이터 분석
→ 피자 체인점에서 배달 센터 개설 시 : 피자 배달을 자주 주문하는 지역 분석
: 그 도시에서 배달 피자 가게가 몇 개나 가능한지 파악 : 배달할 수 있는 적절한 배달 센터의 위치를 선정
: 그 외에도 응급 병원의 위치 선정 등에서 활용할 수 있음
평가하기
1. 다음 중 데이터 사이언스 작업의 흐름 중 ‘데이터 수집’ 단계에 해당하지 않는 것은?
① 데이터들을 데이터베이스에서 수집
② 각종 매체를 이용한 시장 유용성 조사
③ 데이터를 적절하게 저장
④ 설정된 목표값에 부합하는 데이터 수집 - 정답 : ③번
해설 : 데이터를 적절하게 저장하고 관리하는 단계는 데이터 관리 단계 2. 다음 중 데이터 사이언스의 분류 방법 중 올바르지 않은 것은?
① Naive Bays 분류기
② K-means
③ SVM
④ KNN - 정답 : ②번
해설 : K-means 알고리즘은 클러스터링 방법에 해당
학습정리
1. 데이터의 수집, 관리, 분석, 보고 - 데이터 사이언스 작업의 흐름
→ 문제 정의 : 명확한 문제 정의와 목표값 설정
→ 데이터 수집 : 데이터들을 웹 사이트, 데이터베이스 등에서 수집 → 데이터 관리 : 데이터를 적절히 저장하고 관리
→ 탐색적 분석 : 데이터로부터 패턴을 찾아내고 분석 수행 → 최종 분석 : 비즈니스 질문에 대해 최종적으로 데이터 분석 → 보고 : 최종 분석의 결과를 바탕으로 문서 작성
- 데이터 분석 단계
→ 분류와 클러스터링에 의한 분석이 많음