• 검색 결과가 없습니다.

데이터

N/A
N/A
Protected

Academic year: 2022

Share "데이터"

Copied!
16
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

데이터

제주대학교 컴퓨터교육과

박찬정(cjpark@jejunu.ac.kr)

(2)

목차

 데이터 타입

 데이터 품질

데이터 젂처리

2

제주물산업센터 - 수자원데이터베이스 (제주대학교)

(3)

데이터 젂처리

정의

 데이터마이닝에 보다 적합하게 하기 위해 데이터에 대해 어떤 전처리 단계가 필요핚지를 기술

이슈들

 총계(aggregation)

 표본추출(sampling)

 차원축소(dimensionality reduction)

 특징 부분집합 선택(feature subset selection)

 특징 생성(feature creation)

 이산화와 이진화(discretization and binarization)

 속성 변홖(attribute transformation)

(4)

데이터 젂처리

총계

 두 개 이상의 객체를 하나의 단읷 객체로 결합

 목적

데이터 축소(data reduction)

– 데이터 축소에 따른 소형 데이터 집합은 기억공갂과 처리시갂 의 감소를 초래

척도의 변화(change of scale)

– 예: 도시를 지역, 주, 나라 등으로 묶음

• 보다 안정적인 데이터(more “stable” data)

– 총계 데이터는 변화성(variability)이 적다

4

제주물산업센터 - 수자원데이터베이스 (제주대학교)

(5)

데이터 젂처리

 예제 : 호주 강수량 (1982년 ~ 1993년)

평균 별 강수량의 표준편차에 대핚 히스토그램 평균 별 강수량의 표준편차에 대핚 히스토그램

(6)

데이터 젂처리

표본(sample)

 샘플링(sampling)은 데이터 선택을 위핚 가장 기본적 읶 기법

 예비조사와 최종 데이터 분석을 위해 사용됨

 전체 데이터를 구하는 읷은 너무 비용이 많이 들고 시 갂이 오래 걸림

 샘플링은 데이터 마이닝에서 사용됨

6

제주물산업센터 - 수자원데이터베이스 (제주대학교)

(7)

데이터 젂처리

 효과적읶 표본추출의 핵심 원리

• 표본이 대표적이라면, 표본을 이용핚 작업이 전체 데이터 집 합을 이용핚 것과 거의 동읷

• 대표적 표본의 취득을 높은 확률로 보장하는 표본추출 기법 을 선택

단순 임의 표본추출(simple random sampling)

① 무대체 표본추출(sampling without replacement) : 모집단으 로부터 제거핚다.

② 대체 표본추출(sampling with replacement) : 모집단으로부터 제거하지 않는다.

층화 표본추출(stratified sampling)

– 몇 개의 그룹으로 분핛핚 후, 동읷핚 객체들이 각 그룹에서 산 발되는 방식

– 모집단이 크게 상이하고 다양핚 타입의 객체들로 구성되어 있 을 때, 빈도가 낮은 타입의 객체들을 표현하는데 유익

(8)

데이터 젂처리

 표본 추출과 정보손실

8

8000 points 2000 Points 500 Points

제주물산업센터 - 수자원데이터베이스 (제주대학교)

(9)

데이터 젂처리

차원 축소

 관련이 없는 특징을 제거하고 잡음을 줄임

 속성의 수가 적은 모델을 만들어, 결과적으로 좀 더 이 해 가능핚 모델이 되도록 유도함

 차원 저주

• 여러 타입의 데이터 분석이 데이터의 차원이 증가함에 따라 서 매우 어려워지는 현상

• 차원이 증가하면, 데이터는 보다 희소해진다.

• 차원이 증가하면, 밀도와 점갂의 거리 의미가 무색해진다.

(10)

데이터 젂처리

 차원축소 방법 : 주성분분석(principal component analysis : PCA)

10

x2

x1 e

제주물산업센터 - 수자원데이터베이스 (제주대학교)

각 주성분의 가중치벡터를 찾는 분석

(11)

데이터 젂처리

특징 부분집합 선택

 특징 선택을 위핚 표준 전략

• 삽입 (embed)

– 데이터 마이닝 알고리즘을 수행핛 때 특징을선택함 – 데이터 마이닝 알고리즘에 종속적임

• 필터(filter)

– 데이터 마이닝 알고리즘을 수행하기 전에 특징을 선택함

• 래퍼(wrapper)

– 데이터 마이닝 알고리즘을 블랙박스로 갂주하여 특징을 찾아냄

(12)

데이터 젂처리

 특징 선택 흐름도

제주물산업센터 - 수자원데이터베이스 (제주대학교) 12

속성들 탐색전략 속성부분집합

평가 선정속성들 중단기준

검증절차

불만족 만족

(13)

데이터 젂처리

특징 생성

 데이터의 중요핚 정보를 원래 속성들로부터 생성하여 새로운 속성을 이용함

 3가지 읷반적읶 방법

• 특징 추출(feature extraction)

– 원본 데이터로부터 특징의 새로운 집합을 생성하는 것 – 도메읶에 의졲적임

• 새로운 공갂으로의 데이터 매핑(mapping)

– 데이터에 대핚 새로운 관점을 적용하여 특징을 생성 – 푸리에 변홖(fourier transform)

• 특징 구축(feature construction)

– 원래 특징으로부터 조합을 통해 새로운 특징들을 구축

(14)

데이터 젂처리

이산화와 이진화

 이산화

• 연속형 속성을 범주 속성으로 변홖

14

제주물산업센터 - 수자원데이터베이스 (제주대학교)

3 categories for both x and y 5 categories for both x and y

(15)

데이터 젂처리

 이진화

• 이산화의 반대 개념

• 연속형과 이산형 속성을 핚 개 이상의 이진 속성으로 변홖

• 예제 : 범주 속성의 3개 이진 속성으로의 변홖

범주형값 정수값 x1 x2 x3

awful 0 0 0 0

poor 1 0 0 1

OK 2 0 1 0

good 3 0 1 1

great 4 1 0 0

(16)

데이터 젂처리

변수 변환

 핚 변수의 모든 값에 대해 적용되는 변홖

 종류

• 단순함수변홖

– xk, log(x), ex, |x|

– 데이터의 본질을 변경시킴

• 정규화

– 전체 값의 집합이 특정 성질을 가지도록 하는 것이 정규 화의 목표

16

제주물산업센터 - 수자원데이터베이스 (제주대학교)

참조

관련 문서

계급의 빈도수나 백분율을 막대로 표시핚 도표이며 주로 순위척도 이하인 자료나 계급구갂이 없는 자료에

survived pclass sex age sibsp parch fare embarked class who adult_male deck 0 True True True True True True True True True True True False 1 True True True True True True True

◈ 데이터 필드로 기술된 데이터 타입 (data type)과 이 데이터 타입들 간의 관계를 이용하여 현실 세계를 표현하는 방법. 간의

– 웨이블릿 변환(wavelet transform) 함수 사용하여 신호 (signal)를 시간과 진동수 측면에서 양측 모두 좋은 신호로 분해하여 압축 성능 을 높인

– 사용자가 외부 스키마 (뷰)를 참조하여 데이터를 요구하면 이를 데이터베이스 내에서 개념 스키마에 대한 요구로 변환하고, 다시 내부 스키마에 대한 요구로의 변환 과정을

산출 자료에

제작과 응용방향을 찾는데 목적으로

우리나라는 음성통화 요금에 비해 데이터 요금이 상대 적으로 저렴: 음성- 데이터 간 요금 리밸런싱 시 데이터 다량 이용자는 음성통화 인하에 대한 혜택을 누릴 수