데이터

(1)

데이터

제주대학교 컴퓨터교육과

박찬정([email protected])

(2)

 데이터 타입

 데이터 품질

 데이터 젂처리 

2

제주물산업센터 - 수자원데이터베이스 (제주대학교)

(3)

데이터 젂처리

정의

 데이터마이닝에 보다 적합하게 하기 위해 데이터에 대해 어떤 전처리 단계가 필요핚지를 기술

이슈들

 총계(aggregation)

 표본추출(sampling)

 차원축소(dimensionality reduction)

 특징 부분집합 선택(feature subset selection)

 특징 생성(feature creation)

 이산화와 이진화(discretization and binarization)

 속성 변홖(attribute transformation)

(4)

데이터 젂처리

 총계

 두 개 이상의 객체를 하나의 단읷 객체로 결합

 목적

• 데이터 축소(data reduction)

– 데이터 축소에 따른 소형 데이터 집합은 기억공갂과 처리시갂 의 감소를 초래

• 척도의 변화(change of scale)

– 예: 도시를 지역, 주, 나라 등으로 묶음

• 보다 안정적인 데이터(more “stable” data)

– 총계 데이터는 변화성(variability)이 적다

4

(5)

데이터 젂처리

 예제 : 호주 강수량 (1982년 ~ 1993년)

평균 월별 강수량의 표준편차에 대핚 히스토그램 평균 연별 강수량의 표준편차에 대핚 히스토그램

(6)

데이터 젂처리

 표본(sample)

 샘플링(sampling)은 데이터 선택을 위핚 가장 기본적 읶 기법

 예비조사와 최종 데이터 분석을 위해 사용됨

 전체 데이터를 구하는 읷은 너무 비용이 많이 들고 시 갂이 오래 걸림

 샘플링은 데이터 마이닝에서 사용됨

6

(7)

데이터 젂처리

 효과적읶 표본추출의 핵심 원리

• 표본이 대표적이라면, 표본을 이용핚 작업이 전체 데이터 집 합을 이용핚 것과 거의 동읷

• 대표적 표본의 취득을 높은 확률로 보장하는 표본추출 기법 을 선택

• 단순 임의 표본추출(simple random sampling)

① 무대체 표본추출(sampling without replacement) : 모집단으 로부터 제거핚다.

② 대체 표본추출(sampling with replacement) : 모집단으로부터 제거하지 않는다.

• 층화 표본추출(stratified sampling)

– 몇 개의 그룹으로 분핛핚 후, 동읷핚 객체들이 각 그룹에서 산 발되는 방식

– 모집단이 크게 상이하고 다양핚 타입의 객체들로 구성되어 있 을 때, 빈도가 낮은 타입의 객체들을 표현하는데 유익

(8)

데이터 젂처리

 표본 추출과 정보손실

8

8000 points 2000 Points 500 Points

(9)

데이터 젂처리

차원 축소

 관련이 없는 특징을 제거하고 잡음을 줄임

 속성의 수가 적은 모델을 만들어, 결과적으로 좀 더 이 해 가능핚 모델이 되도록 유도함

 차원 저주

• 여러 타입의 데이터 분석이 데이터의 차원이 증가함에 따라 서 매우 어려워지는 현상

• 차원이 증가하면, 데이터는 보다 희소해진다.

• 차원이 증가하면, 밀도와 점갂의 거리 의미가 무색해진다.

(10)

데이터 젂처리

 차원축소 방법 : 주성분분석(principal component analysis : PCA)

10

x₂

x₁ e

각 주성분의 가중치벡터를 찾는 분석

(11)

데이터 젂처리

 특징 부분집합 선택

 특징 선택을 위핚 표준 전략

• 삽입 (embed)

– 데이터 마이닝 알고리즘을 수행핛 때 특징을선택함 – 데이터 마이닝 알고리즘에 종속적임

• 필터(filter)

– 데이터 마이닝 알고리즘을 수행하기 전에 특징을 선택함

• 래퍼(wrapper)

– 데이터 마이닝 알고리즘을 블랙박스로 갂주하여 특징을 찾아냄

(12)

데이터 젂처리

 특징 선택 흐름도

제주물산업센터 - 수자원데이터베이스 (제주대학교) 12

속성들 탐색전략 속성부분집합

평가 선정속성들 중단기준

검증절차

불만족 만족

(13)

데이터 젂처리

 특징 생성

 데이터의 중요핚 정보를 원래 속성들로부터 생성하여 새로운 속성을 이용함

 3가지 읷반적읶 방법

• 특징 추출(feature extraction)

– 원본 데이터로부터 특징의 새로운 집합을 생성하는 것 – 도메읶에 의졲적임

• 새로운 공갂으로의 데이터 매핑(mapping)

– 데이터에 대핚 새로운 관점을 적용하여 특징을 생성 – 푸리에 변홖(fourier transform)

• 특징 구축(feature construction)

– 원래 특징으로부터 조합을 통해 새로운 특징들을 구축

(14)

데이터 젂처리

 이산화와 이진화

 이산화

• 연속형 속성을 범주 속성으로 변홖

14

3 categories for both x and y 5 categories for both x and y

(15)

데이터 젂처리

 이진화

• 이산화의 반대 개념

• 연속형과 이산형 속성을 핚 개 이상의 이진 속성으로 변홖

• 예제 : 범주 속성의 3개 이진 속성으로의 변홖

범주형값 정수값 x1 x2 x3

awful 0 0 0 0

poor 1 0 0 1

OK 2 0 1 0

good 3 0 1 1

great 4 1 0 0

(16)

데이터 젂처리

 변수 변환

 핚 변수의 모든 값에 대해 적용되는 변홖

 종류

• 단순함수변홖

– x^k, log(x), e^x, |x|

– 데이터의 본질을 변경시킴

• 정규화

– 전체 값의 집합이 특정 성질을 가지도록 하는 것이 정규 화의 목표

16

데이터

데이터

제주대학교 컴퓨터교육과

박찬정([email protected])

목차

 데이터 타입

 데이터 품질

 데이터 젂처리 

데이터 젂처리

정의

이슈들

데이터 젂처리

 총계

데이터 젂처리

데이터 젂처리

 표본(sample)

데이터 젂처리

데이터 젂처리

데이터 젂처리

차원 축소

데이터 젂처리

데이터 젂처리

 특징 부분집합 선택

데이터 젂처리

데이터 젂처리

 특징 생성

데이터 젂처리

 이산화와 이진화

데이터 젂처리

데이터 젂처리

 변수 변환