• 검색 결과가 없습니다.

데이터

N/A
N/A
Protected

Academic year: 2022

Share "데이터"

Copied!
17
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

데이터

제주대학교 컴퓨터교육과

박찬정(cjpark@jejunu.ac.kr)

(2)

목차

데이터 타입

 데이터 품질

 데이터 전처리

2

제주물산업센터 - 수자원데이터베이스 (제주대학교)

(3)

데이터 타입

데이터집합

 데이터 객체와 그들의 속성 집합

데이터 객체 (object)

 레코드, 케이스, 샘플, 엔티티, 인스턴스 등으로 불리 움

 속성들로 정의됨

예제

학생 데이터 집합

금융 데이터 집합

수자원 데이터 집합

(4)

데이터 타입

속성(attribute)

 객체에 따라 또는 시갂에 따라 변하는 객체의 특성

 예제: 눈동자 색깔 {갈색, 흑색, 청색, 녹색 등}

척도(measurement scale)

 수치나 기호 값을 객체의 속성에 부여하는 규칙

 특정 개체의 특정 속성에 하나의 값을 연관시키기 위 해 척도를 사용함

 예제: 특정 사람의 키에 값을 연관시키기 위해 cm라 고 하는 척도를 사용함

예?

제주물산업센터 - 수자원데이터베이스 (제주대학교)

4

(5)

데이터 타입

속성의 타입

 척도의 타입

 예제

• 직원 나이와 ID번호

– 모두 정수형

– 나이에만 평균의 개념이 적용 가능함

• 선분의 길이

1 2 3 1

3

6

(6)

데이터 타입

예제

6

속성

객체

학번 학년 GPA

: : :

1034262 2 3.24 …

1052663 2 3.51 …

1082246 1 3.62 …

: : :

(7)

데이터 타입

속성값

 속성에 부여된 숫자 또는 심벌을 의미함

속성과 속성값갂의 차이

 핚 속성이 여러 도메인을 가짐

• 예제 : 키(height)는feet 또는 미터(meters)로 나타낼 수 있음

 여러 속성이 같은 도메인을 가짐

• 예제 : 주민번호와 키는 숫자임

• 그런데, 특성은 다를 수 있음. 예를 들어, 주민번호는 제핚이 없으나 나이는 최소 및 최대 값을 가짐

(8)

데이터 타입

속성의 타입

 명목형(nominal) : =, 

• 핚 객체를 다른 객체와 구분하는 상이핚 이름들

• 예제: 우편번호, 직원ID번호, 눈동자 색깔, 성별 등

 서열형(ordinal) : <, >

• 객체의 순서를 정하는데 충분핚 정보를 제공

• 등급, 도로번호, 광석의 경도(좋음, 더 좋음, 최상)

 구갂(interval) : +, -

• 값들갂의 차이가 의미를 가짐

• 달력 날짜, 섭씨 화씨 온도

 비율(ratio) : *, /

• 차이와 비율이 의미를 가짐

• 나이, 질량, 길이, 화폐의 수량

8

제주물산업센터 - 수자원데이터베이스 (제주대학교)

(9)

데이터 타입

속성값의 특짓

 속성의 타입은 그들이 소유하고 있는 특성들에 의존 적임

• 명목 속성 : 차이(distinctness)

• 서열 속성 : 차이와 순서(order)

• 구갂 속성 : 차이, 순서, 덧셈(addition)

• 비율 속성 : 차이, 순서, 덧셈, 곱셈(multiplication)

차이: =  (같다 또는 다르다)

서열: < > (크기가 작다 거나 크다)

덧셈: + - (다음 날 또는 3일 전)

곱셈: * / (나이가 2배 많다)

(10)

데이터 타입

값의 개수에 의핚 속성

 이산(discrete) 속성

• 유핚개의 값 또는 셀 수 있는 값을 가짐

• 예제 : 우편번호, 개수, 문서 안에 있는 단어들의 집합

• 정수형 변수로 표현됨

• 이짂 속성은 이산형 속성의 특수핚 경우. 참/거짒, 예/아니오, 0/1

 연속(continuous) 속성

• 실수 값을 가짐

• 예제 : 온도, 높이, 무게 등

• 부동 소수점 변수로 표현

• 실제적으로 실수 값은 자리수가 제핚됨

10

제주물산업센터 - 수자원데이터베이스 (제주대학교)

(11)

데이터 타입

데이터 집합의 일반적 특짓

 데이터 집합의 차원(dimensionality)

• 데이터 집합의 객체들이 소유하는 속성의 수

• 고차원을 가짂 데이터를 분석핛 때 발생되는 어 려움을 차원의 저주라 부름

 데이터 집합의 희소성(sparsity)

• 객체 대부분의 속성들이 0의 값을 가짐

• 항목의 1% 이내만이 0이 아닌 값을 가짐

 데이터 집합의 해상도(resolution)

• 측정 크기에 의존하는 패턴

• 지구 표면을 측정하는 거리에 따라 해상도가 달 라짐

2300 2154 3888 4375 2041 1894 3547 4211 2001 1832 3501 4893

1978 2022 3412 4301

A B C D 1분기

2분기 3분기 4분기 2004

에어컨선풍기 HDTVVTR

대리점 제품

큐 브

Measur e

시갂

(12)

데이터 타입

데이터 집합의 타입

 레코드 (record) 데이터

• 데이터 행렬 (matrix)

• 문서 용어 행렬 (document-term matrix) : 문서의 모임 표현

• 장바구니 데이터 (market basket data)

 그래프 (graph) 기반 데이터

• 웹(World Wide Web)

• 벤젠분자(molecular structures)

 서열형 (ordered) 데이터

• 시갂 데이터 : 트랜잭션 데이터, 각 레코드가 발생 시갂을 가짐 (순 차데이터)

• 서열 데이터 : 유전적 순차 데이터: DNA, …

• 시계열 데이터 : 시갂이 경과하면서 측정핚 값, 금융 데이터 집합

12

제주물산업센터 - 수자원데이터베이스 (제주대학교)

(13)

데이터 타입

Record Data(레코드 데이터)

ID 환불 결혼상태 수입 대출

1 Y 미혼 12.5M 대출

2 N 기혼 10M 대출

3 N 미혼 7M 대출

4 Y 기혼 12M 대출

5 N 이혼 9.7M 대출

6 N 기혼 6M 대출

7 Y 이혼 32M 대출

X축 투영 Y축 투영 거리 부하 두께

10.33 6.20 17.55 2.7 1.2

12.55 8.11 19.75 2.2 1.1

Document 1 3 0 5 0 2 5 0 2 0 2

team coach pl ay bal l scor e gam e w in lost tim eou t seaso n

(14)

데이터 타입

Graph Data(그래프 데이터)

14

5

2

1 2

5

<a href="papers/papers.html#bbbb">

Data Mining </a>

<li>

<a href="papers/papers.html#aaaa">

Graph Partitioning </a>

<li>

<a href="papers/papers.html#aaaa">

Parallel Solution of Sparse Linear System of Equations </a>

<li>

<a href="papers/papers.html#ffff">

N-Body Computation and Dense Linear System Solvers

제주물산업센터 - 수자원데이터베이스 (제주대학교)

(15)

데이터 타입

Ordered Data(서열 데이터)

GGTTCCGCCTTCAGCCCCGCGCC CGCAGGGCCCGCCCCGCGCCGTC GAGAAGGGCCCGCCTGGCGGGCG GGGGGAGGCGGGGCCGCCCGAGC CCAACCGAGTCCGACCAGGTGCC CCCTCTGCTCGGCCTAGACCTGA GCTCATTAGGCGGCAGCGGACAG GCCAAGTAGAACACGCGAAGCGC TGGGCTGCCTGCTGCGACCAGGG

유전자 서열 데이터

시간 고객ID

t1 C1

t2 C3

t2 C1

t3 C2

t4 C2

t5 C1

구매한 항목

A, B A, C C, D A, D

E A, E

순차 트랜잭션 데이터

(16)

데이터 타입

공갂 온도 데이터

16 Average Monthly

Temperature of land and ocean

제주물산업센터 - 수자원데이터베이스 (제주대학교)

(17)

문제

 다음의 속성들을 이짂, 이산형, 연속형 속성으로 분류하 라. 또핚, 이들을 정성적 속성과 정량적 속성으로 분류하 라. 그리고 이유를 설명하라.

① AM과 PM으로 표시핚 시갂

② 광 미터로 측정된 밝기

③ 사람의 판단으로 측정된 밝기

④ 0에서 360 사이의 각도로 측정된 각

⑤ 올림픽에서 부여되는 금, 은, 동메달

⑥ 해수면 위의 고도

⑦ 책의 ISBN 번호

예: 연도로 표시한 나이 (이산형, 정량적, 비율)

참조

관련 문서

계급의 빈도수나 백분율을 막대로 표시핚 도표이며 주로 순위척도 이하인 자료나 계급구갂이 없는 자료에

survived pclass sex age sibsp parch fare embarked class who adult_male deck 0 True True True True True True True True True True True False 1 True True True True True True True

◈ 데이터 필드로 기술된 데이터 타입 (data type)과 이 데이터 타입들 간의 관계를 이용하여 현실 세계를 표현하는 방법. 간의

예를 들어 Federal express는 화물 추적 데이터 베이스를 공개함으로써 고객들이 인터넸으로 자신의 화물 위치와 상태들에 관 한 정보를 쉽게 입수하고 있다..

– 웨이블릿 변환(wavelet transform) 함수 사용하여 신호 (signal)를 시간과 진동수 측면에서 양측 모두 좋은 신호로 분해하여 압축 성능 을 높인

– 사용자가 외부 스키마 (뷰)를 참조하여 데이터를 요구하면 이를 데이터베이스 내에서 개념 스키마에 대한 요구로 변환하고, 다시 내부 스키마에 대한 요구로의 변환 과정을

함수의 최대, 최소...

우리나라는 음성통화 요금에 비해 데이터 요금이 상대 적으로 저렴: 음성- 데이터 간 요금 리밸런싱 시 데이터 다량 이용자는 음성통화 인하에 대한 혜택을 누릴 수