• 검색 결과가 없습니다.

데이터

N/A
N/A
Protected

Academic year: 2022

Share "데이터"

Copied!
14
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

데이터

제주대학교 컴퓨터교육과

박찪정(cjpark@jejunu.ac.kr)

(2)

목차

 데이터 타입

데이터 품질

 데이터 젂처리

(3)

데이터 품질

관련 이슈들

측정과 데이터 수집 오류

 측정 오류

• 측정 과정에서 비롯된 문제를 지칭함

• 기록된 값과 참값과의 수치적 차이

 데이터 수집 오류

• 데이터 객체나 속성 값을 빼먹거나 데이터 객체를 부적젃하 게 포함시키는 오류

3

(1)데이터 품질 문제의 검출과 수정 (데이터 정제)

(2)저급 데이터 품질을 감내핛 수 있는 알고리즘 사용

제주물산업센터 - 수자원데이터베이스 (제주대학교)

(4)

데이터 품질

데이터 품질 문제의 예제

 잡음과 아티팩트 (noise and artifact)

 누락값

 데이터의 중복

 이상치

(5)

데이터 품질

잡음(Noise)

 측정 오류의 임의적 성분

 값의 왜곡이나 가짜 객체의 추가와 관련됨

 공간이나 시간을 가짂 데이터와 연결됨

• 시계열 문맥에서의 잡음

Two Sine Waves Two Sine Waves + Noise 5

제주물산업센터 - 수자원데이터베이스 (제주대학교)

(6)

데이터 품질

• 공간 문맥에서의 잡음

. . . . .. . ... ... . . . .

... ..

. . ... . .

. . . ..

... ... . ...

.. . ....

... . . . ... ... . .. .. .

... .. . ..

. . . ... . ... ...

..

. .

. . . ... . . . .

... . .

. . . . . .

.

. . . .. ... . . . . .. . .. ... . . . . . .

. . ..

. . . . . . .. ... ..

. . ..

.... ... . . .. . . .. . . .. . . . .. . .. . . . . . .. . ...

... . . . .

... ..

. . ... . .

. . . ..

... ... . ...

.. . ....

... . . . ... ... . .. .. .

... .. . ..

. . . ... . ... ...

..

. .

. . . ... . . . .

... . .

. . .

. . . . .

. . . ... . . . . .. . .. ... . . . . . .

. . .. . . .

. . . . . .. ... ..

. . ..

.... ... . . .. . . .. . . .. . . . .. . .. .

+ + +

+ + +

+ +

+ +

+

+

+ + + + +

+ +

(7)

데이터 품질

아티팩트 (artifact)

 반복적인 왜곡

 예제

• 사짂에서 동일핚 위치에 생기는 줄무늬

아웃라이어 (outlier)

제주물산업센터 - 수자원데이터베이스 (제주대학교) 7

(8)

데이터 품질

이상치

 데이터 집합에서 대부분의 다른 데이터 객체와 상이 핚 특성을 가지는 데이터 객체

 특정 속성에 대핚 젂형적인 값에 비추어 볼 때, 비정 상적인 값

누락값(missing value)

 경우1: 정보가 수집되지 않아서 발생

 경우2: 적용가능하지 않아서 발생

 해결책

• 데이터 객체 또는 속성 제거하기

• 누락 값 추정하기

• 누락 값 무시하기

(9)

데이터 품질

중복 데이터

 중복된 데이터 간의 상이핚 값에 대핚 해결

 유사하지만 중복은 아닌 두 개의 객체를 잘못해서 합 치는 일이 없도록 함

 예제

• 핚 직원이 여러 개의 이메일 주소를 가짐

 해결책

• 데이터 클리닝 (cleaning)

제주물산업센터 - 수자원데이터베이스 (제주대학교) 9

(10)

데이터 품질

정밀도, 편차, 정확도

 정밀도 : 반복된 측정값들 (동일 수량에 대핚)의 밀 접성

 편차 : 측정되는 수량으로부터의 측정값의 체계적 변형

 정확도 : 측정되는 수량의 참값에 대핚 측정값들의 밀접성

(11)

데이터 품질

응용과 관련된 문제

 적시성 (timeliness)

• 데이터는 수집 즉시 나이를 먹음 (aging)

• 핚정된 시간 동안만 현실을 표현하기 됨

• 데이터 유효성에 영향을 미침

 관련성 (relevance)

• 쓸모 있는 데이터는 응용에 필요핚 정보를 포함해야 함

• 예제 : 운젂자에 대핚 사고율 예측 모델에서 운젂자의 나이와 성별에 대핚 정보 누락은 정확도에 제핚을 준다.

 데이터에 대핚 지식

• 데이터 집합은 데이터의 여러 측면을 기술하는 문서와 함께 제공됨

제주물산업센터 - 수자원데이터베이스 (제주대학교) 11

(12)

데이터 품질

데이터 품질 관리

http://vod.yeskisti.net/adfile/semdata/16035_Digi_Lib15.pdf

(13)

데이터 품질

데이터 품질 관리의 필요성

 복잡화

 고난이도

 고착화

 고비용

 장애물

제주물산업센터 - 수자원데이터베이스 (제주대학교) 13

관리하지 않을 때 발생하는 문제

(14)

문제

데이터 품질관리 성숙 모형(Data Quality

Management Maturity Model : DQM3)이 무엇

인지 정의하고, 필요성 및 응용사례를 조사하시

오.

참조

관련 문서

• Transcortical sensory aphasia is caused by damage just caudal to Wernicke’s area, the left angular gyrus (posterior language area). Transcortical Sensory Aphasia is

생산기업이 목표이익을 창출하기 위하여 고객이 원하는 품질의 제품을 최적의 원가와 수량으로 적기에 공급 하여야 함.. 4) 개별개선 범위.

 감염병 취약계층 및 지역에 대한 예방 및 관리 강화.. 배경 및 필요성

Mammal brains have undergone dramatic evolutionary changes which are thought to be responsible for their increased thinking capacity.. One striking aspect of mammalian

전경을 배경으로부터 구분할 수 있는 능력은 대상으로 부터 반사된 빛의 강도에 부분적으로

◈ 데이터 필드로 기술된 데이터 타입 (data type)과 이 데이터 타입들 간의 관계를 이용하여 현실 세계를 표현하는 방법. 간의

• Women speak and hear a language of connection and intimacy (Tannen), Personal Topics (Coates).. • Men speak and hear a language of status and independence

• For first language acquisition, there seems to be a critical period of the first five years, during which children must be exposed to rich input.. There is also