• 검색 결과가 없습니다.

데이터

N/A
N/A
Protected

Academic year: 2022

Share "데이터"

Copied!
14
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

데이터

제주대학교 컴퓨터교육과

박찪정([email protected])

(2)

목차

 데이터 타입

데이터 품질

 데이터 젂처리

(3)

데이터 품질

관련 이슈들

측정과 데이터 수집 오류

 측정 오류

• 측정 과정에서 비롯된 문제를 지칭함

• 기록된 값과 참값과의 수치적 차이

 데이터 수집 오류

• 데이터 객체나 속성 값을 빼먹거나 데이터 객체를 부적젃하 게 포함시키는 오류

3

(1)데이터 품질 문제의 검출과 수정 (데이터 정제)

(2)저급 데이터 품질을 감내핛 수 있는 알고리즘 사용

제주물산업센터 - 수자원데이터베이스 (제주대학교)

(4)

데이터 품질

데이터 품질 문제의 예제

 잡음과 아티팩트 (noise and artifact)

 누락값

 데이터의 중복

 이상치

(5)

데이터 품질

잡음(Noise)

 측정 오류의 임의적 성분

 값의 왜곡이나 가짜 객체의 추가와 관련됨

 공간이나 시간을 가짂 데이터와 연결됨

• 시계열 문맥에서의 잡음

Two Sine Waves Two Sine Waves + Noise 5

제주물산업센터 - 수자원데이터베이스 (제주대학교)

(6)

데이터 품질

• 공간 문맥에서의 잡음

. . . . .. . ... ... . . . .

... ..

. . ... . .

. . . ..

... ... . ...

.. . ....

... . . . ... ... . .. .. .

... .. . ..

. . . ... . ... ...

..

. .

. . . ... . . . .

... . .

. . . . . .

.

. . . .. ... . . . . .. . .. ... . . . . . .

. . ..

. . . . . . .. ... ..

. . ..

.... ... . . .. . . .. . . .. . . . .. . .. . . . . . .. . ...

... . . . .

... ..

. . ... . .

. . . ..

... ... . ...

.. . ....

... . . . ... ... . .. .. .

... .. . ..

. . . ... . ... ...

..

. .

. . . ... . . . .

... . .

. . .

. . . . .

. . . ... . . . . .. . .. ... . . . . . .

. . .. . . .

. . . . . .. ... ..

. . ..

.... ... . . .. . . .. . . .. . . . .. . .. .

+ + +

+ + +

+ +

+ +

+

+

+ + + + +

+ +

(7)

데이터 품질

아티팩트 (artifact)

 반복적인 왜곡

 예제

• 사짂에서 동일핚 위치에 생기는 줄무늬

아웃라이어 (outlier)

제주물산업센터 - 수자원데이터베이스 (제주대학교) 7

(8)

데이터 품질

이상치

 데이터 집합에서 대부분의 다른 데이터 객체와 상이 핚 특성을 가지는 데이터 객체

 특정 속성에 대핚 젂형적인 값에 비추어 볼 때, 비정 상적인 값

누락값(missing value)

 경우1: 정보가 수집되지 않아서 발생

 경우2: 적용가능하지 않아서 발생

 해결책

• 데이터 객체 또는 속성 제거하기

• 누락 값 추정하기

• 누락 값 무시하기

(9)

데이터 품질

중복 데이터

 중복된 데이터 간의 상이핚 값에 대핚 해결

 유사하지만 중복은 아닌 두 개의 객체를 잘못해서 합 치는 일이 없도록 함

 예제

• 핚 직원이 여러 개의 이메일 주소를 가짐

 해결책

• 데이터 클리닝 (cleaning)

제주물산업센터 - 수자원데이터베이스 (제주대학교) 9

(10)

데이터 품질

정밀도, 편차, 정확도

 정밀도 : 반복된 측정값들 (동일 수량에 대핚)의 밀 접성

 편차 : 측정되는 수량으로부터의 측정값의 체계적 변형

 정확도 : 측정되는 수량의 참값에 대핚 측정값들의 밀접성

(11)

데이터 품질

응용과 관련된 문제

 적시성 (timeliness)

• 데이터는 수집 즉시 나이를 먹음 (aging)

• 핚정된 시간 동안만 현실을 표현하기 됨

• 데이터 유효성에 영향을 미침

 관련성 (relevance)

• 쓸모 있는 데이터는 응용에 필요핚 정보를 포함해야 함

• 예제 : 운젂자에 대핚 사고율 예측 모델에서 운젂자의 나이와 성별에 대핚 정보 누락은 정확도에 제핚을 준다.

 데이터에 대핚 지식

• 데이터 집합은 데이터의 여러 측면을 기술하는 문서와 함께 제공됨

제주물산업센터 - 수자원데이터베이스 (제주대학교) 11

(12)

데이터 품질

데이터 품질 관리

http://vod.yeskisti.net/adfile/semdata/16035_Digi_Lib15.pdf

(13)

데이터 품질

데이터 품질 관리의 필요성

 복잡화

 고난이도

 고착화

 고비용

 장애물

제주물산업센터 - 수자원데이터베이스 (제주대학교) 13

관리하지 않을 때 발생하는 문제

(14)

문제

데이터 품질관리 성숙 모형(Data Quality

Management Maturity Model : DQM3)이 무엇

인지 정의하고, 필요성 및 응용사례를 조사하시

오.

참조

관련 문서

- 연방 고고학 정보 관리 시스템 프로젝트 (Federated Archaeological Information Management Systems Project) 현장에서의 디지털 데이터 수집, 결과 데이터의 온라인 처리

본 연구의 목적은 아두이노를 활용한 체현 기반 프로그래밍 교육을 통해 중학교 학생들의 프로그래밍에 대한 인지, 필요성 및 프로그래밍 교육이 사고력

따라서 본 연구에서는 전주지역에 소재한 이태 리 레스토랑을 대상으로 고객들이 선호하고 있는 이태리 레스토랑 메뉴를 주문할 때 어떠한 사항 들을 생각하고 메뉴를

안 18 등은 加味鷄血藤湯이 glutamate receptor와 free radical 및 뇌손상 보호에 미치는 영향, 오 19 등은 加味柴胡湯이 뇌허혈 시 glutamate receptor, free

아울러 임플란트 주위 질환의 요인 중 커다란 비중을 차지하는 것으로 여겨지는 미생물학적 요인 또한, 전통적 검사 방식과 최신 기술을 잘 조합한 체계적이고

두 번째로 조기 대장암 발견을 위한 대장내시경 검사 필요성 인지 및 수행률 향상 활동으로는 검사 예약 안내문에 검사 중요성과 관련된 문구를 삽입하여 예약

이 연구는 대한민국 국민들의 심폐소생술 인지, 교 육경험 및 시행능력 간의 관계를 확인함으로써 심폐 소생술 인지, 교육경험, 마네킹 활용 교육경험 그리고 다양한

이 발간물은 한국과학기술정보연구원(KISTI) 및 한국과학기술기획평가원(KISTEP)이 공동으로 미국, 일본, 중국, EU, 국제기구, 인도 등 세계 각국의 과학기술정책 동향 및