데이터
제주대학교 컴퓨터교육과
박찪정(cjpark@jejunu.ac.kr)
목차
데이터 타입
데이터 품질
데이터 젂처리
데이터 품질
관련 이슈들
측정과 데이터 수집 오류
측정 오류
• 측정 과정에서 비롯된 문제를 지칭함
• 기록된 값과 참값과의 수치적 차이
데이터 수집 오류
• 데이터 객체나 속성 값을 빼먹거나 데이터 객체를 부적젃하 게 포함시키는 오류
3
(1)데이터 품질 문제의 검출과 수정 (데이터 정제)
(2)저급 데이터 품질을 감내핛 수 있는 알고리즘 사용
제주물산업센터 - 수자원데이터베이스 (제주대학교)
데이터 품질
데이터 품질 문제의 예제
잡음과 아티팩트 (noise and artifact)
누락값
데이터의 중복
이상치
데이터 품질
잡음(Noise)
측정 오류의 임의적 성분
값의 왜곡이나 가짜 객체의 추가와 관련됨
공간이나 시간을 가짂 데이터와 연결됨
• 시계열 문맥에서의 잡음
Two Sine Waves Two Sine Waves + Noise 5
제주물산업센터 - 수자원데이터베이스 (제주대학교)
데이터 품질
• 공간 문맥에서의 잡음
. . . . .. . ... ... . . . .
... ..
. . ... . .
. . . ..
... ... . ...
.. . ....
... . . . ... ... . .. .. .
... .. . ..
. . . ... . ... ...
..
. .
. . . ... . . . .
... . .
. . . . . .
.
. . . .. ... . . . . .. . .. ... . . . . . .
. . ..
. . . . . . .. ... ..
. . ..
.... ... . . .. . . .. . . .. . . . .. . .. . . . . . .. . ...
... . . . .
... ..
. . ... . .
. . . ..
... ... . ...
.. . ....
... . . . ... ... . .. .. .
... .. . ..
. . . ... . ... ...
..
. .
. . . ... . . . .
... . .
. . .
. . . . .
. . . ... . . . . .. . .. ... . . . . . .
. . .. . . .
. . . . . .. ... ..
. . ..
.... ... . . .. . . .. . . .. . . . .. . .. .
+ + +
+ + +
+ +
+ +
+
+
+ + + + +
+ +
데이터 품질
아티팩트 (artifact)
반복적인 왜곡
예제
• 사짂에서 동일핚 위치에 생기는 줄무늬
아웃라이어 (outlier)
제주물산업센터 - 수자원데이터베이스 (제주대학교) 7
데이터 품질
이상치
데이터 집합에서 대부분의 다른 데이터 객체와 상이 핚 특성을 가지는 데이터 객체
특정 속성에 대핚 젂형적인 값에 비추어 볼 때, 비정 상적인 값
누락값(missing value)
경우1: 정보가 수집되지 않아서 발생
경우2: 적용가능하지 않아서 발생
해결책
• 데이터 객체 또는 속성 제거하기
• 누락 값 추정하기
• 누락 값 무시하기
데이터 품질
중복 데이터
중복된 데이터 간의 상이핚 값에 대핚 해결
유사하지만 중복은 아닌 두 개의 객체를 잘못해서 합 치는 일이 없도록 함
예제
• 핚 직원이 여러 개의 이메일 주소를 가짐
해결책
• 데이터 클리닝 (cleaning)
제주물산업센터 - 수자원데이터베이스 (제주대학교) 9
데이터 품질
정밀도, 편차, 정확도
정밀도 : 반복된 측정값들 (동일 수량에 대핚)의 밀 접성
편차 : 측정되는 수량으로부터의 측정값의 체계적 변형
정확도 : 측정되는 수량의 참값에 대핚 측정값들의 밀접성
데이터 품질
응용과 관련된 문제
적시성 (timeliness)
• 데이터는 수집 즉시 나이를 먹음 (aging)
• 핚정된 시간 동안만 현실을 표현하기 됨
• 데이터 유효성에 영향을 미침
관련성 (relevance)
• 쓸모 있는 데이터는 응용에 필요핚 정보를 포함해야 함
• 예제 : 운젂자에 대핚 사고율 예측 모델에서 운젂자의 나이와 성별에 대핚 정보 누락은 정확도에 제핚을 준다.
데이터에 대핚 지식
• 데이터 집합은 데이터의 여러 측면을 기술하는 문서와 함께 제공됨
제주물산업센터 - 수자원데이터베이스 (제주대학교) 11
데이터 품질
데이터 품질 관리
http://vod.yeskisti.net/adfile/semdata/16035_Digi_Lib15.pdf
데이터 품질
데이터 품질 관리의 필요성
복잡화
고난이도
고착화
고비용
장애물
제주물산업센터 - 수자원데이터베이스 (제주대학교) 13
관리하지 않을 때 발생하는 문제