8강. 데이터마이닝의 개요
의료정보분석개론
1. 데이터마이닝 배경
2. 데이터마이닝 개념
3. 데이터마이닝 정의
1. 데이터마이닝 배경
데이터 관련 기술의 발전
1. 데이터마이닝 배경
데이터마이닝의 도입 배경
데이터웨어하우스 구축
의사결정자는 대량의 데이터를 효과적으로 분석하여 정보화하려 는 노력을 시도
데이터웨어하우스에 잘 쌓아두는 단계를 넘어 가치 있는 정보를 효과적으로 찾아 내는 것이 중요
데이터마이닝의 등장
이미 알려져 있는 정보 뿐만 아니라 전혀 예상하지 못한, 쉽게 드 러나지 않는 정보들을 DB 또는 DW에서 찾아내기 위한 정보&지 식 추출의 방법
1. 데이터마이닝 배경
데이터 관련 기술의 발전
1단계 : SQL
기본적인 자료들을 요약 및 레포팅
2단계 : OLAP
데이터를 여러 관점에서 분석
3단계 : Data Mining
정형적인 데이터가 아닌 비정형적인 데이터 속에서 의미 있는 정보를
1. 데이터마이닝 배경
데이터마이닝의 출현과정
1991년 KDD(Knowledge Discovery in Database)라는 말이 사용
1996년 Fayyad & Piatesky Shapiro 의 논문「knowledge discovery and mining」에 데이터마이닝이라는 단어가 등장
2. 데이터마이닝 개념
데이터마이닝의 의미
'데이터(DATA) 마이닝(MINING)-데이터를 캐낸다.'
수많은 정보들(데이터베이스)에서 상관관계 혹은 공통점을 찾아내어 미 래에 적용 가능한 정보를 얻어내고 분석의 결과를 통해 더 확률이 높은 쪽을 고르도록 도움
방대한 데이터들이 쌓여있는 지층 속에서 금과 같은 ‘유용한 정보’의 보석들을 캐내는 것
유용한 정보를 뽑아내기 위한 여러 기법들의 적절한 조합으로 이루어 진 일련의 과정
정해진 틀에 맞춰서 결론을 도출하는 하나의 분석기법을 벗어남
2. 데이터마이닝 개념
OLAP와의 차이점
데이터웨어하우스, OLAP : 분석자가 만든 가설에 해당하는 여러 가지 질의 에 대한 조회 결과를 통해 가설을 확인하거나 부정
데이터 마이닝 : 분석자가 의도하지 않았던 가설들을 산출해내고 유용한 정 보를 생성
데이터마이닝의 과정
데이터 수집, 선별, 변경하여 변경된 데이터의 패턴을 발굴하여 지식화
3. 데이터마이닝 정의
데이터마이닝의 정의
대량의 데이터 사이에서 존재하는 관계, 패턴을 발견하고 규칙을 추 론함으로써 의사결정을 지원하고 그 효과를 예측하기 위한 기법
유사 용어
지식발견 - Knowledge Discovery in Database, KDD
데이터채취 - Data Dredging
지식추출 - Knowledge Extraction
정보발견 - Information Discovery
정보수학 - Information Harvesting
데이터마이닝 - Data Mining : 가장 일반적인 명칭으로 사용
3. 데이터마이닝 정의
KDD와의 차이
KDD : 데이터로부터 유용한 지식을 발견하는 전체적인 프로세스
데이터마이닝 : 원시데이터에서 패턴 같은 의미있는 유용한 정보 혹 은 지식을 추출하는 특별한 알고리즘을 사용하는 지식발견의 한 단계 로 간주된다.
KDD는 넓은 의미의 프로 세스를 지칭
3. 데이터마이닝 정의
데이터마이닝의 일반적인 정의
「잠재적으로 유용하고, 새롭고 타당성 있으면서 궁극적으로 데이터 에서 이해 할 수 있는 패턴을 찾아내는 단순하지 않은 프로세스」
용 어 의 미
데이터 데이터베이스내의 사례를 나타내는 사실의 집합
패 턴 사실의 부분집합으로 사실을 묘사할 수 있는 언어의 표현
프로세스 데이터마이닝이 여러 단계로 구성되어 있고 각 단계는 데이터 준 비, 탐색, 지식 평가, 정제, 변경 후 반복을 하는 작업을 포함
단순하지 않다 탐색이나 추론이 포함된다는 의미
잠재적으로 유용 발견된 패턴은 유용한 함수를 통해서 측정되어진 것처럼 잠재적 으로 유용한 행동을 유도해 낼 수 있어야 한다는 의미
새로운 데이터는 현재의 가치를 이전의 가치나 기대했던 가치와의 비교 하 고, 지식은 새로운 발견이 과거의 발견과의 어떤 변화된 관계
4. 데이터마이닝 특징
데이터마이닝의 특징
대용량 (Massive)의 관측 가능한(주로 비계획적으로 수집된) 자료를 대상
경험적 방법 (Heuristic method)에 근거
일반화 (Generalization)에 초점
컴퓨터(Computer)중심의 기법
통계학과 인공지능에서 함께 방법론을 개발하고 이를 경영, 경제, 정보기 술(IT)분야에 사용
8강. 데이터마이닝의 개요 - 요약
1. 데이터마이닝 배경
1단계 : SQL - 기본적인 자료들을 요약 및 레포팅
2단계 : OLAP - 데이터를 여러 관점에서 분석
3단계 : Data Mining - 정형적인 데이터가 아닌 비정형적인 데이터 속에서 의미 있는 정보를 추출
2. 데이터마이닝 개념
유용한 정보를 뽑아내기 위한 여러 기법들의 적절한 조합으로 이루어진 일련의 과정
데이터 수집, 선별, 변경하여 변경된 데이터의 패턴을 발굴하여 지식화
기존 방법과의 차이점
데이터웨어하우스, OLAP : 분석자가 만든 가설에 해당하는 여러 가지 질의에 대한 조회 결과를 통해 가설을 확인하거나 부정
데이터 마이닝 : 분석자가 의도하지 않았던 가설들을 산출해내고 유용한 정보를 생성
3. 데이터마이닝 정의
대량의 데이터 사이에서 존재하는 관계, 패턴을 발견하고 규칙을 추론함으로써 의사결정을 지원하고 그 효과를 예측하기 위한 기법
KDD보다 좁은 의미