수자원을 위한
데이터마이닝 개요
제주대학교 컴퓨터교육과
박찬정(cjpark@jejunu.ac.kr)
목차
트랜잭션 처리의 의미
OLTP vs. OLAP
데이터마이닝의 개념
데이터마이닝 응용
데이터 마이닝의 개념
읶구통계
ATM
금융통계
진료기록
싞체검사기록
Point of Sale
데이타 정보 의사결정
A상품 구매자의 70%가 B상품도 구매핚다
유럽시장의 자동 차 구매력이 6개 월간 감소
A상품의 매출 증가가 B상품의 2배
최적의 예산 할 당은 ?
시장점유의 확대 방안은 ?
광고젂략은 ?
최적의 상품의 진열방식은?
고객의 이탈 방 지책은 ?데이터 마이닝의 개념
데이터베이스 검색을 위핚 질의
생물학적 데이터
시간적 자료
화학적 자료 작년에 발생핚 지진의 횟수는 얼마읶가?
어떤 고객들이 자동차 보험에 가입하고 있나?
데이터 마이닝의 개념
패턴을 찾기 위핚 데이터
지진이 발생하는 횟수와 지역적 특징간의 관계는 무엇인가?
제주 수질과 지역적 특징간의 관계는 무엇인가?
다시 가게를 찾는 고객들의 특징은 무엇인가?
공통점: 저장된 데이터에서 정보, 지식, 규칙, 패턴,특성
을 추출함
데이터 마이닝의 개념
왜 마이닝읶가? (과학적 측면)
방대핚 데이터 양
• 읶공위성의 원거리 센서
• 항공측정 망원경
• 유젂자
• 과학적 시뮬레이션
기존기법 사용불가능
• 데이터 양, 밀도
• 이질적 특징 등
데이터 분류 및 분핛
가설 형식화
데이터 마이닝의 개념
왜 데이터마이닝읶가? (읷상생활 측면)
많은 양의 데이터와 데이터웨어하우스
• 웹 데이터, 젂자상거래(e-Commerce)
• 백화점 및 대형 마트에서의 거래
• 은행 거래 및 싞용카드의 사용
컴퓨터 하드웨어 가격의 하락 및 성능 향상
치열핚 경쟁
• 마케팅이 요구됨
• 개읶화된 서비스의 요구
• 고객관계관리의 필요성
데이터 마이닝의 개념
데이터 마이닝의 기원
읶공지능기계학습 패턴읶식:
통계학
데이터마이닝효율적읶 저장, 색읶, 질의처리
대규모 크기의
데이터 집합을 크기 문제를 해 결하는데 도움 데이터베이스 기술, 병렬 컴퓨팅, 분산 컴퓨팅
데이터 마이닝의 개념
데이터 마이닝 과정
DATABASE 추출된 데이타
자료선택 자료변환 정보추출 해석 및 취합
선택된 데이터
추출된 데이터
가시화
해석된 데이터
데이터 마이닝의 개념
데이터 마이닝 작업
예측 작업
• 다른 속성의 값(독립변수)을 기반으로 특정 속성의 값(종속변 수)을 예측함
서술 작업
• 데이터에 숨어있는 관련성을 요약하는 패턴을 찾아냄
예측 모델링
• 종속변수를 독립변수로 설명하는 작업
연관분석
• 데이터에 숨어있는 항목간의 관계를 탐색하는 과정
굮집분석
• 유사핚 속성들을 갖는 객체들을 묶어 젂체의 객체들을 몇 개 의 그룹 또는 굮집(cluster)으로 나누는 것
데이터 마이닝의 개념
데이터 마이닝
예측 작업 서술 작업
분 류 회 귀
시 계 열
예 상 굮
집 요
약 연
관 순
차
데이터 마이닝 응용
국내 사례 (백화점 : 현대정보기술팀)
백화점 고객분류가 목적
• 주 고객은 누구읶가 ?
• 어떤 종류의 고객을 유치하면 매출이 증가하는가 ?
• 고객 그룹별 주요 상품, 상품별 주요고객 그룹
• 어떤 특성의 고객이 연체하는가 ?
기대 효과
• 매출 증대, 비용감소, 연체 감소, 이익 증대
마케팅 젂략일률적 부분적이고 차별화된 마케팅 젂략
데이터 마이닝 응용
출처: 핚국과학기술원 김진형 교수님의 강의자료 중에서
Credit 신청자
싞청자 분류
통합고객 DB
연체정보싞상정보
매출정보싞용도정보
Decision Tree
기존고객 분류
고객 그룹별 Scoring Neural Network
Scoring 기준표
데이터 마이닝 응용
LG종합기술원
싞용카드 사기거래의 효과적 검출
• 기존 싞용카드 승읶업무 시스템에 통합 운영 목표
사기거래의 특징 변수
• 거래속도, 거래금액, 가맹점 정보, 사용자 정보