• 검색 결과가 없습니다.

데이터 마이닝- 강의 개요 --

N/A
N/A
Protected

Academic year: 2021

Share "데이터 마이닝- 강의 개요 --"

Copied!
7
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

2017 년 가을학기 강원대학교 컴퓨터과학전공 문양세

데이터 마이닝

- 강의 개요 -

(2)

강의 개요 (1/2)

과목 개요

( 빅 ) 데이터 분석의 핵심 기술 (요란한 수사 보다는 실제 사용되는 기술 )

연관규칙 (association rules), 분류 (classifications), 클러스터링 (Clustering), 유사검색 (Similarity Search), …

 누구나 하는 분석을 넘어서 , ( 빅 ) 데이터 대상의 의미 있는 분석 기술을 익힘

 데이터 마이닝이라 불리는 “세 가지 핵심 기술”과 주변 기술 습득

R 프로그래밍 기술 습득 및 R 을 활용한 마이닝 기술 실습

강의 개요

(3)

Data Mining & Practices by Yang-Sae Moon

Page 3

강의 개요 (2/2)

강의 진행 방법

이론 : 개념 및 주요 기술  상식적 수준의 이해 + 약간의 기술적 고찰

실습 : R 을 배우자  이론서 배운 마이닝 기술을 R 로서 확인 강의 ( 이론 )

강의 ( 이론 )

개요

마이닝 개념 데이터 종류와 전처리

검색과 분석

개요

마이닝 개념 데이터 종류와 전처리

검색과 분석

주요 기술

연관규칙 분류 클러스터링

유사 검색

주요 기술

연관규칙 분류 클러스터링

유사 검색

실습 (R) 실습 (R)

R 기본

환경구축 및 사용법 벡터 , 행렬 , 배열

리스트 , 프레임

R 기본

환경구축 및 사용법 벡터 , 행렬 , 배열

리스트 , 프레임

R 적용

연관규칙 분류 클러스터링

유사 검색

R 적용

연관규칙 분류 클러스터링

유사 검색

독립적 진행

이론 후 실습

강의 개요

(4)

강의 계획 (1/4)

선수 과목 (Prerequisites)

데이터 사이언스 개론 , 컴퓨터 개론 및 실습 , 프로그래밍 언어 1 가지

강의 시간 및 담당 교수

이론 시간 : 화 1,2 교시 (09:00-11:00)

실습 시간 : 수 3,4 교시 (11:00-13:00)

담당 교수 : 문양세 ( 한빛관 303 호실 , x8449, [email protected])

실습 조교 : 손시운 ( 한빛관 , [email protected])

강의 개요

(5)

Data Mining & Practices by Yang-Sae Moon

Page 5

강의 계획 (2/4)

강의 교재

데이터 마이닝 , 용환승 외 역 , 인피니티북스 , 2007.

데이터 마이닝 – 개념과 기법 , 강창완 외 역 , 사이플러스 , 2007.

실습 교재

빅데이터 분석 도구 R 프로그래밍 , 권정민 역 , 에이콘출판사 , 2012.

R and Data Mining Examples and Case Studies, Y. Zhao, Academic Press, 2013.

Data Mining and Business Analytics with R, J. Ledolter, Wiley, 2013.

평가 기준 ( 아래 평가 비율은 일부 조정될 수 있습니다 .)

중간시험 30%

(R 문제 포함 )

기말시험 40%

(R 문제 포함 )

숙제 20%

출석 10%

강의 개요

(6)

강의 계획 (3/4)

강의 계획

강의 개요

(7)

Data Mining & Practices by Yang-Sae Moon

Page 7

강의 계획 (4/4)

기타 사항

강의 사이트 : http://cs.kangwon.ac.kr/~ysmoon/courses/2017_2/dm.html ( 강의 노트는 강의 일주일 전까지 Upload 예정임 )

과제 제출 관련 : 제출 기한 이후에 제출하면 20% 감점

과제 종류 : 레포트 ( 이론 2 회 ), 프로그래밍 및 분석 ( 실습 5-6 회 )

강의 개요

참조

관련 문서

§ Careful integration of the data from multiple sources may help reduce/avoid redundancies and inconsistencies and improve mining speed and

 So the rank vector r is an eigenvector of the web matrix M, with the corresponding eigenvalue 1.  Fact: The largest eigenvalue of a column stochastic

I.e., if competitive ratio is 0.4, we are assured that the greedy algorithm gives an answer which is >= 40% good compared to optimal alg, for ANY input... Analyzing

 Given a minimum support s, then sets of items that appear in at least s baskets are called frequent itemsets.

 Learn the definition and properties of SVD, one of the most important tools in data mining!.  Learn how to interpret the results of SVD, and how to use it

 Drineas et al., Fast Monte Carlo Algorithms for Matrices III: Com puting a Compressed Approximate Matrix Decomposition, SIAM Journal on Computing,

 Communication cost = input file size + 2 × (sum of the sizes of all files passed from Map processes to Reduce processes) + the sum of the output sizes of the Reduce

 Because output is spread across R files (each reduce task creates one file in DFS).. Task