• 검색 결과가 없습니다.

≪ 11주차 ≫ 군집분석

N/A
N/A
Protected

Academic year: 2022

Share "≪ 11주차 ≫ 군집분석"

Copied!
44
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

≪ 11주차 ≫ 군집분석

Cluster Analysis

빅데이터 분석을 위한

데이터마이닝 방법론

SAS Enterprise Miner 활용사례를 중심으로

최종후, 강현철

(2)

차례

8.1 군집분석의 개념

8.2 k-평균 군집방법(k-Means Clustering)

8.3 군집분석의 특징과 적용상의 문제점

8.4 클러스터링(Clustering) 노드

8.5 세그먼트 프로파일링(Segment Profile) 노드

8.6 SOM/Kohonen 노드

8.7 변수 클러스터링(Variable Clustering) 노드

8.8 연습문제

(3)

- 3 -

When Are Customers at Home ?

월요일 화요일 수요일 목요일 금요일 토요일 일요일

오후 11:00 오후 10:00 오후 09:00 오후 08:00 오후 07:00 오후 06:00 오후 05:00 오후 04:00 오후 03:00 오후 02:00 오후 01:00 오후 12:00 오전 11:00 오전 10:00 오전 09:00 오전 08:00 오전 07:00 오전 06:00 오전 05:00 오전 04:00 오전 03:00 오전 02:00 오전 01:00 오전 12:00

탐색적 데이터 분석

Raw Data Set – 고객 A의 통화내역

전화번호 날짜 시작시간 종료시간 025732305 04.9.1 19:20:00 19:50:00 025732305 04.9.1 20:15:15 20:20:10 025732305 04.9.1 22:00:35 22:10:13

025732305 04.9.30 19:00:35 19:09:40 025732305 04.9.30 19:10:00 19:15:15

:

025732305 04.9.30 20:12:35 20:22:40 025732305 04.9.30 20:50:00 20:55:15 025732305 04.9.1 22:15:15 22:20:10 025732305 04.9.1 23:00:35 23:10:13

(4)

군집(Cluster)

(5)

- 5 -

주어진 개체 중에서 유사한 것들을 몇몇의 집단으로 그룹화하여, 각 집단의 성격을 파악 함으로서 데이터 전체의 구조에 대한 이해를 돕고자 하는 탐색적 데이터분석 방법이다.

특히 대용량 데이터에 대해서는 개개의 관찰치를 요약하는 것보다는 전체를 유사한 관 찰치들의 군집(cluster)으로 구분하여, 복잡한 전체보다는 그들을 잘 대표하는 군집들을 관찰함으로서 전체 데이터에 대한 의미 있는 정보를 얻어낼 수 있을 것이다.

군집분석(Cluster Analysis)

Inco me

Brand loyalty

Low High

LowHigh

고객군집 A 고객군집 B

≪예≫ 소득수준과 상표충성도 기준으로 고객 세분화(Segmentation)

(6)

군집화를 위한 변수 군집화(Clustering)

인구통계적 변인 (성별, 나이, 거주지, 직업, 소득, 교육, 종교, … )

구매패턴 변인 (상품, 주기, 거래액, … )

생활패턴 변인 (라이프스타일, 성격, 취미, 가치관, … )

군집화의 기준

전체 개체(개인)의 속성을 판단하기 위한 기준 ≪예≫ 고객세분화

동일한 군집에 속한 개체(또는 개인)는 여러 속성이 유사하고, 서로 다른 군집에 속 한 관찰치는 다른 속성을 갖도록 군집을 구성.

(7)

- 7 -

- 고객이 기업의 수익에 기여하는 정도를 통한 고객세분화

우수고객의 인구통계적 요인, 생활패턴 파악

개별고객에 대한 맞춤관리

- 고객의 구매패턴에 따른 고객세분화

제품 포지셔닝(Positioning), 목표 고객집단 구성

군집분석의 활용: 고객 세분화

고객 세분화

(8)

Segment 1: 경제적 여유 있는 전업 가정주부 Segment 2: 경제적 여유 있는 전문직 종사자

Segment 3: 경제적 여유가 적은 전업 가정주부 Segment 4: 경제적 여유가 적은 봉급 생활자

Segment 5: 18세 이하 미성년 고객

고객 세분화

≪예≫ A 백화점의 여성 고객

Clustering 방법 I Clustering 방법 II Segment 1: 8% 12%

Segment 2: 24% 14%

Segment 3: 6% 11%

Segment 4: 18% 13%

Segment 5: 10% 12%

≪예≫ 신상품 B에 대한 구매의향

(9)

- 9 -

≪예≫ 군집분석 - 1

구매패턴 정보

각 상품의 구입여부(1/0)

٠Ready (조리식품) ٠Frozen (냉동식품) ٠Alcohol (알콜음료) ٠Veget (야채) ٠Milk (우유) ٠Bakery (제과류) ٠Meat (육류) ٠Toilet (욕실용품) ٠Snacks (과자류) ٠Tinned (통조림)

인구통계변인

٠Gender 0(여성), 1(남성)

٠Agegrp 1(18~30), 2(31~40), 3(41~50), 4(51~60), 5(61~)

٠Marital 1(미혼), 2(기혼), 3(별거), 4(사별), 5(이혼) ٠Children 0(무), 1(유)

٠Working 0(무), 1(유)

사례 : Shopping

10개 구입품목을 기준으로 786명 고객을 5개 그룹으로 구분, 군집별 인구통계적 특성 파악

(10)

구매패턴 변수

• Ready made (0: 51%, 1: 49%) • Frozen foods (0: 60%, 1: 40%)

• Alcohol (0: 61%, 1: 39%) • Fresh vegetables (0: 92%, 1: 8%)

• Milk (0: 81%, 1: 19%) • Bakery goods (0: 57%, 1: 43%)

• Fresh meat (0: 97%, 1: 3%) • Toiletries (0: 90%, 1: 10%)

• Snacks (0: 52%, 1: 48%) • Tinned goods (0: 54%, 1: 46%)

… ≪예≫ 군집분석 - 1

자료요악 : 전체집단

인구통계적 변수

• Gender (Female: 54%, Male: 46%)

• Age (18-30: 30%, 31-40: 25%, 41-50: 17%, 51-60: 16%, 61+: 12%)

• Marital (Single:25%, Married:24%, Separated:19%, Widowed:19%, Divorced 13%)

• Children (No 65%, Yes 35%)

• Working (No 17%, Yes 83%)

(11)

- 11 -

군집화 변수의 군집별 요약통계량

군집 1 군집 2 군집 3 군집 4 군 집 5 전체

레코드 수 (72) (163) (146) (81) (324) (786)

Ready made 99% 23% 73% 94% 30%

49%

Frozen foods 90% 65% 52% 43%

10%

40%

Alcohol 85% 77% 8% 87% 13%

39%

Vegetables 13% 13% 5% 20% 4%

8%

Milk 64% 13% 13% 56% 5%

19%

Bakery 51% 72% 71% 69% 7%

43%

Meat 19% 1% 2% 2% 1%

3%

Toiletries 32% 23% 4% 5% 2%

10%

Snacks 97% 74%

16%

30% 42%

48%

Tinned Goods 53% 54% 67% 31% 34%

46%

… ≪예≫ 군집분석 - 1

(12)

인구통계적 변수의 군집별 요약통계량

군집1 군집2 군집3 군집4 군집5 전체

n, 레코드 수 (72) (163) (146) (81) (24) (786) 성: 여자 53% 56% 56% 44% 54% 54%

남자 47% 44% 44% 56% 46% 46%

나이: 18-30 32% 28% 25% 26% 34% 30%

31-40 22% 26% 21% 27% 26% 25%

41-50 15% 18% 18% 17% 17% 17%

51-60 19% 20% 25% 15% 11% 17%

60+ 11% 9% 12% 15% 12% 12%

혼인: Single 24% 25% 22% 25% 28% 25%

Married 21% 28% 21% 27% 23% 24%

Widowed 19% 16% 24% 17% 19% 19%

Separated 21% 17% 23% 17% 19% 19%

Divorced 15% 15% 10% 16% 11% 13%

자녀: 없음 93% 64% 64% 80% 57% 65%

있음 7% 36% 36% 20% 43% 35%

직장: 없음 6% 19% 18% 7% 20% 17%

있음 94% 81% 82% 93% 80% 83%

… ≪예≫ 군집분석 - 1

(13)

- 13 -

ID 군집명 개별 군집별 특성

1 주중 증가형 주중 특히 월요일에 많은 사용을 가지는 집단

2 신주말 증가형 주 5일제 영향을 많이 받아 목, 금, 토 사용이 높으며, 일요일 사용이 적은 집단

3 주말 증가형 전형적이며, 전통적인 주말 집중 사용 집단

0.00 0.05 0.10 0.15 0.20 0.25

월요일 화요일 수요일 목요일 금요일 토요일 일요일

주중 증가형 신주말 증가형 주말 증가형

1 사용비율 3

(%)

2

≪예≫ 군집분석 - 2

(14)

군집분석의 절차

문제 정의

거리행렬 or 자료행렬 ?

분석 변수의 선택

개체간 거리의 정의

군집화 방법의 선택

군집분석

결과의 요약 및 해석 자료행렬 거리행렬

군집간 거리의 정의

군집의 개수 결정

(15)

8.1.1 거리(Distance): 비유사성의 측도

- 15 -

(16)

표준화 거리(standardized distance)

구간형 데이터에 대한 거리

(17)

- 17 -

이항형 자료에 대한 거리

(18)

범주형 자료에 대한 유사성 및 거리

개 체 성 별 학 력 출신지역

A 남자 고졸 경기

B 여자 고졸 전남

C 남자 대졸 경기

거리(A,B) = 2, 거리(A,C) = 1, 거리(B,C) = 3

(19)

- 19 -

– 한 군집이 다른 군집의 내부에 포함되는 형태로 군집간의 중복은 없으며 군집들이 매단계 계층적인(나무) 구조를 이룸.

(예) 전자제품

주방용

냉장고

1 2 3

4 5

6 7

8 9

1 2 3

4 5

6 7

8 9

8.1.2 군집의 유형

상호배반적(disjoint) 군집

– 각 관찰치가 상호배반적인 여러 군집 중, 오직 하나에만 속함.

(예) 한국인, 중국인, 일본인

계보적(hierarchical) 군집

(20)

덴드로그램(Dendrogram)

(21)

- 21 -

Prob ( 개체 1 ∈ 군집 A ) = 0.7 Prob ( 개체 1 ∈ 군집 B ) = 0.3

1 2 3

4

5 6

7 8

9

군집의 유형

중복(overlapping) 군집

– 두개 이상의 군집에 한 관찰치가 동시에 소속되는 것을 허용

퍼지(fuzzy) 군집

- 관찰치가 소속되는 특정한 군집을 표현하는 것이 아니라 각 군집에 속할 가능성을 표현

(22)

차례

8.1 군집분석의 개념

8.2 k-평균 군집방법(k-Means Clustering)

8.3 군집분석의 특징과 적용상의 문제점

8.4 클러스터링(Clustering) 노드

8.5 세그먼트 프로파일링(Segment Profile) 노드

8.6 SOM/Kohonen 노드

8.7 변수 클러스터링(Variable Clustering) 노드

8.8 연습문제

(23)

- 23 -

[단계 0] 군집 수 K를 사전에 결정하고 각 군집 중심을 임의로 설정 [단계 1] 각 개체를 그 중심과 가장 가까운 거리에 있는 군집에 할당

[단계 2] 각 군집별로 [단계 1]을 통해 할당된 개체를 이용해 군집중심 재산출 [단계 3] [단계 1]과 [단계 2]의 과정을 기존 중심과 새로운 중심의 차이가

없을 때까지 반복

K-평균 군집화(k-Means Clustering)

특징

각 관찰치를 상호배반적인 K개의 군집을 형성

알고리즘

초기에 부적절한 병합(분리)이 일어났을 때 회복 가능

군집의 수 K를 사전에 정의

대용량 자료의 경우 유용

(24)

군집의 수 K 결정 : K=5 최초 군집기준값 결정

[단계 0]

개체의 할당

군집중심 재 산출 (반복)

[단계 3]

개체의 할당 군집중심 재 산출

[단계 1, 2]

8.2.1 k-평균 군집방법의 절차

(25)

… k-평균 군집방법의 절차

- 25 -

(26)

8.2.2 초기 군집 수의 결정

(27)

- 27 -

군집 수 K의 사전 결정

초기 군집중심의 설정

특이점

자료가 내포한 특이한 군집구조

… k-평균 군집화(k-Means Clustering)

주의점

(28)

차례

8.1 군집분석의 개념

8.2 k-평균 군집방법(k-Means Clustering)

8.3 군집분석의 특징과 적용상의 문제점

8.4 클러스터링(Clustering) 노드

8.5 세그먼트 프로파일링(Segment Profile) 노드

8.6 SOM/Kohonen 노드

8.7 변수 클러스터링(Variable Clustering) 노드

8.8 연습문제

(29)

군집분석의 특징과 적용상의 문제점

장점

탐색적인 기법

다양한 형태의 데이터에 적용 가능

분석방법의 적용 용이성

단점

가중치와 거리의 정의

초기 군집 수의 설정

결과 해석의 어려움

- 29 -

(30)

차례

8.1 군집분석의 개념

8.2 k-평균 군집방법(k-Means Clustering)

8.3 군집분석의 특징과 적용상의 문제점

8.4 클러스터링(Clustering) 노드

8.5 세그먼트 프로파일링(Segment Profile) 노드

8.6 SOM/Kohonen 노드

8.7 변수 클러스터링(Variable Clustering) 노드

8.8 연습문제

(31)

군집분석 사례를 위한 다이어그램

- 31 - 클러스터링

노드의 속성 패널

(32)

클러스터링(Clustering) 노드 - 결과

(33)

그래프 탐색(Graph Explore) 노드 - 결과

- 33 -

(34)

차례

8.1 군집분석의 개념

8.2 k-평균 군집방법(k-Means Clustering)

8.3 군집분석의 특징과 적용상의 문제점

8.4 클러스터링(Clustering) 노드

8.5 세그먼트 프로파일링(Segment Profile) 노드

8.6 SOM/Kohonen 노드

8.7 변수 클러스터링(Variable Clustering) 노드

8.8 연습문제

(35)

세그먼트 프로파일링(Segment Profile) 노드 - 결과

- 35 -

(36)

차례

8.1 군집분석의 개념

8.2 k-평균 군집방법(k-Means Clustering)

8.3 군집분석의 특징과 적용상의 문제점

8.4 클러스터링(Clustering) 노드

8.5 세그먼트 프로파일링(Segment Profile) 노드

8.6 SOM/Kohonen 노드

8.7 변수 클러스터링(Variable Clustering) 노드

8.8 연습문제

(37)

SOM/Kohonen 노드 - 속성 패널

- 37 - SOM/Kohonen

노드의 속성 패널

(38)

군집분석 결과를 요약한 예

(39)

- 39 -

차례

8.1 군집분석의 개념

8.2 k-평균 군집방법(k-Means Clustering)

8.3 군집분석의 특징과 적용상의 문제점

8.4 클러스터링(Clustering) 노드

8.5 세그먼트 프로파일링(Segment Profile) 노드

8.6 SOM/Kohonen 노드

8.7 변수 클러스터링(Variable Clustering) 노드

8.8 연습문제

(40)

변수 클러스터링(Variable Clustering) 노드 - 속성 패널

변수 클러스터링 노드의 속성 패널

(41)

변수 클러스터링(Variable Clustering) 노드 - 결과

- 41 -

(42)

그래프 탐색(Graph Explore) 노드 - 결과

(43)

- 43 -

차례

8.1 군집분석의 개념

8.2 k-평균 군집방법(k-Means Clustering)

8.3 군집분석의 특징과 적용상의 문제점

8.4 클러스터링(Clustering) 노드

8.5 세그먼트 프로파일링(Segment Profile) 노드

8.6 SOM/Kohonen 노드

8.7 변수 클러스터링(Variable Clustering) 노드

8.8 연습문제

(44)

연습문제 8-3을 위한 다이어그램(그림 7.18 참조)

데이터 노드의 속성 패널

참조

관련 문서

 주어진 표본자료를 일목요연하게 정리하는 것-> 기술통계학의 주된 관심사, 그 중 특히 주어진 자료의 성격을 대표하는 하나의 대표값을 찾는 작업은

알파입자는 매우 낮은 투과력을 가지고 있어서 종이 한 장이나 피부의 표피에 의해 막아진다 얇은 금속도 알파입자를 흡수하기에 충분하기 때문에 방출된

표본을 상호배타적인 소군집 (cluster) 으로 분류 2.. 무작위로

모든 선생님들이 친절하시고 조급해하시지 않으시고 잘 가르쳐주셨습니다.. 특히

Sokal과 Sneath는 생물학적 분류를 위해 생명체에 대한 유사성을 측정하여 유사성이 큰 것들은 동일한 군집을 형성하며, 군집의 패턴이 인식된 후에는 새로운 개체를 패턴 인식을 통해

• 세분 시장 마케팅: 유사한 욕구를 가진 고객 집단으로 구 분하여 몇 개의 시장으로 구분하여 수행하는 마케팅.. 十人十色 :

 K-최근접이웃기법(K-nearest neighbor)의 기본사상은 분류하고자 하는 새로운 레코드와 유사한 학습용 데이터 집합에 있는 k개의 관찰치를 확인하는 것이다.

• 여러 가지 대안을 놓고 의사결정을 할 때, 복잡한 수치적 계산이 필요할 경우, 실제 상황과 같이 모형을 만들어 놓고 여러 경우의 수를 대입하여 사실과