≪ 11주차 ≫ 군집분석

(1)

≪ 11주차 ≫ 군집분석

Cluster Analysis

빅데이터 분석을 위한

데이터마이닝 방법론

SAS Enterprise Miner 활용사례를 중심으로

최종후, 강현철

(2)

차례



8.1 군집분석의 개념



8.2 k-평균 군집방법(k-Means Clustering)



8.3 군집분석의 특징과 적용상의 문제점



8.4 클러스터링(Clustering) 노드



8.5 세그먼트 프로파일링(Segment Profile) 노드



8.6 SOM/Kohonen 노드



8.7 변수 클러스터링(Variable Clustering) 노드



8.8 연습문제

(3)

- 3 -

When Are Customers at Home ?

월요일 화요일 수요일 목요일 금요일 토요일 일요일

오후 11:00 오후 10:00 오후 09:00 오후 08:00 오후 07:00 오후 06:00 오후 05:00 오후 04:00 오후 03:00 오후 02:00 오후 01:00 오후 12:00 오전 11:00 오전 10:00 오전 09:00 오전 08:00 오전 07:00 오전 06:00 오전 05:00 오전 04:00 오전 03:00 오전 02:00 오전 01:00 오전 12:00

탐색적 데이터 분석

Raw Data Set – 고객 A의 통화내역

전화번호 날짜 시작시간 종료시간 025732305 04.9.1 19:20:00 19:50:00 025732305 04.9.1 20:15:15 20:20:10 025732305 04.9.1 22:00:35 22:10:13

025732305 04.9.30 19:00:35 19:09:40 025732305 04.9.30 19:10:00 19:15:15

:

025732305 04.9.30 20:12:35 20:22:40 025732305 04.9.30 20:50:00 20:55:15 025732305 04.9.1 22:15:15 22:20:10 025732305 04.9.1 23:00:35 23:10:13

(4)

군집(Cluster)

(5)

- 5 -

주어진 개체 중에서 유사한 것들을 몇몇의 집단으로 그룹화하여, 각 집단의 성격을 파악 함으로서 데이터 전체의 구조에 대한 이해를 돕고자 하는 탐색적 데이터분석 방법이다.

특히 대용량 데이터에 대해서는 개개의 관찰치를 요약하는 것보다는 전체를 유사한 관 찰치들의 군집(cluster)으로 구분하여, 복잡한 전체보다는 그들을 잘 대표하는 군집들을 관찰함으로서 전체 데이터에 대한 의미 있는 정보를 얻어낼 수 있을 것이다.

군집분석(Cluster Analysis)

Inco me

Brand loyalty

Low High

LowHigh

고객군집 A 고객군집 B

≪예≫ 소득수준과 상표충성도 기준으로 고객 세분화(Segmentation)

(6)



군집화를 위한 변수 군집화(Clustering)

•

인구통계적 변인 (성별, 나이, 거주지, 직업, 소득, 교육, 종교, … )

•

구매패턴 변인 (상품, 주기, 거래액, … )

•

생활패턴 변인 (라이프스타일, 성격, 취미, 가치관, … )



군집화의 기준

전체 개체(개인)의 속성을 판단하기 위한 기준 ≪예≫ 고객세분화

동일한 군집에 속한 개체(또는 개인)는 여러 속성이 유사하고, 서로 다른 군집에 속 한 관찰치는 다른 속성을 갖도록 군집을 구성.

(7)

- 7 -

- 고객이 기업의 수익에 기여하는 정도를 통한 고객세분화

•

우수고객의 인구통계적 요인, 생활패턴 파악

•

개별고객에 대한 맞춤관리

- 고객의 구매패턴에 따른 고객세분화

•

제품 포지셔닝(Positioning), 목표 고객집단 구성

군집분석의 활용: 고객 세분화



고객 세분화

(8)

Segment 1: 경제적 여유 있는 전업 가정주부 Segment 2: 경제적 여유 있는 전문직 종사자

Segment 3: 경제적 여유가 적은 전업 가정주부 Segment 4: 경제적 여유가 적은 봉급 생활자

Segment 5: 18세 이하 미성년 고객

고객 세분화

≪예≫ A 백화점의 여성 고객

Clustering 방법 I Clustering 방법 II Segment 1: 8% 12%

Segment 2: 24% 14%

Segment 3: 6% 11%

Segment 4: 18% 13%

Segment 5: 10% 12%

≪예≫ 신상품 B에 대한 구매의향

(9)

- 9 -

≪예≫ 군집분석 - 1

구매패턴 정보

각 상품의 구입여부(1/0)

٠Ready (조리식품) ٠Frozen (냉동식품) ٠Alcohol (알콜음료) ٠Veget (야채) ٠Milk (우유) ٠Bakery (제과류) ٠Meat (육류) ٠Toilet (욕실용품) ٠Snacks (과자류) ٠Tinned (통조림)

인구통계변인

٠Gender 0(여성), 1(남성)

٠Agegrp 1(18~30), 2(31~40), 3(41~50), 4(51~60), 5(61~)

٠Marital 1(미혼), 2(기혼), 3(별거), 4(사별), 5(이혼) ٠Children 0(무), 1(유)

٠Working 0(무), 1(유)



사례 : Shopping

10개 구입품목을 기준으로 786명 고객을 5개 그룹으로 구분, 군집별 인구통계적 특성 파악

(10)

구매패턴 변수

• Ready made (0: 51%, 1: 49%) • Frozen foods (0: 60%, 1: 40%)

• Alcohol (0: 61%, 1: 39%) • Fresh vegetables (0: 92%, 1: 8%)

• Milk (0: 81%, 1: 19%) • Bakery goods (0: 57%, 1: 43%)

• Fresh meat (0: 97%, 1: 3%) • Toiletries (0: 90%, 1: 10%)

• Snacks (0: 52%, 1: 48%) • Tinned goods (0: 54%, 1: 46%)

… ≪예≫ 군집분석 - 1



자료요악 : 전체집단

인구통계적 변수

• Gender (Female: 54%, Male: 46%)

• Age (18-30: 30%, 31-40: 25%, 41-50: 17%, 51-60: 16%, 61+: 12%)

• Marital (Single:25%, Married:24%, Separated:19%, Widowed:19%, Divorced 13%)

• Children (No 65%, Yes 35%)

• Working (No 17%, Yes 83%)

(11)

- 11 -



군집화 변수의 군집별 요약통계량

군집 1 군집 2 군집 3 군집 4 군 집 5 전체

레코드 수 (72) (163) (146) (81) (324) (786)

Ready made 99% 23% 73% 94% 30%

49%

Frozen foods 90% 65% 52% 43%

10%

40%

Alcohol 85% 77% 8% 87% 13%

39%

Vegetables 13% 13% 5% 20% 4%

8%

Milk 64% 13% 13% 56% 5%

19%

Bakery 51% 72% 71% 69% 7%

43%

Meat 19% 1% 2% 2% 1%

3%

Toiletries 32% 23% 4% 5% 2%

10%

Snacks 97% 74%

16%

30% 42%

48%

Tinned Goods 53% 54% 67% 31% 34%

46%

… ≪예≫ 군집분석 - 1

(12)



인구통계적 변수의 군집별 요약통계량

군집1 군집2 군집3 군집4 군집5 전체

n, 레코드 수 (72) (163) (146) (81) (24) (786) 성: 여자 53% 56% 56% 44% 54% 54%

남자 47% 44% 44% 56% 46% 46%

나이: 18-30 32% 28% 25% 26% 34% 30%

31-40 22% 26% 21% 27% 26% 25%

41-50 15% 18% 18% 17% 17% 17%

51-60 19% 20% 25% 15% 11% 17%

60+ 11% 9% 12% 15% 12% 12%

혼인: Single 24% 25% 22% 25% 28% 25%

Married 21% 28% 21% 27% 23% 24%

Widowed 19% 16% 24% 17% 19% 19%

Separated 21% 17% 23% 17% 19% 19%

Divorced 15% 15% 10% 16% 11% 13%

자녀: 없음 93% 64% 64% 80% 57% 65%

있음 7% 36% 36% 20% 43% 35%

직장: 없음 6% 19% 18% 7% 20% 17%

있음 94% 81% 82% 93% 80% 83%

… ≪예≫ 군집분석 - 1

(13)

- 13 -

ID 군집명 개별 군집별 특성

1 주중 증가형 주중 특히 월요일에 많은 사용을 가지는 집단

2 신주말 증가형 주 5일제 영향을 많이 받아 목, 금, 토 사용이 높으며, 일요일 사용이 적은 집단

3 주말 증가형 전형적이며, 전통적인 주말 집중 사용 집단

0.00 0.05 0.10 0.15 0.20 0.25

월요일 화요일 수요일 목요일 금요일 토요일 일요일

주중 증가형 신주말 증가형 주말 증가형

1 사용비율 3

(%)

2

≪예≫ 군집분석 - 2

(14)

군집분석의 절차

문제 정의

거리행렬 or 자료행렬 ?

분석 변수의 선택

개체간 거리의 정의

군집화 방법의 선택

군집분석

결과의 요약 및 해석 자료행렬 거리행렬

군집간 거리의 정의

군집의 개수 결정

(15)

8.1.1 거리(Distance): 비유사성의 측도

- 15 -

(16)



표준화 거리(standardized distance)

구간형 데이터에 대한 거리

(17)

- 17 -

이항형 자료에 대한 거리

(18)

범주형 자료에 대한 유사성 및 거리

개 체 성 별 학 력 출신지역

A 남자 고졸 경기

B 여자 고졸 전남

C 남자 대졸 경기

거리(A,B) = 2, 거리(A,C) = 1, 거리(B,C) = 3

(19)

- 19 -

– 한 군집이 다른 군집의 내부에 포함되는 형태로 군집간의 중복은 없으며 군집들이 매단계 계층적인(나무) 구조를 이룸.

(예) 전자제품



주방용



냉장고

1 2 3

4 5

6 7

8 9

1 2 3

4 5

6 7

8 9

8.1.2 군집의 유형



상호배반적(disjoint) 군집

– 각 관찰치가 상호배반적인 여러 군집 중, 오직 하나에만 속함.

(예) 한국인, 중국인, 일본인



계보적(hierarchical) 군집

(20)

덴드로그램(Dendrogram)

(21)

- 21 -

Prob ( 개체 1 ∈ 군집 A ) = 0.7 Prob ( 개체 1 ∈ 군집 B ) = 0.3

1 2 3

4

5 6

7 8

9

군집의 유형



중복(overlapping) 군집

– 두개 이상의 군집에 한 관찰치가 동시에 소속되는 것을 허용



퍼지(fuzzy) 군집

- 관찰치가 소속되는 특정한 군집을 표현하는 것이 아니라 각 군집에 속할 가능성을 표현

(22)

차례



8.1 군집분석의 개념



8.2 k-평균 군집방법(k-Means Clustering)



8.3 군집분석의 특징과 적용상의 문제점



8.4 클러스터링(Clustering) 노드



8.5 세그먼트 프로파일링(Segment Profile) 노드



8.6 SOM/Kohonen 노드



8.7 변수 클러스터링(Variable Clustering) 노드



8.8 연습문제

(23)

- 23 -

[단계 0] 군집 수 K를 사전에 결정하고 각 군집 중심을 임의로 설정 [단계 1] 각 개체를 그 중심과 가장 가까운 거리에 있는 군집에 할당

[단계 2] 각 군집별로 [단계 1]을 통해 할당된 개체를 이용해 군집중심 재산출 [단계 3] [단계 1]과 [단계 2]의 과정을 기존 중심과 새로운 중심의 차이가

없을 때까지 반복

K-평균 군집화(k-Means Clustering)



특징

각 관찰치를 상호배반적인 K개의 군집을 형성



알고리즘



초기에 부적절한 병합(분리)이 일어났을 때 회복 가능



군집의 수 K를 사전에 정의



대용량 자료의 경우 유용

(24)

군집의 수 K 결정 : K=5 최초 군집기준값 결정

[단계 0]

개체의 할당

군집중심 재 산출 (반복)

[단계 3]

개체의 할당 군집중심 재 산출

[단계 1, 2]

8.2.1 k-평균 군집방법의 절차

(25)

… k-평균 군집방법의 절차

- 25 -

(26)

8.2.2 초기 군집 수의 결정

(27)

- 27 -

•

군집 수 K의 사전 결정

•

초기 군집중심의 설정

•

^특이점

•

자료가 내포한 특이한 군집구조

… k-평균 군집화(k-Means Clustering)



주의점

(28)

차례



8.1 군집분석의 개념



8.2 k-평균 군집방법(k-Means Clustering)



8.3 군집분석의 특징과 적용상의 문제점



8.4 클러스터링(Clustering) 노드



8.5 세그먼트 프로파일링(Segment Profile) 노드



8.6 SOM/Kohonen 노드



8.7 변수 클러스터링(Variable Clustering) 노드



8.8 연습문제

(29)

군집분석의 특징과 적용상의 문제점



장점



탐색적인 기법



다양한 형태의 데이터에 적용 가능



분석방법의 적용 용이성



단점



가중치와 거리의 정의



초기 군집 수의 설정



결과 해석의 어려움

- 29 -

(30)

차례



8.1 군집분석의 개념



8.2 k-평균 군집방법(k-Means Clustering)



8.3 군집분석의 특징과 적용상의 문제점



8.4 클러스터링(Clustering) 노드



8.5 세그먼트 프로파일링(Segment Profile) 노드



8.6 SOM/Kohonen 노드



8.7 변수 클러스터링(Variable Clustering) 노드



8.8 연습문제

(31)

군집분석 사례를 위한 다이어그램

- 31 - 클러스터링

노드의 속성 패널

(32)

클러스터링(Clustering) 노드 - 결과

(33)

그래프 탐색(Graph Explore) 노드 - 결과

- 33 -

(34)

차례



8.1 군집분석의 개념



8.2 k-평균 군집방법(k-Means Clustering)



8.3 군집분석의 특징과 적용상의 문제점



8.4 클러스터링(Clustering) 노드



8.5 세그먼트 프로파일링(Segment Profile) 노드



8.6 SOM/Kohonen 노드



8.7 변수 클러스터링(Variable Clustering) 노드



8.8 연습문제

(35)

세그먼트 프로파일링(Segment Profile) 노드 - 결과

- 35 -

(36)

차례



8.1 군집분석의 개념



8.2 k-평균 군집방법(k-Means Clustering)



8.3 군집분석의 특징과 적용상의 문제점



8.4 클러스터링(Clustering) 노드



8.5 세그먼트 프로파일링(Segment Profile) 노드



8.6 SOM/Kohonen 노드



8.7 변수 클러스터링(Variable Clustering) 노드



8.8 연습문제

(37)

SOM/Kohonen 노드 - 속성 패널

- 37 - SOM/Kohonen

노드의 속성 패널

(38)

군집분석 결과를 요약한 예

(39)

- 39 -

차례



8.1 군집분석의 개념



8.2 k-평균 군집방법(k-Means Clustering)



8.3 군집분석의 특징과 적용상의 문제점



8.4 클러스터링(Clustering) 노드



8.5 세그먼트 프로파일링(Segment Profile) 노드



8.6 SOM/Kohonen 노드



8.7 변수 클러스터링(Variable Clustering) 노드



8.8 연습문제

(40)

변수 클러스터링(Variable Clustering) 노드 - 속성 패널

변수 클러스터링 노드의 속성 패널

(41)

변수 클러스터링(Variable Clustering) 노드 - 결과

- 41 -

(42)

그래프 탐색(Graph Explore) 노드 - 결과

(43)

- 43 -

차례



8.1 군집분석의 개념



8.2 k-평균 군집방법(k-Means Clustering)



8.3 군집분석의 특징과 적용상의 문제점



8.4 클러스터링(Clustering) 노드



8.5 세그먼트 프로파일링(Segment Profile) 노드



8.6 SOM/Kohonen 노드



8.7 변수 클러스터링(Variable Clustering) 노드



8.8 연습문제

(44)

연습문제 8-3을 위한 다이어그램(그림 7.18 참조)

데이터 노드의 속성 패널