군집 분석 - 산업디자인학과

가. 군집분석의 정의

군집분석(cluster analysis)은 개인 또는 여러 개체 중에서 유사한 속성을 지닌 대상을 몇 개의 집단으로 그룹화한 다음, 각 집단의 성격을 파악함으로 써 데이터 전체의 구조에 대해 이해하고자 하는 탐색적인 분석방법이다. 이 방법은 속성이 비슷한 잠재고객들끼리 그룹화 하여 시장을 세분화하는 방법 으로 자주 사용되고 있다. 그러나 rhrorQNs만 아니라 상품, 매장, 그 밖의 다른 것들도 유사한 대상끼리 집단으로 묶고자 하는 경우 군집분석을 이용 할 수 있다. 군집분석을 이용한 시장세분화를 이해하기 쉽게 도식화하면 다 음과 같다.

<그림 4-1>군집분석을 이용한 고객 세분화

나. 군집화의 기본개념

군집분석에서는 고객 혹은 분석대상간의 유사성을 유클리디안 거리 (Euclidean distance)로 측정하고 있다. 예를 들어, 이차원 공간에서 두 점 간의 거리는 [그림 17-2]와 같이 피타고라스 정리에 의하여 쉽게 구할 수 있 으며, 이렇게 구한 거리를 유클리디안 거리라 한다. 다차원의 경우도 이와 같은 방법으로 구할 수 있다. 군집분석은 이러한 거리정보를 이용해서 서로 가까운 거리에 있는 것들끼리 그룹화하여 분석대상을 몇 개의 집단으로 분 류하는 방법이다.

군집분석에서 군집을 분류하는 가장 기본적인 가정은 군집 내에 속한 객체들의 특성은 가능한 한 동질적이고, 서로 다른 군집에 속한 객체들 간의 특성은 서로 이질적이 되도록 각각의 객체를 분류해야 한다는 것이다. 또한 균집의 특성은 각 군집에 속한 구성원의 평균값으로 나타낼 수 있으며, 이를 그 집단의 프로필이라 고 한다. 따라서 군집분석의 알고리즘은 군집내 구성원의 동질성과 군집간 구성 원의 이질성을 최대화하는 방법이 된다. 다음 그림은 집단내 구성원의 동질성과 집단간 구성원의 이질성을 나타낸 것이다.

<그림 4-2>집단 내 구성원의 동질성과 집단 간 구성원의 이질성

다. 군집분석의 종류

객체간의 유사성 혹은 거리가 측정되면, 그 값을 이용해서 군집을 형성한 다. 각각의 객체를 군집화 하는 데에는 합당한 기준과 구체적인 방법이 필요 하다. 군집화 방법에 따라서 군집분석은 [그림 17-5]에서와 같이 크게 계층 적 군집분석과 비계층척 군집분석 그리고 중복군집분석으로 분류된다.

계층적 군집분석과 비계층적 군집분석은 군집을 형성하는 규칙이 일률이 며, 군집형성의 대상이 반드시 어느 하나의 군집에만 포함되도록 하는 방법

이다. 반면에, 중복군집분석은 군집을 형성하는 규칙이 상이하며, 하나의 대 성이 2개 이상의 군집에 포함될 수도 있는 군집방법을 말한다.

계층적 군집분석은 기준이 되는 대상들로부터 시작하여 개별 대상간의 거 리를 기준으로 나무모양의 계층구조를 상향식(bottom-up)으로 형성해가는 방식이다. 이러한 계층적 군집분석은 군집대상간의 거리를 산정하는 기준에 따라 단일결합기준, 완전결합기준, 평균결합기준, 중심결합기준, 그리고 와 드(Ward)방식 등으로 분류된다.

단일결합기준은 최소거리를 이용하고, 완전결합기준은 최대거리를 평균결 합기준은 평균거리를 이용하여 군집화를 진행한다. 또한 중심결합기준은 지 금까지 형성된 집단의 중심값을 거리기준으로 이용하며, 와드방식은 유클리 디안 제곱거리를 이용한다.

반면에 비계층적 군집분석은 구하고자 하는 군집의 수를 정한 상태에서 설 정된 군집의 중심에 가장 가까운 개체를 하나씩 포함해가는 방식으로 군집 을 형성하는 방법이다. 따라서 최종군집은 원이나 구와 같은 모양으로 나타 나는 것이 일반적이다. 비계층적 군집분석의 대표적인 방법으로 케이민즈 클러스터링(K-means clustering)이 있다. 이 방법은 분석자가 적절한 수준 의 군집 수를 미리 정하고, 군집대상의 분포에 따라 군집의 초기값을 설정하 여 주면, 그 초기값에서 가장 가까운 거리에 있는 대상을 하나씩 더해가는 식으로 군집화해 가는 방법이다. 이러한 군집방법을 사용하면, 대용량의 자 료도 빠르고 쉽게 분류할 수 있고, 다른 방법보다 사용하기도 편리하기 때문 에 일반적으로 대용량의 데이터를 분석해야 하는 데이터마이닝(data mining) 의 대표적인 군집분석방법으로 사용된다.

중복군집분석방법에도 여러 가지 종류가 있다. 그 중에서 프림(PRIM : patient rule induction methods)이 가장 많이 알려져 있다. PRIM은 몇 개 의 군집규칙을 상이하게 적용하여 군집화하는 방법으로 하나의 객체가 두 개 이상의 서로 다른 군집에 동시에 포함되는 것도 가능하도록 하는 중복군 집방법이다.

라. 군집분석시 유의사항

1) 군집분석에 사용하는 군집화변수의 특징

일반적으로 군집분석의 대상 객체를 표현하는 모든 변수가 사용될 수 있 다. 그러나 일반적으로 분석에 사용되는 변수의 질과 획득비용은 서로 반 비례한다. 따라서 연구자는 연구 환경과 연구 목적, 그리고 비용을 고려하 여 적절한 군집화변수를 선정하여 사용하는 것이 필요하다. 다음 그림은 군집화 대상이 고객인 경우 고객을 대상으로 얻을 수 있는 변수의 예를 나 타내고 있다.

<그림 4-3>군집분석에 사용되는 고객관련 변수들의 예

2) 군집분석과 요인분석 비교

요인분석과 군집분석은 행이 레코드(응답자)이고 열이 변수인 일반적인 자료에 서 행과 열 중에 어느 것을 기준으로 무엇을 묶어주는가에 따라 구분할 수 있다.

간단히 설명하면, 변수 간의 상관관계 정보를 이용하여 관계가 깊은 변수들, 즉 유사한 속성 정보를 내포하고 있는 변수들끼리, 즉 열을 묶어주는 분석기법이 용 인분석이다. 반면에, 군집분석은 변수에 관한 정보를 이용하여 자료의 레코 드 간의 거리를 추정하여 이를 바탕으로 유사한 변수값 들을 갖는 응답자끼 리, 즉 행을 묶는 기법이다. 따라서 요인분석은 통계적인 분석방법이고, 군 집분석은 거리를 기준으로 하는 수리적인 분석방법이다.

3) 군집화에 사용할 변수의 표준화에 대한 고찰

일반적으로 군집분석에 사용하는 모든 변수는 표준화해서 사용해야 한다.

예를 틀어, 몸무게나 키 등의 변수를 이용해서 군집분석 하고자 하는 경우, 몸무게가 kg이나 g 중에 무슨 단위로 입력되었는가에 따라 사람들 간의 거 리에 미치는 영향이 달라진다. 즉, 변수의 측정단위 크기에 따라 거리 측정 치는 큰 영향을 받게 된다. 따라서 사용하는 변수의 측정단위와 관계없이 그 차이에 따라 일정하게 거리를 측정하는 것이 필요하고, 이를 위해서 변수를 표준화하여 사용하는 것이 필요하다. 변수를 표준화한다는 것은 모든 변수 의 단위를 표준편차단위로 바꾸는 것을 의미한다.

그러나 표준화함으로써 잃게 되는 정보도 있으므로 항상 표준화가 적절한 것은 아니다. 예를 들어, 응답자 간(레코드간)의 응답차이가 많다는 것은 그만큼 응답 자를 구분하는 데에 중요한 변수임을 의미한다. 만일 군집화변수들을 표준화하 면 이들 변수 간의 중요성이 모두 같아진다는 단접이 있으므로 연구자는 현명하 게 판단하여 표준화를 사용해야 한다.

제3절 설문지의 구성

문서에서 산업디자인학과 (페이지 59-64)