• 검색 결과가 없습니다.

Ⅱ. 이론적 배경

2. 가뭄 분류와 분석방법

2.4 군집분석

군집분석은 모든 시나리오들을 비슷한 특성을 가진 시나리오별로 그룹화 하는 것 이며, 모집단 또는 범주에 대한 사전정보가 없는 경우에 주어진 자료들 사이의 거 리 또는 유사성을 이용하여 전체를 몇 개의 집단으로 그룹화 하는 방법으로 계층적 (hierarchical) 방법과 비계층적(non-hierarchical) 방법으로 구분할 수 있다(Wilks, 2006).

2.4.1 계층적 군집분석

계층적 군집분석은 크게 유사성이 높은 자료들끼리 묶으면서 단계적으로 나가는 병합방법과 유사성이 낮은 자료들을 하나씩 분리해 나가는 분할방법으로 나눌 수 있다(Wilks, 2006). 병합방법은 각 자료들이 별개 그룹에서 출발하므로 G개의 그룹 에서 출발하나, 분할방법은 모든 자료들이 포함되는 하나의 그룹에서 출발한다.

계층적 군집분석의 그룹결과는 나무구조인 dendrogram형식으로 간단하게 나타낼 수 있으며, 이를 인용하여 전체 그룹들 간의 구조적 관계를 쉽게 파악 할 수 있다.

일반적으로 계층적 군집분석에서는 병합방법이 주로 사용되며, 그룹 사이의 거리를 측정하는 방법에 따라 그룹연결방법이 달라진다. 각 연결법은 그림 2.11과 같으며, 각 그룹연결 방법은 최단연결법(single-linkage method), 최장연결법(complete-linkage method), 평균연결법(average-linkage method), 중심연결법(centroid-linkage method)이 있다.

Fig. 2.11 Distance linkage methods of the hierarchical cluster analysis(Wilks, 2006)

* dmax(X, Y): complete-linkage: dc(X, Y): centroid-linkage: dmin(X, Y): single-linkage

최단연결법은 차원이 N과 N’ 인 X와 Y 두 그룹간의 관측 변수에서 가장 가까운 자료의 거리를 측정하고 새로운 그룹을 생성한 후, 그 새로운 그룹에서 가장 가까 운 자료의 거리를 측정하고 그룹을 다시 생성한다. 이러한 과정을 반복하게 되어 최종적으로는 하나의 그룹을 생성하게 되며, 이는 dendrogram으로 나타낼 수 있고,, 그 식은 2.15와 같다. 최단연결법의 특징은 관측 변수의 노이즈(noise) 및 이상치 (outlier)에 매우 민감하게 거리가 측정된다.

min  min∈ ∈  (2.15)

최장연결법은 가장 먼 관측 변수간의 거리를 측정하여 그룹을 형성하는 방법이 며, 그 식은 2.16과 같다. 최장연결법의 특징은 노이즈 및 이상치에 최단연결법에 비해 민감도가 작으나, 그룹의 크기 차이에 민감하게 거리가 측정된다.

max  max∈ ∈  (2.16)

평균연결법은 각 그룹의 관측 변수간의 거리를 식 2.17을 이용하여 평균하고, 평 균거리에서 가장 가까운 자료들을 묶어 새로운 그룹을 생성하는 방법이다.

  

 ′

  

  

 ′  (2.17)

중심연결법은 각 그룹의 중심값을 측정하여 이 거리를 이용하여 새로운 그룹을 생성하는 방법이며, 그 식은 2.18과 같다.

  ║ ║ (2.18)

2.4.2 비계층적 군집분석

계층적 군집분석은 어떤 자료가 특정한 그룹에 할당되면 다른 그룹에 재 할당 될 수 없는 단점이 있으나, 비계층적 군집분석은 초기에 할당이 잘못 되었더라도 다시 할당 할 수 있으며, 최종 그룹수가 미리 설정되어 있다고 가정한다(Wilks, 2006).

또한, 이 방법은 아래 세 가지 기준에 의하여 그룹할당이 달라질 수 있다.

① 초기 그룹을 어떻게 나눌 것인가?

② 개체를 어떤 기준에 의하여 그룹에 할당 할 것인가?

③ 특정 그룹에 속하는 개체의 일부 혹은 전체를 다른 그룹에 어떤 기준에 의하 여 재 할당 할 것인가?

비계층적 군집분석은 가장 대표적인 K-means 방법과 K-means 방법의 단점을 보완한 Gaussian mixture model이 있다.

K-means 방법은 사전에 결정된 그룹 수 G를 기준으로 전체 자료들을 상대적으 로 유사한 g개의 그룹으로 구분하는 방법이다. N차원을 가지는 l개의 자료가 있을 때, 각 자료는 초기에 설정된 G개의 그룹 중 어느 한 그룹에 할당된다고 가정한다.

이때 i번째 자료의 j번째 변수를 X(i, j)로 표시하고, g번째 그룹에 속한 lc개의 자료 들의 j번째 변수에 대한 평균을 (g, j)로 표시했을 때 i번째 자료와 g번째 그룹 사이의 거리를 Euclidean 거리를 이용하여 나타내면 식 2.19와 같다(성웅현, 2005;

Wilks, 2006).

     

  (2.19)

또한, 각 자료를 g번째 그룹에 재 할당할 때 오차자승합 E는 식 2.20과 같다.

  

 (2.20)

여기서, g(i)는 그룹 g가 i번째 자료를 포함하고 있다는 것을 의미하며, d(i,g(i))는 i번째 자료와 그 자료를 포함하고 있는 그룹사이의 Euclidean거리를 나타낸다 (Mirkes, 2011). 따라서, K-means 방법에서 그룹별로 자료를 할당하는 것은 오차자

승합 E가 최소화 될 때까지 반복하여 수행하게 된다. 일반적으로 k가 늘어나면 E 는 줄어드는 경향이 있다(이재경, 2013).

K-means 분석 단계는 총 7단계 이며((Wilks, 2006). 순서는 그림 2.12와 같다 (Mirkes, 2011).

① 자료들을 g개의 그룹에 임의로 할당한다.

② 각 그룹의 평균을 계산한다.

③ 각 그룹의 평균과 각 자료들 사이의 거리를 측정한다.

④ 만약 자료가 현재 할당되어 있는 그룹평균에 가장 가까우면 그대로 그룹에 할 당하고, 다른 그룹평균에 가깝다면 다른 그룹에 다시 할당한다.

⑤ ②번으로 되돌아가서 각 그룹의 평균을 다시 계산한다.

⑥ ③~④번을 다시 수행한다.

⑦ 다시 할당되는 자료가 없을 때까지 ②~⑤번까지 다시 수행한다.

Fig. 2.12 Procedure of the K-means method(Mirkes, 2011)

K-means 방법의 결과는 초기 그룹 수 G의 결정에 매우 민감하게 반응하기 때문 에 여러 가지의 g값을 선택하여 K-means 방법을 수행 한 후 가장 좋다고 생각되 는 g값을 이용한다. 또한, 적절한 g값을 선택함에 있어서 가장 좋은 방법은 자료의 시각화를 통하여 최적 g값의 결정이며, 이는 각 그룹간의 자료들이 잘 할당이 되었 는지 혹은 중복되는지를 그래프로 나타내어 분석하는 것이다.

Gaussian mixture model은 K-means 분석시 그룹이 겹치는 경우에 결과가 나쁘 게 나타나며, 이상치에 민감하고 각 자료가 할당된 그룹에 속하지 않을 불확실성에 대한 측정치가 없는 단점을 보완하기 위해 제시된 방법이다(Pan et al, 2007).

이 방법은 자료를 각 그룹으로 가장 잘 할당 할 수 있는 최적의 평균과 분산을 추정하는 가장 중요한 부분이며, 이 방법의 최종 결과물은 각 자료가 각 그룹에 속 할 확률이다. 주어진 자료 x에 대하여 Gaussian mixture model의 mixture distribution이 식 2.21과 같다고 한다면, 식 2.21의 log-likelihood는 식 2.22와 같다.

    

   (2.21)

    log  

  

   (2.22)

여기서, N은 자료 수, G는 그룹 수, wg는 g번째 그룹의 가중치, 와 는 g번째 그룹의 평균과 분산이다. Gaussian mixture model은 log-likehood가 최소가 되는 G 값이 가장 적절한 그룹 수가 된다.