한계기준 - 데이터 마이닝에서의 범주형데이터 군집분석을 위한 초기치 선정방법

3.2.1 한계기준 의 선정

일반적으로 모집단이 매우 클 경우 데이터를 전부 조사하는 방법은 비효율적 이거나 불가능한 경우가 많다. 이에 대하여 본 연구에서도 주어진 데이터를 전부 사용하지 않고, 임의의 표본을 추출하여 이를 기반으로 군집분석의 초기치 개수 의 추정과 군집분석을 수행하였다. 표본은 균등분포(U(0,1))를 기반으로 m개의 데이터를 추출하였다. 이때 m개의 데이터에 대하여 두 개의 데이터를 임의로 추 출하고, 이에 대한 k-modes 알고리즘의 유사도  를 구하였다. 이를 반복하여 유사도계산 결과 집합   _ _  _



를 구하고, 이에 대한 평균유사도 _

을 계산한다. _은 초기 mode를 정하는 한계기준 가 된다. 또한, _은 분 석하는 데이터의 전반적인 유사도를 알 수 있는 정보가 된다. 예를 들어, 속성이 22개인 mushroom 데이터의 8124개의 데이터들 중 300개를 표본으로 샘플링 하고, 표본 개수의 30%정도에 대한 유사도를 계산한 경우 _=18.5이면, 한 계기준은 19로 정한다. 결국, 비교하는 데이터와 mode에서 19개의 속성이 동일 하면 같은 mode에 소속되며, 이보다 낮으면 새로운 mode를 발생하게 된다. 즉, 군집의 개수를 결정하는데 주요한 역할을 하는 한계기준 를 연구자가 자의적으 로 정하지 않고 데이터 자체적으로 발생하는 값을 이용함으로서 분석하는 데이 터에 대한 상대적이고 합리적인 기준이 된다. 이후 한계기준 는 제안 알고리즘 의 유사도 계산에 활용된다.

Figure 16. 군집내 유사도( )과 군집간 유사도(_) Figure 17. _과_에 따른 의 상대적 위치

Figure 16에서는 mode의 구조를 보여주고 있다. 데이터의 레코드는 같은 mode내에서는 강한 유사도를 보이며, 다른 mode의 레코드들과는 약한 유사도 가 나타나야 한다. 이때, mode내의 레코드를 샘플링 하여 평균 유사도 을 구 할 수 있으며, 이때, 각 mode별로 _값은 일반적으로 비슷하게 나타난다. _을 결정하는 속성의 종류가 각 mode별로 차이가 있으나 전체적인 유사도는 비슷하 게 나타난다. _은 mode간의 유사도 평균이다. 각 mode들은 대표 mode를 가 지게 된다. 속성의 값이 수치형 값이 아니므로 속성의 평균을 할 수 없기 때문에 속성 값의 빈도가 가장 높은 속성 값을 그 속성의 대표속성으로 하며 모든 속성 별로 대표속성을 모아서 해당 mode의 대표 mode가 되며, 이 때 각 대표 mode 가 임의의 레코드가 되지는 않는다.

한계기준 는 초기 생성되는 mode들의 유사도 및 초기치 mode의 개수를 결 정하는 한계기준의 기능을 수행한다. 많은 연구에서 이러한 의 값을 경험적 수 치로서 정의하고 있다. 제안 k-modes 알고리즘에서 유사도 계산은 속성값이 동 일한지에 따라 1과 0으로 구분한다. 두 속성의 값이 같다면 1, 다르면 0으로 하 므로, 두 레코드의 유사도는 최소값은 0에서 최대값 22를 가지게 된다. 또한, 만 약 두 레코드가 유사하다면 유사도 값이 증가하게 된다. 한계기준 의 값을 높게 설정하면 레코드간의 mode의 유사도는 강하게 군집되며, 한계기준 의 값을 낮 게 설정하면 mode의 유사도는 낮아지게 된다. 본 연구에서는 이러한 한계기준

의 값을 임의의 값이 아닌 데이터의 속성들 간의 평균유사도를 기반으로 설정 하는 방법을 제안한다. 대표 mode들 간의 k-modes 유사도 결과 값은 상이도 가 증가하므로 유사도 값은 낮아지게 되며, 평균 유사도가  이 된다. 일반적으 로 _은 _ 보다 낮게 나타난다. 군집의 갱신과정에서는 한계기준이 필요하다.

즉, 주어진 한계기준에 대하여 분석을 더 수행해야 하는지 여부를 결정해 줄 기 준 값이 필요하다. 기존의 한계기준은 연구자가 임의로 정하였으나, 본 논문에서 는 한계기준을 로 정의하고 이를 _과 _을 이용하여 정의함으로서 연구자의 자의적 결정을 배제할 수 있다.

한계기준 는

  _ _ _×

_

_

로 계산한다.

Figure 18. 군집간의 유사도 따른 의 상대적 위치

Figure 18은 _과 _에 대한 상대적 의 상대적 위치를 보여주고 있다. 만 약 군집내 레코드의 평균 유사도(_)가 높고 군집간 유사도(_)가 낮다면, 한 계기준 의 값도 낮아지게 된다. 또한, 군집내 레코드의 평균 유사도(_)가 높고 군집간 유사도(_)도 높으면 한계기준 의 값은 증가하게 된다. 즉, 레코드들의 유사도가 높으면 도 자연스럽게 높은 값의 한계기준을 정하게 됨으로서, 한계기 준 는 _과,_의 값의 특성에 따라 상대적 위치로 결정된다.

3.2.2 mode의 병합 및 갱신

한 레코드와 다른 레코드간의 유사도를 비교하면, 그 유사도 값들은 다양하게 나타날 것이며, 이는 상황에 따라 다양한 분포를 보인다. Figure 19에서는 k-modes 알고리즘의 유사도계산 결과에 대한 한계기준을 보이고 있다.  분 위수는 레코드와 레코드간의 유사도 값에서 유동적으로 변하며 해당 레코드와  분위수 이상 유사할 경우 같은 mode가 되며, 그 이하의 유사도에서는 새로운 mode로 정의된다.

Figure 19. 한계기준 와 레코드 간 유사도비교

Figure 19에서는 초기치 군집과 레코드간의 유사도에 대하여 분위수의 한계 를 보여주고 있다. 레코드들은 해당 군집과 유사도를 비교한 후 분위수보다 유 사도 값이 크다면, 이는 같은 군집으로 병합하게 된다. 즉, 한계기준 보다 유사 도가 크다는 것은 비교하는 두 레코드가 유사한 점이 많음을 의미한다. 이는 개 선 k-modes 알고리즘을 보다 효율적으로 개선시킨 방법으로 제안 알고리즘의 기반이 된다.

98%

문서에서 데이터 마이닝에서의 범주형데이터 군집분석을 위한 초기치 선정방법 (페이지 45-50)