• 검색 결과가 없습니다.

어떤 대상의 성격을 규명하기 위하여 한 가지 측면(한 개의 종속변수)에서 그 대상을 관찰하고 분석하는 것을 단변량 분석(univariate analysis)이라고 할 수 있다. 그러나 실제 우리 주변에는 인간의 행동과 같이 어떤 하나의 현 상이나 자료를 가지고 설명하기 힘든 경우가 많다. 그러므로 인간의 행동을 좀 더 심층적이며 적절하게 설명하기 위해서는 여러 각도와 측면에서 수집 한 자료를 동시에 그 관계성을 분석해 보아야 가능한 것이다.

통계적으로는 종속변수의 관계성(relationships)을 고려한 상태에서 여러 개의 단변량분석을 동시에 수행하는 것을 의미하며, 여기에서 사용되는 자료 는 다차원적으로 정상성(multivariate normal distribution)이 가정되어야 한다. 이와 같이 여러 개의 독립변수에 대한 여러 개의 종속변수를 동시에 분석해 보는 통계적 방법을 다변량분석이라고 한다.

이와 같은 통계적 방법으로서 대표적인 것으로서는, 변수들 사이의 유사성 을 찾아낼 수 있는 요인분석(factor analysis), 이미 설정되어 있는 피험자 집단의 적절성을 확인하는 판별분석(discriminant analysis), 독립변수의 수 준에 따라 피험자를 집단으로 구분하는 군집분석(cluster analysis), 여러 개의 종속변수에 대한 분석을 위한 다변량분산분석(MANOVA), 요인분석과 회귀분석의 혼합형인 구조방정식모형(structural equation model), 여러 개 의 변수집단들 사이의 상관계수를 추정하는 정준상관계수(canonical correlation), 의사결정규칙(decision rule)을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류(classification)하거나 예측(prediction)을 수행하는 분석을 위한 의사결정나무 분석(decision tree analysis) 등이 있 다(이학식 외 2015).

이런 다변량 분석이 자주 활용되는 분야가 데이터 마이닝이다. 대용량 데 이터로부터 유용한 정보를 추출하는 기술인 데이터마이닝은 오늘날 그 중요 성이 점점 더 커지고 있다. 예를 들어 이메일 스팸 필터기의 일부는 데이터 마이닝으로 생성된 규칙을 사용하고 있다. 여기서 데이터마이닝은 수백만 개

의 전자메일 메시지를 조사하여 스팸인지 여부를 판별하는 규칙을 생성시킨 다(shmueli 외 2009).

본 보고서에서는 중소기업청에서 수행한 2014년도 ‘제7차 중소기업 기 술통계조사 결과를 활용해서 R&D 기획이나 정보조사를 위해서 정부지원을 받는 기업과 받지 않는 기업을 분류하는 방법을 찾고자 한다. 또한 기획 지 원에 정부지원이 필요하다고 강력하게 생각하는 그룹과 그렇지 않은 그룹을 분류하는 방법도 찾고자 한다. 이 결과는 보다 집중된 사업(정책)의 개선 방 향 탐색이 가능하게 할 것이다. R&D 기획지원이나 정보지원이 필요한 기업 과 그렇지 않은 기업을 구분할 수 있는 요인을 도출하면 예측 모델 수립이 가능하다. 즉 기획(정보) 지원 수요에 미치는 요인을 찾고 수요 기업을 예측 하기 위한 프로파일링을 진행하게 된다.

여기서 프로파일링은 예측변수의 관점에서 각 집단 내 관찰치 간의 유사성 을 찾거나 집단을 구별시켜 주는 요인을 찾는 활동을 말한다. 예를 들어, 회 사가 효과적인 광고를 위해서 구매자 대상이 될 만한 집단에 관한 정보수집 활동도 여기에 해당된다. 주로 로지스틱 회귀분석이나 판별분석 등의 통계적 분류기법을 이용하여 이러한 작업을 수행한다(shmueli 외 2009). 본 보고 서에서는 프로파일링을 위해서 다음 장에서 소개할 판별분석과 의사결정나 무 분석을 활용한다.

제 2 장 판별분석과 의사결정나무 분석 방법론 2.1 판별분석

1)

판별분석(discriminant analysis)은 분류기업 중의 하나로서 로지스틱 회 귀분석과 같이 분류(classification)와 프로파일링(profiling)에 사용되는 전 통적인 통계기법이다. 판별분석은 해당 항목들이 속해 있는 각 집단들을 위 해 연속형 변수를 사용하며, 새로운 항목에 대해서는 이 집단들 중의 한 집 단에 속하는 것으로 분류한다. 대표적인 적용사례를 살펴보면 대출, 신용카 드, 보험가입 신청자들에 대해서 저/고 위험군으로 분류하는 경우 또는 신제 품의 고객을 초기수용자, 조기다수자, 후기다수자, 지각수용자 등으로 분류하 거나 채권을 채권등급별로 분류하는 경우 등이 있다. 그밖에도 판별분석은 인간 화석에 대한 두개골 분류, 연구에 대한 저자들의 논쟁, 대학입학관련 의사결정, 알코올 중독자와 비중독자에 대한 의학적 분류, 사람 지문의 확인 방법 등의 다양한 분류 의사결정에 주로 사용된다. 또한 판별분석은 집단을 구별시켜 주는 요인들을 찾아내기 위한 활동인 프로파일링에 사용되기도 한 다(규모가 크면 관계가 복잡해 잘 나타나지 않을 수도 있음).

2.1.1 거리 측정

항목들을 가장 잘 분할시키는 분리점을 찾기 위해서는 해당 집단과 항목간 의 거리를 측정해야 한다. 이에 대한 일반적인 개념은 각 항목을 해당 항목 으로부터 가장 가까운 집단으로 분류하는 것이다.

이 경우 유클리드 거리 법칙(Euclidean distance rule)을 이용하여 소득 을 대출 제안 수락의 예측변수로 사용할 수 있다. 만일 x가 대출제안을 거절 한 집단의 평균소득보다 대출제안을 수락한 집단의 평균소득에 더 가깝다면, 이 고객은 대출제안을 수락한 고객으로 분류되며, 그 반대의 경우에는 대출 제안을 거절한 고객으로 분류된다.

단일 변수(소득)에서 2개 이상의 변수로 증가하면, 집단의 평균을 집단의

1) 2장에서 설명하는 판별분석과 의사결정나무 분석 방법에 대한 설명은 Shmueli, G., Patel, N. R., & Bruce,

중심점(centroid)으로 사용한다. 이는 간단하게 평균벡터를 이용하여 구할

1936년 통계학자인 피셔(Fisher)는 관찰치를 여러 집단으로 분리하는 방

판별분석의 두 번째 가정은 한 집단 내에서의 측정변수들 간의 상관관계는

확실히 적을 것으로 예상된다면, 미리 확률을 가정하는 편이 정확한 예측에 도움이 된다(동일한 집단 크기로 가정하고 판별하는 수고를 감소).

비대칭 오분류비용

집단별로 오분류비용이 대칭적이지(동일하지) 않은 경우, 사실상 추가적인 수정이 요구된다, 집단 1의 항목에 대한 오분류비용이 집단 2의 항목에 대 한 오분류비용과 차이가 크게 난다면, 단순오차율보다는 기대 오분류비용을 최소화시키는 것이 필요하다(단순오차율은 이러한 비대칭 오분류비용을 인 식하지 못함). 두 집단의 경우 오분류비용을 다르게 반영시키기 위해 분류함 수를 수정하는 작업은 간단하다(사전확률을 추가).

균형화(balancing) over/under sampling

다변량 분석중에서 로지스틱 분석이나 신경망 분석에서는 상대적으로 크기 가 너무 작은 범주가 있으면, 작은 범주의 레코드를 일정비율 배가 (boosting)하거나 큰 범주의 레코드를 일정비율 감축(reducing)함으로써 종 속변수 분포를 균등하게 하는 전처리(균형화)를 한다. 그러나 판별분석이나 나무분석은 오분류비용을 비대칭적으로 설정하는 것이 가능하기 때문에 균 형화(balancing) 작업이 반드시 요구되지 않는다. 이 점이 판별분석이안 나 무분석 분류가 신경망과 다른 중요한 한 가지 부분이다(허명회 외 2008).

물론 균형화를 할 수도 있다.

2.1.3 판별분석의 장단점

판별분석은 데이터마이닝 기법보다는 통계적 분류방법론으로 분류되는 경 향이 있다. 이에 따라 판별분석은 데이터마이닝 문헌에서 빠져 있거나 짧게 언급되고 있다. 그러나 판별분석은 사회과학에서 매우 일반적인 분석방법이 고 좋은 결과를 보여주고 있다. 판별분석은 모형의 적용과 결과측면에서 다 중 선형 회귀분석과 유사하다. 따라서 이 두 기법은 여러 가지 측면에서 비 슷한 장단점을 가지고 있다. 선형 회귀분석처럼 판별분석은 설명(예측) 변수 의 가중치를 최적화시킨다. 선형 회귀분석에서 설명변수의 가중치는 종속변 수와의 관계서 가중치가 결정되는 반면, 판별분석에서는 종속변수의 집단들

을 분리시키는 관계에서 가중치가 결정된다. 두 분석 모두 동일한 추정방법 으로 최소자승법(least square)을 사용하며, 추정 결과치는 지역적 최적화 (local optima)의 문제점도 거의 없다.

두 기법은 정규분포에 대한 가정을 하고 있다. 판별분석의 경우 예측변수 들은 다변량 정규분포를 따른다고 가정한다. 그럼에도 불구하고 이 가정은 이진분류형 예측변수가 사용되는 경우와 같이 많은 실제 상황에서 지켜지지 않고 있지만, 판별분석은 이러한 문제에 대해서 강건하다. Hastie et al.(2001)에 의하면, 그 이유는 데이터가 보통의 경우 선형 경계와 같은 단 순한 분류 경계를 찾는 데에만 사용되기 때문이다. 그러나 히스토그램을 통 해서 분포가 매우 비대칭적인 연속형 변수들에 대해서는 로그변환을 적용함 으로써 그 성과를 향상시킬 수 있다. 또한 이 방법을 통해서 극단치에 대한 민감도는 줄어들게 되는데, 이는 데이터의 극단치를 찾아서 분석에서 이러한 극단치를 없애주는 역할을 한다.

분류기법으로서 판별분석의 장점은 로지스틱 회귀분석과 마찬가지로 단일 예측변수의 기여도를 측정한다는 것이다. 이에 따라 예측변수의 중요도 순위 를 정하고 변수를 선정할 때 유용하다.

마지막으로 판별분석으로 계산과정이 간단하고, 간명하며, 특히 작은 데이 터 집합에서 유용하게 사용될 수 있다. 판별분석은 데이터를 최대한으로 이 용하여 추정산식을 만들기 때문에 특히 데이터가 적을 때 유용하다.

2.2 의사결정나무 분석 방법론

데이터 분석가에게는 많은 노력이 요구되지 않으면서 사용자가 쉽게 분석 결과를 이해할 수 있는 범용 분류기법으로서 가장 대표적인 것은 Breiman et al.(1984)이 개발한 나무방법론(tree methodology)이 있다. 이 장에서 는 먼저 나무방법론(의사결정 나무)에 의한 분류절차에 대해서 논의하고, 이 어서 연속형 종속변수를 예측하는 데 이 절차를 어떻게 확장할 수 있는지를

데이터 분석가에게는 많은 노력이 요구되지 않으면서 사용자가 쉽게 분석 결과를 이해할 수 있는 범용 분류기법으로서 가장 대표적인 것은 Breiman et al.(1984)이 개발한 나무방법론(tree methodology)이 있다. 이 장에서 는 먼저 나무방법론(의사결정 나무)에 의한 분류절차에 대해서 논의하고, 이 어서 연속형 종속변수를 예측하는 데 이 절차를 어떻게 확장할 수 있는지를