• 검색 결과가 없습니다.

Variable selection based on semi-parametric estimator of conditional mutual information assuming normal mixture in high-dimensional data

N/A
N/A
Protected

Academic year: 2021

Share "Variable selection based on semi-parametric estimator of conditional mutual information assuming normal mixture in high-dimensional data"

Copied!
13
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

2018, 29

(

6)

,

1339–1351

혼합정규분포를 가정한 조건부 상호정보의 준모수적 추정량을 이용한 고차원 자료에서의 변수선택

ᅡᆫ치경

1

· 김동욱

2

12성균관대학교 통계학과

ᄌ ᅥ

ᆸᄉ ᅮ 2018ᄂ ᅧ ᆫ 10ᄋ ᅯ ᆯ 12ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 11ᄋ ᅯ ᆯ 22ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 11ᄋ ᅯ ᆯ 22ᄋ ᅵ ᆯ

요 약

ᅧ ᆫᄉ ᅮᄀ ᅡ ᆫᄋ ᅴ ᄇ ᅵᄉ ᅥ ᆫᄒ ᅧ ᆼᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄋ ᅧ ᆫᄀ ᅪ ᆫᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄀ ᅡ ᆷᄌ ᅵᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄉ ᅡ ᆼᄒ ᅩᄌ ᅥ ᆼᄇ ᅩ (mutual information)ᄂ ᅳ ᆫ ᄇ ᅧ ᆫᄉ ᅮᄉ ᅥ ᆫᄐ ᅢ ᆨᄋ ᅴ ᄌ

ᅩ ᇂᄋ ᅳ ᆫ ᄀ ᅵᄌ ᅮ ᆫ ᄋ ᅵ ᄃ ᅬᄌ ᅵᄆ ᅡ ᆫ ᄀ ᅩᄎ ᅡᄋ ᅯ ᆫ ᄌ ᅡᄅ ᅭᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅡᄀ ᅵ ᄉ ᅱ ᆸᄌ ᅵ ᄋ ᅡ ᆭᄋ ᅡ ᄆ ᅡ ᆭᄋ ᅳ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄀ ᅡ ᄌ ᅵ ᆫᄒ ᅢ ᆼᄃ ᅬᄋ ᅥ ᄋ ᅪ ᆻ ᄃ ᅡ. Cai ᄃ ᅳ ᆼ (2009)ᄋ ᅳ ᆫ ᄋ ᅵ ᆯᄇ ᅡ ᆫᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄉ ᅡ ᆼᄒ ᅩᄌ ᅥ ᆼᄇ ᅩᄀ ᅡ ᄋ ᅡᄂ ᅵ ᆫ ᄎ ᅬᄃ ᅢ 2ᄎ ᅡᄋ ᅯ ᆫ ᄁ ᅡᄌ ᅵᄆ ᅡ ᆫ ᄀ ᅩᄅ ᅧᄒ ᅡᄋ ᅧ ᄎ ᅮᄌ ᅥ ᆼᄒ ᅡᄂ ᅳ ᆫ ᄌ ᅩᄀ ᅥ ᆫᄇ ᅮ ᄉ ᅡ ᆼᄒ ᅩᄌ ᅥ ᆼᄇ ᅩᄅ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ

ᅡᄋ ᅧ ᄎ ᅮᄌ ᅥ ᆼᄋ ᅴ ᄋ ᅥᄅ ᅧᄋ ᅮ ᆷᄋ ᅳ ᆯ ᄒ ᅢᄀ ᅧ ᆯᄒ ᅡᄋ ᅧ ᆻᄋ ᅳᄆ ᅧ, ᄀ ᅩᄎ ᅡᄋ ᅯ ᆫ ᄌ ᅡᄅ ᅭᄋ ᅦ SVMᄋ ᅳ ᆯ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅡ ᆫ ᄇ ᅧ ᆫᄉ ᅮᄉ ᅥ ᆫᄐ ᅢ ᆨᄋ ᅦᄉ ᅥ ᄀ ᅵᄌ ᅩ ᆫ ᄋ ᅴ ᄑ ᅵ ᆯᄐ ᅥ ᄅ

ᅵ ᆼ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄀ ᅪ SVM-RFEᄅ ᅩ ᄉ ᅥ ᆫᄐ ᅢ ᆨᄃ ᅬ ᆫ ᄇ ᅧ ᆫᄉ ᅮᄃ ᅳ ᆯ ᄇ ᅩᄃ ᅡ ᄃ ᅥ ᄇ ᅮ ᆫ ᄅ ᅲ ᄉ ᅥ ᆼᄂ ᅳ ᆼ ᄋ ᅵ ᄄ ᅱᄋ ᅥᄂ ᅡ ᆫ ᄇ ᅧ ᆫᄉ ᅮᄃ ᅳ ᆯᄋ ᅳ ᆯ ᄉ ᅥ ᆫᄐ ᅢ ᆨᄒ ᅡᄂ ᅳ ᆫ ᄀ ᅥ ᆺᄋ ᅳ ᆯ ᄇ ᅩᄋ ᅧ ᆻᄃ ᅡ.

Ahn ᄀ ᅪ Kim (2014)ᄋ ᅳ ᆫ ᄌ ᅩᄀ ᅥ ᆫᄇ ᅮ ᄉ ᅡ ᆼᄒ ᅩᄌ ᅥ ᆼᄇ ᅩᄋ ᅴ ᄎ ᅮᄌ ᅥ ᆼᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄀ ᅨᄉ ᅡ ᆫᄒ ᅭᄋ ᅲ ᆯᄋ ᅳ ᆯ ᄂ ᅩ ᇁ ᄋ ᅵᄀ ᅵ ᄋ ᅱᄒ ᅢ ᄉ ᅥ ᆯᄆ ᅧ ᆼᄇ ᅧ ᆫᄉ ᅮᄀ ᅡ ᆫᄋ ᅦᄂ ᅳ ᆫ ᄆ ᅩᄉ ᅮ ᄌ

ᅥ ᆨᄋ ᅳᄅ ᅩ ᄇ ᅮ ᆫ ᄑ ᅩᄀ ᅡᄌ ᅥ ᆼᄋ ᅳ ᆯ ᄒ ᅡᄂ ᅳ ᆫ ᄌ ᅮ ᆫ ᄆ ᅩᄉ ᅮᄌ ᅥ ᆨ ᄌ ᅩᄀ ᅥ ᆫᄇ ᅮ ᄉ ᅡ ᆼᄒ ᅩᄌ ᅥ ᆼᄇ ᅩ ᄎ ᅮᄌ ᅥ ᆼᄅ ᅣ ᆼᄋ ᅳ ᆯ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄒ ᅡᄌ ᅵᄆ ᅡ ᆫ ᄉ ᅥ ᆯᄆ ᅧ ᆼᄇ ᅧ ᆫᄉ ᅮᄀ ᅡ ᆫᄋ ᅦ ᄌ ᅥ ᆼᄀ ᅲ ᄇ

ᅮ ᆫ ᄑ ᅩᄅ ᅡᄂ ᅳ ᆫ ᄀ ᅡᄌ ᅥ ᆼᄋ ᅵ ᄉ ᅵ ᆷᄒ ᅡᄀ ᅦ ᄋ ᅱᄇ ᅢᄃ ᅬᄆ ᅧ ᆫ ᄇ ᅮ ᆫ ᄅ ᅲᄉ ᅥ ᆼᄂ ᅳ ᆼ ᄋ ᅵ ᄆ ᅢᄋ ᅮ ᄌ ᅥᄒ ᅡ ᄃ ᅬ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄃ ᅡ ᆫᄌ ᅥ ᆷᄋ ᅵ ᄋ ᅵ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄉ ᅥ ᆯ ᄆ ᅧ

ᆼᄇ ᅧ ᆫᄉ ᅮᄋ ᅴ ᄇ ᅮ ᆫ ᄑ ᅩᄅ ᅳ ᆯ ᄒ ᅩ ᆫ ᄒ ᅡ ᆸᄌ ᅥ ᆼᄀ ᅲᄇ ᅮ ᆫ ᄑ ᅩᄅ ᅩ ᄀ ᅡᄌ ᅥ ᆼᄒ ᅡᄋ ᅧ ᄌ ᅩᄀ ᅥ ᆫᄇ ᅮ ᄉ ᅡ ᆼᄒ ᅩᄌ ᅥ ᆼᄇ ᅩᄅ ᅳ ᆯ ᄀ ᅡᄌ ᅮ ᆼ ᄎ ᅵᄅ ᅳ ᆯ ᄒ ᅪ ᆯᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄌ ᅮ ᆫ ᄆ ᅩᄉ ᅮᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᄅ

ᅩ ᄎ ᅮᄌ ᅥ ᆼᄒ ᅡᄂ ᅳ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄌ ᅦᄉ ᅵᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄇ ᅡ ᆫᄋ ᅳ ᆼᄇ ᅧ ᆫᄉ ᅮᄋ ᅪ ᄉ ᅥ ᆯᄆ ᅧ ᆼᄇ ᅧ ᆫᄉ ᅮ ᄀ ᅡ ᆫᄋ ᅦᄂ ᅳ ᆫ ᄆ ᅩᄉ ᅮᄌ ᅥ ᆨ ᄇ ᅮ ᆫ ᄑ ᅩᄅ ᅳ ᆯ ᄀ ᅡᄌ ᅥ ᆼᄒ ᅡᄌ ᅵ ᄋ ᅡ ᆭᄋ ᅳᄆ ᅳᄅ ᅩ ᄇ ᅵᄆ ᅩ ᄉ

ᅮᄌ ᅥ ᆨ ᄋ ᅧ ᆫᄀ ᅪ ᆫᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄎ ᅳ ᆨᄌ ᅥ ᆼᄒ ᅡᄂ ᅳ ᆫ ᄉ ᅡ ᆼᄒ ᅩᄌ ᅥ ᆼᄇ ᅩᄋ ᅴ ᄐ ᅳ ᆨᄌ ᅵ ᆼᄋ ᅳ ᆯ ᄇ ᅩᄌ ᅩ ᆫ ᄒ ᅡᄆ ᅧ ᄉ ᅥ ᆯᄆ ᅧ ᆼᄇ ᅧ ᆫᄉ ᅮᄀ ᅡ ᆫᄋ ᅦᄂ ᅳ ᆫ ᄆ ᅩᄉ ᅮᄌ ᅥ ᆨ ᄇ ᅮ ᆫ ᄑ ᅩᄀ ᅡᄌ ᅥ ᆼᄋ ᅳ ᆯ ᄒ ᅡᄋ ᅧ ᄎ ᅮᄌ ᅥ ᆼᄋ ᅴ ᄒ

ᅭᄋ ᅲ ᆯᄋ ᅳ ᆯ ᄒ ᅣ ᆼᄉ ᅡ ᆼᄉ ᅵᄏ ᅵ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄃ ᅡ. ᄆ ᅩᄋ ᅴᄉ ᅵ ᆯᄒ ᅥ ᆷᄀ ᅧ ᆯᄀ ᅪ ᄒ ᅩ ᆫ ᄒ ᅡ ᆸᄌ ᅥ ᆼᄀ ᅲᄇ ᅮ ᆫ ᄑ ᅩᄅ ᅳ ᆯ ᄀ ᅡᄌ ᅥ ᆼᄒ ᅡ ᆫ ᄌ ᅩᄀ ᅥ ᆫᄇ ᅮ ᄉ ᅡ ᆼᄒ ᅩᄌ ᅥ ᆼᄇ ᅩᄋ ᅴ ᄌ ᅮ ᆫ ᄆ ᅩᄉ ᅮᄌ ᅥ ᆨ ᄎ ᅮᄌ ᅥ ᆼᄇ ᅥ ᆸ ᄋ

ᅵ ᄋ ᅲᄋ ᅴᄇ ᅧ ᆫᄉ ᅮ ᄉ ᅥ ᆫᄐ ᅢ ᆨᄂ ᅳ ᆼᄅ ᅧ ᆨᄋ ᅦᄉ ᅥ ᄆ ᅢᄋ ᅮ ᄋ ᅮᄉ ᅮᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ.

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄀ ᅩᄎ ᅡᄋ ᅯ ᆫ ᄌ ᅡᄅ ᅭ, ᄇ ᅧ ᆫᄉ ᅮᄉ ᅥ ᆫᄐ ᅢ ᆨ, ᄇ ᅮ ᆫ ᄅ ᅲᄇ ᅮ ᆫᄉ ᅥ ᆨ, ᄉ ᅥᄑ ᅩᄐ ᅳ ᄇ ᅦ ᆨᄐ ᅥ ᄀ ᅵᄀ ᅨ, ᄋ ᅦᄌ ᅵᄋ ᅯᄉ ᅳ ᄀ ᅳ ᆫ ᄉ ᅡ, ᄋ ᅦ ᆫᄐ ᅳᄅ ᅩᄑ ᅵ, ᄌ ᅥ ᆫᄌ ᅵ ᆫᄉ ᅥ ᆫᄐ ᅢ ᆨ ᄇ ᅥ

ᆸ, ᄌ ᅩᄀ ᅥ ᆫᄇ ᅮ ᄉ ᅡ ᆼᄒ ᅩᄌ ᅥ ᆼᄇ ᅩ, ᄒ ᅩ ᆫ ᄒ ᅡ ᆸᄌ ᅥ ᆼᄀ ᅲᄇ ᅮ ᆫ ᄑ ᅩ.

1. 머리말 ᄌ

ᅥᆫ통적인 통계 분석방법이 직접적으로 적용되기 어려운고차원자료인 경우 분류분석을적용하기 위 ᄒ

ᅢ 적절한 변수를선택하는변수선택(variable or feature selection) 방법은오랫동안 지속적으로 논의 ᄃ

ᅬ어왔다. 이러한 변수선택 방법 중 filter방법은변수들간의 연관성을고려하지 않고 반응변수와 개별 ᄇ

ᅧᆫ수의 연관성만을 이용하여 변수선택을 한다. 분류선택의 경우 filter 방법은 분류자와 독립적인 기준 ᄋ

ᅳ로 변수선택을 하는 이유로 다른 변수선택 방법 대비 계산속도가 빠르며 분류자와 상관없이 범용적 ᄋ

ᅳ로 변수선택을할 수 있다는장점이 있지만 다른설명변수와의 연관성을고려하지 않으므로 반응변수 ᄋ

ᅪ의 정보가 중복되는변수가 다수 포함된다는단점이 있다. filter 방법에 사용되는대표적인 기준척도 ᄂ

ᅳᆫ Fisher’s ratio, 상호정보 filter (Guyon 등, 2003), t-통계량 filter (Chang 등, 2004), FDR (false

1

(03063) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄌ ᅩ ᆼ ᄅ ᅩᄀ ᅮ ᄉ ᅥ ᆼᄀ ᅲ ᆫᄀ ᅪ ᆫ ᄅ ᅩ 25-2, ᄉ ᅥ ᆼᄀ ᅲ ᆫᄀ ᅪ ᆫ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ.

2

ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (03063) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄌ ᅩ ᆼ ᄅ ᅩᄀ ᅮ ᄉ ᅥ ᆼᄀ ᅲ ᆫᄀ ᅪ ᆫ ᄅ ᅩ 25-2, ᄉ ᅥ ᆼᄀ ᅲ ᆫᄀ ᅪ ᆫ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.

E-mail: dkim@skku.edu

(2)

discovery rate; Tusher 등, 2001) 등이 있다. 이러한 여러 기준척도 중상호정보는선형관계 뿐만 아니 ᄅ

ᅡ 비선형적관계도 파악할 수 있어 변수선택의 좋은기준척도이다.

ᅵ존의 상호정보를이용한 변수 선택법들 중에서 filter 방법의 단점을개선한 반응변수와 설명변수와 ᄋ

ᅴ 상호정보와 설명변수간의 종속성을모두 반영한 방법들은고차원밀도함수 추정으로 인해 고차원상 ᄒ

ᅩ정보 추정의 정확성이 떨어지고 계산시간이 길다는 단점이 있다. 이러한 문제로 상호정보를 이용한 ᄇ

ᅧᆫ수 선택법들은대부분저차원에서 이루어져왔다. Fleuret (2004)는설명변수를이분형 (binary)으로 ᄌ

ᅦ한하여 다차원상호정보를추정하는방법을제안하였으며, Cai 등 (2009)은고차원상호정보 대신 최 ᄃ

ᅢ 2차원까지만 고려하는조건부 상호정보를사용하는것을제안하였다. Cai 등 (2009)의 방법은연속 혀

ᆼ 고차원자료에 적용이 용이하다는장점이 있으나 추정하는과정에서 수많은수치적분과 밀도함수 추 저

ᆼ을요하므로 여전히 조건부 상호정보 추정에 많은시간이 소요된다.

Ahn과 Kim(2014)은더 효율적인 상호정보 추정을위해 설명변수간의 분포 가정을 통하여 조건부 상 ᄒ

ᅩ정보를 준모수적인 방법으로 추정하는방법을제안하였다. 설명변수와 반응변수 간의 비모수적 연관 서

ᆼ을파악하는상호정보의 장점을유지하기 위해서 설명변수와 반응변수 간에는비모수적으로 추정하고 ᄉ

ᅡᆼ대적으로 중요도가 적은설명변수간의 상호정보는추정의 효율을위해 모수적 가정을 통해 추정하였 ᄃ

ᅡ. 준모수적 조건부 상호정보 추정량이 Cai 등 (2009)의 방법과 비교해서 추정에 사용되는계산시간을 ᄏ

ᅳ게 줄이고 분류성능은유사하거나 혹은더 우수함을보였다.

Ahn과 Kim (2014)의 조건부 상호정보의 준모수적 추정은 내부적으로 모수적으로 추정하는부분과 ᄇ

ᅵ모수적으로 추정하는부분으로 구성되어 있다. 비모수적으로 추정하는부분은단일 설명변수와 반응 ᄇ

ᅧᆫ수간 상호정보이며 커널함수를 통해 추정된다. 모수적으로 추정하는 부분은설명변수간의 상호정보 르

ᆯ모수만의 식으로 표현하거나근사하여 상호정보의 추정량을모수의 추정량을 통하여 구하는부분이 ᄃ

ᅡ. 이러한 모수적 추정은비모수적 추정과는다르게 수치적분과 밀도함수 추정이 생략되어 효율적으로 ᄉ

ᅡᆼ호정보를추정할 수 있다. 그러나 설명변수간의 분포를 혼합정규처럼 특정분포로 가정하는경우와 같 ᄋ

ᅵ 모수만의 식으로 표현 또는근사시키는것이 매우 복잡하거나 구할 수 없을경우 추정에 한계가 있거 ᄂ

ᅡ 또는비효율적인 추정방법이된다. 또한 Ahn과 Kim (2014)의 방법은설명변수간의 2차원상호정보 르

ᆯ모수의 식으로 표현하여 오직 모수의 추정만 하는이유로 이상치와 분포가정에 민감하다. 따라서 설 며

ᆼ변수간 분포의 가정에 위배되거나 자료에 이상치가 많이 포함된 경우 조건부 상호정보를정확하게 추 저

ᆼ하지 못하여 변수선택 능력이 크게 떨어질 수 있다.

ᅩᆫ 연구에서는이러한 문제를 해결하기 위해 설명변수간의 분포를 혼합정규분포로 가정하고 비모수 ᄌ

ᅥᆨ 추정방법과 유사하게 설명변수간의 상호정보를 monte-carlo 수치적분 형태로 추정하는 방법을 제 ᄋ

ᅡᆫ한다. 밀도함수의 추정이 커널을 이용한 비모수적 추정을 하지 않고 모수의 추정으로 이루어진다는 거

ᆺ이 본 연구에서 제안하는 방법과 비모수적 추정방법과의 차이점이다. 설명변수간의 상호정보의 추 저

ᆼ시간은 수치적분과 밀도함수의 추정을모두 하지 않은 Ahn과 Kim (2014)의 방법보다는 많이 걸리 ᄀ

ᅩ 밀도함수의 추정을하지 않기 때문에 비모수적 방법보다는 적게 걸릴 것이다. 또한 이상치에 강건 (robust)한 추정량을 구성하기 위해 Monte-Carlo 수치적분부분은 밀도함수 추정에 기반을 둔가중평 ᄀ

ᅲᆫ형태를취한다.

보

ᆫ 연구의 2절에서 Cai 등 (2009)이 제안한 조건부 상호정보를이용한 변수선택 알고리즘과 Ahn과 Kim (2014)이 제안한 준모수적 조건부 상호정보 추정량을 살펴보고 3절에서 본연구에서 제안한 조건 ᄇ

ᅮ 상호정보의 혼합 정규분포 가정 준모수적 추정량을살펴본다. 4절과 5절에서는모의실험과 실증분석 ᄋ

ᅳᆯ 통해 본 논문에서 제안한 방법의 성능을평가하고 6절에서 결론이 제시된다.

(3)

2. 조건부 상호정보 기반 변수 선택법 ᄀ

ᅩ차원자료의 예로 마이크로어레이 자료 구조를활용하면 자료 구조는 m개의 유전자 (변수)와 n개 ᄋ

ᅴ 표본으로 구성되며 표본은 X = (xxx1, · · · , xxxn)이다. 여기서 xxxi, i = 1, · · · , n는 i번째 표본에서 유 ᄌ

ᅥᆫ자 집합 G = {g1, g2, · · · , gm}에 대한 각 유전자의 발현값인 m차원 벡터이고, 반응 벡터는 Y = (y1, ..., yn), yi ∈ {−1, 1}, i = 1, · · · , n 이다. 따라서 i번째 표본은유전자 발현 벡터 xxxi와 반응범주 yi로 구성된다.

2.1. 변수 선택으로서의 조건부 상호정보 ᄇ

ᅡᆫ응변수 Y 를 분류할 수 있는 가장 좋은유전자 집합 SSS를구하는것은상호정보 기준에서 Y 와 SSS의 ᄉ

ᅡᆼ호정보 I(Y ; SSS)를최대로 하는 SSS를결정하는것이다. 기 결정된유전자 집합 SSS하에서 분류성능을향 ᄉ

ᅡᆼ시킬 수 있는 새로운 유전자 gi ∈ G/SSS를찾는 것은 조건부 상호정보 I(Y ; gi|SSS)를가장 크게 하는 gi를찾는것이된다. 그러나 SSS와 SSS의 차원이 높아지면 I(Y ; SSS)와 I(Y ; gi|SSS)는고차원분포 추정에 많 ᄋ

ᆫ한계가 있다.

Cai 등 (2009)은 상호정보 I(Y ; SSS)와 I(Y ; gi) 추정 대신 새로운유전자 선택기준을 제안했으며, 이 ᄇ

ᅡᆼ법은기 선택된유전자의 집합 SSS에 추가되는새로운 i번째 유전자 giinG/SSS는다음의 선택기준으로 ᄉ

ᅥᆫ택된다.

M

MM I[i] = min

gs∈SSS

I(Y ; gi|gs), gi∈ G/SSS. (2.1) ᄌ

ᅳᆨ, SSS에 속하지 않는유전자들 중에서 가장큰 M IM IM I[i]를갖는유전자 gi를선택한다. 반응변수 Y 에 ᄃ

ᅢ한 최대정보를 가지는 동시에 기 선택된 유전자와는 최소한의 정보를 공유하는 유전자를 결정한다.

ᅩ한 M IM IM I[i]는최대 2차원의 밀도함수 추정만이 필요하므로 추정에큰어려움이 없다. 기술된유전자 선 태

ᆨ 기준인 M IM IM I[i]와 상호정보를이용한 자세한 변수선택과정은 Cai 등 (2009)과 Ahn과 Kim (2014)을 ᄎ

ᆷ고하기 바란다.

2.2. 조건부 상호정보의 비모수적 추정 ᄌ

ᅩ건부 상호정보를이용한 변수 선택방법에서 I(Y ; gi)와 I(Y ; gi|gj)를 추정 시 Cai 등 (2009)은 조 ᄀ

ᅥᆫ부 엔트로피 H(Y |gi)와 H(Y |gi, gj)의 비모수적 추정량을사용하였다. Cai 등 (2009)이 조건부 엔트 ᄅ

ᅩ피를추정하기 위해 사용한 방법은 Parzen window 밀도함수 추정과 monte-carlo 수치적분이며 조건 ᄇ

ᅮ 엔트로피 H(Y |X)의 비모수적 추정량은다음과 같다.

HˆN(Y |X) = −

n

X

i=1

1 n

X

y∈{0,1}

ˆ

p(y|xi) log(ˆp(y|xi)). (2.2)

ᄋ ᅧ기서

ˆ p(y|xi) =

P

j∈Iy1/|Σy|1/2exp(−(xi− xj)TΣ−1y (xi− xj)/2h2) P

k∈{0,1}

P

j∈Ik1/|Σk|1/2exp(−(xi− xj)TΣ−1k (xi− xj)/2h2) ᄋ

ᅵ고 h는 Gaussian 커널 함수의 평활모수 (smoothing parameter), Iy는 Y = y인 개체의 집합, Σy는 Y = y일 때의 분산-공분산행렬이다.

(4)

시

ᆨ (2.2)의 X를각각 gi와 (gi, gj)로 두면 다음과 같이 I(Y ; gi)와 I(Y ; gi|gj)의 비모수적 추정량을구 ᄒ

ᅡᆯ 수 있다.

IˆN(Y ; gi) = ˆH(Y ) − ˆHN(Y |gi),

IˆN(Y ; gi|gj) = ˆHN(Y |gi) − ˆHN(Y |gi, gj). (2.3)

2.3. 준모수적 조건부 상호정보 추정량 ᄌ

ᅩ건부 상호정보에 대한 비모수적 추정은조건부 상호정보 I(Y ; gi|gj)추정횟수가 유전자 집합 SSS에 ᄑ

ᅩ함된유전자 수가 커짐에 따라 급속히 증가하므로 MIM IM I[i]계산 시 많은시간이 소요된다. 따라서 고차 ᄋ

ᆫ자료에 조건부 상호정보를이용한 변수 선택을효율적으로 사용하기 위해서는 I(Y ; gi|gj)추정에 걸 ᄅ

ᅵ는 시간을 단축하여 빠르게 MIM IM I[i]를계산해야 한다. Ahn과 Kim (2014)은설명변수의 분포를다변 ᄅ

ᅣᆼ 정규분포로 가정하여 조건부 상호정보 를 준모수적으로 추정하는방법을제안하였다.

ᅵ분형 반응변수 Y 와 연속형 변수 g1, g2에서 조건부 상호정보 I(Y ; g2|g1)는다음과 같은관계를갖 느

ᆫ다 (Ahn과 Kim, 2014).

I(Y ; g2|g1) = I(g1; g2|Y ) + I(g2; Y ) − I(g1; g2). (2.4) 시

ᆨ (2.4)의 I(g2; Y )는 Cai 등 (2009)의 비모수적 방법으로 쉽게 추정할 수 있다. 설명변수의 분포를 ᄐ

ᅳᆨ정 분포로 가정할 경우 I(g1; g2)와 I(g1; g2|Y )를가정된 특정 분포상의 모수의 함수로 나타내어 추정 되

ᆫ모수를이용하여 I(g1, g2)와 I(g1, g2|Y )를 쉽게 추정한다. 이 방법은설명변수와 반응변수간의 비모 ᄉ

ᅮ적 연관성을 측정하기 위해 상호정보를비모수적으로 추정하며, 추정이 용이하지 않은설명변수간 상 ᄒ

ᅩ정보는모수적으로 추정하여 추정을향상시킨다 (Ahn과 Kim, 2014).

ᅩ한 식 (2.4)의 조건부 상호정보 I(Y ; g2|g1)는 Fan 등 (2011)이 제안한 정보이득(information gain) IG(gi, gj|Y )와 연관이 있다. IG(gi, gj|Y )가 0이면 gi와 gj는 Y에 대해 gi와 gj의 교호작 ᄋ

ᅭᆼ(interaction)은 Y 를예측하지 못한다. IG(gi, gj|Y )는다음과 같다.

IG(gi, gj|Y ) = I(gi, gj|Y ) − I(gi, gj).

ᅡ라서 I(Y ; gi|gj)와 IG(gi, gj|Y )는다음의관계를가진다.

I(Y ; gi|gj) = I(gi; gj|Y ) + I(gi; Y ) − I(gj; gi)

= I(gi; gj|Y ) − I(gi; gj) + I(gi; Y )

= IG(gi, gj|Y ) + I(gi; Y ). (2.5) 시

ᆨ (2.5)의 관계를 살펴보면 조건부 상호정보 I(Y ; gi|gj)는 gi와 gj의 교호작용과 Y 의 상호정보 ᄋ

ᅵᆫ IG(gi, gj|Y )와 gi와 Y 의 상호정보인 I(gi; Y )로 구성되어 있음을 알 수 있다. 조건부 상호정보 I(Y ; gi|gj)의 준모수적 추정은 IG(gi, gj|Y )를모수적으로 추정하고 I(gi; Y )를비모수적으로 추정하는 ᄇ

ᅡᆼ법이라고 할 수 있다.

(5)

2.4. 다변량 정규분포를 가정한 조건부 상호정보의 준모수적 추정 Ahn과 Kim (2014)은 (g1, g2)에 대해 (g1, g2) ∼ M V N (µµµ, Σ), µµµ = µ1

µ2

!

, Σ = σ12 ρσ1σ2

ρσ1σ2 σ22

! ᄅ ᅩ ᄀ

ᅡ정하여 상호정보 I(g1; g2)와 조건부 상호정보 I(g1; g2|Y )를다음과 같이 모수적으로 추정하였다.

Iˆp(g1; g2) = −1

2log(1 − ˆρ2), Iˆp(g1; g2|Y ) = −n0

n 1

2log(1 − ˆρ20) −n1

n 1

2log(1 − ˆρ21), (2.6) ᄋ

ᅧ기서 n0, n2는 각각 Y 가 0인 그룹과 1인 그룹의 표본 크기, ˆρ은 g1과 g2의 표본 상관계수, ˆρ0과 ˆ

ρ1은 Y가 0인 그룹과 1인 그룹에서 각각에서 g1과 g2의 표본 상관계수를나타낸다. 식 (2.6)에 의해 IG(g1, g2|Y )의 모수적인 추정량은다음과 같다.

IGcp(g1, g2|Y ) = ˆIp(g1; g2|Y ) − ˆIp(g1; g2)

= −n0

n 1

2log(1 − ˆρ20) − n1

n 1

2log(1 − ˆρ21) +1

2log(1 − ˆρ2). (2.7) 시

ᆨ (2.5)를이용하면 I(Y ; g2|g1)의 준모수적 추정량은다음과 같이 비모수적 추정량 ˆIN(g2; Y )과 모 ᄉ

ᅮ적 추정량 cIGp(g1, g2|Y )의 합으로 구성된다.

IˆS(Y ; g2|g1) = ˆIN(g2; Y ) + cIGp(g1, g2|Y )

= ˆIN(g2; Y ) −n0

n 1

2log(1 − ˆρ20) −n1

n 1

2log(1 − ˆρ21) +1

2log(1 − ˆρ2). (2.8) ᄉ

ᅡᆼ호정보 I(g2; Y )를비모수적으로 추정하고 상관계수 ρ, ρ0, ρ1를추정하면 조건부 상호정보 I(Y ; g2|g1)를 Cai 등 (2009)의 방법보다 쉽게 추정할 수 있다 (Ahn과 Kim, 2014).

2.5. Edgeworth 근사를 이용한 조건부 상호정보의 준모수적 추정

Ahn과 Kim (2014)은 정규성 가정을 완화하기 위해 상호정보의 추정에 사용되는 밀도함수 추 저

ᆼ에서 Edgeworth 근사법을 사용하였고 이를 위해 (g1, g2)을 (g1, g2) ∼ (µµµ, Σ)로 가정하고 상 ᄒ

ᅩ정보 I(g1; g2)와 조건부 상호정보 I(g1; g2|Y )를 다음과 같이 추정하였다. 여기서 µµµ = µ1

µ2

! ,

Σ = σ12 ρσ1σ2

ρσ1σ2 σ22

! ᄋ ᅵ다.

Iˆp(g1; g2) = −1 2



log(1 − ρ2) − ˆJ , Iˆp(g1; g2|Y ) = n0

2n ˆJ0− log(1 − ˆρ20) +n1

2n ˆJ1− log(1 − ˆρ21)

, (2.9) ᄋ

ᅧ기서 J는

J = κκκ1,1,22

+ κκκ2,2,12

2 (2.10)

(6)

ᅵ고 J0과 J1은 Y가 0인 그룹과 1인 그룹각각에서의 표준누율 κκκ1,1,2와 κκκ2,2,1을 식 (2.10)에 대입하여 ᄀ

ᅮ한다. 표준누율 κκκ1,1,2와 κκκ2,2,1는 κκκ1,1,2 = κσ1,1,22

2와 κκκ2,2,1 = κσ2,2,12

1를의미하고 누율 κ1,1,2와 κ2,2,1는 ᄃ

ᅡ음과 같이 표현된다. ˆJ , ˆJ0, ˆJ1은각각 J, J0, J1의 추정량이다 (Ahn과 Kim, 2014).

κ1,1,2= E(g21g2) − σ12µ2− 2ρσ1σ2µ1− µ21µ2,

κ2,2,1= E(g22g1) − σ22µ1− 2ρσ1σ2µ2− µ22µ1.

2.4절에서와 같이 식 (2.9)에 의해 IG(g1, g2|Y )의 모수적인 추정량은다음과 같다.

IGcp(g1, g2|Y ) = ˆIp(g1; g2|Y ) − ˆIp(g1; g2)

=n0

2n ˆJ0− log(1 − ˆρ20) +n1

2n ˆJ1− log(1 − ˆρ21) +1

2



log(1 − ρ2) − ˆJ

. (2.11) 2.4절과 같은방법을사용하면 I(Y ; g2|g1)의 준모수적 추정량은다음과 같이 구할 수 있다.

IˆS(Y ; g2|g1) = ˆIN(g2; Y ) + cIGp(g1, g2|Y )

= ˆIN(g2; Y ) + n0

2n ˆJ0− log(1 − ˆρ20) +n1

2n ˆJ1− log(1 − ˆρ21) +1

2



log(1 − ρ2) − ˆJ . (2.12) ᄄ

ᅡ라서 g1과 g2의 분포를다변량 정규분포로 가정할 때 다변량 정규분포 가정 조건부 상호정보의 추 저

ᆼ량에서 J, J0, J1를추가적으로 추정하면된다.

3. 혼합정규분포를 가정한 조건부 상호정보 추정

3.1. 가중치를 활용한 준모수적 추정법 ᄌ

ᅩ건부 상호정보의 준모수적 추정은모수적 추정 부분과 비모수적 추정 부분으로 분해된다. I(Y ; g1)의 ᄇ

ᅵ모수적 추정 시 추정방법은다음과 같다. 확률변수 X와 Y 의 상호정보 I(X; Y )는정의로부터

I(X; Y ) = E



log pXY(x, y|θ) pX(x|θ)pY(xy|θ)



ᅵ며 I(X; Y )의 비모수적 추정량은

I(X; Y ) =ˆ 1 n

X

i

log pˆXY.i(x, y) ˆ

pX,i(x)ˆpY,i(y) (3.1) ᄋ

ᅴ Monte-Carlo 수치적분형태로 나타낼 수 있다. 여기서 밀도함수 추정량 ˆpX.i(xxx)은 xxx = (x1, x2, · · · , xp)와 ᄏ

ᅥ널 함수 K에 대해서

ˆ

pX.i(xxx) = {(n − 1)hp}−1X

j̸=i

K{(xxx − xxxj)/h} (3.2)

(7)

ᅴ 형태로 추정한다. 상호정보 I(X; Y )의 비모수적 추정은수치적분과 밀도함수 추정으로 인해 많은추 저

ᆼ시간을요한다.

ᅩ건부 상호정보의 준모수적 추정 시 I(g1, g2)와 I(g1, g2|Y )는 모수적으로 추정하며, 상호정보 I(X; Y )의 모수적 추정은

I(X; Y ) = Z Z

xy

pXY(x, y|θ) log pXY(x, y|θ)

pX(x|θ)pY(y|θ)dxdy ≈ g(θ) (3.3) ᄎ

ᅥ럼 모수 θ의 함수식 또는근사식으로 도출후 ˆθ의 추정값을대입하여 ˆI(X; Y ) = g(ˆθ)로 계산한다. 이 ᄋ

ᅪ 같이 모수적 추정은비모수적 추정 방법에서는 필요한 수치적분과 밀도함수 추정이 생략되어 상호정 ᄇ

ᅩ가 빨리 추정된다. 그러나 (g1, g2)의 분포를 혼합정규분포로 가정할 경우와 같이 모수 θ의 함수식 또 ᄂ

ᅳᆫ근사식 도출이 용이하지 않는경우 이 방법은매우 제한적이다.

서

ᆯ명변수의 분포를 혼합정규분포로 가정할 경우 I(g1; g2)와 (g1; g2|Y )의 추정에서 I(g1; g2|Y )는 ᄇ

ᅡᆫ응변수 Y 가 주어졌을 시 (g1, g2)의 분포는 정규분포를 따라 식 (3.3) 형태의 추정은 용이하나, I(g1, g2)의 추정은 이 방법으로 추정이 용이하지 않아 변형된 형태의 모수적 방법을 도입한다. 즉, ᄉ

ᅡᆼ호정보 I(X; Y )를다음처럼 비모수적 추정형태로 Monte-Carlo 수치적분형태로 추정한다.

I(X; Y ) =ˆ X

i

wmilog pXY(xi, yi|ˆθ)

pX(xi|ˆθ)pY(yi|ˆθ). (3.4) ᄋ

ᅧ기서 wmi= pXY(xi, yi|ˆθ)/ P

jpXY(xj, yj|ˆθ) ᄋ

ᅵ다. 차이점은 밀도함수 추정 시 식 (3.1)은커널을 ᄋ

ᅵ용하지만 식 (3.4)는커널을 통한 비모수적 방식 대신 모수 θ의 추정을 통한다. 식 (3.4)의 추정시간 ᄋ

ᆫ수치적분과 밀도함수의 추정이 없는 식 (3.3)의 방식보다 많이 소요되나, 식 (3.4)는 밀도함수의 추정 ᄋ

ᅵ 없으므로 식 (3.1)의 비모수적 방식보다는적게 소요된다.

3.2. 혼합정규분포를 가정한 조건부 상호정보의 준모수적 추정 ᄋ

ᅵ번 절에서는 식 (3.4)를 이용하여 I(g1, g2)를 추정하여 조건부 상호정보 I(Y ; g1|g2)를 준모수적 ᄋ

ᅳ로 추정하는 과정을설명한다. (g1, g2) ≡ X의 분포를 혼합정규분포로 가정하면 식 (3.4)를 활용한 I(g1, g2)추정량은

I(gˆ 1; g2) =X

i

wmilog P1

y=0wˆyϕ((g1i, g2i)T; ˆµµµˆˆy, ˆΣy) Q2

p=1

P1

y=0wˆyϕ(gpi; ˆµyp, ˆσyp2 ) (3.5) ᄋ

ᅵ다. 여기서 wmi =P1

y=0wˆyϕ((g1i, g2i)T; ˆµµµˆˆy, ˆΣy)/ P

j

P1

y=0wˆyϕ((g1j, g2j)T; ˆµµµˆˆy, ˆΣy) ᄋ ᅵ다. Y 가 ᄌ

ᅮ어졌을때 (g1, g2)의 분포는정규분포를따라 I(g1, g2|Y )의 추정량은 식 (2.6)에 의해

I(gˆ 1, g2|Y ) = −wˆ0

2 log(1 − ˆρ20) − wˆ1

2 log(1 − ˆρ21) (3.6) ᄋ

ᅵ된다. ˆρ0와 ˆρ1는각각 Y = y일 때 wryi, wriy=Q2

p=1ϕ(gpi; ˆµyp, ˆσ2yp)를가중치로 하는표본가중상 과

ᆫ계수를나타낸다. 식 (3.5)와 (3.6)을이용하면 조건부 상호정보 I(Y ; g2|g1)의 준모수적 추정량은

(8)

I(Y ; gˆ 2|g1) = ˆI(Y ; g2) −wˆ0

2 log(1 − ˆρ20) −wˆ1

2 log(1 − ˆρ21)

−X

i

wmilog P1

y=0wˆkϕ((g1i, g2i)T; ˆµµµˆˆy, ˆΣy) Q2

p=1

P1

y=0wˆyϕ(gpi; ˆµpy, ˆσpy2 ) (3.7) ᄋ

ᅵ된다. 여기서 ˆI(Y ; g2)는최초 변수 선택 시 계산되었으며, wi의 추정량 ˆwi = nni과 Y = y에 따른 µ

µµy와 Σy를추정하여 조건부 상호정보의 준모수적 추정량 (3.7)을구한다.

4. 모의실험 보

ᆫ모의실험은각 β에 대하여 반응변수 Y 에 대해 동일한 정보를갖는유의변수를 2개씩 발생시킨 후 ᄋ

ᅧ러 변수선택법들이 기 선택된 변수와 중복되지 않는새로운변수를선택하는성능을비교한다. 즉, 군 ᄀ

ᅡᆫ의 차이를파악할 수 있는주요 유의한 유전자를 순차적으로 선택하는 성능을비교한다. 세부적으로 ᄀ

ᆨ β 마다 두 개의 변수 g(1)β , gβ(2)를 순차적으로 다음과 같이 생성시켜 총 12개의 변수를 생성시켰다 (모형1).

gβ(1)= yβ + ϵ(1)β , gβ(2)=√

0.9g(1)β +√ 0.1ϵ(2)β . ᄋ

ᅵ 과정에서 발생한 총 12개의 변수 중각 β별로 gβ(1), gβ(2) 둘 중 1개씩만 선택되어 모두 6개 변수만 ᄉ

ᅥᆫ택되면 이들은유의변수가 되며, 나머지 6개 변수는기 선택된6개 유의변수와 반응변수 y에 대해 동 이

ᆯ한 정보를 가지므로 중복변수가 된다. 본모의실험에서는 12개의 변수 이외에 488개의 비유의 변수 르

ᆯ함께 발생시켜 총 500개의 변수를생성하였다. 중복변수는 분류성능을저해할 수 있으므로 선택되지 ᄋ

ᆭ아야 한다. 따라서 본모의실험의 일차 목적은각 변수선택법마다 최초 선택된6개 변수에 대해서 각 β별로 1개씩인 총 6개 유의변수가 몇 개 선택되는지를비교하는것이며, 또한 중복변수와 비유의 변수 ᄀ

ᅡ 선택되는정도를함께 연구한다. 표본크기는 100개로로 하였다.

ᅩ의 실험에서 사용된 변수선택법은 상호정보 기반 filter방법 (MI filter), SVM-RFE, 비모수적 ᄌ

ᅩ건부 상호정보 추정량 기반 변수선택법 (NCMI), 정규분포 가정 준모수적 조건부 상호정보 추정 ᄅ

ᅣᆼ 기반 변수선택법 (SCMIN), Edgeworth 근사 준모수적 조건부 상호정보 추정량 기반 변수선택법 (SCMINE), 혼합 정규분포 가정 준모수적 조건부 상호정보 추정량 기반 변수선택법 (SCMINM)이다.

Table 4.1은 각 변수선택법 별로 최초 선택된 6개 변수에 포함된 유의변수 수, 중복변수 수와 비유 ᄋ

ᅴ 변수 수의 평균을나타낸다. 유의변수 선택 능력을보면 SCMINM와 NCMI가 유의변수를가장 많 ᄋ

ᅵ 선택하였다. 또한 중복변수와 비유의 변수인 경우, MI filter와 SVM-RFE는 중복변수가 많이 선택 ᄃ

ᅬ고, 조건부 상호정보 기반 변수 선택방법들은 비유의 변수가 상대적으로 선택되었다. 조건부 상호정 ᄇ

ᅩ 기반 변수선택법은 유의변수를 선택하는 능력과 중복변수를 적게 선택하는 능력은 좋으나, 반응변 ᄉ

ᅮ와 관련성이 없는 비유의 변수를 상대적으로 선택하였다. 세부적으로 조건부 상호정보의 추정량 그 루

ᆸ 중에서 SCMINM와 NCMI는다른추정량 기반 방법보다 비유의 변수를적게 선택하였다. 종합해서 SCMINM은다른방법보다 유의변수는가장 많이 선택하며 중복변수는가장 적게 선택하면서 비유의변 ᄉ

ᅮ를상대적으로 적게 선택하였다.

ᅮ 번째 모의 실험모형은유사한환경에서 각 β 마다 세 개의 변수 g(1)β , gβ(2), gβ(3)를다음과 같이 생성 ᄉ

ᅵ켜서 총 18개의 변수를생성시켰다 (모형2).

(9)

gβ(1)= yβ + ϵ(1)β , gβ(2)=√

0.9g(1)β +√ 0.1ϵ(2)β , gβ(3)=√

0.9g(1)β +√ 0.1ϵ(3)β . ᄋ

ᅵ번 모의실험에서도 각 변수선택법마다 최초 선택된 6개의 변수 증각 β별로 1개씩인 6개 유의변수 ᄀ

ᅡ 선택되는정도를파악하려고 한다. 각 β별로 변수 쌍 (gβ(1), g(2)β , gβ(3))에서 먼저 선택된 변수를유의 ᄇ

ᅧᆫ수로 그리고 나중에 선택된 변수를 중복변수로 한다. 또한 18개의 변수 이외에 482개의 비유의 변수 ᄅ

ᅳᆯ함께 생성시켜 최초 선택된6개 변수 중비유의 변수의 평균선택 개수도 함께 조사하였다.

Table 4.2는두 번째 모의실험 모형에서 각 변수선택법 별로 최초 선택된 6개 변수 중포함된유의변 ᄉ

ᅮ, 중복변수 그리고 비유의 변수의 평균개수를나타낸다. Table 4.2를보면 MI filter와 SVM-RFE는 ᄌ

ᅩ건부 상호정보 기반 변수선택법들보다 중복변수를선택하는수가 많이 증가하였으며, 이전 모의실험 겨

ᆯ과처럼 SCMINM의 성능이 가장 좋았다. 이번 모의실험에서처럼 변수 생성 시 중복변수 수를 늘릴 ᄉ

ᅮ록 조건부 상호정보 기반 변수선택법의 성능은 더 좋아지는 것을 알 수 있다. 종합해서 조건부 상호 저

ᆼ보 기반 변수선택법은유의변수 선택 능력이 우수할 뿐아니라 중복변수를거의 선택하지 않으나, MI filter와 SVM-RFE보다 비유의 변수를상대적으로 포함할 수 있다. 결론적으로 모임실험 1과 2에서 유 ᄋ

ᅴ변수, 중복변수 그리고 비유의 변수를고려할 때 SCMINM이 추천된다.

Table 4.1 Average counts of significant, redundant and non-significant variables (Model 1)

Methods β Sum Nonsig.

1.0 0.9 0.8 0.7 0.6 0.5

MI filter Sig. 1.00 0.98 0.79 0.44 0.14 0.01 3.36 0.00 Redun. 0.95 0.86 0.60 0.22 0.01 0.00 2.64 SVM-RFE Sig. 1.00 0.98 0.92 0.77 0.56 0.14 4.37 0.00

Redun. 0.74 0.53 0.26 0.08 0.02 0.00 1.63 NCMI Sig. 0.97 1.00 1.00 1.00 0.98 0.86 5.81 0.15

Redun. 0.02 0.01 0.00 0.01 0.00 0.00 0.04 SCMIN Sig. 0.98 0.90 0.83 0.75 0.55 0.23 4.24 1.74

Redun. 0.00 0.01 0.01 0.00 0.00 0.00 0.02 SCMIE Sig. 0.98 0.93 0.85 0.76 0.61 0.32 4.45 1.05

Redun. 0.06 0.09 0.12 0.12 0.07 0.04 0.50 SCMINM Sig. 1.00 1.00 1.00 1.00 0.97 0.90 5.87 0.13

Redun. 0.00 0.00 0.00 0.00 0.00 0.00 0.00

Table 4.3과 Table 4.4는모의실험 모형1과 모형2 각각에서 표본크기를 100에서 150으로 증가한 경 ᄋ

ᅮ 최초 선택된 6개 변수에 포함되는유의변수, 중복변수, 비유의 변수들의 평균비율을나타낸다. Ta- ble 4.3인 경우 조건부 상호정보 기반 변수선택 방법들은표본크기가 커질 때 유의변수 채택 비율이 증 ᄀ

ᅡ하나, MI filter와 SVM-RFE는 중복변수 채택 비율이 다소 증가하였다. 그러나 MI filter와 SVM- RFE는 유의변수 채택율은감소하였다. SCMIN과 SCMIE는표본크기 증가에 따라 유의변수 채택 능 ᄅ

ᆨ은매우 증가하였다. 표본수에 상관없이 SCMINM이 가장 좋은성능을보여주었으며 표본크기가 증 ᄀ

ᅡ할수록성능은더 좋아졌다.

Table 4.4또한 Table 4.3과 비슷한 결과를보여주었다. 특히 표본크기가 커짐에 따라 조건부 상호정 ᄇ

ᅩ 기반 변수선택 방법들은 유의변수를 채택율의 증가폭이 더 커졌다. Table 4.4에서도 표본수에관계 어

ᆹ이 SCMINM의 변수선택 성능이 가장 좋은결과를보였다.

(10)

Table 4.2 Average counts of significant, redundant and non-significant variables (Model 2)

Methods β Sum Nonsig.

1.0 0.9 0.8 0.7 0.6 0.5

MI filter Sig. 0.97 0.89 0.41 0.14 0.06 0.01 2.48 0.00 Redun. 1.73 1.29 0.36 0.11 0.01 0.02 3.52 SVM-RFE Sig. 1.00 0.98 0.89 0.71 0.42 0.12 4.12 0.01

Redun. 0.94 0.62 0.25 0.05 0.01 0.00 1.87 NCMI Sig. 1.00 1.00 1.00 0.99 0.96 0.76 5.71 0.08

Redun. 0.13 0.05 0.02 0.01 0.00 0.00 0.21 SCMIN Sig. 1.00 0.93 0.86 0.73 0.38 0.29 4.19 1.78

Redun. 0.00 0.01 0.00 0.00 0.00 0.02 0.03 SCMIE Sig. 1.00 0.98 0.91 0.79 0.45 0.37 4.50 0.95

Redun. 0.09 0.10 0.12 0.12 0.08 0.04 0.55 SCMINM Sig. 1.00 1.00 1.00 1.00 0.96 0.83 5.79 0.19

Redun. 0.01 0.01 0.00 0.00 0.00 0.00 0.02

Table 4.3 Mean proportions of significant, redundant and non-significant variables (Model 1)

Methods n = 100 n = 150

Sig. Redun. Nonsig. Sig. Redun. Nonsig.

MI filter 56.00% 44.00% 0.00% 53.83% 46.17% 0.00%

SVM-RFE 72.83% 27.17% 0.00% 72.33% 27.67% 0.00%

NCMI 96.83% 0.67% 2.50% 98.67% 1.33% 0.00%

SCMIN 70.67% 0.33% 29.00% 82.17% 0.83% 17.00%

SCMIE 74.17% 8.33% 17.50% 84.67% 6.67% 8.67%

SCMINM 97.83% 0.00% 2.17% 99.33% 0.00% 0.67%

5. 실증 분석 보

ᆫ 실증분석에서 Golub 등 (1999)의 백혈병 (leukemia)자료를 사용한다. 이 자료는 총 72개의 표 보

ᆫ으로 구성되어 있으며 급성골수성 백혈병 25명, 급성림프구성 백혈병 47명으로 구성된다. Figure 5.1은 본 자료를이용하여 각 변수 선택법 별로 선택된 변수의 수에 따른 B.632+오분류율을 나타낸 ᄃ

ᅡ. SVM-RFE는변수의 수가 처음 10 20개에서는매우 낮은오분류율을보여주나, 변수의 수가 20개 ᄋ

ᅵ후에서는오분류율이 감소하지 않아 30개 이상이면 다른 상호정보를사용한 변수 선택법 (MI filter, NCMI, SCMIN, SCMIE, SCMIMN)보다 상대적으로 분류성능이 저하된다. Edgeworth근사 조건부 ᄉ

ᅡᆼ호정보 기반 변수 선택법 (SCMIE)은 Ahn과 Kim (2014)에서 시행한 1,000개 유전자 필터링한 실 ᄒ

ᆷ결과와는다르게 다른방법에 비해 오분류율이 높아 성능이 상당히 저하되었다. 그러나 상호정보 fil- ter방법 (MI filter)은 Ahn과 Kim (2014)의 실험결과보다 좋은성능을보였다. 따라서 SVM-RFE와 SCMIE는적정한 수의 유전자로 필터링하는과정을요한다고 할 수 있다.

Figure 5.1에서 유전자의 수가 40∼47개인 경우 비모수적 조건부 상호정보 추정량 기반 변수선택법 (NCMI)과 혼합 정규분포 가정 준모수적 조건부 상호정보 추정량 기반 변수선택법 (SCMIMN)이 가 ᄌ

ᅡᆼ 낮은 오분류율을 보여주고 있다. 다만 다른 구간에서는 좋지 않은 성능을 보이지만 유전자의 수가 48∼50개인 구간에서 다변량 정규분포를가정한 조건부 상호정보 기반 변수 선택법 (SCMIN)이 가장 ᄂ

ᆽ은오분류율을나타내었다.

ᅩ든 구간을 종합적으로 볼 때 SCMIMN은 전반적으로 가장 낮은오분류율을 보였고 Ahn과 Kim (2014)과 같은 실험환경에서도 가장 낮은 오분류율을 기록하였다. 따라서 백혈병 자료의 경우 비교한 ᄆ

ᅩ든방법 중에서 가장 좋은변수선택법이라고 할 수 있다.

(11)

Table 4.4 Mean proportions of significant, redundant and non-significant variables (Model 2)

Methods n = 100 n = 150

Sig. Redun. Nonsig. Sig. Redun. Nonsig.

MI filter 41.33% 58.67% 0.00% 39.83% 60.17% 0.00%

SVM-RFE 68.67% 31.17% 0.17% 70.00% 30.00% 0.00%

NCMI 95.17% 3.50% 1.33% 98.17% 1.83% 0.00%

SCMIN 69.83% 0.50% 29.67% 82.50% 0.83% 16.67%

SCMIE 75.00% 9.17% 15.83% 82.00% 11.17% 6.83%

SCMINM 96.50% 0.33% 3.17% 99.00% 0.17% 0.83%

Figure 5.1 The external B.632+ error rates for the Leukemia dataset

6. 결론

Ahn과 Kim (2014)의 조건부 상호정보 준모수적 추정량은 설명변수간의 2차원 상호정보를 모수의 ᄒ

ᅡᆷ수식으로 도출하므로 모수만 추정하면 조건부 상호정보가 쉽게 계산되는장점이 크나, 이상치에 민감 ᄒ

ᅡ며 분포가정에 제한적이다. 따라서 설명변수간 분포 가정이 적절하지 않거나 자료에 포함된 이상치 ᄅ

ᅩ 인해 조건부 상호정보가 정확히 추정되지 못할 수 있어 유의변수를찾는성능이 저하될수 있다. 그 ᄅ

ᅥ나 모의실험 결과처럼 중복변수가 포함된자료에서 SCMIN과 SCMIE의 중복변수 제거 능력은 MI filter와 SVM-RFE보다는 좋았다.

Ahn과 Kim (2014)의 조건부 상호정보 준모수적 추정량의 단점인 설명변수간 분포가정과 자료에 포 ᄒ

ᅡᆷ된이상치 민감성을해결하기 위해 혼합정규분포 가정 준모수적 추정방법을제시하였다. 새롭게 제안 ᄒ

ᅡᆫ 준모수적 추정방법은 Ahn과 Kim (2014)과 유사하게 반응범주별 설명변수간의 분포를가정하여 모 ᄉ

ᅮ를 추정하나 추정된 모수로 조건부 상호정보를 구하는 대신 모든 자료에서의 밀도함수 추정값을 구 ᄒ

ᅡᆫ다. 새로운 준모수적 추정방법에서의 밀도 함수 추정량은 비모수적 방법과는 다르게 모수의 추정으 ᄅ

ᅩ 이루어져서 계산속도가 매우 빠르다. 또한 비모수적 추정량과 유사하게 수치적분단계를거치므로

(12)

Ahn과 Kim (2014)의 방법보다 분포가정에 대해서 상대적으로 강건하다. 따라서 제안하는가중치를활 ᄋ

ᆼ한 혼합 정규분포 가정 준모수적 조건부 상호정보 추정량 기반 변수선택법은 4절의 모의실험과 5절의 시

ᆯ증분석에서 가장 좋은변수선택 성능을보였다. 혼합 정규분포 가정 준모수적 조건부 상호정보 추정 ᄅ

ᅣᆼ 기반 변수선택법은추정방법의 계산상 효율성으로 변수선택의 계산시간이 단축될 뿐아니라 높은변 ᄉ

ᅮ선택 성능을보였다.

References

Ahn, C. and Kim, D. (2014). Efficient variable selection method using conditional mutual information.

Journal of the Korean Data & Information Science Society, 25, 1079-1094.

Cai, R., Hao, Z., Yang, X. and Wen, W. (2009). An efficient gene selection algorithm based on mutual information. Neurocomputing, 72, 991-999.

Chang, C. F., Wai, K. M. and Patterton, H. G. (2004). Calculating the statistical significance of physical clusters of co-regulated genes in the genome: The role of chromatin in domain-wide gene regulation.

Nucleic Acids, 32, 1798-1807.

Cover, T. M. and Thomas, J. A. (2006). Elements of information theory, 2nd Ed., Wiley.

Efron, B. and Tibshirani, R. (1997). Improvements on cross-validation; The bootstrap method. Journal of the American Statistical Association, 92, 548-560.

Fleuret, F. (2004). Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research, 5, 1531-1555.

Golub, T. R., Slonim, T. K., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J. P., Coller, H., Loh, M. H., Downing, J. R., Caligiuri, M. A., Bloomeld, C. D. and Lander, E. S. (1999). Molecular classification of cancer: Class discovery and class prediction by gene expression monitoring. Science, 286, 531-537.

Grad, H. (1949). Note on n-dimensional Hermite polynomials. Communications on Pure and Applied Mathematics, 3, 325-330.

Guyon, I. and Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3, 1157-1182.

Guyon, I., Weston, J., Barnhill, S. and Vapnik, V. (2002). Gene selection for cancer classification using support vector machines. Machine Learning, 46, 389-422.

Hulle, M. M. A. (2005). Edgeworth approximation of multivariate differential entropy. Neural Computation, 17, 1903-1910.

Kwak, N. and Choi, C. H. (2002). Input feature selection by mutual information based on parzen window.

Pattern Analysis and Machine Intelligence, 24, 1667-1671.

Mazya, V. and Schmidt, G. (1996). On approximate approximations using Gaussian kernels. IMA Journal of Numerical Analysis, 16, 13-29.

McCullagh, P. (1987). Tensor methods in statistics, Chapman & Hall, London.

Silverman, B. W. (1992). Density estimation for statistics and data analysis, Chapman & Hall, London.

Tusher, V. G., Tibshirani, R. and Chu, G. (2001). Significance analysis of microarrays applied to ionizing radiation response. PNAS , 98, 5116-5121.

Withers, C. S. (2000). A simple expression for the multivariate Hermite polynomials. Statistics & Proba-

bility Letters, 47, 165-169.

수치

Table 4.1 Average counts of significant, redundant and non-significant variables (Model 1)
Table 4.2 Average counts of significant, redundant and non-significant variables (Model 2)
Figure 5.1 The external B.632+ error rates for the Leukemia dataset

참조

관련 문서

- Click the Icon of Record Log Data from Equipment Selection Menu (Log Data Record mode ON – shall be identified Log Data saved or not during on moment of escape

그리고 오산에서 관측된 4일 00UTC 단열선도에서 지상에서 850hPa 고도까지 강한 역전층이 형성되어 있는 것을 볼 수 있는 데 이는 925hPa에서 850hPa

The convex polytopes are the simplest kind of polytopes, and form the basis for several different generalizations of the concept of polytopes.. For

Joint Expert Committee on Food Additives(JECFA) JECFA Joint Meeting on Pesticide Residues(JMPR) JMPR High Production Volume Screening Information Data. Set(HPV

treat wide wide wide wide necked necked necked necked aneurysms aneurysms aneurysms aneurysms that that that that selection selection selection selection of of

Recommendations on trajectory selection in flight planning based on weather uncertainty, Proceedings of the 2017 WMO Aeronautical Meteorology Scientific

High school Japanese I textbooks were analyzed based on the classification of culture types based on Finocchiaro & Bonomo, Chastain's theory and

Write on Common Data Bus to all awaiting RS units, FP registers, and store buffers; mark its reservation station available.  Normal data bus: data + destination