• 검색 결과가 없습니다.

Variable selection in reproducing kernel Hilbert space using random sketch method<sup>†</sup>

N/A
N/A
Protected

Academic year: 2021

Share "Variable selection in reproducing kernel Hilbert space using random sketch method<sup>†</sup>"

Copied!
11
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

2020, 31

(

4)

,

501–511

랜덤 스케치 기법을 활용한 재생성 커널 힐버트 공간에서의 변수선택

ᆼᄌᆼᄀ

1

· ᄌᆫᄆᆼᄉ

2

1ᅩ려대ᄒᆨ교 톄ᄒᆨ과 · 2ᆫ규우ᄅᆸ대ᄒᆨ교 ᄋᆼ우ᄒᆨ톄ᄒᆨᄀ

ᄌ ᅥ

ᆸᄉ ᅮ 2020ᄂ ᅧ ᆫ 5ᄋ ᅯ ᆯ 20ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2020ᄂ ᅧ ᆫ 6ᄋ ᅯ ᆯ 23ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2020ᄂ ᅧ ᆫ 7ᄋ ᅯ ᆯ 5ᄋ ᅵ ᆯ

요 약

ᅥᄂ ᅥ ᆯ ᄂ ᅳ ᆼᄒ ᅧ ᆼᄒ ᅬᄀ ᅱ (kernel ridge regression; KRR)ᄂ ᅳ ᆫ ᄒ ᅬᄀ ᅱᄒ ᅡ ᆷᄉ ᅮᄅ ᅳ ᆯ ᄌ ᅢᄉ ᅢ ᆼᄉ ᅥ ᆼ ᄏ ᅥᄂ ᅥ ᆯ ᄒ ᅵ ᆯᄇ ᅥᄐ ᅳ ᄀ ᅩ ᆼ ᄀ ᅡ ᆫ (repro- ducing kernel Hilbert space; RKHS)ᄋ ᅦᄉ ᅥ ᄎ ᅮᄌ ᅥ ᆼᄒ ᅡᄂ ᅳ ᆫ ᄇ ᅵᄆ ᅩᄉ ᅮᄌ ᅥ ᆨ ᄎ ᅮᄌ ᅥ ᆼ ᄀ ᅵᄇ ᅥ ᆸᄋ ᅳᄅ ᅩ, ᄆ ᅧ ᆼᄉ ᅵᄌ ᅥ ᆨ ᄆ ᅩᄒ ᅧ ᆼ ᄀ ᅡᄌ ᅥ ᆼᄋ ᅳ ᆯ ᄋ

ᅭᄀ ᅮᄒ ᅡᄌ ᅵ ᄋ ᅡ ᆭᄂ ᅳ ᆫ ᄌ ᅡ ᆼᄌ ᅥ ᆷᄋ ᅵ ᄋ ᅵ ᆻᄃ ᅡ. ᄋ ᅵᄅ ᅥᄒ ᅡ ᆫ RKHSᄒ ᅡᄋ ᅦᄉ ᅥ ᄀ ᅵᄋ ᅮ ᆯ ᄀ ᅵ ᄇ ᅦ ᆨᄐ ᅥᄃ ᅳ ᆯᄋ ᅳ ᆯ ᄒ ᅡ ᆨᄉ ᅳ ᆸ ᄒ ᅡ ᆷᄋ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅢ ᄇ ᅧ ᆫᄉ ᅮ ᄉ ᅥ ᆫᄐ ᅢ ᆨᄋ ᅳ ᆯ ᄒ ᅡ ᄂ

ᅳ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄅ ᅩ ᆫ ᄋ ᅵ ᄀ ᅢᄇ ᅡ ᆯ ᄃ ᅬ ᆫ ᄇ ᅡ ᄋ ᅵ ᆻᄃ ᅡ. ᄀ ᅳᄅ ᅥᄂ ᅡ ᄌ ᅡᄅ ᅭᄋ ᅴ ᄏ ᅳᄀ ᅵᄋ ᅪ ᄇ ᅧ ᆫᄉ ᅮᄋ ᅴ ᄉ ᅮᄀ ᅡ ᄆ ᅢᄋ ᅮ ᄏ ᅳ ᆫ ᄀ ᅧ ᆼᄋ ᅮ, ᄆ ᅡ ᆭᄋ ᅳ ᆫ ᄀ ᅨᄉ ᅡ ᆫᄇ ᅵᄋ ᅭ ᆼᄋ ᅳ ᆯ ᄋ ᅭ ᄀ

ᅮᄒ ᅡᄋ ᅧ ᄀ ᅳ ᄒ ᅪ ᆯᄋ ᅭ ᆼᄉ ᅥ ᆼᄋ ᅦ ᄒ ᅡ ᆫᄀ ᅨᄀ ᅡ ᄋ ᅵ ᆻᄃ ᅡ. ᄒ ᅡ ᆫᄑ ᅧ ᆫ ᄋ ᅵ ᆯᄇ ᅡ ᆫᄌ ᅥ ᆨᄋ ᅵ ᆫ KRRᄋ ᅦᄉ ᅥ ᄀ ᅨᄉ ᅡ ᆫᄇ ᅵᄋ ᅭ ᆼᄋ ᅳ ᆯ ᄌ ᅮ ᆯ ᄋ ᅵᄀ ᅵ ᄋ ᅱᄒ ᅡᄋ ᅧ ᄏ ᅥᄂ ᅥ ᆯ ᄒ ᅢ ᆼᄅ ᅧ ᆯᄋ ᅳ ᆯ m ᄎ ᅡᄋ ᅯ ᆫ ᄅ ᅢ ᆫᄃ ᅥ ᆷ ᄉ ᅳᄏ ᅦᄎ ᅵ ᄒ ᅢ ᆼᄅ ᅧ ᆯᄋ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄀ ᅳ ᆫ ᄉ ᅡ ᄉ ᅵᄏ ᅵᄂ ᅳ ᆫ ᄀ ᅵᄇ ᅥ ᆸᄋ ᅵ ᄀ ᅢᄇ ᅡ ᆯ ᄃ ᅬ ᆫ ᄇ ᅡ ᄋ ᅵ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ RKHS ᄋ ᅦ ᄉ

ᅥ ᄀ ᅩᄎ ᅡᄋ ᅯ ᆫ ᄌ ᅡᄅ ᅭᄅ ᅳ ᆯ ᄒ ᅭᄀ ᅪᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅡ ᆫ ᄉ ᅢᄅ ᅩᄋ ᅮ ᆫ KRR ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄌ ᅦᄋ ᅡ ᆫ ᄃ ᅬ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆫ ᄀ ᅵᄌ ᅩ ᆫ ᄋ ᅴ RKHSᄋ ᅦᄉ ᅥᄋ ᅴ ᄀ ᅵᄋ ᅮ ᆯ ᄀ ᅵ ᄒ ᅡ ᆨᄉ ᅳ ᆸ ᄀ ᅵᄇ ᅥ ᆸᄋ ᅦ ᄇ ᅵᄒ ᅢ ᄇ ᅩᄃ ᅡ ᄌ ᅡ ᆨᄋ ᅳ ᆫ ᄀ ᅨᄉ ᅡ ᆫ ᄇ ᅵᄋ ᅭ ᆼ ᄋ ᅳᄅ ᅩ ᄃ ᅩ ᆼᄃ ᅳ ᆼ ᄒ ᅡ ᆫ ᄉ ᅥ ᆼᄂ ᅳ ᆼᄋ ᅳ ᆯ ᄂ ᅡᄐ ᅡᄂ ᅢ ᆷᄋ ᅳ ᆯ ᄃ ᅡᄋ ᅣ ᆼᄒ ᅡ ᆫ ᄆ ᅩ ᄋ

ᅴᄉ ᅵ ᆯᄒ ᅥ ᆷ ᄆ ᅵ ᆾ ᄉ ᅵ ᆯᄌ ᅦ ᄉ ᅡᄅ ᅨ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄋ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅢ ᄒ ᅪ ᆨ ᄋ ᅵ ᆫᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ.

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄀ ᅩᄎ ᅡᄋ ᅯ ᆫ ᄌ ᅡᄅ ᅭ, ᄀ ᅵᄋ ᅮ ᆯ ᄀ ᅵ ᄒ ᅡ ᆨᄉ ᅳ ᆸ, ᄅ ᅢ ᆫᄃ ᅥ ᆷ ᄉ ᅳᄏ ᅦᄎ ᅵ, ᄇ ᅧ ᆫᄉ ᅮ ᄉ ᅥ ᆫᄐ ᅢ ᆨ, ᄌ ᅢᄉ ᅢ ᆼᄉ ᅥ ᆼ ᄏ ᅥᄂ ᅥ ᆯ ᄒ ᅵ ᆯᄇ ᅥᄐ ᅳ ᄀ ᅩ ᆼ ᄀ ᅡ ᆫ.

1. 서론

ᅵ싀 ᄀᆸᄉᆫ ᄇᆯᄌᆫ오차에이터 ᄇᆫᄉᆨ과 ᄀᇀᄋᆫ대 톄 기ᄇᆸ에 대ᄒᆫ 수요 자로 이어ᄌᆻ다. ᄋᆯᄇ

ᆨ으로 고차ᄋᆫᄌᆨ 데이터ᄅᆯ ᄇᆫᄉᆨ하네 ᄋᆻ어 소수의 ᄇᆫ수ᄆᆫ이 의미ᄋᆻᄂᆼ보레가며 다ᄅᆫ수ᄃᆯᄋ

ᆸ으로 ᄀᆫ주ᄒᆫ다. 따라서 의미ᄋᆻᄂᆫ수ᄆᆫᄋᆯ ᄉᆨᄇᆯ하ᄂᆺ오차에이터 ᄇᆫᄉᆨ의 주요 묘 자ᄂ

ᅵ며 의ᄒᆨ (Kim ᄃᆼ, 2016),ᅡ회과ᄒᆨ (Min과 Choi, 2016) 그리고 ᄀᆼ제ᄒᆨ (Smith ᄃᆼ, 2019) ᄃᆭᄋᆫ ᄉ

ᅦ 메의 ᄋᆼᄋᆯ외ᄋᆻ다. 이에 다ᄋᆼᄒᆫ ᄒᆼ태의 모ᄒᆼ에 대ᄒᆫ 가ᄌᆼ 하에 ᄆᆭᄋᆫ수 ᄉᆫᄐᆨ 기ᄇᆸ이 개ᄇ

ᅬᄋᆻ다.

ᆫᄒᆼ 모ᄒᆼ의 가ᄌᆼ 하에서ᄂᆯᄌᆷ화 회귀 모ᄒᆼ이 ᄇᆫ수 ᄉᆫᄐᆨ에서 ᄂᆯ리 이외ᄋᆻ으며, LASSO (Tibshi- rani, 1996), SCAD (Fanᅪ Li, 2001), elastic net (Zou와 Hastie, 2003), ᄌᆨᄋᆼᄌᆨ LASSO (Zou, 2006) ᄃ

ᅵ 개ᄇᆯ되ᄋᆻ다. 이러ᄒᆫ ᄇᆼᄇᆸᄃᆯ외소제ᄀᆸ ᄉᆫᄉᆯᄒᆷ수에 ᄇᆯᄌᆷ화ᄅᆫ기ᄏᆷ으로써 회귀ᄒᆷ수의 희ᄇᆨᄒᆫ ᄑ

ᆫ유도하며, 해ᄃᆼ 회귀 계수가 0ᄋᆫ지에 따라 ᄇᆫ수 ᄉᆫᄐᆨ으로 이어ᄌᆫ다. 보다 가ᄌᆼ와시ᄏᆫ 비모ᄉ

ᆨ 가ᄇᆸ 모ᄒᆼ의 가ᄌᆼ에서도 다ᄋᆼᄒᆫ ᄇᆼᄇᆸ디 개ᄇᆯ되아 (Huang과 Yang, 2004; Lin과 Zhang, 2006;

Huang ᄃᆼ, 2010). ᅵ와 ᄀᇀᄋᆼᄇᆸᄃᆯ으 뛰어ᄂᆫ ᄉᆼ네도 부하고 ᄉᆯ제 모ᄒᆼ이 ᄉᆫᄒᆼᄉᆼ 또나ᄇᆸᄉᆼᄋ

ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ 2018ᄂ ᅧ ᆫᄃ ᅩ ᄌ ᅥ ᆼᄇ ᅮ(ᄀ ᅭᄋ ᅲ ᆨ ᄇ ᅮ)ᄋ ᅴ ᄌ ᅢᄋ ᅯ ᆫ ᄋ ᅳᄅ ᅩ ᄒ ᅡ ᆫᄀ ᅮ ᆨᄋ ᅧ ᆫᄀ ᅮᄌ ᅢᄃ ᅡ ᆫᄋ ᅴ ᄌ ᅵᄋ ᅯ ᆫᄋ ᅳ ᆯ ᄇ ᅡ ᆮᄋ ᅡ ᄉ ᅮᄒ ᅢ ᆼᄃ ᅬ ᆫ ᄀ ᅵᄎ ᅩᄋ ᅧ ᆫᄀ ᅮᄉ ᅡᄋ ᅥ ᆸᄋ ᅵ ᆷ (2018R1D1A1B07047654).

1

(02841) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄉ ᅥ ᆼᄇ ᅮ ᆨ ᄀ ᅮ ᄋ ᅡ ᆫᄋ ᅡ ᆷᄅ ᅩ 145, ᄀ ᅩᄅ ᅧᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄃ ᅢᄒ ᅡ ᆨᄋ ᅯ ᆫᄉ ᅢ ᆼ.

2

ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ : (21985) ᄋ ᅵ ᆫᄎ ᅥ ᆫᄀ ᅪ ᆼᄋ ᅧ ᆨᄉ ᅵ ᄋ ᅧ ᆫᄉ ᅮᄀ ᅮ ᄉ ᅩ ᆼ ᄃ ᅩ1ᄃ ᅩ ᆼ ᄉ ᅩ ᆼ ᄃ ᅩᄆ ᅮ ᆫ ᄒ ᅪᄅ ᅩ 119, ᄒ ᅡ ᆫᄀ ᅮ ᆨ ᄂ ᅲᄋ ᅭ ᆨ ᄌ ᅮᄅ ᅵ ᆸᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅳ ᆼᄋ ᅭ ᆼ ᄉ ᅮᄒ ᅡ ᆨᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ

ᅭᄉ ᅮ. E-mail: myoungshic.jhun@stonybrook.edu

(2)

ᅡ나ᄌᆼᄋᆯ ᄎᆼ지키지 ᄆᆯ ᄀᆼ우에느 효ᄋᆼᄉᆼ이 저하되며, ᄇᆫ수듸 ᄋᆯᄇᆫᄌᆨᄋᆫ ᄋᆼᄒᆼᄃᆯᄋᆫᄋᆼ하지 ᄆ

ᅡ가.

ᅵ에 Yang ᄃᆼ (2016)ᄋ ᅢᄉᆼᄉᆼ 커ᄂᆯ ᄒᆯ버트 ᄀᆫ (reproducing kernel Hilbert space; RKHS)에ᄉ

ᅬ귀ᄒᆷ수의 기이 (gradient) ᄒᆷ수ᄅ ᆨᄉᆷᄋᆯ 태 유의ᄒᆫ ᄇᆫ수ᄅᆫᄐᆨᄒᆯ ᄀᆺ에ᄋᆫ하ᄋᆻ다. 이 ᄇᆼᄇ

ᅵ즤 기이 ᄒᆷ수의 추ᄌᆼᄋᆫ ᄋᆫ구 (Mukherjee와 Zhou, 2006; Ye와 Xie, 2012)의 ᄀᆯ과에 그ᄅ LASSO ᄇᆯᄌᆷᄒᆷ수 (Yuan과 Lin, 2006; Wang과 Leng, 2008)의 아이디어ᄅᆯᄒᆸ해 기이 ᄒᆷ수루ᄌ

ᆷ과 디에 ᄇᆫ수 ᄉᆫᄐᆨᄋᆯ 디에 수ᄒᆼᄒᆫ다. 이 ᄇᆼᄇᆸ이 ᄀᆽ누요 ᄌᆼᄌᆷᄋᆫᄒᆼᄉᆼ 또나ᄇᆸᄉᆼᄀᇀ오ᄒᆼᄋ

ᅮ체ᄌᆨᄋᆫ ᄒᆼ태ᄋᆫ 가ᄌᆼ요구하지 ᄋᆭ기 때메 ᄇᆫ수디 회귀 ᄒᆷ수에 미치나ᄋᆼᄒᆫ ᄋᆼᄒᆼᄃᆯᄋ

ᆨᄒᆫ다ᄂᆺ이다. 또ᄒᆫ RKHS하에서의 ᄒᆷ수 추ᄌᆼ에 주로 사외ᄂᆫ RKHSᅩᄅᆷ (norm) ᄒᆼ태의 ᄇᆯᄌᆷᄒ

ᅮ 대ᄉᆫ에 그ᄅᆸ LASSO ᄒᆼ태의 ᄇᆯᄌᆷᄒᆷ수ᄅᆨ아여, 유의하지 ᄋᆭᄋᆫ수에 해ᄃᆼ하니이 ᄇᆨ터의 ᄀ

ᅮᄃᆯᄋ ᅭ과ᄌᆨ으로 초 추ᄌᆼᄒᆯ 수 ᄋᆻ으며, ᄇᆯ롸표하ᄀᆼᄇᆸ (blockwise coordinate descent) ᄋᆯ고리ᄌ (Yangᅪ Zhou, 2015)ᄋᆯ 태 효과ᄌᆨᄋᆫ 추ᄌᆼ이 가나다. 그러나 ᄇᆫᄉᆨ하고자 하나료의 크기 n과 ᄇ

ᅮ의 수 p가 매ᄋᆼ우, Dᄇᆫ의 ᄇᆫ볘ᄉᆫᄋᆯ 태 O(n2p2D)ᅴ 계ᄉᆫ 비ᄋᆼ요구하게 되므로, 대ᄋ (large-scale)ᅡ료의 ᄇᆫᄉᆨ에서ᄋᆯ에너려이 ᄋᆻ다.

ᆫᄑᆫ ᄋᆯᄇᆫᄌᆨᄋᆫ 커ᄂᆯ ᄂᆼᄒᆼ회귀 (kernel ridge regression)에서도 대ᄋᆼ 자료의 ᄇᆫᄉᆨᄋ ᅱᄒᆫ 다ᄋᆼᄒ

ᅵᄇᆸ디 개ᄇᆯ되ᄋ ᅡ. 자료의 크기가 nᄋᆫ 대ᄋᆼ 자료에 대해 Zhang ᄃᆼ(2015)ᄋ ᅡ료ᄅᆯ tᅢᄅ

ᆷ의 ᄇᆯ하여 ᄀᆨ k (k = 1, ..., t)에 대해 커ᄂᆯ ᄂᆼᄒᆼ회귀ᄅ ᅮᄌᆼ하고, 추ᄌᆼᄒᆫ ᄒᆷ수듸 ᄑᆼᄀᆹᄋ

ᅮᄌᆼ ᄒᆷ수로 하ᄂᆫ ᄇᆯᄌᆼᄇᆨ (divide-and-conquer) KRRᄋ ᅦᄋᆫ하ᄋᆻ으며 이ᄅ ᅱᄒᆫ 계ᄉᆫ 비ᄋ

ᅩ O(n3/t2)ᄋ ᅭ구ᄒᆫ다. 또ᄒᆫ Yang ᄃᆼ (2017)ᄋᆫ ᄅᆫᄃᆷ 스케치 ᄇᆼᄇᆸᄋ ᆯ아여 n차ᄋ ᅥᄂᆯᄒᆼᄅᆯᄋ m(≪ n)ᅡᄋ ᅮᄇᆫᄀᆫ으로 사ᄋᆼ시켜 커ᄂᆯ ᄂᆼᄒᆼ회귀의 추ᄌᆼ과ᄌᆼᄋ ᅮᄒᆼ하ᄂᆫ ᄅᆫᄃᆷ 스케치 KRR (ran- dom sketched KRR)에ᄋᆫ하ᄋᆻ으며, 계ᄉᆫ비으로 O(m3)아ᄌᆫ다. 이 두 ᄇᆼᄇᆸ의 ᄌᆼᄌᆷᄋᆯᄒᆸ하ᄋ Kang과 Jhun (2020)ᄋᆫ ᄇᆯᄌᆼᄇᆨ ᄅᆫᄃᆷ 스케치 KRR에ᄋᆫ하여 계ᄉᆫ비으로 l < m에 대해 O(tl3+ ln2/t)아ᄌᆷ오ᄋᆻ다.

ᅵ러ᄒᆫ 기즤 ᄋᆫ구 ᄀᆯ과ᄃᆯᄋᆯ펴보고 바여 ᄇᆫ구에서노차아료의 효ᄋᆯᄌᆨᄋᆫ ᄇᆫᄉᆨ위ᄒ RKHSᅵᄇᆫ ᄇᆫ수ᄉᆫᄐᆨ 기ᄇᆸ에ᄋᆫ하고자 ᄒᆫ다. 제ᄋᆫᄇᆼᄇᆸ이즤 RKHS에서의 기이 ᄒᆨ시ᄇᆸ에 ᄇ

ᅢ 보다 ᄌᆨ예ᄉᆫ 비ᄋᆼ아지ᄆᆫ서도 예ᄎᆼᄒᆨᄉᆼ ᄎᆨᄆᆫ에서 유사ᄒᆫ ᄉᆼᄂᆼ오여자. ᄇᆫ ᄂᆫ믜 구ᄉ

ᅡ와 ᄀᇀ다. ᄆᆫ저 2ᄌᆯ에서너ᄂᆯ ᄂᆼᄒᆼ회귀에 대해 ᄀᆫᄅᆨ하게 소개하고, 기ᄌᆼᄇᆸᄋᆫ ᄅᆫᄃᆷ 스케치 ᄏ

ᅦᄂᆯ ᄂᆼᄒᆼ회귀와 RKHS에서의 기이 ᄒᆨ시ᄇᆸ오개하ᄋᆻ다. 3ᄌᆯ에서ᄂᆫ ᄅᆫᄃᆷ 스케치 기ᄇᆸᄋᆯᄋ RKHSᅦ서의 기이 ᄒᆨ시ᄇᆸᄋ ᅦᄋᆫ하ᄋᆻ으며, 4ᄌᆯ에서ᄂ ᅦᄋᆼᄇᆸ의 유ᄋᆼᄉᆼ오의ᄉᆯᄒᆷ ᄆᆾ ᄉᆯᄌ

ᅡ례 ᄇᆫᄉᆨᄋᆯ ᄐᆫ하ᄋᆻ다.

2. RKHS에서의 커널 회귀 방법론

ᆫ구에서 제ᄋᆫ하노차아료의 효ᄋᆯᄌᆨᄋᆫ ᄇᆫᄉᆨ위ᄒᆫ RKHS기ᄇᆫ ᄇᆫ수ᄉᆫᄐᆨ 기ᄇᆸ의 ᄀᆼᄉᆨ화에 ᄋ

ᅥ 이 ᄌᆼ에서너ᄂᆯ ᄂᆼᄒᆼ회귀에 대해 ᄋᆯ아보고, 제ᄋᆫᄇᆼᄇᆸᄋᆫ이 되니ᄌᆫ구ᄋᆫ ᄅᆫᄃᆷ 스케치 커ᄂ

ᆼᄒᆼ회귀 그리고 RKHS기ᄇᆫ ᄇᆫ수ᄉᆫᄐᆨ 기ᄇᆸ에 대해 ᄀᆫᄅᆨ히 소개하고자 ᄒᆫ다.

2.1. 커널 능형회귀

ᆫᄅᆫ자료 (xi, yi); i = 1, ..., nᅡ ᄋᆯ려지지 ᄋᆭᄋ ᅥᄄᆫ ᄀᆯᄒᆸ 보로부터 추ᄎᆫ ᄃᆨᄅᆸ 표비라고 하자.

ᅧ기서 xi = (xi1, ..., xip)T ∈ Rp ᆫ pᅡᄋᆫ ᄀᆼᄇᆫᄅᆼ, yi ∈ Rᄋᆫᄋᆼᄇᆫ수이다. 다와 ᄀᇀ외귀 모ᄒᆼᄋ

ᅩ려하자.

y = f(x) + ϵ,

(3)

ᅧ기서 E(ϵ|x) = 0, V ar(ϵ|x) = σ2, x = (x(1), ..., x(p))T ᅵ며, fᅮ ᄇᆫ 미바ᄂᆫ ᄎᆷ 회귀 ᄒᆷ수ᄋ

ᅡ. ᄑᆫ의ᄉᆼ 오차ᄒᆼ ϵᄋᆼ기 0ᄋᆫ ᄌᆼ규보라라고 가ᄌᆼ하자. 이러ᄒᆫ 자료ᄅᆯ ᄇᆫᄉᆨ하네 ᄋᆻ어ᄉ

ᅴ ᄌᆫ ᄀᆷ사ᄂᆼ게고ᄎ

E(f (x) − Y )2

(2.1)

ᅬ소화하ᄂ ᆷ수ᄅ ᅮᄌᆼ하ᄂ ᆺ이다. 이 때 (2.1)ᄋ ᅬ소화하ᄂ ᅬᄌᆨ의 ᄒᆷ수ᄂ ᅩᄀᆫ부 기ᄃᆺᄀ E [Y |x]ᄋᆷᄋ ᅩᄋᆯ 수 ᄋᆻ다. 여기서 ᄒᆷ수 f ᅮ ᄋᆻᄂ ᅮ보ᄂ ᅮᄒᆫ히 ᄆᆭ으므로, 아무ᄅᆫ 제ᄋᆨ ᄋ

ᅵ fᅮᄌᆼ하ᄂᆺᄋᆫ 바나다. 따라서 톄ᄒᆨ에서ᄂᆫ fᅴ 추ᄌᆼᄅᆼ에 대ᄒᆫ 후보로 ᄐᆨᄌᆼᄒᆫ ᄒᆼ태ᄅ

ᆼ하네, ᄉᆫᄒᆼ 모ᄒᆼ f(x) = xTβ,ᅡᄇᆸ 모ᄒᆼ f(x) = g1(x(1)) + · · · gp(x(p))ᅵ 이에 대ᄒᆫ 대표ᄌᆨᄋ

ᅨ이다. 그러나 ᄆᆭᄋᆼ우 ᄉᆯ제 fᅵ러ᄒᆫ 가ᄌᆼᄋᆯ ᄎᆼ지키지 마므로, fᅡ 사ᄂᆷ수 ᄀᆫ에 ᄃ

ᆫ 보ᄃ ᅡᄌᆼ이 요가. ᄎ ᅡᄌᆼ ᄀᆮᄂᆼᄇᆸ 자나ᄂᆫ fᅴ ᄒᆷ수 ᄀᆫᄋ ᆼ의 ᄌᆫᄌᆼᄇ

ᅩ (positive semidefinite) 커ᄂᆯᄒᆷ수 K : Rp× Rp → R에 의해 ᄆᆫ더지ᄂ ᅢᄉᆼᄉᆼ 커ᄂᆯ ᄒᆯ버트 ᄀ (reproducing kernel Hilbert space; RKHS)ᅳ로 제ᄋᆨ시키ᄂᆺ이며, RKHS 기ᄇᆫ ᄇᆼᄇᆸ레 대해 ᄆᆭᄋ

ᆫ구가 ᄌᆫᄒᆼ되아 (Koltchinskii, 2006; Mendelson, 2002; Van de Geer, 2000). 이와 ᄀᇀ이 ᄒᆷ수 ᄀ

ᆫᄋᆯ RKHSᅩ 제ᄋᆨ시ᄏᆻ애, ᄎᆷ 회귀 ᄒᆷ수 f f := argminˆ

f ∈H

(1 n

n

X

i=1

(yi− f (xi))2+ λn∥f ∥2H )

(2.2)

ᅪ ᄀᇀ이 최소제ᄀᆸ ᄉᆫᄉᆯᄒᆷ수와 ᄒᆯ버트 노ᄅᆷ (norm) ∥f ∥H =

< f, f >Hᅴ 제ᄀᆸᄋᆯᄌᆷ ᄒᆷ수로 하여 ᄋ

ᅮ ᄒᆼ의 ᄒᆸᄋ ᅬ소화하ᄂᆷ수 ˆf 우ᄌᆼ하ᄂ ᆼᄇᆸ어ᄂᆯ ᄂᆼᄒᆼ회귀 (kernel ridge regression; KRR)ᄋ

ᅡ고 ᄒᆫ다.

ᅧ기서 λn > 0ᄋ ᅩ오수 (tuning parameter)이다. 표ᄒᆫ ᄌᆼ리 (representer theorem; Wahba, 1999)ᅦ 의해 (2.2)의 해너ᄄᆫ ˆw1, ..., ˆwn∈ R에 대하ᄋ

f (·) =ˆ

n

X

i=1

ˆ

wiK(·, xi) (2.3)

ᅴ ᄒᆼ태로 표ᄒᆫ다. (2.3)이아여 (2.2)ᄅᆯ ᄇᆨ터-ᄒᆼᄅᆯ ᄒᆼ태로 재표ᄒᆫ하ᄆᆫ,

ˆ

w = argmin

w∈Rn

 1

nwTK2w −2

nwTKy + λnwTKw



(2.4)

ᅪ ᄀᇀ으며 여기서 K너ᄂᆯᄒᆼᄅᆯ으로 (i, j)오로 Kij = K(xi, xj)ᄅ ᆽ나. (2.4)ᄂᆫ nᅡᄋ ᅵ차 ᄀ

ᆨᄇᆸ (quadratic programming)으로 ᄋᆯᄇᆫᄌᆨᄋᆫ QR배 ᄃᆼᄋᆯ 태 O(n3)ᅴ 계ᄉᆫ 비으로 ˆw루ᄒᆯ ᄉ

ᆻ다.

2.2. 랜덤 스케치 커널 능형회귀

ᆫᄃᆷ 스케치 또ᄂᆫ ᄅᆫᄃᆷ 사ᄋᆼ (projection)유키드 ᄀᆫ에ᄋᆻᄂᆫ ᄋᆯᄅᆫ의 자료의 차ᄋᆫᄋᆯ 지네 ᄉ

ᅬ내표ᄌᆨᄋᆫ 차ᄋᆫ ᄎᆨ 기ᄇᆸ이다. Yang ᄃᆼ (2017)ᄋᆫ ᄅᆫᄃᆷ 스케치 기ᄇᆸ이아여, 대ᄋᆼ 자료ᄋ

ᅥ 효ᄋᆯᄌᆨᄋᆫ 커ᄂᆯ ᄂᆼᄒᆼ회귀의 계ᄉᆫᄋ ᅱ해 n차의 커ᄂᆯ ᄒᆼᄅᆯ K의 ᄒᆼᄀᆫ과 ᄋᆯᄀᆫᄋᆯ ᄅᆫᄃᆷ하게 ᄉᆫᄐ

m(≪ n)ᅡ의 부ᄇᆫ ᄀᆫ으로 사ᄋᆼ하아시ᄏᆫ후 계ᄉᆫ하ᄂᆼᄇᆸᄋ ᅦᄋᆫᄒᆻ다. 이뤼해 (2.4)ᄋ

수치

Table 4.1 The averaged performance measures of GL and proposed SGL in Example 1 (n, p, η) Method TP FN C PT(sec) FT(sec) TT(sec)
Table 4.2 The averaged performance measures of GL and proposed SGL in Example 2.

참조

관련 문서

This research was supported by Korea Atomic Energy Research Institute (NTIS-1711139325) and National Research Foundation of Korea (NRF) Grant funded by the Korean

In the random signal experiment, the hydraulic simulator's piston is driven by the random signal using the simultaneous input-output measurement program.. Acquired data

Radiolocation Radiolocation Amateur-satelliteAmateur Radiolocation RADIOLOCATION RADIOLOCATION FIXEDEARTH EXPLORATION-SATELLITE (passive)SPACE RESEARCH

12) S. Park, “A Review on Monitoring Mt. Baekdu Volcano Using Space-based Remote Sensing Observations”, Special Issue on Earthquake and Volcano Research using Remote Sensing

Random Forests는 과학계는 물론 산업계에서도 많이 사용되는 Machine Learning 알고리즘으로, 매우 우수한 성능을 보여주는 알고리즘 중에 하나입니다.. Random

Based on the research described above, a work expressing the formative beauty of lines, which is the most basic in calligraphy, was produced by using

“ 화려한 네온사인과 쇼 윈도의 불빛이 여전히 압구정 동 로데오 거리를 비추고 있지만 거리를 오가는 사람은 눈에 띄게 적다.. … '패션의 거리''로 불려졌던

A Study on the Evaluation of Space Recognition Space Recognition Space Recognition in the Space Recognition in the in the in the Concourse of Hospital using the