• 검색 결과가 없습니다.

Divide-and-conquer random sketched kernel ridge regression for large-scale data analysis<sup>†</sup>

N/A
N/A
Protected

Academic year: 2021

Share "Divide-and-conquer random sketched kernel ridge regression for large-scale data analysis<sup>†</sup>"

Copied!
9
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

2020, 31

(

1)

,

15–23

대용량 자료의 분석을 위한 분할정복 랜덤스케치 커널 능형회귀

ᆼᄌᆼᄀ

1

· ᄌᆫᄆᆼᄉ

2

1ᅩ려대ᄒᆨ교 톄ᄒᆨ과 · 2ᆫ규우ᄅᆸ대ᄒᆨ교 ᄋᆼ우ᄒᆨ톄ᄒᆨᄀ

ᄌ ᅥ

ᆸᄉ ᅮ 2019ᄂ ᅧ ᆫ 10ᄋ ᅯ ᆯ 11ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 11ᄋ ᅯ ᆯ 4ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 11ᄋ ᅯ ᆯ 7ᄋ ᅵ ᆯ

요 약

ᅥᄂ ᅥ ᆯ ᄂ ᅳ ᆼᄒ ᅧ ᆼᄒ ᅬᄀ ᅱ (kernel ridge regression; KRR)ᄂ ᅳ ᆫ ᄌ ᅢᄉ ᅢ ᆼᄉ ᅥ ᆼ ᄏ ᅥᄂ ᅥ ᆯ ᄒ ᅵ ᆯᄇ ᅥᄐ ᅳ ᄀ ᅩ ᆼ ᄀ ᅡ ᆫᄋ ᅦᄉ ᅥ ᄇ ᅵᄆ ᅩᄉ ᅮᄌ ᅥ ᆨ ᄒ ᅬᄀ ᅱ ᄒ ᅡ

ᆷᄉ ᅮᄅ ᅳ ᆯ ᄎ ᅮᄌ ᅥ ᆼᄒ ᅡᄂ ᅳ ᆫ ᄃ ᅢᄑ ᅭᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄀ ᅵᄇ ᅥ ᆸᄋ ᅳᄅ ᅩ ᄃ ᅡᄋ ᅣ ᆼᄒ ᅡ ᆫ ᄐ ᅩ ᆼ ᄀ ᅨ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄋ ᅦ ᄒ ᅪ ᆯᄋ ᅭ ᆼ ᄃ ᅬᄀ ᅩ ᄋ ᅵ ᆻᄃ ᅡ. ᄏ ᅳᄀ ᅵᄀ ᅡ nᄋ ᅵ ᆫ ᄌ ᅡᄅ ᅭᄋ ᅦᄉ ᅥᄋ ᅴ ᄋ ᅵ ᆯᄇ ᅡ ᆫ ᄌ

ᅥ ᆨᄋ ᅵ ᆫ KRRᄋ ᅴ ᄀ ᅮᄒ ᅧ ᆫᄋ ᅦ ᄑ ᅵ ᆯᄋ ᅭᄒ ᅡ ᆫ ᄀ ᅨᄉ ᅡ ᆫ ᄆ ᅵ ᆾ ᄌ ᅥᄌ ᅡ ᆼ ᄇ ᅵᄋ ᅭ ᆼᄋ ᅳ ᆫ ᄀ ᅡ ᆨᄀ ᅡ ᆨ O(n

3

), O(n

2

)ᄋ ᅵᄆ ᅧ, ᄃ ᅢᄋ ᅭ ᆼ ᄅ ᅣ ᆼ ᄌ ᅡᄅ ᅭᄋ ᅪ ᄀ ᅡ ᇀᄋ ᅵ nᄋ ᅵ ᄆ

ᅢᄋ ᅮ ᄏ ᅳ ᆫ ᄀ ᅧ ᆼᄋ ᅮ ᄀ ᅳ ᄒ ᅪ ᆯᄋ ᅭ ᆼᄉ ᅥ ᆼᄋ ᅵ ᄆ ᅢᄋ ᅮ ᄌ ᅦᄒ ᅡ ᆫᄃ ᅬ ᆫ ᄃ ᅡ. ᄋ ᅵᄅ ᅥᄒ ᅡ ᆫ ᄆ ᅮ ᆫ ᄌ ᅦᄅ ᅳ ᆯ ᄒ ᅢᄀ ᅧ ᆯᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅢ ᄇ ᅮ ᆫ ᄒ ᅡ ᆯᄌ ᅥ ᆼᄇ ᅩ ᆨ KRR, ᄅ ᅢ ᆫᄃ ᅥ ᆷᄉ ᅳᄏ ᅦᄎ ᅵ KRRᄀ ᅪ ᄀ ᅡ ᇀᄋ ᅳ ᆫ ᄀ ᅵᄇ ᅥ ᆸᄃ ᅳ ᆯ ᄋ ᅵ ᄀ ᅢᄇ ᅡ ᆯᄃ ᅬᄋ ᅥ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄃ ᅢᄋ ᅭ ᆼ ᄅ ᅣ ᆼ ᄌ ᅡᄅ ᅭᄋ ᅦᄉ ᅥᄋ ᅴ KRRᄋ ᅦ ᄒ ᅪ ᆯᄋ ᅭ ᆼᄃ ᅬ ᆫ ᄇ ᅮ ᆫ ᄒ ᅡ ᆯᄌ ᅥ ᆼᄇ ᅩ ᆨ ᄀ ᅵᄇ ᅥ ᆸ ᄀ

ᅪ ᄅ ᅢ ᆫᄃ ᅥ ᆷᄉ ᅳᄏ ᅦᄎ ᅵ ᄀ ᅵᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄀ ᅧ ᆯᄒ ᅡ ᆸᄒ ᅡᄋ ᅧ ᄉ ᅢᄅ ᅩᄋ ᅮ ᆫ ᄏ ᅥᄂ ᅥ ᆯ ᄂ ᅳ ᆼᄒ ᅧ ᆼᄒ ᅬᄀ ᅱ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄌ ᅦᄋ ᅡ ᆫ ᄃ ᅬ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆫ ᄀ ᅵᄌ ᅩ ᆫ ᄋ ᅴ ᄇ ᅮ ᆫ ᄒ ᅡ

ᆯᄌ ᅥ ᆼᄇ ᅩ ᆨ KRRᄋ ᅵᄂ ᅡ ᄅ ᅢ ᆫᄃ ᅥ ᆷᄉ ᅳᄏ ᅦᄎ ᅵ KRRᄇ ᅩᄃ ᅡ ᄌ ᅡ ᆨᄋ ᅳ ᆫ ᄀ ᅨᄉ ᅡ ᆫ ᄆ ᅵ ᆾ ᄌ ᅥᄌ ᅡ ᆼ ᄇ ᅵᄋ ᅭ ᆼᄋ ᅳ ᆯ ᄀ ᅡᄌ ᅵ ᆫᄃ ᅡ. ᄆ ᅩᄋ ᅴᄉ ᅵ ᆯᄒ ᅥ ᆷ ᄆ ᅵ ᆾ ᄉ ᅵ ᆯᄌ ᅦ ᄌ ᅡᄅ ᅭᄋ ᅴ ᄇ

ᅮ ᆫᄉ ᅥ ᆨᄋ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅢ ᄌ ᅦᄋ ᅡ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅴ ᄉ ᅥ ᆼᄂ ᅳ ᆼ ᄆ ᅵ ᆾ ᄋ ᅲᄋ ᅭ ᆼᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄒ ᅪ ᆨ ᄋ ᅵ ᆫᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ.

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄅ ᅢ ᆫᄃ ᅥ ᆷᄉ ᅳᄏ ᅦᄎ ᅵ, ᄇ ᅮ ᆫ ᄒ ᅡ ᆯᄌ ᅥ ᆼᄇ ᅩ ᆨ, ᄏ ᅥᄂ ᅥ ᆯ ᄂ ᅳ ᆼᄒ ᅧ ᆼᄒ ᅬᄀ ᅱ.

1. 서론

ᆫᄋᆼᄇᆫ수 Y ∈ R와 ᄀᆼᄇᆫᄅᆼ X ∈ Rpᅩ 이루어ᄌᆫ 자료 {(x1, y1), ..., (xn, yn)}ᅦ 대ᄒᆫ 회귀모ᄒᆼ Y = f (X) + ϵ오려하자. 여기서 오차ᄒᆼ ϵᄋᆼ기 0ᄋᆫ ᄌᆼ규보라라고 가ᄌᆼ하자. 비모수 회귀ᄒᆷᄉ

ᅴ 추ᄌᆼᄋᆫ 톄ᄒᆨ의 고ᄌᆫᄌᆨ 메 자나로 무ᄒᆫ차의 회귀ᄒᆷ수 f루ᄌᆼ하기 위해 f러ᄄᆫ ᄒᆷ수 ᄀ

ᆫ으로 ᄀᆫ시키니에 따라 다ᄋᆼᄒᆫ 쥬의 추ᄌᆼᄇᆼᄇᆸ이 ᄋᆫ구되으며, 이에 대ᄒᆫ 내ᄋᆼᄋᆫ Gyorfi ᄃ (2002), Wasserman (2006) 데 ᄌᆯ ᄌᆼ리되어 ᄋᆻ다. 이 가에 대표ᄌᆨᄋᆫ ᄇᆼᄇᆸ 자나ᄂᆫ f ᄅᆼ의 ᄌ

ᆼ부호 (positive semidefinite) 커ᄂᆯᄒᆷ수 K : Rp× Rp→ R에 의해 ᄆᆫ더지내ᄉᆼᄉᆼ 커ᄂᆯ ᄒᆯ버트 ᄀ

ᆫ (reproducing kernel Hilbert space; RKHS)에 제ᄋᆨ시키ᄂᆺ이며, RKHS기ᄇᆫ ᄇᆼᄇᆸ데 대ᄒᆫ 추ᄌ

ᅩ차의 ᄒᆫ계에 대해 ᄆᆭᄋᆫ구가 ᄌᆫᄒᆼ되아 (Koltchinskii, 2006; Mendelson, 2002; van de Geer, 2000). ᅵ러ᄒᆫ 가ᄌᆼ 하에서, f의 ᄒᆯ버트 노ᄅᆷ (norm)ᅴ 제ᄀᆸᄋᆯᄌᆷᄒᆼ으로 하고 ᄇᆫᄋᆼᄇᆫ수와 회귀ᄒᆷᄉ fᅴ 차이에 대ᄒᆫ 제ᄀᆸ외소화 ᄒᆷᄋᆯ 태 회귀ᄒᆷ수 f루ᄌᆼᄒᆯ 수 ᄋᆻ으며, 이 ᄇᆼᄇᆸ어ᄂᆯ ᄂᆼᄒᆼ회ᄀ (kernel ridge regression; KRR)ᅵ라고 ᄒᆫ다. ᄀᆫᄋᆯ화 모수가 ᄌᆨᄌᆯ히 ᄉᆫᄐᆨ되ᄋᆻᄋ ᅢ, KRR추ᄌᆼᄅᆼᄋ

ᆼᄒᆫ 캐스의 커ᄂᆯ에 대해 최새화 (minimax) 예초차라ᄌᆷ이 ᄋᆯ려져 ᄋᆻ으며 (Yang ᄃᆼ, 2017)

ᅳ 유ᄋᆼᄉᆼ아ᄐᆼ으로 ᄂᆯ리 이외고 ᄋᆻ다 (Hastie ᄃᆼ, 2001).

ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ 2018ᄂ ᅧ ᆫᄃ ᅩ ᄌ ᅥ ᆼᄇ ᅮ(ᄀ ᅭᄋ ᅲ ᆨ ᄇ ᅮ)ᄋ ᅴ ᄌ ᅢᄋ ᅯ ᆫ ᄋ ᅳᄅ ᅩ ᄒ ᅡ ᆫᄀ ᅮ ᆨᄋ ᅧ ᆫᄀ ᅮᄌ ᅢᄃ ᅡ ᆫᄋ ᅴ ᄌ ᅵᄋ ᅯ ᆫᄋ ᅳ ᆯ ᄇ ᅡ ᆮᄋ ᅡ ᄉ ᅮᄒ ᅢ ᆼᄃ ᅬ ᆫ ᄀ ᅵᄎ ᅩᄋ ᅧ ᆫᄀ ᅮᄉ ᅡᄋ ᅥ ᆸᄋ ᅵ ᆷ (NRF- 2018R1D1A1B07047654).

1

(02841) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄉ ᅥ ᆼᄇ ᅮ ᆨ ᄀ ᅮ ᄋ ᅡ ᆫᄋ ᅡ ᆷᄅ ᅩ 145 ᄀ ᅩᄅ ᅧᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄃ ᅢᄒ ᅡ ᆨᄋ ᅯ ᆫᄉ ᅢ ᆼ.

2

ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ : (21985) ᄋ ᅵ ᆫᄎ ᅥ ᆫᄀ ᅪ ᆼᄋ ᅧ ᆨᄉ ᅵ ᄋ ᅧ ᆫᄉ ᅮᄀ ᅮ ᄉ ᅩ ᆼ ᄃ ᅩ1ᄃ ᅩ ᆼ ᄉ ᅩ ᆼ ᄃ ᅩᄆ ᅮ ᆫ ᄒ ᅪᄅ ᅩ 119, ᄒ ᅡ ᆫᄀ ᅮ ᆨ ᄂ ᅲᄋ ᅭ ᆨ ᄌ ᅮᄅ ᅵ ᆸᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅳ ᆼᄋ ᅭ ᆼ ᄉ ᅮᄒ ᅡ ᆨᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ

ᅭᄉ ᅮ. E-mail: [email protected]

(2)

ᅵ러ᄒᆫ 매ᄅᆨᄌᆨᄋᆫ 톄ᄌᆨ ᄐᆨᄉᆼ에도 부하고, 대ᄋᆼ (large-scale) 자료의 ᄇᆫᄉᆨ에 ᄋᆻ어 KRR ᄇᆼᄇᆸᄋ

ᆨᄌᆸ ᄌᆨ아기에너려이 따라. 크기가 nᄋᆫ 자료에서의 ᄋᆯᄇᆫᄌᆨᄋᆫ KRR의 구ᄒᆫ에 ᄑᆯ요ᄒᆫ 계ᄉᆫ ᄆ

ᅥᄌᆼ 비ᄋᆼᄋ ᆨᄀᆨ O(n3), O(n2) ᅵ며, 대ᄋᆼ 자료와 ᄀᇀ이 n이 매ᄋ ᆼ우 이ᄂ ᆷ두도 ᄆ ᆯ ᄌ

ᅩᄋ ᅲ모이다. 따라서 KRR 추ᄌᆼ치아ᄌᆨ 계ᄉᆫᄋ ᆯ아여 ᄂᇁ예ᄉᆫ비ᄋᆼ이ᄒᆷ과 디에 ᄐ

ᅨᄌᆨ 최새화 예ᄎ ᅩ차의 ᄎᆨᄆᆫ에서의 최ᄌᆨᄉᆼ유지하ᄂᆼᄇᆸ릐 개ᄇᆯᄋᆫ ᄑᆯ수ᄌᆨ이며 그 죠ᄉᆼᄋ

ᆯ로 자하고 ᄋᆻ다. Zhang ᄃᆼ(2015)으기가 nᄋᆫ 자료ᄅᆯ tᅢ로 ᄋᆷ의 ᄇᆯ하여 ᄀᆨ k(k = 1, ..., t)ᄋ

ᅢ해 KRR 추ᄌᆼᄅᆼᄋ ᅨᄉᆫ하고, 이듸 ᄑᆼᄀᆫᄋ ᅬᄌ ᅮᄌᆼᄅᆼ으로 하ᄂᆫ ᄇᆯᄌᆼᄇᆨ (divide-and-conquer) KRR에ᄋᆫ하ᄋᆻ다. ᄇᆯᄌᆼᄇᆨ KRR예ᄉᆫ ᄆᆾ 저ᄌᆼ 비으로 ᄀᆨᄀᆨ O(n3/t2), O(n2/t2)아ᄌᆫ다. ᄄ

ᆫ Yang ᄃᆼ (2017)ᄋᆫ nᅡ어ᄂᆯᄒᆼᄅᆯᄋᆯ m × n ᄅᆫᄃᆷ스케치 ᄒᆼᄅᆯ S리아여 m(≪ n)차우ᄇᆫᄀ

ᅳ로 사ᄋᆼ시켜 계ᄉᆫ하ᄂᆫ ᄅᆫᄃᆷ스케치 KRR (random sketched KRR)에ᄋᆫ하ᄋᆻ다. ᄅᆫᄃᆷ스케치 ᄇᆼᄇᆸᄋ

ᅵ아 KRR 추ᄌᆼ치ᄂᆫ mᅡ이차ᄀᆨᄇᆸ의 해루ᄒᆷ으로써 ᄋᆮ우 ᄋᆻ으며, 계ᄉᆫ ᄆᆾ 저ᄌᆼ비ᄋ

ᅩ ᄀᆨᄀᆨ O(m3), O(m2)아ᄌᆫ다.

ᅵ러ᄒᆫ 기즤 ᄋᆫ구 ᄀᆯ과ᄃᆯ아여 ᄇᆫ구에서내ᄋᆼ 자료의 ᄇᆫᄉᆨ위ᄒᆫ KRR ᄇᆼᄇᆸᄋ

ᆯ펴보고, 이ᄃᆯᄋᆯᄒᆸ하여 ᄇᆯᄌᆼᄇᆨ ᄅᆫᄃᆷ스케치 커ᄂᆯ ᄂᆼᄒᆼ회귀 (divide-and-conquer random sketched kernel ridge regression)ᆼᄇᆸ에ᄋᆫ하고자 ᄒᆫ다. 제ᄋᆫ ᄇᆼᄇᆸᄋᆫ ᄇᆯ 수 t ᄆᆾ 사ᄋᆼ 차ᄋmᅵ ᄌᆨᄌᆯ히 ᄉ

ᆨ되ᄋᆻ애, 기즤 ᄇᆯᄌᆼᄇᆨ KRRᅵ나 ᄅᆫᄃᆷ스케치 KRR보다 ᄌᆨ예ᄉᆫ 비ᄋᆼ아지ᄆᆫ서도 예ᄎᆼᄒ

ᆼ ᄎᆨᄆᆫ에서 유사ᄒᆫ ᄉᆼᄂᆼ오여자. ᄇᆫ ᄂᆫ믜 구ᄉᆼ아와 ᄀᇀ다. ᄆᆫ저 2ᄌᆯ에서너ᄂᆯ ᄂᆼᄒᆼ회귀ᄋ

ᅢ해 ᄀᆫᄅᆨ하게 ᄉᆯᄆᆼ하고, 기ᄌᆼᄇᆸᄋᆫ ᄇᆯᄌᆼ비ᄇᆸ이ᄋᆫ 커ᄂᆯ ᄂᆼᄒᆼ회귀 ᄇᆼᄇᆸ과 ᄅᆫᄃᆷ스케치 커ᄂ

ᆼᄒᆼ회귀로개하ᄋᆻ다. 3ᄌᆯ에서ᄂᆫ ᄇᆯᄌᆼᄇᆨ ᄅᆫᄃᆷ스케치 커ᄂᆯ ᄂᆼᄒᆼ회귀레ᄋᆫ하ᄋᆻ으며, 4ᄌᆯ에서ᄂ

ᆼᄇᆸ의 유ᄋᆼᄉᆼ오의ᄉᆯᄒᆷ과 ᄉᆯ제 자료에 ᄌᆨᄋᆫ ᄇᆫᄉᆨ ᄀᆯ과라타내ᄋᆻ다.

2. 대용량 자료의 분석을 위한 커널 능형회귀 방법

ᅵ ᄌᆼ에서ᄂᆫ ᄇᆫ ᄂᆫ메서의 제ᄋᆫ ᄇᆼᄇᆸ의 ᄀᆼᄉᆨ화에 ᄋᇁ서 커ᄂᆯ ᄂᆼᄒᆼ회귀 ᄇᆼᄇᆸ ᄆᆾ ᄇᆯᄌᆼ비ᄇᆸ에 의ᄒ

ᅥᄂᆯ ᄂᆼᄒᆼ회귀, 그리고 ᄅᆫᄃᆷ스케치 ᄇᆼᄇᆸ이ᄋᆫ 커ᄂᆯ ᄂᆼᄒᆼ회귀에 대해 ᄀᆫᄅᆨ히 소개하고자 ᄒᆫ다.

2.1. 커널 능형회귀

ᅳ기가 nᄋᆫ 자료 {(x1, y1), ..., (xn, yn)}ᅡ 주어ᄌᆻ애 ᄑᆼ게고차 Ef (X) − Y )2뢰소화ᄒ

ᆷ수루ᄌᆼ하ᄂᆫ 메ᄅ ᆼᄀᆨ해보자. 이 때 최ᄌᆨ의 ᄒᆷ수ᄂ ᅩᄀᆫ부 기ᄃᆺᄀᆹ f := E [Y |X = x]ᄋᆷᄋ

ᆯ ᄋᆯ려져 ᄋᆻ다. 미지의 ᄒᆷ수 f의 ᄒᆷ수 ᄀᆫ우ᄒᆫ 차이므로 아무ᄅᆫ 제ᄋᆨ ᄋᆹ이 최ᄌᆨ화 ᄒᆷ수 f

ᅡᄂ ᆺᄋᆫ 바나며, 이루ᄌᆼ하기 위해서ᄂᆫ fᅡ ᄐᆨᄌᆼᄒᆫ ᄒᆼ태ᄅ ᅡᄌᆫ다ᄂ ᅡᄌᆼ이 ᄑᆯ요하다. 이ᄅ

ᅱᄒᆫ 대표ᄌᆨᄋᆫ ᄇᆼᄇᆸ 자나가 fᆼ의 ᄌᆫᄌᆼ부호 커ᄂᆯ ᄒᆷ수 K : Rp× Rp→ R에 의해 ᄆᆫ더지ᄂ

ᆼᄉᆼ 커ᄂᆯ ᄒᆯ버트 ᄀᆫ (reproducing kernel Hilbert space; RKHS)에 ᄉᆫ다고 가ᄌᆼ하ᄂᆺ이다. 이ᄅ

ᆫ 가ᄌᆼ 하에서 커ᄂᆯ ᄂᆼᄒᆼ회귀ᄂ

f := arg minˆ

f ∈H

1 2n

n

X

i=1

(yi− f (xi))2+ λ ∥f ∥2H (2.1)

ᅪ ᄀᇀ이 최소제ᄀᆸ ᄉᆫᄉᆯᄒᆷ수와 ᄒᆯ버트 노ᄅᆷ (norm) ∥f ∥H =

< f, f >Hᅴ 제ᄀᆸᄋᆯᄌᆷ (penalty)으ᄅ

ᅡ여 이듸 ᄒᆸ외소화하ᄂᆼ태로 표ᄒᆫ되며, 여기서 λ > 0ᄋᆫ ᄀᆫᄋᆯ화 모수 (regularization parame- ter)ᅵ다. ᄌᆯ ᄋᆯ려ᄌᆫ representer ᄌᆼ리에 의해 (2.1)의 해ᄂᆨᄌᆯᄒᆫ ˆw1, ..., ˆwn∈ R에 대하ᄋ

(3)

f (·) =ˆ

n

X

i=1

ˆ

wiK(·, xi) (2.2)

ᅴ ᄒᆼ태로 표ᄒᆫ두 ᄋᆻ다. (2.2)리아여 ᄇᆨ터-ᄒᆼᄅᆯ ᄒᆼ태로 (2.1)아시 나타내ᄆᆫ,

ˆ

w = arg min

w∈Rn

 1

2nwTK2w −1

nwTKy + λwTKw



(2.3)

ᅪ ᄀᇀ으며 여기서 Kᄂᆫ (i, j)오로 Kij= K(xi, xj)ᄅᆽ너ᄂᆯ ᄒᆼᄅᆯ이다. (2.3)의 ᄒᆼ태ᄂᆫ nᅡᄋ2

ᆨᄇᆸ으로 QR배 ᄃᆼᄋᆯ 태 O(n3)ᅴ 계ᄉᆫ 비으로 푸 ᄋᆻ다. 하지ᄆᆫ 자료의 크기 n이 매ᄋ

ᅮ에, 계ᄉᆫ비ᄋO(n3)ᅪ 커ᄂᆯᄒᆼᄅᆯ K러ᄌᆼ하기 위ᄒᆫ ᄀᆫ O(n2)ᄋᆫ ᄉᆯ제 ᄌᆨ아네 ᄋᆻ어려ᄋ

ᅵ 따라.

2.2. 분할정복 커널 능형회귀

ᆷ퓨터 과ᄒᆨ에서 ᄆᆭ이 사아ᄂᆫ ᄇᆯᄌᆼᄇᆯ고리ᄌᆷ우어ᄌᆫ 메로메로 ᄇᆯᄒᆫ 후 ᄀᆨᄀᆨ의 소ᄆ

ᅦᄅ ᅢᄀᆯᄒᆫ ᄀᆯ과리아여 ᄌᆫ체 메래ᄀᆯ하니ᄇᆸᄋ ᆯᄒᆫ다. Zhang ᄃᆼ(2015)ᅵ 제ᄋᆫᄒᆫ ᄇᆯᄌ

ᅵᄇᆸ에 의ᄒᆫ 커ᄂᆯ ᄂᆼᄒᆼ회귀나료ᄅᆯ ᄃᆼᄋᆯᄒᆫ 크기로 ᄋᆷ의로 나누 ᄀᆨᄀᆨ에 대해 KRR 추ᄌᆼᄅᆼᄋ

ᆫ 다이듸 ᄉᆫᄉᆼᄀᆫ외ᄌᆼᄌᆨᄋᆫ 추ᄌᆼᄅᆼ으로 ᄌᆼ하니ᄇᆸ이다. 구체ᄌᆨᄋᆫ ᄋᆯ고리ᄌᆷ아와 ᄀᇀ다.

알고리즘 1 ᆯᄌᆼ버ᄂᆯ ᄂᆼᄒᆼ회ᄀ

[ᆫ계 1] ᅳ기가 nᄋᆫ 자료 {(x1, y1), ..., (xn, yn)}러로 배ᄇᆫᄋᆫ t개의 ᄃᆼᄋᆯᄒᆫ 크기(n/t)의 부ᄇ

ᆸᄒᆸ G1, ..., Gtᅩ 나나.

[ᆫ계 2] ᆨᄀᆨ의 i = 1, 2, ..., t에 대하여 다와 ᄀᇀ이 고ᄌᆨ KRR 추ᄌᆼᄅᆼ예ᄉᆫᄒᆫ다.

fˆi:= arg min

f ∈H

1

|Gi| X

(x,y)∈Gi

(yi− f (xi))2+ λ ∥f ∥2H (2.4)

ᅧ기서 |Gi|누ᄇᆫᄌᆸᄒᆸ Giᅴ 오의 개수이다.

[ᆫ계 3] tᅢ의 고ᄌᆨ KRR 추ᄌᆼᄅᆼᄃᆯᄋᆼ가여 ¯f =1t

t

P

i=1

fˆiᅬ주ᄌᆼᄅᆼ으로 ᄌᆼᄒᆫ다.

(2.4)ᅴ ᄉᆯᄌᆯᄌᆨᄋᆫ 계ᄉᆫᄋᆫ (2.3)ᅪ ᄀᇀ이 이루어지며, 추ᄌᆼ하고자 하노수 w가 Rn/tᅦ 사가.

ᅡ라서 고ᄌᆨ KRR 추ᄌᆼᄅᆼᄋᆫ (n/t)-ᅡ의 이차 ᄀᆨᄇᆸ에 의해 구해지고, 이러ᄒᆫ 계ᄉᆫᄋᆯ tᄇᆫ ᄇᆫ바ᄆ

ᅩ 최주ᄌᆼᄅᆼ ¯f 루하네에 드녜ᄉᆫ 비와 저ᄌᆼ ᄀᆫᄋᆨᄀᆨ O(n3/t2)ᅪ O(n2/t2)ᅵ다.

2.3. 랜덤스케치 커널 능형회귀

ᆫᄃᆷ스케치 또ᄂᆫ ᄅᆫᄃᆷ 사ᄋᆼ(projection)오차아료러차에서 다루기 위해 이외내표ᄌᆨᄋ

ᅡᄋᆫ ᄎᆨ ᄇᆼᄇᆸ이다. Yang ᄃᆼ(2017)ᄋᆫ ᄅᆫᄃᆷ스케치 기ᄇᆸ이아여, n차의 커ᄂᆯ ᄒᆼᄅᆯ의 ᄒᆼᄀᆫ과 ᄋ

ᆫᄋᆯ ᄅᆫᄃᆷ하게 ᄉᆫᄐᆨᄃ l(≪ n)ᅡ의 부ᄇᆫ ᄀᆫ으로 사ᄋᆼ하아시키ᄂᆼᄇᆸ에ᄋᆫᄒᆻ다. 이ᄅ

ᅢ (2.3)에서의 애의 모수 w ∈ Rnᅡ Rnᅴ l차우ᄇᆫ ᄀᆫ Rlᅦ ᄉᆫ다고 가ᄌᆼ하자. ᄅᆫᄃᆷ스케치 ᄒ

ᆯ S ∈ Rl×nᅪ l차ᄋᆨ터 v에 대해 w = STvᅩ 두고 (2.3)에 대ᄋᆸ하ᄆᆫ, (2.3)ᄋ

수치

Table 4.1 Mean square errors and computation times as a function of number of partitions t and data size n for example 4.1 n DC-KRR DCS-KRR t=1 t=2 4 t=2 6 t=2 8 t=2 10 t=1 t=2 4 t=2 6 t=2 8 t=2 10 2 10 MSE(×·102 −4 ) 42.6 26.3 - - - 35.1 24.7 - -  -time(s
Figure 4.1 Comparison of the performance of DCS-KRR and DC-KRR in terms of mean square error
Figure 4.2 Comparison of the performance of DCS-KRR and DC-KRR in terms of training time

참조

관련 문서