2018, 29
(4)
,895–902
심층 다중 커널 최소제곱 서포트 벡터 회귀 기계
†
화
ᆼ창하
1
·최상일2
· 심주용3
1단국학교 응용통계학과 ·2단국대학교 응용컴퓨터공학과 ·3인제대학교 통계학과
ᄌ ᅥ
ᆸᄉ ᅮ 2018ᄂ ᅧ ᆫ 6ᄋ ᅯ ᆯ 25ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 7ᄋ ᅯ ᆯ 12ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 7ᄋ ᅯ ᆯ 17ᄋ ᅵ ᆯ
요 약
ᄇ
ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄒ ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄋ ᅱᄒ ᅡ ᆫ ᄉ ᅵ ᆷᄎ ᅳ ᆼ ᄃ ᅡᄌ ᅮ ᆼ ᄏ ᅥᄂ ᅥ ᆯ ᄎ ᅬᄉ ᅩᄌ ᅦᄀ ᅩ ᆸ ᄉ ᅥᄑ ᅩᄐ ᅳ ᄇ ᅦ ᆨᄐ ᅥ ᄒ ᅬᄀ ᅱ ᄀ ᅵᄀ ᅨ (least squares support vector regression machine; LS-SVRM)ᄋ ᅳ ᆯ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡ ᆫᄃ ᅡ. ᄌ ᅦᄋ ᅡ ᆫ ᄃ ᅬ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆫ ᄋ ᅵ ᆸᄅ ᅧ ᆨᄎ ᅳ ᆼ, 2ᄀ ᅢᄋ ᅴ ᄋ ᅳ ᆫᄂ ᅵ ᆨ ᄎ
ᅳ ᆼ ᄆ ᅵ ᆾ ᄎ ᅮ ᆯᄅ ᅧ ᆨᄎ ᅳ ᆼ ᄋ ᅳᄅ ᅩ ᄀ ᅮᄉ ᅥ ᆼᄃ ᅬ ᆫ ᄃ ᅡ. ᄀ ᅡ ᆨ ᄋ ᅳ ᆫᄂ ᅵ ᆨᄎ ᅳ ᆼ ᄋ ᅦᄉ ᅥ ᄃ ᅡᄅ ᅳ ᆫ ᄒ ᅧ ᆼᄐ ᅢᄋ ᅴ ᄏ ᅥᄂ ᅥ ᆯᄋ ᅳ ᆯ ᄀ ᅡᄌ ᅵᄂ ᅳ ᆫ LS-SVRMᄋ ᅵ ᄋ ᅵ ᆸᄅ ᅧ ᆨᄀ ᅪ ᄌ ᅩ ᆼᄉ ᅩ ᆨᄇ ᅧ ᆫ ᄉ
ᅮᄅ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄒ ᅡ ᆨᄉ ᅳ ᆸᄃ ᅬ ᆫ ᄃ ᅡ. ᄎ ᅬᄌ ᅩ ᆼ ᄎ ᅮ ᆯᄅ ᅧ ᆨᄋ ᅳ ᆯ ᄋ ᅱᄒ ᅢ ᄎ ᅮ ᆯᄅ ᅧ ᆨᄎ ᅳ ᆼᄋ ᅳ ᆫ ᄃ ᅮᄇ ᅥ ᆫᄍ ᅢ ᄋ ᅳ ᆫᄂ ᅵ ᆨᄎ ᅳ ᆼ ᄋ ᅴ ᄎ ᅮ ᆯᄅ ᅧ ᆨᄋ ᅳ ᆯ ᄋ ᅵ ᆸᄅ ᅧ ᆨᄋ ᅳᄅ ᅩ ᄉ ᅡᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄒ ᅡ ᆨ ᄉ
ᅳ
ᆸᄃ ᅬ ᆫ ᄃ ᅡ. ᄃ ᅡᄎ ᅳ ᆼ ᄉ ᅵ ᆫᄀ ᅧ ᆼᄆ ᅡ ᆼᄀ ᅪ ᄃ ᅡ ᆯᄅ ᅵ ᄉ ᅵ ᆷᄎ ᅳ ᆼ ᄃ ᅡᄌ ᅮ ᆼ ᄏ ᅥᄂ ᅥ ᆯ LS-SVRMᄋ ᅦᄉ ᅥ ᄀ ᅡ ᆨ LS-SVRMᄋ ᅳ ᆫ ᄇ ᅥ ᆯᄎ ᅵ ᆨᄒ ᅪ ᄆ ᅩ ᆨᄌ ᅥ ᆨᄒ ᅡ ᆷᄉ ᅮᄅ ᅳ ᆯ ᄎ ᅬ ᄉ
ᅩᄒ ᅪᄒ ᅡᄃ ᅩᄅ ᅩ ᆨ ᄒ ᅮ ᆫᄅ ᅧ ᆫᄃ ᅬ ᆫ ᄃ ᅡ. ᄄ ᅡᄅ ᅡᄉ ᅥ ᄉ ᅵ ᆷᄎ ᅳ ᆼ ᄃ ᅡᄌ ᅮ ᆼ ᄏ ᅥᄂ ᅥ ᆯ LS-SVRMᄋ ᅴ ᄒ ᅡ ᆨᄉ ᅳ ᆸᄋ ᅳ ᆫ ᄎ ᅬᄌ ᅩ ᆼ ᄇ ᅵᄋ ᅭ ᆼ ᄒ ᅡ ᆷᄉ ᅮᄆ ᅡ ᆫ ᄎ ᅬᄉ ᅩᄒ ᅪᄒ ᅡᄀ ᅵ ᄋ ᅱ ᄒ
ᅢ ᄀ ᅡᄌ ᅮ ᆼ ᄎ ᅵ ᄆ ᅵ ᆾ ᄑ ᅧ ᆫᄋ ᅴᄒ ᅡ ᆼᄋ ᅳ ᆯ ᄒ ᅡ ᆨᄉ ᅳ ᆸ ᄒ ᅡᄂ ᅳ ᆫ ᄃ ᅡᄎ ᅳ ᆼ ᄉ ᅵ ᆫᄀ ᅧ ᆼᄆ ᅡ ᆼᄀ ᅪ ᄋ ᅪ ᆫᄌ ᅥ ᆫᄒ ᅵ ᄃ ᅡᄅ ᅳᄃ ᅡ. ᄉ ᅵ ᆷᄎ ᅳ ᆼ ᄃ ᅡᄌ ᅮ ᆼ ᄏ ᅥᄂ ᅥ ᆯ LS-SVRMᄋ ᅳ ᆫ ᄆ ᅩᄃ ᅳ ᆫ LS-SVRMᄋ ᅳ ᆯ ᄒ ᅮ ᆫᄅ ᅧ ᆫᄒ ᅡᄀ ᅩ ᄌ ᅩᄒ ᅡ ᆸ ᄀ ᅡᄌ ᅮ ᆼ ᄎ ᅵᄋ ᅪ ᄑ ᅧ ᆫᄋ ᅴᄒ ᅡ ᆼᄅ ᅳ ᆯ ᄉ ᅡᄋ ᅭ ᆼ ᄒ ᅡ ᆫᄃ ᅡ. ᄋ ᅵᄄ ᅢ ᄌ ᅩᄒ ᅡ ᆸ ᄀ ᅡᄌ ᅮ ᆼ ᄎ ᅵᄋ ᅪ ᄑ ᅧ ᆫᄋ ᅴᄒ ᅡ ᆼᄋ ᅳ ᆫ ᄋ ᅧ ᆨᄌ ᅥ ᆫᄑ ᅡ ᄋ ᅡ ᆯᄀ ᅩ ᄅ
ᅵᄌ ᅳ ᆷᄅ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄀ ᅢ ᆼᄉ ᅵ ᆫᄃ ᅬ ᆫ ᄃ ᅡ. ᄉ ᅮᄎ ᅵᄌ ᅥ ᆨ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅳ ᆫ ᄉ ᅵ ᆷᄎ ᅳ ᆼ ᄃ ᅡᄌ ᅮ ᆼ ᄏ ᅥᄂ ᅥ ᆯ LS-SVRMᄋ ᅵ ᄒ ᅬᄀ ᅱ ᄆ ᅮ ᆫ ᄌ ᅦᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄎ ᅬᄎ ᅥ ᆷᄃ ᅡ ᆫ ᄀ ᅵ ᄀ
ᅨ ᄒ ᅡ ᆨᄉ ᅳ ᆸ ᄆ ᅩᄒ ᅧ ᆼᄇ ᅩᄃ ᅡ ᄋ ᅮᄋ ᅱᄋ ᅦ ᄋ ᅵ ᆻᄋ ᅳ ᆷᄋ ᅳ ᆯ ᄇ ᅩᄋ ᅧᄌ ᅮ ᆫ ᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄃ ᅡᄎ ᅳ ᆼ ᄉ ᅵ ᆫᄀ ᅧ ᆼᄆ ᅡ ᆼ, ᄇ ᅥ ᆯᄎ ᅵ ᆨᄒ ᅪ ᄆ ᅩ ᆨᄌ ᅥ ᆨᄒ ᅡ ᆷᄉ ᅮ, ᄉ ᅵ ᆷᄎ ᅳ ᆼ ᄉ ᅵ ᆫᄀ ᅧ ᆼᄆ ᅡ ᆼ, ᄋ ᅧ ᆨᄌ ᅥ ᆫᄑ ᅡ ᄋ ᅡ ᆯᄀ ᅩᄅ ᅵᄌ ᅳ ᆷ, ᄎ ᅬᄉ ᅩᄌ ᅦᄀ ᅩ ᆸ ᄉ ᅥᄑ ᅩᄐ ᅳ ᄇ ᅦ ᆨᄐ ᅥ ᄀ ᅵᄀ ᅨ, ᄒ
ᅬᄀ ᅱ.
1. 서론 ᄉ
ᅥ포트 벡터 기계 (support vector machine; SVM)은 분류 및 회귀분석관련 실제문제에서 성공적으 ᄅ
ᅩ활용되었다 (Vapnik, 1995). SVM의 성공적인활용에도 불구하고 SVM 학습은 2차 프로그래밍 문 ᄌ
ᅦ를 수반한다. 특히 대용량 자료의 경우 SVM은 2차 프로그래밍 문제를푸는데 심각한 어려움이 있 ᄃ
ᅡ. Suykens와 Vanderwalle (1999)은 SVM의 최소제곱 버전인 LS-SVM을 제안하였다. LS-SVM은 ᄆ
ᅢ우 편리하고 유용한 방법으로 입증되었다. SVM과 LS-SVM의 소개 및 최근개발에 대한 설명을 위 ᄒ
ᅢ Suykens 등 (2001), Smola와 Sch¨olkopf (2004), Hwang (2015, 2016), Seok (2015), Hwang과 Shim (2017)을참고하라.
SVM과 LS-SVM은 천층 구조 (shallow architecture)를 갖는 모형이기 때문에 복잡한 특성을 가지 느
ᆫ 데이터에 적용될 때 종종 나쁜 결과를 야기하는 경향이 있다 (Bengio와 Le Cun, 2007). 심층 신 겨
ᆼ망 (deep neural network)은 많은 실제문제에서 우수한 성능을 보여주는것으로 알려졌다 (Bengio
†
ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ 2016ᄂ ᅧ ᆫᄃ ᅩ, 2018ᄂ ᅧ ᆫᄃ ᅩ ᄀ ᅭᄋ ᅲ ᆨ ᄇ ᅮᄋ ᅴ ᄌ ᅢᄋ ᅯ ᆫ ᄋ ᅳᄅ ᅩ ᄒ ᅡ ᆫᄀ ᅮ ᆨᄋ ᅧ ᆫᄀ ᅮᄌ ᅢᄃ ᅡ ᆫᄋ ᅴ ᄌ ᅵᄋ ᅯ ᆫᄋ ᅳ ᆯ ᄇ ᅡ ᆮᄋ ᅡ ᄉ ᅮᄒ ᅢ ᆼᄃ ᅬ ᆫ ᄀ ᅵᄎ ᅩᄋ ᅧ ᆫᄀ ᅮᄉ ᅡᄋ ᅥ ᆸᄋ ᅵ ᆷ (NRF-2016R1D1A1B03931617, NRF-2018R1D1A1B07042349). ᄋ ᅵ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅳ ᆫ 2017ᄒ ᅡ ᆨᄂ ᅧ ᆫᄃ ᅩ ᄃ ᅡ ᆫᄀ ᅮ ᆨ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄃ
ᅢᄒ ᅡ ᆨᄋ ᅧ ᆫᄀ ᅮᄇ ᅵ ᄌ ᅵᄋ ᅯ ᆫ ᄋ ᅳᄅ ᅩ ᄋ ᅧ ᆫᄀ ᅮᄃ ᅬᄋ ᅥ ᆻᄋ ᅳ ᆷ.
1
(16890) ᄀ ᅧ ᆼᄀ ᅵᄃ ᅩ ᄋ ᅭ ᆼᄋ ᅵ ᆫᄉ ᅵ ᄉ ᅮᄌ ᅵᄀ ᅮ ᄌ ᅮ ᆨᄌ ᅥ ᆫᄅ ᅩ 152, ᄃ ᅡ ᆫᄀ ᅮ ᆨ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅳ ᆼᄋ ᅭ ᆼᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.
2
(16890) ᄀ ᅧ ᆼᄀ ᅵᄃ ᅩ ᄋ ᅭ ᆼᄋ ᅵ ᆫᄉ ᅵ ᄉ ᅮᄌ ᅵᄀ ᅮ ᄌ ᅮ ᆨᄌ ᅥ ᆫᄅ ᅩ 152, ᄃ ᅡ ᆫᄀ ᅮ ᆨ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅳ ᆼᄋ ᅭ ᆼᄏ ᅥ ᆷᄑ ᅲᄐ ᅥᄀ ᅩ ᆼ ᄒ ᅡ ᆨᄀ ᅪ, ᄇ ᅮᄀ ᅭᄉ ᅮ.
3
ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (50834) ᄀ ᅧ ᆼᄂ ᅡ ᆷ ᄀ ᅵ ᆷᄒ ᅢᄉ ᅵ ᄋ ᅵ ᆫᄌ ᅦᄅ ᅩ 197, ᄋ ᅵ ᆫᄌ ᅦᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅧ ᆷᄋ ᅵ ᆷᄀ ᅭᄉ ᅮ.
E-mail: [email protected]
ᄃ
ᅳᆼ, 2013). 다수의 연구자들은커널학습이 딥러닝을위해 수정될수 있는지를연구하였다. Cho와 Saul (2009)은무한 크기의 신경망의 동작을모방하도록설계된아크코사인 (arccosine) 커널을사용하여 딥 ᄅ
ᅥ닝을위한 커널기계를제안하였다. 그러나 이 방법은상위 층과관련된매개변수를조정하는것이 쉽 ᄌ
ᅵ 않은 단점을 가지고 있다. Zhuang 등 (2011)은 여러 개의 커널의 조합을고려하는 2층 다중 커널 ᄒ
ᅡᆨ습을제안하였지만 3층이상의 다중커널기계로확장하는 데는 문제가 있다. Wiering과 Schomaker (2014)는다층 SVM을구축하고 훈련하기 위한 간단한 방법을연구하였다.
SVM과 LS-SVM은예측성능이 모형에 사용된커널의 종류에 영향을많이 받는 특성을가지고 있다.
ᄋ
ᅵ를바탕으로 우리는여러 가지 커널을사용하고 심층 신경망과 LS-SVRM의 아이디어를결합한 심층 ᄃ
ᅡ중커널 LS-SVRM을제안하고자 한다. LS-SVRM을각 은닉노드에 적용하여 심층 신경망의 아이디 ᄋ
ᅥ를사용할 수 있다. 그러나, 심층다중커널 LS-SVRM에서 은닉층의 각 LS-SVRM은벌칙화 목적함 ᄉ
ᅮ를최소화하도록 훈련된다. 논문의 나머지 부분은다음과 같이 구성된다. 2절에서 LS-SVRM에 대해 ᄀ
ᅡᆫ단히 살펴본다. 3절에서는 입력층, 2개의 은닉층 및 출력층으로 구성된심층다중커널 LS-SVRM을 ᄌ
ᅦ안한다. 4절에서는 제안된심층다중커널 LS-SVRM을 실제자료에 적용하여 기존의 LS-SVRM 및 ᄃ
ᅡ층 신경망과 성능을비교한다. 그리고 5절에서 결론을내린다.
2. LS-SVRM ᄌ
ᅮ어진 자료를 {(xxxi, yi)}ni=1으로 표기하기로 한다. 여기서 xxxi ∈ Rd는 입력벡터이고 yi ∈ R는 출력 ᄀ
ᅡ
ᆹ이다. 비선형 회귀모형을위하여 회귀함수 f(xxx) = www′ϕϕϕ(xxx) + b를고려한다. 여기서 ϕϕϕ : Rd→ Rdf는 이
ᆸ력공간을암시적으로 정의된 더 높은 차원의 특징공간으로 사상하는비선형 특징사상함수이다. LS- SVRM의 최적화 문제는다음과 같이 정의된다.
min1
2www′www +C 2
n
X
i=1
e2i (2.1)
subject to ei= yi− www′ϕϕϕ(xxxi) − b, i = 1, · · · , n,여기서 C > 0는적합도와 www′www사이의 균형을제어하는 버
ᆯ칙상수이다.
시
ᆨ (2.1)에 대해 라그랑즈 (Lagrange) 함수를다음과 같이 만들수 있다.
L =1
2www′www +C 2
n
X
i=1
e2i−
n
X
i=1
αi(ei− yi+ www′ϕϕϕ(xxxi) + b), (2.2) ᄋ
ᅧ기서 αi는라그랑즈 배수 (multiplier)이다. 따라서 최적화 조건 (optimality condition)은다음과 같 ᄋ
ᅵ 구해진다.
∂L
∂www = 000 → www −
n
X
i=1
αiϕϕϕ(xxxi) = 000,
∂L
∂b = 0 →
n
X
i=1
αi= 0,
∂L
∂ei
= 0 → Cei− αi= 0, i = 1, · · · , n,
∂L
∂αi
= 0 → ei− yi+ www′ϕϕϕ(xxxi) + b = 0, i = 1, · · · , n. (2.3)
시
ᆨ (2.3)을 정리하면 다음의 선형방정식으로 간단하게 표현된다. 따라서 라그랑즈 배수의 최적값과 ᄑ
ᅧᆫ의항의 추정값은이 선형방정식으로부터 구해진다.
K + I/C 111 1 11′ 0
! ααα b
!
= yyy 0
!
, (2.4)
ᄋ
ᅧ기서 ααα = (α1, · · · , αn)′, yyy = (y1, · · · , yn)′, K = {K(xxxi, xxxj)}ni,j=1 = ϕϕϕ(xxxi)′ϕϕϕ(xxxj)이고, 이것은 Mercer (1909)의 조건을 응용하여 구해진다.
ᄄ
ᅡ라서 임의의 입력벡터 xxxt∈ Rd에 대한 회귀함수의 추정값은다음과 같이 구해진다.
f (xˆxxt) = KKKtααα + b = HHHtyyy, (2.5) ᄋ
ᅧ기서 KKKt= (K(xxxt, xxx1), · · · , K(xxxt, xxxn)), ααα = (α1, · · · , αn)′, (KKKt, 1)HHH0이고
H H
H0= (KKK + III/C)−1− (KKK + III/C)−1111(111′(KKK + III/C)−1111)111′(KKK + III/C)−1 (111′(KKK + III/C)−1111)−1111′(KKK + III/C)−1
! .
ᄌ
ᅮ어진 모형의 성능은 벌칙상수와 커널모수, 즉 초모수 (hyperparameter)의 값에 영향을 많이 받는 ᄃ
ᅡ. 모형에 사용되는커널의 형태가 정해진 경우 모형선택이란 초모수의 최적값을구하는것이다. LS- SVRM에서 초모수의 최적값을구하기 위하여 먼저 다음과 같은 LOO-교차타당성 (leave one out-cross validation)함수를고려할 수 있다.
CV (θθθ) = 1 n
n
X
i=1
(yi− ˆfi(−i)(θθθ))2, (2.6)
ᄋ
ᅧ기서 θθθ는벌칙상수와 커널모수로 이루어진 벡터이고, ˆfi(−i)(θθθ)는 i번째 자료를이용하지 않고 구한 회 ᄀ
ᅱ함수 f(xxxi)의 추정값이다. LOO-교차타당성 방법은주어진 θθθ에 대하여 n개의 ˆfi(−i)(θθθ)가 필요하므로 LOO-교차타당성 함수를이용하여 벌칙상수와 커널모수의 최적값을구하는것은계산측면에서 매우 비 ᄒ
ᅭ율적이다. 따라서 LOO-교차타당성 함수를대체할 교차타당성 함수를고려해야 한다.
LOO 보조정리 (Craven과 Wahba, 1979)와 1차 Taylor 전개를이용하면 LOO-교차타당성 함수의 ᄀ
ᅳᆫ사인 상용교차타당성(ordinary cross validation) 함수가 다음과 같이 구해진다.
OCV (θθθ) = 1 n
n
X
i=1
yi− ˆfi(θθθ) 1 −∂ ˆ∂yfi
i
2
= 1 n
n
X
i=1
yi− ˆfi(θθθ) 1 − hii(θθθ)
!2
, (2.7)
ᄋ
ᅧ기서 hii(θθθ)는 ˆfff = (f (xxx1), · · · , f (xxxn))′ = HHHyyy를만족하는모자행렬 (hat matrix) HHH의 대각원소이다.
시
ᆨ (2.7)의 hii(θθθ)대신 trace(HHH)/n를사용하면 일반화 교차타당성 (generalized cross validation) 함수 느
ᆫ다음과 같이 구해진다.
GCV (θθθ) = nPn
i=1(yi− ˆfi(θθθ))2
(n − trace(HHH))2 . (2.8)
3. 심층 다중 커널 LS-SVRM ᄌ
ᅮ어진 자료를{(xxxi, yi)}ni=1으로 표기하기로 한다. 여기서 xxxi∈ Rd는 입력벡터이고 yi∈ R는 출력변 ᄉ
ᅮ이다. 비선형 회귀모형을위하여 Figure 3.1과 같이 입력층, 2개의 은닉층 및 출력층으로 구성된심층 ᄃ
ᅡ중커널 LS-SVRM을생각한다.
Figure 3.1 Architecture of a deep multiple kernel LS-SVRM with three LS-SVRMs on the hidden layer
시
ᆷ층 다중 커널 LS-SVRM은 2개의 은닉층을 가지며, 각 은닉층은 dL개의 다른 형태의 커널을 가 ᄌ
ᅵ는 LS-SVRM을적용한다. Figure 3.1에서 dL= 3이고 커널은 K1, K2, K3이다. L(1)l 은커널 Kl을 ᄉ
ᅡ용하는첫번째 은닉층의 l번째 LS-SVRM을나타내고, fl(1)은 L(1)l 의 출력을 나타낸다. L(1)l 은자료 {(xxxi, yi)}ni=1를이용하여 학습되며, 임의의 입력벡터 xxxt에 대해 fl(1)은다음과 같이 표현된다.
fl(1)(xxxt) =
n
X
i=1
Kl(xxxt, xxxi)α(1)li + b(1)l0 , l = 1, · · · , dL, (3.1)
ᄋ
ᅧ기서 α(1)li 은관련 LS-SVRM의 라그랑즈 배수, b(1)l0 은 관련 LS-SVRM의 편의항, 그리고 Kl은관련 LS-SVRM의 커널이다. (α(1)li , b(1)l0 )은 식 (2.4)의 선형방정식을사용하여 구할 수 있다.
L(2)l 는 커널 Kl을사용하는두번째 은닉층의 l번째 LS-SVRM을나타내고, fl(2)는 L(2)l 의 출력을나 ᄐ
ᅡ낸다. L(2)l 는{(zl(xxxi), yi)}ni=1을이용하여 학습되며, 이때 zl(xxxi)는다음과 같이 표현된다.
zl(xxxi) =
dL
X
j=1
wzljfj(1)(xxxi) + bzl0, l = 1, · · · , dL, (3.2)
ᄋ
ᅧ기서 wzlj는 fj(1)과 L(2)l 사이의 가중치이고 bzl0는관련 편의항이다. 따라서 임의의 입력벡터 xxxt에 대 ᄒ
ᅢ fl(2)는다음과 같이 표현된다.
fl(2)(xxxt) =
n
X
i=1
Kl(zzzl(xxxt), zzzl(xxxi))α(2)li + b(2)l0, l = 1, · · · , dL, (3.3)