2021, 32
(5)
,917–929
이분산성 존재시 효율적 정보기반기준 분위수 회귀모형 선택법 †
ᄉ
ᅵᆫ우영
1
· 정윤서2
12고려대학교 통계학과
ᄌ ᅥ
ᆸᄉ ᅮ 2021ᄂ ᅧ ᆫ 6ᄋ ᅯ ᆯ 24ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2021ᄂ ᅧ ᆫ 7ᄋ ᅯ ᆯ 24ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2021ᄂ ᅧ ᆫ 8ᄋ ᅯ ᆯ 2ᄋ ᅵ ᆯ
요 약
ᄋ
ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ ᄋ ᅩᄎ ᅡᄋ ᅴ ᄋ ᅵᄇ ᅮ ᆫ ᄉ ᅡ ᆫᄉ ᅥ ᆼ ᄌ ᅩ ᆫ ᄌ ᅢᄉ ᅵ ᄇ ᅮ ᆫ ᄋ ᅱᄉ ᅮ ᄒ ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄉ ᅥ ᆫᄐ ᅢ ᆨᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄃ ᅡᄋ ᅣ ᆼᄒ ᅡ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄃ ᅳ ᆯᄋ ᅳ ᆯ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡ ᆫᄃ ᅡ.
ᄇ
ᅮ ᆫ ᄋ ᅱᄉ ᅮ ᄉ ᅩ ᆫᄉ ᅵ ᆯᄒ ᅡ ᆷᄉ ᅮ (check loss function)ᄂ ᅳ ᆫ ᄇ ᅮ ᆫ ᄋ ᅱᄉ ᅮ ᄒ ᅬᄀ ᅱᄇ ᅮ ᆫᄉ ᅥ ᆨᄋ ᅦᄉ ᅥ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄌ ᅥ ᆨᄒ ᅡ ᆸ ᄀ ᅪᄌ ᅥ ᆼᄀ ᅪ ᄉ ᅥ ᆫᄐ ᅢ ᆨ ᄀ ᅪᄌ ᅥ ᆼᄋ ᅦ ᄆ
ᅩᄃ ᅮ ᄉ ᅡᄋ ᅭ ᆼᄃ ᅬ ᆫ ᄃ ᅡ. ᄌ ᅥᄌ ᅡᄃ ᅳ ᆯ ᄋ ᅴ ᄀ ᅪ ᆫ ᄉ ᅵ ᆷᄋ ᅳ ᆫ ᄇ ᅮ ᆫ ᄋ ᅱᄉ ᅮ ᄒ ᅬᄀ ᅱᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄉ ᅥ ᆫᄐ ᅢ ᆨᄋ ᅦ (ᄄ ᅩᄂ ᅳ ᆫ ᄌ ᅩᄋ ᅲ ᆯ ᄆ ᅩᄉ ᅮᄋ ᅴ ᄉ ᅥ ᆫᄐ ᅢ ᆨᄋ ᅦ) ᄋ ᅵ ᆻᄀ ᅵ ᄄ ᅢ ᄆ
ᅮ ᆫ ᄋ ᅦ, ᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄌ ᅥ ᆨᄒ ᅡ ᆸᄋ ᅦᄂ ᅳ ᆫ ᄒ ᅡ ᆼᄉ ᅡ ᆼ ᄇ ᅮ ᆫ ᄋ ᅱᄉ ᅮ ᄉ ᅩ ᆫᄉ ᅵ ᆯᄒ ᅡ ᆷᄉ ᅮᄅ ᅳ ᆯ ᄉ ᅡᄋ ᅭ ᆼ ᄒ ᅡ ᆫᄃ ᅡ. ᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄉ ᅥ ᆫᄐ ᅢ ᆨ ᄇ ᅡ ᆼᄇ ᅥ ᆸ ᄌ ᅮ ᆼ ᄋ ᅦᄂ ᅳ ᆫ ᄌ ᅥ ᆼᄇ ᅩᄀ ᅵᄇ ᅡ ᆫᄀ ᅵᄌ ᅮ ᆫ (information-based criteria)ᄋ ᅵ ᄆ ᅡ ᆭᄋ ᅵ ᄉ ᅡᄋ ᅭ ᆼ ᄃ ᅬᄆ ᅧ, ᄀ ᅵᄌ ᅩ ᆫ ᄋ ᅴ ᄌ ᅥ ᆼᄇ ᅩᄀ ᅵᄇ ᅡ ᆫᄀ ᅵᄌ ᅮ ᆫᄃ ᅳ ᆯᄋ ᅳ ᆫ ᄋ ᅩᄎ ᅡᄋ ᅴ ᄋ ᅵᄇ ᅮ ᆫ ᄉ ᅡ ᆫᄉ ᅥ ᆼ ᄌ ᅩ ᆫ ᄌ ᅢᄅ ᅳ ᆯ ᄀ ᅩ ᄅ
ᅧᄒ ᅡᄌ ᅵ ᄋ ᅡ ᆭᄀ ᅵ ᄄ ᅢᄆ ᅮ ᆫ ᄋ ᅦ ᄒ ᅭᄋ ᅲ ᆯᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄆ ᅩᄒ ᅧ ᆼ ᄉ ᅥ ᆫᄐ ᅢ ᆨᄋ ᅦ ᄌ ᅦᄋ ᅣ ᆨᄋ ᅵ ᄋ ᅵ ᆻᄃ ᅡ. ᄋ ᅵᄅ ᅳ ᆯ ᄒ ᅢᄀ ᅧ ᆯᄒ ᅡᄀ ᅩᄌ ᅡ ᄇ ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄇ ᅮ ᆫ ᄋ ᅱᄉ ᅮ ᄉ ᅩ ᆫᄉ ᅵ ᆯ ᄒ ᅡ
ᆷᄉ ᅮᄅ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄉ ᅥ ᆫᄐ ᅢ ᆨᄉ ᅵ ᄀ ᅪ ᆫᄎ ᅳ ᆨ ᄀ ᅡ ᆹᄋ ᅦ ᄉ ᅥᄅ ᅩ ᄃ ᅡᄅ ᅳ ᆫ ᄀ ᅡᄌ ᅮ ᆼ ᄎ ᅵᄅ ᅳ ᆯ ᄇ ᅮᄋ ᅧᄒ ᅡᄋ ᅧ, ᄀ ᅪ ᆫᄎ ᅳ ᆨ ᄀ ᅡ ᆹᄋ ᅦ ᄄ ᅡᄅ ᅳ ᆫ ᄇ ᅧ ᆫᄃ ᅩ ᆼᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄀ ᅩᄅ ᅧᄒ ᅡ ᄂ
ᅳ ᆫ ᄉ ᅢᄅ ᅩᄋ ᅮ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄅ ᅩ ᆫᄋ ᅳ ᆯ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡ ᆫᄃ ᅡ. ᄉ ᅥᄅ ᅩ ᄃ ᅡᄅ ᅳ ᆫ ᄀ ᅡᄌ ᅮ ᆼ ᄎ ᅵᄅ ᅳ ᆯ ᄎ ᅮᄌ ᅥ ᆼᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅡᄋ ᅧ ᄇ ᅡ ᆫᄋ ᅳ ᆼᄇ ᅧ ᆫᄉ ᅮᄋ ᅴ ᄉ ᅡᄇ ᅮ ᆫ ᄋ ᅱᄉ ᅮ ᄇ ᅥ ᆷᄋ ᅱᄅ ᅳ ᆯ ᄎ ᅮ ᄌ ᅥ
ᆼᄒ ᅡᄀ ᅩ, ᄋ ᅵᄅ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅢ ᄀ ᅪ ᆫᄎ ᅳ ᆨ ᄀ ᅡ ᆹᄋ ᅦ ᄄ ᅡᄅ ᅡ ᄃ ᅡ ᆯᄅ ᅡᄌ ᅵᄂ ᅳ ᆫ ᄇ ᅡ ᆫᄋ ᅳ ᆼᄇ ᅧ ᆫᄉ ᅮᄋ ᅴ ᄇ ᅧ ᆫᄃ ᅩ ᆼᄋ ᅳ ᆯ ᄆ ᅩᄒ ᅧ ᆼ ᄉ ᅥ ᆫᄐ ᅢ ᆨ ᄀ ᅪᄌ ᅥ ᆼᄋ ᅦ ᄇ ᅡ ᆫᄋ ᅧ ᆼᄒ ᅡ ᆫᄃ ᅡ. ᄀ ᅳ ᄀ ᅧ ᆯ ᄀ
ᅪ ᄇ ᅧ ᆫᄃ ᅩ ᆼᄉ ᅥ ᆼᄋ ᅵ ᄏ ᅳ ᆫ ᄇ ᅮᄇ ᅮ ᆫ ᄋ ᅴ ᄉ ᅡ ᆼᄃ ᅢᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄌ ᅮ ᆼ ᄋ ᅭᄃ ᅩᄀ ᅡ ᄂ ᅡ ᆽᄋ ᅡᄌ ᅧᄉ ᅥ, ᄇ ᅧ ᆫᄉ ᅮ ᄉ ᅥ ᆫᄐ ᅢ ᆨᄋ ᅵᄂ ᅡ ᄌ ᅩᄋ ᅲ ᆯ ᄆ ᅩᄉ ᅮᄋ ᅴ ᄉ ᅥ ᆫᄐ ᅢ ᆨᄋ ᅦ ᄆ ᅵᄎ ᅵᄂ ᅳ ᆫ ᄋ ᅧ ᆼᄒ ᅣ ᆼ ᄋ
ᅵ ᄌ ᅮ ᆯ ᄋ ᅥᄃ ᅳ ᆫ ᄃ ᅡ. ᄉ ᅥ ᆫᄒ ᅧ ᆼᄆ ᅩᄒ ᅧ ᆼᄀ ᅪ ᄇ ᅵᄉ ᅥ ᆫᄒ ᅧ ᆼ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅵ ᆫ ᄀ ᅧ ᆼᄋ ᅮᄅ ᅩ ᄂ ᅡᄂ ᅮᄋ ᅥ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡᄂ ᅳ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄅ ᅩ ᆫ ᄋ ᅴ ᄀ ᅮᄎ ᅦᄌ ᅥ ᆨ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄌ ᅦᄉ ᅵ ᄒ
ᅡᄀ ᅩ, ᄀ ᅡ ᆨᄀ ᅡ ᆨᄋ ᅴ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡᄂ ᅳ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄅ ᅩ ᆫ ᄋ ᅴ ᄒ ᅭᄋ ᅲ ᆯᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄆ ᅩᄋ ᅴ ᄉ ᅵ ᆯᄒ ᅥ ᆷᄀ ᅪ ᄉ ᅵ ᆯᄌ ᅦ ᄃ ᅦᄋ ᅵᄐ ᅥ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄋ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅡᄋ ᅧ ᄌ ᅦᄉ ᅵᄒ ᅡ ᆫᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄆ ᅩᄒ ᅧ ᆼ ᄉ ᅥ ᆫᄐ ᅢ ᆨ, ᄇ ᅮ ᆫ ᄋ ᅱᄉ ᅮ ᄉ ᅩ ᆫᄉ ᅵ ᆯᄒ ᅡ ᆷᄉ ᅮ, ᄇ ᅮ ᆫ ᄋ ᅱᄉ ᅮ ᄒ ᅬᄀ ᅱᄇ ᅮ ᆫᄉ ᅥ ᆨ, ᄋ ᅵᄇ ᅮ ᆫ ᄉ ᅡ ᆫᄉ ᅥ ᆼ, ᄌ ᅩᄋ ᅲ ᆯ ᄆ ᅩᄉ ᅮ ᄉ ᅥ ᆫᄐ ᅢ ᆨ, GCV.
1. 서론 ᄒ
ᅧᆫ재의 데이터에는 그 양이 방대하고 복잡해져서 데이터가 일정하지 않은 형태가 이루곤 한다. 그 ᄋ
ᅦ 대해 합리적인 회귀 모형을찾기 위한 연구가활발히 진행되어왔다. 선형 모형에서 Carroll와 Cline (1988)는가중최소 제곱법을이용한 방법을, 비선형 모형에서 Muller와 Stadtmuller (1987)은커널을 ᄋ
ᅵ용한 방법을각각 제안하였다. 그러나 최소제곱법을 이용해 조건부 평균만을설명할 수 있는회귀분 ᄉ
ᅥᆨ과는달리, 분위수 회귀분석 (Koenker와 Bassett, 1978)은다양한 분위수의 효과를확인할 수 있으면 ᄉ
ᅥ도 (Shim 등, 2020) 일정하지 않은형태의 데이터에 대해서도 적합할 수 있다는장점이 있다.
부
ᆫ위수 회귀분석은다양한 장점이 존재하지만, 분위수 손실함수 (check loss)를최소화 하는과정 중 0부근에서 미분이 되지 않는다. 그에 따른최적화 방법론으로 Nychka 등 (1995)에서는 0근처에서 대 ᄎ
ᅵᆼ적으로, Muggeo 등 (2012)에서는비대칭적으로 이차식 조정을 통해 최적화 문제를해결하였다. Lee ᄃ
ᅳᆼ (2012)에서는단순히 최적화 문제를해결할 뿐만 아니라, 편향을허용함으로써 효율성을 얻도록 고
†
ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ ᄇ ᅮᄇ ᅮ ᆫᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄀ ᅩᄅ ᅧᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅧ ᆫᄀ ᅮᄇ ᅵᄋ ᅦ ᄋ ᅴᄒ ᅡᄋ ᅧ ᄉ ᅮᄒ ᅢ ᆼᄃ ᅬᄋ ᅥ ᆻᄀ ᅩ (K2009201) ᄌ ᅥ ᆼᄇ ᅮ (ᄀ ᅪᄒ ᅡ ᆨᄀ ᅵᄉ ᅮ ᆯᄌ ᅥ ᆼᄇ ᅩᄐ ᅩ ᆼᄉ ᅵ ᆫᄇ ᅮ)ᄋ ᅴ ᄌ
ᅢᄋ ᅯ ᆫ ᄋ ᅳᄅ ᅩ ᄒ ᅡ ᆫᄀ ᅮ ᆨᄋ ᅧ ᆫᄀ ᅮᄌ ᅢᄃ ᅡ ᆫᄋ ᅴ ᄌ ᅵᄋ ᅯ ᆫᄋ ᅳ ᆯ ᄇ ᅡ ᆮᄋ ᅡ ᄉ ᅮᄒ ᅢ ᆼᄃ ᅬ ᆫ ᄀ ᅵᄎ ᅩᄋ ᅧ ᆫᄀ ᅮᄉ ᅡᄋ ᅥ ᆸᄋ ᅵ ᆷ (NRF-2019R1A4A1028134, NRF- 2021R1F1A1062347).
1
(02841) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄉ ᅥ ᆼᄇ ᅮ ᆨ ᄀ ᅮ ᄋ ᅡ ᆫᄋ ᅡ ᆷᄅ ᅩ 145, ᄀ ᅩᄅ ᅧᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄃ ᅢᄒ ᅡ ᆨᄋ ᅯ ᆫᄉ ᅢ ᆼ.
2
ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (02841) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄉ ᅥ ᆼᄇ ᅮ ᆨ ᄀ ᅮ ᄋ ᅡ ᆫᄋ ᅡ ᆷᄅ ᅩ 145, ᄀ ᅩᄅ ᅧᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄇ ᅮᄀ ᅭᄉ ᅮ.
E-mail: [email protected]
ᄋ
ᅡᆫ된개선된 분위수 손실함수를제안하였다. 이를이용해 Jung 등 (2021)에서는개선된 분위수 손실함 ᄉ
ᅮ를적합에 사용하는것이 아닌, 교차검증을이용한 모형선택에 사용함으로써 오차 추정 문제에 새로운 혀
ᆼ태의 편향-분산 상충 (bias-variance trade-off)을적용하였다.
ᄒ
ᅡᆫ편, 모형이 주어졌을때에 그 모형의 적절한 조율 모수 (tuning parameter)를 선택하는 것은 통 ᄀ
ᅨ 모형화에 매우 중요하다. 정보기반기준 (Information-based criteria)을이용한 모형선택 방법으로 ᄂ
ᅳᆫ Akaike information criterion (AIC) (Akaike, 1973), corrected AIC (Hurvich와 Tsai, 1989), bayesian information criterion (BIC) (Schwarz, 1978). 그 외에 비선형 모형에서는 generalized cross- validation (GCV ) (Golub 등, 1979)이 흔하게 쓰이고 있다. 정보기반기준에 분위수 손실함수를 사 ᄋ
ᅭ
ᆼ하여 모형선택을하는방법 (Koenker, 2011)이 제안되었고, 특히 국소적으로 데이터들의 변동이 다 ᄅ
ᅳᆯ 때 더 많은 효율성을 얻을 수 있도록 분산의 추정치를 이용한 가중치 분위수 회귀분석 (Koenker, 2005)이 제안되었다.
ᄋ
ᅵ러한 분산을 추정하는 방법에는 전역적인 분산을 고려한 방법 (Chen 등, 2009), 국소적인 분산 (Lee 등, 2021)을이용한 방법들이 존재한다. 다양한 가중치 추정방법이 존재하지만 공통적으로 공변량 ᄋ
ᅦ 따라 이분산을 반영할 수 있는척도를 필요로 한다. 따라서 본 논문에서는사분위수 범위를이용해 ᄀ
ᅡ중치를추정하고, Lee 등 (2012)에서의 개선된 분위수 손실함수를결합한 모형선택 방법론을제안한 ᄃ
ᅡ. 이 방법론의 가장큰 특징은개선된가중치 모형선택 기준을사용함으로써 이분산성 고려시 편향-분 ᄉ
ᅡᆫ 상충 (bias-variance tradeoff)을 동시에 고려할 수 있다는것이다.
보
ᆫ 논문의 구성은 다음과 같다. 2절에서는모형선택 방법의 기초가 되는 몇가지 방법론들을간략히 ᄉ
ᅩ개하고 3절에서는 2절에서 소개한 방법론을기반으로 본 논문에서 제안하는이분산이 존재할 때의 모 혀
ᆼ선택 방법론을제시한다. 4절에서는선형과 비선형 데이터로 나누어 모의 실험을 통해 모형선택 방법 ᄃ
ᅳ
ᆯ을비교하고, 5절에서는 실제 데이터 분석을 통해 제안한 방법론의 효과를확인한다.
2. 기존 연구에 대한 고찰 부
ᆫ위수 손실함수 (Koenker와 Bassett, 1978)는 모형선택 방법과 적합에 사용되며, q번째 분위수를 ᄆ
ᅩ
ᆨ표로 하는 분위수 손실함수는다음과 같이 정의한다.
ρq(u) =(qu for u ≥ 0,
−(1 − q)u for u < 0.
(2.1)
부
ᆫ위수 손실함수를 이용해 최대 가능도 함수를 계산하기 위해 식 (2.2)와 같은 비대칭 라플라스 분포 (asymmetric Laplace distribution)를사용한다.
D(u) = q(1 − q) σ exp
−ρq(u) σ
. (2.2)
ᄋ
ᅧ기서 척도 모수 σ의 추정에 ˆσ = (1/n)Pn
i=1ρq(ui)을사용한다. ui는 fq(xi) − ˆfqλ(xi)이고 ˆfqλ(xi)는 ᄌ
ᅩ율 모수 λ에 의해 결정되는반응변수 fq(xi)의 적합값이다. 식 (2.2)를널리 사용되는 3가지의 모형
ᄉ
ᅥᆫ택 기준 (selection criteria; SC)에 적용하면 다음과 같다.
SC :
AIC(λ) = n log
n
X
i=1
ρq(ui)
! + k,
BIC(λ) = n log
n
X
i=1
ρq(ui)
!
+ (k/2) log(n),
GCV (λ) =
n
X
i=1
ρq(ui)/(n − c · tr(H)).
(2.3)
AIC(λ), BIC(λ)에서의 k는 분위수 선형 회귀모형에서 선택된 변수들의 개수이다. 정보기반기준은로 ᄀ
ᅳ 가능도 함수와 벌점화 함수 부분으로 분리된다. 로그 가능도 함수의 추정이 완료되고, 어떤 정보기 ᄇ
ᅡᆫ기준을사용할 것인가에 따라 벌점화 함수의 구체적은형태가 결정된다. AIC(λ)는 k로, BIC(λ)는 (k/2) log(n)에 해당한다. GCV (λ)에서 H는 ˆfqλ(xi)에 대한 해트 행렬 (hat matrix)이며, 해트 행렬 으
ᆯ이용해 모형의 복잡도가 결정된다. 식 (2.3)의 GCV (λ)에서 본래 c = 1이지만, fields R 패키지 ᄋ
ᅴ qsreg 함수에서 옵션을 통해 tr(H)를조정할 수 있다. c = 1로 설정한 경우에 비하여 c ≡ cq,n =
√n|q−0.5|로 했을때 모의실험에서 좋은성능이 나타남을경험적으로확인하여 본 논문에서는이와 같이 서
ᆯ정한다. 다양한 cq,n에 대한 모의 실험 결과는 Shin 등 (2021)에 자세히 설명되어 있다.
SC를 선형 모형에 이용하는 경우에 관측값의 수에 비해 모수의 수가 많다면, 모형선택의 일치성 (model-selection consistency)이 성립되지 않는다. 이를 개선하기 위하여 SC의 벌점화 부분을 수정 ᄒ
ᅡ는 시도들이 있었다. (k/2) log(n) + γ log(p)를사용한 extended BIC (Chen와 Chen, 2012), 그리 ᄀ
ᅩ Cn(k/2) log(n)를이용한 modified BIC (Lee 등, 2014)가 그 예시이다. 한편, SC에 효율성을부여 ᄒ
ᅡ기 위한 방법으로 Jung 등 (2021)에서는개선된 분위수 손실함수 (Lee 등, 2012)를이용해 로그 가능 ᄃ
ᅩ 함수 부분을수정하였고, 교차 검증 (cross-validation)을이용한 모형선택 방법을제안하였다. 개선 되
ᆫ 분위수 손실함수 (modified check loss)는다음과 같이 정의한다.
ρMq (u) =
qu −q(1 − q) 2λq
for 1 − q λq
≤ u, λq
2 q
1 − qu2 for 0 ≤ u < 1 − q λq
, λq
2 1 − q
q u2 for − q λq
≤ u < 0,
−(1 − q)u −q(1 − q) 2λq
for u < − q λq
.
(2.4)
Figure 2.1에서 분위수 손실함수와 개선된 분위수 손실함수의 차이를확인할 수 있으며, 식 (2.1)의 0 ᄇ
ᅮ근에서 비대칭적인 이차식의 조정이 식 (2.4)에 따라 발생한다. 조정이 발생하는부분에서도 일차 미 부
ᆫ한 값의 연속성이 보장되며, 표본의 수 n → ∞ 일때 조정되는부분의 폭이 좁아지면서 본래의 분위수 소
ᆫ실함수와 같아지게된다. 식 (2.4)에서 경험적인 추정치로 λq = 0.5 exp(−2.118 − 1.097 min(q, 1 − q))nα/ˆσ를사용하며, ˆσ는로버스트 척도 모수 추정치, α는양의 상수를나타낸다. 이 때 α가 1/3 보다 ᄏ
ᅳᆫ경우, 선형모형에서 개선된 분위수 손실함수를이용한 모형선택 성능과 기존의 분위수 손실함수를이 ᄋ
ᅭ
ᆼ한 모형선택의 기준이 점근적으로 동일하다 (Jung 등, 2021). 개선된 분위수 손실함수를이용한 모형 ᄉ
ᅥᆫ택 기준을 SCM (selection criteria using modified check loss)라고 표기한다. SCM은로그 가능도 ᄒ
ᅡᆷ수의 척도 모수 σ 추정에 ˆσ = (1/n)Pn
i=1ρMq (ui)를사용한다. 반응변수에 이분산성의 존재시 이를 ᄀ
ᅩ려하여 SCM을개선시킨 방법론이 이 논문에서 새롭게 제안하는방법론이며 다음절에서 자세히 설 며
ᆼ한다.
0 u ρ
qM− q λ ( 1 − q ) λ
Figure 2.1 The check loss function (grey line) and the modified check loss function (blue line) are drawn at q = 0.75. Quadratic adjustment occurs between dotted lines.
3. 개선된 가중치 모형선택 기준 보
ᆫ 절에서는 개선된 분위수 손실함수 (2.4)와 모형선택 기준 (2.3)을 결합한 후 이에 가중치를 부여 ᄒ
ᅡ는개선된가중치 모형선택 기준을제안한다. 제안하는방법을 W SCM (weighted selection criteria using modified check loss)라고 칭한다. 식 (2.3)은각각의 잔차 (ui= fq(xi) − ˆfqλ(xi))들에 동일한 가 주
ᆼ치를 준 경우이다. 하지만 이분산성이 존재하는경우 데이터의 변동성이큰부분에서는잔차도 커지 느
ᆫ경향이 있으며, 반대로 변동성이 작은부분에서는잔차도 작아지는경향이 있다. 따라서 변동성의 크 ᄀ
ᅩ 작음을무시하고 잔차를 동일한 가중치로 고려한다면, 변동성이큰부분의 데이터가 조율모수의 선 태
ᆨ에 많은영향을미치게 되고, 이는변동성이 작은부분의 적합을상대적으로 경시하는결과를가져온 ᄃ
ᅡ. 따라서 전체적으로 적합이 좋은모형을선택하기가 어려워진다. 이를개선하고자 가중치를이용하 ᄋ
ᅧ ui대신에 wiui를사용하여 개선된가중치 모형선택 기준 W SCM을다음과 같이 정의한다.
W SCM :
W AICM(λ) = n log
n
X
i=1
ρMq (wiui)
! + k,
W BICM(λ) = n log
n
X
i=1
ρMq (wiui)
!
+ k log(n),
W GCVM(λ) =
n
X
i=1
ρMq (wiui)/(n − c · tr(H)).
(3.1)
W AICM(λ)와 W BICM(λ)는선형모형에서 W GCVM(λ)는비선형 모형에서 사용한다. 여기서 가중 ᄎ
ᅵ wi는 추정해야 하며, 본 논문에서는 공변량에 따라 이분산을 표현할 수 있는 척도인 사분위수 범위 IQR[i≡ [IQR(xi) = ˆf0.75λ (xi) − ˆf0.25λ (xi)를사용한다. 즉, 0.25 분위수 회귀모형과 0.75 분위수 회귀모 혀
ᆼ을적합한 후에 그 적합값의 차이로 사분위수 범위를추정하여 이를이분산성을 측정하는도구로 사용 ᄒ
ᅡᆫ다. 이분산이 존재할 때 [IQRi값들의 변화는 Figure 3.1에서확인할 수 있다.
+ + + + + + + + +
+ + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + + + +
+ + + + + + + + + +
+ + + + + + + + +
+ + + + + + + + + + + + + + + +
+ + + + + + + + +
+ + + + + + +
+ + + + + + + + + + + + +
+ + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + + + + + +
+ + + + + +
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ +
+ + + + + +
+ + + +
+ + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + + + + + + + + + + +
+ + + + + +
+ + + + + + + + + + + + + + + + + +
+ + + + + + + +
+ + + + + + + + + + + + +
+ + + + + + + + + + + + + +
+ + + + + +
+ +
+ + + +
+ + + +
+ + + + + +
+ + + + + + +
+ + + + + + + + + + + + + + + +
+ + + + + +
+ + + + + +
+ + + +
+ + + +
+ + + + + + +
+ +
+ + + + + + + + + +
+ + + + + + + +
+ + + + + + +
+ + +
+ + + + + + + + + + +
+ + + +
+ + + + +
+ + + + + + +
+ + + + + + + +
+ + +
+ + + +
IQR
iq = 0.25 fit q = 0.50 fit q = 0.75 fit
Figure 3.1 The fitted values at q = 0.50 (blue line) and the fitted values at q = 0.25 and 0.75 (red dotted lines) are drawn when the errors are heterogeneous. [ IQR
imeasures the difference in fits between q = 0.25 and 0.75.
1/ [IQRi 로 wi를추정하여 ui의 값이큰경우 wiui의 값은상대적으로 줄어들게된다. 반대로 변동 서
ᆼ이 상대적으로 작은부분은크게 만들어주어 이분산성이 등분산성으로 바뀌는효과를얻는다. 그러나 ᄇ
ᅧᆫ동성이 작은구간에서 [IQRi이 때로는너무 작아서 이에 대한 가중치가 지나치게 커지는현상을모의 시
ᆯ험에서확인하여, 이를방지하고자 [IQRi의 평균으로 수축시킨 다음과 같은가중치를 최종적으로 이 ᄋ
ᅭ ᆼ한다.
ˆ wi= Ri/(
n
X
i=1
Ri), where Ri= 1/( [IQRi+
n
X
i=1
IQR[i/n).
1/( [IQRi+Pn
i=1IQR[i/n)는 1/ [IQRi을안정화하고 [IQRi의 추정이 잘 되지 않았을경우에 평균값을 ᄐ
ᅩ
ᆼ해 조정해주는효과를얻을수 있다. 이상에서 언급한 과정을정리하면 다음의 알고리즘으로 요약할 ᄉ
ᅮ 있다.
알고리즘
1. 목표로 하는 특정 분위수 q에 대해 조율모수 λ에 따른선형 혹은비선형 모형을적합한다.
2. ρMq (u)에 필요한 로버스트 척도 모수 추정치 ˆσ을계산한다. ˆσ은위의 스텝 1에서 사용된모형을 q = 0.5에서 적합한 후 잔차의 평균절대 오차 (mean absolute deviation; MAD)를사용한다.
3. q = 0.25와 0.75에 대해 선형 혹은비선형 모형을적합시키고 ˆwi을계산한다.
4. W SCM을최소로하는모형을선택한다.
4. 모의실험 보
ᆫ절에서는선형과 비선형 이분산성 데이터의 모의실험을 통해 본 논문에서 제안하는모형선택 방법 로
ᆫ (W SCM)의 성능을확인한다. 최적의 조율모수를선택하는것이 목적이며 W SCM과 다른모형선 태
ᆨ 방법들과의 성능을비교한다. W SCM은가중치의 효과와 개선된 분위수 손실함수의 효과까지 고려 ᄒ
ᅡᆫ 선택 기준이며, 가중치를 고려한 효과를확인하기 위해 이를 SCM과 비교한다. 식 (2.3)에서 ui를 wiui로 변경해 가중치를고려한 모형선택 기준을 weighted selection criteria (W SC)라고 정의하며, 개 ᄉ
ᅥᆫ된 분위수 손실함수 효과를확인하기 위하여 W SC와 W SCM를또는 SC와 SCM을비교한다. 따라 ᄉ
ᅥ 총 4가지의 모형선택 기준 (SC, SCM, W SC, W SCM)을 모의실험에서 사용하며, 6가지 쌍의 비교 ᄀ
ᅡ 가능하다. 각 쌍의 비교를 통하여, 가중치의 효과, 개선된 분위수 손실함수의 효과, 또는그 두가지 ᄆ
ᅩ두의 효과를확인할 수 있다. 모의실험을위해 고려한 모형은다음과 같다.
(M 1) : fq(xi) = β0+ x⊤i β + (α0+ x⊤iα)Fq−1(ϵi),
(M 2) : fq(xi) = (1 − xi+ 2x2i)e−0.5x2i+ (1 + 0.2xi)Fq−1(ϵi).
ᄉ
ᅥᆫ형 모형 (M 1)에서 고려한 회귀계수는 β = (3, 1.5, 0, 0, 2, 0, 0, 0)⊤, β0 = 20 이며 이분산을 생성하 ᄀ
ᅵ 위해 오차항에 곱하는 값들은 α = (2, 2, 0, 0, 0, 0, 4, 4)⊤, α0 = 20 이다. 8개의 변수를 갖는 xi는 펴
ᆼ균 벡터가 0이고 공분산 행렬 Σ의 (i, j)번째 원소가 |0.5|i−j인 다변량 정규분포로부터 생성한다.
Fq−1(ϵi)는오차항 ϵi에서의 목표 분위수 q에 해당하는 분포이며, 오차항 ϵi는평균이 0, 분산이 1/(α0+ x⊤iα)2인 정규분포에서 생성한다. 비선형 모형 (M 2)에서 일차원의 변수 xi는 -4부터 4까지 균등하게 새
ᆼ성한 값이며, 오차항 ϵi는표준정규분포와 자유도 5를갖는 t 분포에서 생성한다. 오차항이 표준정규 부
ᆫ포인 경우 (M2)의 형태는 Figure 3.1에 주어져 있다.
ᄌ
ᅥᆨ합에 고려한 모형은 선형 모형의 경우 smoothly clipped absolute deviation (SCAD) 벌점 분위 ᄉ
ᅮ 회귀모형 (Wu와 Liu, 2009)을, 비선형 모형의 경우 분위수 평활스플라인 (Nychka 등, 1995)이다.
SCAD 벌점 분위수 회귀분석은 R 패키지 rqPen의 QICD 함수를 이용하며, 분위수 평활 스플라인은 fields 패키지의 qsreg 함수를 이용한다. 조율 모수 λ는적절한 범위에서 100개씩 추출해 적합한다.
ᄌ
ᅩ율모수에 따라 4가지 정보기준 SC, SCM, W SC, W SCM이 각각 최소가 되는모형을선택하여 결과 르
ᆯ비교한다.
겨
ᆯ과의 비교는 M SE = (1/n)Pn
i=1(fq(xi) − ˆfqλ(xi))2를 이용하며, 여기서 fq(xi)는 xi에 해당하 느
ᆫ 참인 반응변수이고 ˆfqλ(xi)는 fq(xi)의 적합값이다. n = 100부터 2000까지 다양한 표본의 수를 ᄀ
ᅩ려하며, 이에 따른 선형 모형 (M 1)에 대한 실험 결과는 Table 4.1에 주어져 있다. Table 4.1에 ᄉ
ᅥ 개선된분위수 손실함수를 AIC, BIC와 결합한 정보기준을각각 AICM, BICM, 가중치를고려해 AIC, BIC와 결합한 정보기준을각각 W AIC, W BIC, 그리고 가중치를고려하고 개선된 분위수 손실 ᄒ
ᅡᆷ수를 AIC, BIC와 결합한 정보기준을각각 W AICM, W BICM라 표기한다.
AIC를 이용한 모형선택 방법들에서 q = 0.80, n = 1000의 경우, 개선된 분위수 손실함수를 이용 ᄒ
ᅡᆫ 모형선택 (AICM)이 약 4%의 MSE 감소를, 가중치를 고려한 모형선택 (W AIC)이 약 14%의 M SE 감소를, 그리고 이 둘을 고려한 모형선택 (W AICM)이 약 22%의 MSE 감소를 확인할 수 있 ᄃ
ᅡ. BIC를 이용한 모형선택 방법들에서 q = 0.35, n = 500의 경우, 개선된 분위수 손실함수를 이 ᄋ
ᅭ
ᆼ한 모형선택 (BICM)이 약 2%의 MSE 감소를, 가중치를 고려한 모형선택 (W BIC)이 약 6%의 M SE 감소를, 그리고 이 둘을 고려한 모형선택 (W BICM)이 약 9%의 MSE 감소를 확인할 수 있 ᄃ
ᅡ. 그 외에도 전반적으로 W SCM을 이용한 모형선택이 낮은 M SE를 보여준다. n이 점점 커질수 ᄅ
ᅩ
ᆨ 개선된 분위수 손실함수의 조정구간을 결정하는 λq ∝ 1/nα가 줄어들게 되어 본래의 선택 기준인 SC와 W SCM의 MSE들이 오차구간내에 있다. 하지만, 분위수가 중심 (q = 0.50)에서굉장히 멀어진
q = 0.05와 0.90의 경우, n이 작을때는 W SCM을이용한 모형선택이 MSE를감소시키지만, n이 클 ᄄ
ᅢ MSE가 서로의 오차 범위 내에 있는것을확인할 수 있다.
ᄇ
ᅵ선형 모형 (M 2)을이용한 모의실험 결과는 Table 4.2에 주어져 있다. GCV 에 개선된 분위수 손실 ᄒ
ᅡᆷ수를결합한 선택 기준을 GCVM,가중치를고려한 선택 기준을 W GCV ,그리고 가중치를고려하고 ᄀ
ᅢ선된 분위수 손실함수를결합한 선택 기준을 W GCVM이라 표기한다. 전반적으로 W GCVM을이용 ᄒ
ᅡᆫ 모형선택은 M SE를감소시킨다. 특히 오차항이 표준정규분포이며 q = 0.15, n = 100의 경우, 개 ᄉ
ᅥᆫ된 분위수 손실함수를이용한 모형선택 (GCVM)이 약 10%의 MSE 감소를, 가중치를고려한 모형 ᄉ
ᅥᆫ택 (W GCV )이 약 3%의 MSE 감소를, 그리고 이 둘을고려한 모형선택 (W GCVM)이 약 11%의 M SE 감소를 일으킴을확인할 수 있다. 오차항이 자유도 5를갖는 t 분포에서 q = 0.80, n = 100의 겨
ᆼ우, 개선된분위수 손실함수를이용한 모형선택 (GCVM)이 약 9%의 MSE 감소를, 가중치를고려 ᄒ
ᅡᆫ 모형선택 (W GCV )이 약 3%의 MSE 감소를, 그리고 이 둘을 고려한 모형선택 (W GCVM)이 약 11%의 MSE 감소를유발시킴을확인할 수 있다. 극한 분위수 q = 0.05에서관측값의 수 n이 적을때 W GCVM을이용한 모형선택이 MSE를감소시키지 못하지만, n이 커질수록 좋은모형선택을한다.
5. 실제 데이터 분석 ᄋ
ᅵ번 절에서는 실제 데이터를 통해 본 논문에서 제안하는방법론의 성능을평가한다. 모의실험에서와 ᄀ
ᅡ
ᇀ이 선형 및 비선형 데이터를이용하며 선형 데이터로는 Cars93, 비선형 데이터로는 triceps를사용 ᄒ
ᅡᆫ다. 각각 R 패키지 MASS와 MultiKink에 내장되어 있다. 첫 번째 데이터인 Cars93은 93개의관측값 ᄀ
ᅪ 27개의 변수로 구성되어 있다. 여기서 종속변수를차종의 평균가격 (P rice)으로 두고 9개의 독립 ᄇ
ᅧᆫ수들을선택한다. 각 변수에 대한 설명은다음과 같다.
• P rice : 차 종의 가장 낮은가격과 가장 높은가격의 평균
• MP G.city : 도시 연비
• MP G.highway : 고속도로 연비
• Horsepower : 마력
• RP M : 1분 동안의 엔진 회전 수
• Cylinders : 실린더 개수
• EngineSize : 엔진 크기
• W eight : 차의 무게
• T urn.circle : 유턴 시 면적
• Length : 차의 길이 ᄃ
ᅮ 번째 데이터인 triceps는 서아프리카의 감비아 3개 마을에서 50세 미만의 여성 892명을대상으 ᄅ
ᅩ 한 인체측정학 연구에서 도출되었다. 독립변수는참가자의 연령이며 종속변수는삼두박근의 피부 두 ᄁ
ᅦ (triceps)이다. 두 데이터에서 나타나는이분산성은 Figure 5.1에서확인할 수 있다.
Table 4.1 Mean MSE (standard error in parentheses) for various sample size using 1000 simulated data sets from (M 1). All values are multiplied by 10
3.
q criteria n = 100 n = 250 n = 500 n = 1000 n = 2000
0.05
AIC 357.5 (6.74) 128.4 (2.34) 60.1 (1.35) 23.8 (0.51) 11.7 (0.23) AIC
M345.0 (6.53) 129.7 (2.32) 60.4 (1.32) 24.9 (0.52) 12.1 (0.23) W AIC 324.8 (6.34) 120.9 (2.22) 59.0 (1.40) 24.9 (0.56) 11.9 (0.23) W AIC
M313.3 (6.07) 120.3 (2.27) 58.2 (1.36) 25.9 (0.56) 12.2 (0.24) BIC 311.8 (5.77) 122.1 (2.23) 55.9 (1.20) 26.1 (0.50) 12.8 (0.25) BIC
M323.7 (5.93) 126.1 (2.24) 57.6 (1.20) 27.1 (0.51) 13.3 (0.25) W BIC 297.4 (5.39) 116.1 (2.15) 56.5 (1.28) 26.1 (0.52) 12.9 (0.24) W BIC
M299.0 (5.56) 118.3 (2.21) 57.8 (1.31) 27.1 (0.54) 13.2 (0.24)
0.15
AIC 155.6 (2.68) 66.7 (1.18) 34.2 (0.62) 12.0 (0.34) 4.56 (0.10) AIC
M153.6 (2.58) 65.8 (1.17) 32.7 (0.63) 12.1 (0.33) 4.63 (0.10) W AIC 149.3 (2.56) 62.5 (1.12) 32.3 (0.61) 10.9 (0.30) 4.49 (0.09) W AIC
M142.2 (2.51) 59.4 (1.04) 30.0 (0.60) 10.7 (0.28) 4.56 (0.10) BIC 147.1 (2.70) 58.2 (1.03) 27.3 (0.59) 10.4 (0.25) 4.81 (0.10) BIC
M146.0 (2.65) 57.9 (1.02) 27.7 (0.57) 10.7 (0.25) 4.87 (0.10) W BIC 141.2 (2.63) 56.3 (1.03) 26.3 (0.58) 10.2 (0.24) 4.72 (0.10) W BIC
M139.6 (2.60) 54.7 (0.99) 26.0 (0.56) 10.5 (0.24) 4.85 (0.10)
0.35
AIC 62.7 (1.15) 33.9 (0.49) 23.2 (0.32) 12.5 (0.24) 6.20 (0.11) AIC
M62.2 (1.19) 32.7 (0.48) 22.4 (0.31) 12.4 (0.23) 6.18 (0.12) W AIC 60.9 (1.09) 33.0 (0.49) 21.9 (0.33) 11.1 (0.23) 5.68 (0.09) W AIC
M60.5 (1.15) 31.5 (0.47) 20.9 (0.32) 10.5 (0.21) 5.51 (0.09) BIC 69.8 (1.40) 32.5 (0.55) 19.5 (0.35) 9.34 (0.17) 4.88 (0.08) BIC
M67.9 (1.35) 31.4 (0.52) 19.2 (0.33) 9.34 (0.17) 4.84 (0.08) W BIC 67.8 (1.33) 31.3 (0.53) 18.4 (0.34) 8.76 (0.16) 4.48 (0.08) W BIC
M65.4 (1.30) 30.0 (0.52) 17.8 (0.33) 8.54 (0.16) 4.42 (0.08)
0.50
AIC 41.5 (1.09) 14.5 (0.37) 7.43 (0.19) 3.34 (0.09) 1.58 (0.04) AIC
M39.4 (1.04) 14.3 (0.38) 7.30 (0.19) 3.31 (0.09) 1.59 (0.04) W AIC 38.9 (1.03) 13.8 (0.36) 7.00 (0.18) 3.19 (0.08) 1.54 (0.04) W AIC
M38.4 (1.03) 13.7 (0.36) 7.04 (0.18) 3.19 (0.08) 1.55 (0.04) BIC 48.4 (1.33) 17.1 (0.48) 8.53 (0.24) 3.65 (0.11) 1.73 (0.05) BIC
M46.8 (1.30) 16.6 (0.46) 8.45 (0.24) 3.73 (0.11) 1.72 (0.05) W BIC 46.3 (1.28) 15.9 (0.45) 7.89 (0.23) 3.45 (0.10) 1.66 (0.05) W BIC
M45.4 (1.24) 15.6 (0.44) 7.90 (0.22) 3.52 (0.10) 1.67 (0.05)
0.80
AIC 123.6 (1.92) 58.7 (1.07) 30.1 (0.49) 13.3 (0.33) 3.95 (0.12) AIC
M119.2 (2.00) 56.3 (1.00) 28.7 (0.49) 12.8 (0.33) 3.98 (0.12) W AIC 116.8 (1.90) 54.9 (1.02) 27.9 (0.46) 11.4 (0.31) 3.78 (0.10) W AIC
M111.7 (1.95) 50.7 (0.90) 25.7 (0.44) 10.4 (0.28) 3.82 (0.10) BIC 116.6 (2.10) 49.7 (0.90) 23.9 (0.45) 9.27 (0.24) 3.90 (0.09) BIC
M116.2 (2.06) 49.7 (0.91) 23.8 (0.45) 9.56 (0.25) 3.97 (0.09) W BIC 112.8 (2.08) 47.8 (0.87) 22.6 (0.45) 8.90 (0.23) 3.81 (0.09) W BIC
M112.2 (2.09) 46.6 (0.83) 22.2 (0.44) 8.87 (0.22) 3.95 (0.09)
0.90
AIC 211.9 (3.95) 86.5 (1.59) 37.8 (0.84) 13.8 (0.39) 6.41 (0.14) AIC
M213.4 (3.97) 85.5 (1.61) 37.2 (0.82) 13.6 (0.36) 6.56 (0.14) W AIC 204.9 (3.78) 83.3 (1.58) 35.6 (0.80) 13.5 (0.37) 6.44 (0.15) W AIC
M199.3 (3.83) 78.9 (1.53) 33.9 (0.77) 13.5 (0.35) 6.64 (0.15) BIC 194.6 (3.63) 76.8 (1.51) 32.2 (0.73) 13.5 (0.30) 6.91 (0.15) BIC
M200.1 (3.64) 77.9 (1.52) 33.3 (0.73) 14.1 (0.30) 7.09 (0.15) W BIC 190.0 (3.67) 73.8 (1.46) 31.7 (0.72) 13.4 (0.29) 6.98 (0.16) W BIC
M190.3 (3.57) 73.2 (1.46) 32.2 (0.70) 14.1 (0.31) 7.11 (0.15)
ᄆ
ᅩ의실험과는달리, 실제 데이터는반응변수의 참 값을알 수 없으므로 훈련 데이터 (D1)와 시험 데 ᄋ
ᅵ터 (D2)의 비율을 8대 2로 나누어 시험 데이터의 반응변수의 예측오차로 성능을평가한다. 모의실 ᄒ
ᅥᆷ과 마찬가지로 선형 데이터는 SCAD 벌점 분위수 회귀모형을,비선형 데이터는 분위수 평활스플라
Table 4.2 Mean MSE (standard error in parentheses) for various sample size using 1000 simulated data sets from (M 2). All values are multiplied by 10
3.
error q criteria n = 100 n = 250 n = 500 n = 1000 n = 2000
N (0, 1) 0.05
GCV 19.1 (0.34) 9.02 (0.14) 5.07 (0.08) 2.80 (0.04) 1.57 (0.02) GCV
M19.3 (0.32) 9.43 (0.15) 4.98 (0.08) 2.69 (0.04) 1.49 (0.02) W GCV 19.1 (0.33) 8.91 (0.14) 5.01 (0.08) 2.75 (0.04) 1.53 (0.02) W GCV
M19.5 (0.32) 9.70 (0.15) 4.98 (0.08) 2.65 (0.04) 1.46 (0.02)
0.15
GCV 13.1 (0.23) 5.95 (0.10) 3.17 (0.05) 1.77 (0.03) 0.99 (0.01) GCV
M11.9 (0.20) 5.49 (0.09) 2.94 (0.04) 1.64 (0.02) 0.93 (0.01) W GCV 12.8 (0.22) 5.79 (0.09) 3.08 (0.05) 1.73 (0.03) 0.96 (0.01) W GCV
M11.7 (0.19) 5.36 (0.09) 2.88 (0.04) 1.60 (0.02) 0.90 (0.01)
0.35
GCV 8.96 (0.15) 3.99 (0.06) 2.08 (0.03) 1.17 (0.02) 0.63 (0.01) GCV
M8.70 (0.15) 3.85 (0.06) 2.01 (0.03) 1.13 (0.02) 0.61 (0.01) W GCV 8.83 (0.15) 3.93 (0.06) 2.05 (0.03) 1.15 (0.02) 0.62 (0.01) W GCV
M8.54 (0.15) 3.79 (0.06) 1.98 (0.03) 1.12 (0.02) 0.60 (0.01)
0.50
GCV 7.98 (0.13) 3.58 (0.06) 1.94 (0.03) 1.07 (0.02) 0.56 (0.01) GCV
M8.04 (0.14) 3.64 (0.06) 1.93 (0.03) 1.07 (0.02) 0.56 (0.01) W GCV 8.02 (0.13) 3.58 (0.06) 1.92 (0.03) 1.07 (0.02) 0.56 (0.01) W GCV
M8.01 (0.14) 3.63 (0.06) 1.93 (0.03) 1.07 (0.02) 0.56 (0.01)
0.80
GCV 11.7 (0.20) 5.01 (0.08) 2.85 (0.04) 1.57 (0.02) 0.87 (0.01) GCV
M10.8 (0.18) 4.66 (0.07) 2.67 (0.04) 1.46 (0.02) 0.82 (0.01) W GCV 11.4 (0.19) 4.90 (0.08) 2.78 (0.04) 1.54 (0.02) 0.85 (0.01) W GCV
M10.5 (0.18) 4.55 (0.07) 2.62 (0.04) 1.43 (0.02) 0.79 (0.01)
0.90
GCV 15.0 (0.26) 6.75 (0.11) 3.85 (0.06) 2.08 (0.03) 1.18 (0.02) GCV
M13.9 (0.23) 6.26 (0.10) 3.56 (0.06) 1.94 (0.03) 1.11 (0.02) W GCV 14.7 (0.25) 6.59 (0.11) 3.77 (0.06) 2.05 (0.03) 1.16 (0.02) W GCV
M13.9 (0.23) 6.18 (0.10) 3.49 (0.05) 1.90 (0.03) 1.09 (0.02)
t(5) 0.05
GCV 52.8 (1.86) 24.8 (0.67) 12.4 (0.24) 6.68 (0.12) 3.67 (0.06) GCV
M54.0 (1.86) 26.5 (0.70) 12.4 (0.24) 6.49 (0.12) 3.55 (0.06) W GCV 52.7 (1.83) 24.7 (0.66) 12.3 (0.24) 6.59 (0.12) 3.60 (0.06) W GCV
M53.9 (1.83) 27.4 (0.71) 12.4 (0.24) 6.41 (0.12) 3.49 (0.06)
0.15
GCV 22.5 (0.55) 9.26 (0.17) 4.99 (0.08) 2.74 (0.04) 1.52 (0.02) GCV
M20.7 (0.55) 8.71 (0.16) 4.69 (0.07) 2.59 (0.04) 1.44 (0.02) W GCV 21.7 (0.53) 9.02 (0.17) 4.89 (0.08) 2.66 (0.04) 1.48 (0.02) W GCV
M20.3 (0.54) 8.47 (0.16) 4.60 (0.07) 2.51 (0.04) 1.40 (0.02)
0.35
GCV 10.9 (0.18) 4.86 (0.08) 2.60 (0.04) 1.41 (0.02) 0.78 (0.01) GCV
M10.5 (0.18) 4.65 (0.07) 2.51 (0.04) 1.36 (0.02) 0.75 (0.01) W GCV 10.8 (0.18) 4.78 (0.08) 2.56 (0.04) 1.39 (0.02) 0.76 (0.01) W GCV
M10.3 (0.18) 4.57 (0.07) 2.47 (0.04) 1.34 (0.02) 0.74 (0.01)
0.50
GCV 9.27 (0.16) 4.06 (0.06) 2.20 (0.03) 1.16 (0.02) 0.64 (0.01) GCV
M9.14 (0.16) 4.01 (0.06) 2.18 (0.03) 1.14 (0.02) 0.63 (0.01) W GCV 9.16 (0.16) 4.03 (0.06) 2.18 (0.03) 1.15 (0.02) 0.64 (0.01) W GCV
M9.10 (0.16) 4.00 (0.06) 2.15 (0.03) 1.13 (0.02) 0.63 (0.01)
0.80
GCV 17.7 (0.35) 7.29 (0.12) 3.91 (0.06) 2.10 (0.03) 1.21 (0.02) GCV
M16.2 (0.32) 6.84 (0.12) 3.69 (0.06) 2.00 (0.03) 1.15 (0.02) W GCV 17.2 (0.34) 7.11 (0.12) 3.82 (0.06) 2.06 (0.03) 1.18 (0.02) W GCV
M15.7 (0.31) 6.66 (0.11) 3.59 (0.06) 1.95 (0.03) 1.12 (0.02)
0.90
GCV 29.9 (0.70) 12.5 (0.24) 6.78 (0.12) 3.81 (0.06) 2.10 (0.03) GCV
M28.1 (0.68) 11.8 (0.23) 6.36 (0.11) 3.58 (0.06) 1.98 (0.03) W GCV 29.5 (0.71) 12.1 (0.23) 6.58 (0.11) 3.71 (0.06) 2.05 (0.03) W GCV
M27.9 (0.67) 11.6 (0.22) 6.25 (0.11) 3.48 (0.05) 1.94 (0.03)
ᄋ
ᅵᆫ을 적합에 사용한다. 두 모형에서 사용되는 조율 모수 λ는 훈련 데이터 (D1) 내에서 모의 실험에서 ᄇ
ᅵ교하였던 4가지의 모형선택 기준을이용해 선택한다. 시험 데이터의 크기를 n2라고 할 때 평균 분위 ᄉ
ᅮ 회귀 예측오차 (mean check prediction error; MCP E)는다음과 같이 계산된다.
+ ++
+ + +
+ +
+ + +
+ +
++
+ ++
+ + + +
+ + +
+ +
+
+ + + + ++
++
+ + + + +
+ +
+ +
+ + + + +
+
+ +
+ +
+
+ + + +
+ + +
+ + + +
+ +
+
+ +
+
+ + +
+ +
+ +
+ +
+ + +
+
+ + +
+ + + +
2.0 2.5 3.0 3.5 4.0
0.0 0.2 0.4 0.6 0.8
Fitted values
Absolute residuals
Cars93
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ + + + + + +
+ + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ + + + + + + +
+ + + +
+ + + + + + + + + + + + + + + + + + + + + + + +
+ + + + + + + + + +
+ + + +
+ + + +
+ + + + +
+ + + + + + + + + + + + + + + +
+ + + + +
+ + + + + + + + + +
+ + + + + + + + + + + +
+ + + + + + +
+ + + + + + +
+ + +
+ + +
+
+ +
+ + +
+ + + + +
+ + + + +
+ + + + + + + + + +
+
+ + + + + + + + +
+ + + + + + + + + +
+ + + +
+ + +
+ +
+ + + + +
+ + + +
+ + +
+ + + + + + +
+ + + + + + + +
+ + + + + + +
+ + + +
+ + + + + + + + + + + + +
+ + + + + + + +
+
+ +
+ + +
+ + + +
+
+ + + + + + +
+ + + + +
+ + + + + +
+
+ + + +
+ + + + + + + + + + + +
+ + + ++
+
+ + + + + + + +
+ + +
+ + + + +
+ + + + + + + + + + + + + + + + + +
+ + + + +
+ + + +
+ + +
+ + + +
+ + + + + +
+
0 10 20 30 40 50
5 10 15 20 25 30 35
Age (yr)
T riceps Skinf old
Triceps
Figure 5.1 The left panel shows the plot of fitted values versus absolute residuals at q = 0.50 using Cars93 data.
Scatter plot of triceps data is drawn in right panel. The heteroscedasticity exists in two data sets.
M CP E = 1 n2
X
i∈D2
ρq(fq(xi) − ˆfqλ(xi)).
ᄀ ᅡ
ᆨ각의 조율모수 값들에 대응하는 M CP E의 값들을 일일히확인하여 최솟값을 M CP Emin라고 정의 ᄒ
ᅡᆫ 후, MCP E의 값에서 차감한다. 이를 통해 조율모수로 달성할 수 있는 M CP E의 최솟값이 0이 되 느
ᆫ효과를갖게된다. 이는척도 모수인 σ를제거하는것과 비슷한 효과가 있으며 모의 실험에서 평가할 ᄄ
ᅢ에 참 값을알기 때문에 σ를사용하지 않는것과 유사하다. 이러한 값을 Reduced M CP E라 정의하 ᄀ
ᅩ, MCP ER이라고 표기한다.
시
ᆯ제 데이터 분석 결과는 Table 5.1에서확인할 수 있다. 선형 데이터인 Cars93의 경우 q = 0.15일 ᄄ
ᅢ, AIC를 이용한 모형선택 방법에서 개선된 분위수 손실함수를 이용한 모형선택 (AICM)이 약 12%의 MCP ER 감소를, 가중치를 고려한 모형선택 (W AIC)이 약 3%의 MCP ER 증가를, 그리고 ᄋ
ᅵ 둘을 고려한 모형선택 (W AICM)이 약 14%의 MCP ER 감소를 확인할 수 있다. 또한 BIC에서 느
ᆫ개선된 분위수 손실함수를이용한 모형선택 (BICM)이 약 13%의 MCP ER 감소를,가중치를고려 ᄒ
ᅡᆫ 모형선택 (W BIC)이 약 4%의 MCP ER 증가를, 그리고 이 둘을 고려한 모형선택 (W BICM)이 ᄋ
ᅣ
ᆨ 14%의 MCP ER 감소를확인할 수 있다. q = 0.05, 0.15, 0.35에서는개선된 분위수와 가중치를 고 ᄅ
ᅧ한 선택 기준 (W SCM)이 더 좋은 모형선택을하며, q = 0.50에서는 SCM이 좋은 모형선택을 한 ᄃ
ᅡ. 하지만 높은 분위수 q = 0.80와 0.90에서는개선된 분위수 손실함수가 좋은모형선택을하지 못해 M CP ER들이 서로의 오차 범위 내에 있다.
ᄇ
ᅵ선형 데이터인 triceps에서 분위수 0.10, 0.25, 0.35, 0.90일 때 W SCM이 좋은 모형선택을 한다.
ᄐ ᅳ
ᆨ히 q = 0.05일 때 GCV 를 이용한 모형선택에 비해, 개선된 분위수 손실함수를 이용한 모형선택
(GCVM)이 약 12%의 MCP ER 감소를, 가중치를고려한 모형선택 (W GCV )이 약 13%의 MCP ER ᄀ
ᅡ
ᆷ소를,그리고 이 둘을고려한 모형선택 (W GCVM)이 약 25%의 MCP ER감소가 이루어진다.
Table 5.1 Mean M CP E
R(standard error in parentheses) for various sample size from 1000 randomly subsampled Cars93 data set and triceps data set. The values are multiplied by 10
4.
Model criteria q = 0.05 q = 0.15 q = 0.35 q = 0.50 q = 0.80 q = 0.90
Cars93
AIC 29.2 (1.48) 43.2 (2.29) 41.4 (2.07) 30.5 (1.54) 31.8 (1.23) 55.7 (2.02) AIC
M28.7 (1.51) 38.1 (2.03) 38.4 (2.01) 29.9 (1.50) 35.3 (1.25) 56.6 (1.92) W AIC 30.2 (1.47) 44.7 (2.28) 41.3 (2.00) 35.7 (1.63) 30.6 (1.23) 51.5 (1.98) W AIC
M28.6 (1.51) 37.3 (1.94) 37.0 (1.93) 31.7 (1.49) 33.8 (1.23) 52.3 (1.94) BIC 29.3 (1.48) 43.3 (2.29) 41.5 (2.06) 30.5 (1.54) 31.5 (1.23) 54.7 (2.00) BIC
M28.9 (1.51) 37.7 (2.01) 38.4 (2.01) 29.8 (1.50) 35.6 (1.30) 57.2 (1.94) W BIC 30.5 (1.47) 45.1 (2.27) 41.8 (2.01) 35.5 (1.63) 30.4 (1.23) 51.3 (1.99) W BIC
M28.9 (1.51) 37.1 (1.94) 37.0 (1.93) 31.5 (1.49) 33.6 (1.23) 52.0 (1.92)
triceps
GCV 79.1 (2.26) 66.5 (1.98) 139.4 (4.38) 121.3 (3.50) 305.7 (6.93) 167.9 (5.15) GCV
M69.8 (1.93) 62.5 (1.81) 131.9 (4.14) 136.9 (3.84) 301.3 (6.84) 158.5 (4.91) W GCV 68.7 (1.97) 58.8 (1.71) 129.7 (4.05) 101.9 (3.03) 279.9 (6.60) 133.0 (4.27) W GCV
M59.5 (1.65) 54.9 (1.61) 125.3 (4.00) 110.5 (3.28) 285.6 (6.62) 131.1 (4.11)
ᄃ
ᅮ 데이터 분석의 결과를보면 이 논문에서 제안하는가중치를사용한 조율모수의 선택이 Cars93 데 ᄋ
ᅵ터에서는 q = 0.9에서, triceps 데이터에서는고려한 모든 분위수에서 예측성능의 향상시킨다.
6. 결론 보
ᆫ 논문에서는이분산이 존재할 때 가중치를고려하여 변동이 다른구간에서 손실의 가중치를다루게 주
ᆯ수 있는개선된가중치 모형선택 기준을제안하였다. 이분산이 존재할 때 손실의 가중치를 공변량의 ᄀ
ᅮ간별로 동일하게 다룰경우, 부정확한 모형선택이 이루어 질 수 있다. 본 논문에서 제안하는개선된 ᄀ
ᅡ중치 모형선택 기준이 이분산이 존재할 때 독립변수와 종속변수의관계가 선형인 경우는 물론, 비선 혀
ᆼ관계인 경우에도 좋은모형선택을가져다주는것을모의실험과 실제 데이터 분석을 통해확인하였다.
ᄄ
ᅡ라서 개선된가중치 모형선택 기준을이용하여 기존의 모형선택 기준으로부터 얻을수 있는조율모수 ᄉ
ᅥᆫ택의 정확성을상당히 개선하였다고 생각한다.
ᄒ
ᅡ지만 모의실험에서확인된바와 같이,극한 분위수에서관측값이 적을때 편향을 통한 불이익이 오 느
ᆫ한계점이 존재한다. 향후 과제로는 본 논문에서 제안한 가중치 모형선택 기준을고차원데이터에 대 ᄒ
ᅢ 적용해보고,극한 분위수에서의 성능을향상시킬 수 있는모형선택 기준을개발한다면 흥미로운연구 ᄀ
ᅡ될 것이다.
References