Comparison of bankruptcy prediction models using statistical learning at multiple times<sup>†</sup>

(1)

2021, 32

(

3)

,

487–499

통계적 학습을 이용한 다시점 기업부도 예측모형들의 비교

^†

ᄌ

ᅩ경인

¹

· 김영민

²

12

경북대학교 통계학과

ᄌ ᅥ

ᆸᄉ ᅮ 2021ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 13ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2021ᄂ ᅧ ᆫ 2ᄋ ᅯ ᆯ 19ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2021ᄂ ᅧ ᆫ 2ᄋ ᅯ ᆯ 23ᄋ ᅵ ᆯ

요 약

ᄇ

ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄃ ᅡᄋ ᅣ ᆼᄒ ᅡ ᆫ ᄐ ᅩ ᆼ ᄀ ᅨᄌ ᅥ ᆨ ᄒ ᅡ ᆨᄉ ᅳ ᆸ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄒ ᅪ ᆯᄋ ᅭ ᆼ ᄒ ᅢᄉ ᅥ ᄉ ᅵᄀ ᅡ ᆫᄋ ᅴ ᄒ ᅳᄅ ᅳ ᆷ ᄋ ᅦ ᄄ ᅡᄅ ᅳ ᆫ ᄀ ᅵᄋ ᅥ ᆸᄇ ᅮᄃ ᅩᄋ ᅨᄎ ᅳ ᆨ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄇ ᅧ ᆫ ᄒ

ᅪᄋ ᅪ ᄉ ᅥ ᆼᄂ ᅳ ᆼ ᄋ ᅴ ᄇ ᅧ ᆫᄒ ᅪᄅ ᅳ ᆯ ᄌ ᅩᄉ ᅡᄒ ᅡ ᆫᄃ ᅡ. ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅳ ᆫ 2000ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 1ᄋ ᅵ ᆯᄇ ᅮᄐ ᅥ 2016ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 31ᄋ ᅵ ᆯᄁ ᅡᄌ ᅵ ᄒ ᅡ ᆫᄀ ᅮ ᆨ ᄀ ᅥᄅ ᅢᄉ ᅩᄋ ᅦ ᄉ

ᅡ ᆼᄌ ᅡ ᆼ ᄃ ᅬ ᆫ ᄀ ᅵᄋ ᅥ ᆸᄋ ᅳ ᆯ ᄃ ᅢᄉ ᅡ ᆼᄋ ᅳᄅ ᅩ ᄒ ᅡᄆ ᅧ, ᄉ ᅡ ᆼᄌ ᅡ ᆼᄑ ᅨᄌ ᅵ ᄄ ᅩᄂ ᅳ ᆫ ᄋ ᅯᄏ ᅳᄋ ᅡᄋ ᅮ ᆺ ᄉ ᅵ ᆫᄎ ᅥ ᆼᄒ ᅡ ᆫ ᄀ ᅵᄋ ᅥ ᆸᄋ ᅳ ᆯ ᄇ ᅮᄃ ᅩᄅ ᅩ ᄌ ᅥ ᆼᄋ ᅴᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄋ ᅳ ᆯ ᄋ

ᅱᄒ ᅢᄉ ᅥ ᄉ ᅥ ᆼᄌ ᅡ ᆼᄉ ᅥ ᆼ ᄇ ᅵᄋ ᅲ ᆯ ᄀ ᅪ ᄀ ᅪ ᆫᄅ ᅧ ᆫ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄒ ᅬᄀ ᅨᄇ ᅧ ᆫᄉ ᅮᄋ ᅪ ᄀ ᅥᄉ ᅵᄀ ᅧ ᆼᄌ ᅦᄇ ᅧ ᆫᄉ ᅮᄅ ᅩᄊ ᅥ ᄌ ᅥ ᆫᄉ ᅡ ᆫᄋ ᅥ ᆸᄉ ᅢ ᆼᄉ ᅡ ᆫᄌ ᅵᄉ ᅮᄅ ᅳ ᆯ ᄒ ᅪ ᆯᄋ ᅭ ᆼ ᄋ ᅳᄆ ᅧ, ᄉ ᅵᄌ ᅡ ᆼᄇ ᅧ ᆫᄉ ᅮ ᄋ

ᅵ ᆫ ᄉ ᅵᄀ ᅡᄎ ᅩ ᆼᄋ ᅢ ᆨᄋ ᅳ ᆯ ᄒ ᅪ ᆯᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄇ ᅧ ᆫᄃ ᅩ ᆼᄉ ᅥ ᆼ, ᄋ ᅫᄃ ᅩ, ᄎ ᅥ ᆷᄃ ᅩᄅ ᅳ ᆯ ᄉ ᅢ ᆼᄉ ᅡ ᆫᄒ ᅢᄉ ᅥ ᄒ ᅪ ᆯᄋ ᅭ ᆼᄒ ᅢ ᆻᄃ ᅡ. 2000ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯᄇ ᅮᄐ ᅥ 2016ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯᄁ ᅡᄌ ᅵ ᄀ

ᅡ

ᆨ ᄉ ᅥ ᆫᄒ ᅢ ᆼ 3ᄂ ᅧ ᆫᄋ ᅳ ᆯ ᄒ ᅮ ᆫᄅ ᅧ ᆫᄃ ᅦᄋ ᅵᄐ ᅥ, ᄒ ᅮᄒ ᅢ ᆼ 1ᄂ ᅧ ᆫᄋ ᅳ ᆯ ᄀ ᅥ ᆷᄌ ᅥ ᆼᄃ ᅦᄋ ᅵᄐ ᅥᄅ ᅩ ᄉ ᅥ ᆯᄌ ᅥ ᆼᄒ ᅢᄉ ᅥ, ᄃ ᅡᄉ ᅵᄌ ᅥ ᆷ ᄀ ᅵᄋ ᅥ ᆸᄇ ᅮᄃ ᅩᄋ ᅨᄎ ᅳ ᆨ ᄋ ᅴ ᄆ ᅩᄒ ᅧ ᆼᄀ ᅪ ᄉ ᅥ ᆼᄂ ᅳ ᆼ ᄋ

ᅳ ᆯ ᄇ ᅵᄀ ᅭᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄅ ᅩᄌ ᅵᄉ ᅳᄐ ᅵ ᆨ ᄒ ᅬᄀ ᅱᄇ ᅮ ᆫᄉ ᅥ ᆨ, ᄇ ᅮᄇ ᅮ ᆫ ᄎ ᅬᄉ ᅩᄌ ᅦᄀ ᅩ ᆸᄇ ᅥ ᆸ, ᄅ ᅢ ᆫᄃ ᅥ ᆷᄑ ᅩᄅ ᅦᄉ ᅳᄐ ᅳ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄒ ᅪ ᆯᄋ ᅭ ᆼ ᄒ ᅢᄉ ᅥ ᄌ ᅢᄒ ᅧ ᆫᄋ ᅲ ᆯᄋ ᅳ ᆯ ᄀ ᅵᄌ ᅮ ᆫ ᄋ ᅳ ᄅ

ᅩ ᄎ ᅬᄌ ᅩ ᆼ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄉ ᅥ ᆫᄌ ᅥ ᆼᄒ ᅡᄋ ᅧ ᆻᄋ ᅳᄆ ᅧ, ᄋ ᅵ ᄄ ᅢ ᄇ ᅮ ᆯᄀ ᅲ ᆫᄒ ᅧ ᆼᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄀ ᅵᄋ ᅥ ᆸᄇ ᅮᄃ ᅩ ᄃ ᅦᄋ ᅵᄐ ᅥᄋ ᅴ ᄐ ᅳ ᆨᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄀ ᅩᄅ ᅧᄒ ᅢ ᄅ ᅩᄌ ᅵᄉ ᅳᄐ ᅵ ᆨ ᄒ ᅬᄀ ᅱᄇ ᅮ ᆫᄉ ᅥ ᆨ ᄀ

ᅪ ᄅ ᅢ ᆫᄃ ᅥ ᆷᄑ ᅩᄅ ᅦᄉ ᅳᄐ ᅳᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄇ ᅮᄃ ᅩᄀ ᅵᄋ ᅥ ᆸᄋ ᅦ ᄀ ᅡᄌ ᅮ ᆼ ᄎ ᅵᄅ ᅳ ᆯ ᄀ ᅩᄅ ᅧᄒ ᅡᄋ ᅧ ᆻᄀ ᅩ, ᄇ ᅮᄇ ᅮ ᆫ ᄎ ᅬᄉ ᅩᄌ ᅦᄀ ᅩ ᆸᄇ ᅥ ᆸᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ Synthetic Minority Oversampling Technique (SMOTE)ᄅ ᅳ ᆯ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅢᄉ ᅥ ᄇ ᅮ ᆯᄀ ᅲ ᆫᄒ ᅧ ᆼᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄃ ᅦᄋ ᅵᄐ ᅥᄋ ᅴ ᄐ ᅳ ᆨᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄇ ᅩ ᄋ ᅪ ᆫ ᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮ ᄋ

ᅦᄉ ᅥᄂ ᅳ ᆫ ᄋ ᅬᄇ ᅮ ᄀ ᅧ ᆼᄌ ᅦᄉ ᅡ ᆼ ᄒ ᅪ ᆼᄋ ᅵ ᄇ ᅧ ᆫᄒ ᅪᄀ ᅡ ᄏ ᅥᄌ ᅵᄆ ᅧ ᆫ ᄌ ᅮᄋ ᅭ ᄇ ᅧ ᆫᄉ ᅮᄃ ᅳ ᆯ ᄋ ᅵ ᄉ ᅵᄌ ᅥ ᆷᄇ ᅧ ᆯᄅ ᅩ ᄇ ᅧ ᆫᄒ ᅪᄒ ᅡᄂ ᅳ ᆫ ᄀ ᅥ ᆺᄋ ᅳ ᆯ ᄒ ᅪ ᆨ ᄋ ᅵ ᆫᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄋ ᅳᄆ ᅧ, ᄐ ᅳ ᆨ ᄒ

ᅵ ᄌ ᅥ ᆫᄉ ᅡ ᆫᄋ ᅥ ᆸᄉ ᅢ ᆼᄉ ᅡ ᆫᄌ ᅵᄉ ᅮ, ᄉ ᅥ ᆼᄌ ᅡ ᆼᄉ ᅥ ᆼ ᄇ ᅵᄋ ᅲ ᆯ ᄒ ᅬᄀ ᅨᄇ ᅧ ᆫᄉ ᅮᄀ ᅡ ᄆ ᅩᄃ ᅳ ᆫ ᄉ ᅵᄌ ᅥ ᆷᄋ ᅦᄉ ᅥ ᄀ ᅵᄋ ᅥ ᆸᄇ ᅮᄃ ᅩᄋ ᅦ ᄋ ᅲᄋ ᅴᄆ ᅵᄒ ᅡ ᆫ ᄀ ᅧ ᆯᄀ ᅪᄀ ᅡ ᄌ ᅦᄉ ᅵᄃ ᅬᄋ ᅥ ᆻᄃ ᅡ.

ᄌ

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄇ ᅮᄇ ᅮ ᆫ ᄎ ᅬᄉ ᅩᄌ ᅦᄀ ᅩ ᆸᄇ ᅥ ᆸ, ᄇ ᅮ ᆯᄀ ᅲ ᆫᄒ ᅧ ᆼ ᄃ ᅦᄋ ᅵᄐ ᅥ, ᄉ ᅥ ᆼᄌ ᅡ ᆼᄉ ᅥ ᆼ ᄇ ᅵᄋ ᅲ ᆯ ᄒ ᅬᄀ ᅨᄇ ᅧ ᆫᄉ ᅮ, ᄌ ᅥ ᆫᄉ ᅡ ᆫᄋ ᅥ ᆸᄉ ᅢ ᆼᄉ ᅡ ᆫᄌ ᅵᄉ ᅮ, ᄅ ᅢ ᆫᄃ ᅥ ᆷᄑ ᅩᄅ ᅦᄉ ᅳᄐ ᅳ.

1. 서론 이

ᆯ반적으로 한국증권거래소의 상장기업의 부도는 국가의 경제뿐만 아니라 상장이 되지 않은다른 중 ᄉ

ᅩ기업, 거래하는 은행과 관련 기업에 투자한 투자자들에게까지 악영향을미친다. 따라서, 정부부처나 ᄀ

ᅢ별은행들은기업의 구조조정 및 자금조달, 리스크 분석 등의 다양한 방법으로 기업부도의 이슈를사전 미

ᆾ 사후적 방법으로 다양하게 해결하려고 노력하고 있다. 대한민국은무역의존도가 70%인 만큼 국제경 ᄌ

ᅦ 상황이 기업에 미치는영향이 상당하므로 (Kim 등, 2011)거시경제가 기업부도에 미치는영향에 대 ᄒ

ᅡᆫ 다양한 연구가 꾸준히 진행되고 있다. 특히, 2008년 세계금융위기로 인해 악화된 국제경제 상황 속 ᄋ

ᅦ서금융시스템의 안정성을 측정하는 Stress Test에관심이 급증했으며, 이는거시경제의 변화가 기업 ᄇ

ᅮ도에 미치는영향에 대한관심이 높아지는계기가 되었다.

Beaver (1966)와 Altman (1968)이 기업의 부도예측에 관한 연구를 실시한 이후로 꾸준히 부도예 ᄎ

ᅳ

ᆨ모형에관한 연구는 진행되어 오고 있다. Altman (1968)은 기업의 회계정보를 다변량판별분석방법 ᄋ

ᅳᆯ 적용해서 기업의 부도를 예측하는 Z-점수모형을 제안하였고, Ohlson (1980)은 Z-점수모형의 문제

† ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅳ ᆫ ᄉ ᅡ ᆫᄋ ᅥ ᆸᄐ ᅩ ᆼ ᄉ ᅡ ᆼᄌ ᅡᄋ ᅯ ᆫ ᄇ ᅮᄅ ᅩᄇ ᅮᄐ ᅥ ᄌ ᅢᄋ ᅯ ᆫᄋ ᅳ ᆯ ᄇ ᅮᄋ ᅧᄇ ᅡ ᆮᄋ ᅳ ᆫ ᄒ ᅡ ᆫᄀ ᅮ ᆨ ᄋ ᅦᄂ ᅥᄌ ᅵ ᄀ ᅵᄉ ᅮ ᆯ ᄑ ᅧ ᆼᄀ ᅡᄋ ᅯ ᆫ (KETEP)ᄋ ᅴ ᄋ ᅦᄂ ᅥᄌ ᅵ ᄀ ᅵᄉ ᅮ ᆯ ᄋ ᅵ ᆫᄅ ᅧ ᆨ ᄌ

ᅵᄋ ᅯ ᆫ ᄉ ᅡᄋ ᅥ ᆸᄋ ᅴ ᄌ ᅵᄋ ᅯ ᆫᄋ ᅳ ᆯ ᄇ ᅡ ᆮᄋ ᅡ ᆻᄋ ᅳ ᆷ (No. 20204010600060).

1 (41566) ᄃ ᅢᄀ ᅮ ᄀ ᅪ ᆼᄋ ᅧ ᆨᄉ ᅵ ᄇ ᅮ ᆨ ᄀ ᅮ ᄃ ᅢᄒ ᅡ ᆨᄅ ᅩ 80 (ᄉ ᅡ ᆫᄀ ᅧ ᆨᄃ ᅩ ᆼ), ᄀ ᅧ ᆼᄇ ᅮ ᆨ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄉ ᅥ ᆨᄉ ᅡ.

2 ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (41566) ᄃ ᅢᄀ ᅮ ᄀ ᅪ ᆼᄋ ᅧ ᆨᄉ ᅵ ᄇ ᅮ ᆨ ᄀ ᅮ ᄃ ᅢᄒ ᅡ ᆨᄅ ᅩ 80 (ᄉ ᅡ ᆫᄀ ᅧ ᆨᄃ ᅩ ᆼ), ᄀ ᅧ ᆼᄇ ᅮ ᆨ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄌ ᅩᄀ ᅭᄉ ᅮ.

E-mail: [email protected]

(2)

ᄌ ᅥ

ᆷ을개선하기 위해 로짓분석을이용한 O-점수모형을제안하였다. 반면 시장변수를활용한 모형으로는 Merton (1974)의 부도거리모형 (distance to default)이 가장 잘 알려져 있다. Duan (1994)은가능도 ᄒ

ᅡᆷ수를시장변수에 적용해서 기업의 부도를예측하는연구를 진행하였다. Shumway (2001)는회계정보 ᄋ

ᅪ 시장정보를 통합하여 기업의 부도예측력을 높인 헤저드모형을제안하였으며, Gwon 등 (2019)는거 ᄉ

ᅵ경제변수, 회계변수, 시장변수를고려한 모형을구축하였다. 하지만, 그 연구에서는관찰 기간을전부 ᄒ

ᅡ나의 데이터 집합으로 가정해서, 그 데이터 집합 안에서 훈련데이터와 검정데이터를표본추출해서 모 혀

ᆼ구축하였는데, 일반적으로 기업부도예측은과거와 현재의 데이터로 미래를예측하는것에 대한 목적 ᄋ

ᅵ기 때문에, Gwon 등 (2019) 연구에서는모형구축방법과 모형활용 목적의 차이가 발생하는한계가 조

ᆫ재한다. 예를 들어, 2008년 세계금융위기와 같은큰 사건이 발생하면 세계금융위기 이전의 기업부도 ᄋ

ᅦ 영향을미치는주요 변수와 2008년 세계금융위기 이후에는기업부도에 영향을미치는주요 변수가다 르

ᆯ수 있다.

보

ᆫ연구에서는과거 및 현재의 데이터로 미래를예측하는기업부도예측모형을구축해서 시점 별로 기 어

ᆸ부도예측모형 및 성능을비교한다. 특히 시점별로 기업부도에 영향을미치는변수특성을확인할 것이 ᄃ

ᅡ.

보

ᆫ 논문은 다음과 같이 구성되어 있다. 2절은기업부도예측모형을 구축하고자 적용된 통계적분석방 버

ᆸ 및 통계학습방법 (또는기계학습방법)에 대해서 설명한다. 3절에는 기업 부도예측을 위한 변수들에 ᄃ

ᅢ해 설명과 그 변수들의 기초데이터를 분석을 실시한다. 4절은각 분석방법들을적용해 만든기업부도 ᄋ

ᅨ측모형들을활용해 모형추정 결과 및 각 다시점 부도예측모형의 특성들에 대한 비교할 것이다. 5절은 ᄒ

ᅧᆫ재 연구결과에 대한 결론 및 제언을다룬다.

2. 통계적 분석방법론

2.1. 라쏘를 활용한 로지스틱 회귀분석 2.1.1. 로지스틱 회귀모형

ᄅ

ᅩ지스틱 회귀모형은 영국의 통계학자인 Cox (1958)가 제안한 확률 모형으로서 독립 변수들의 선형 겨

ᆯ합을활용해서 사건의 발생 가능성을예측하는 통계 기법이다. 로지스틱 회귀모형은 종속변수가 범 ᄌ

ᅮ형 데이터이고, 새로운관측치가 주어졌을때 기존범주 중하나로 예측되는 일종의 분류기법이다. 로 ᄌ

ᅵ스틱 회귀모형은범주가 두 개일 경우에 이항형, 범주가 세개 이상일 경우에 다항형으로 분리된다. 로 ᄌ

ᅵ스틱 회귀모형에서는 독립변수 x가 주어졌을때, 종속변수가 범주 1에 속할확률을의미하며, 독립변 ᄉ

ᅮ가 [−∞, ∞] 의 범위를가지며, 종속변수는 [0, 1]의 범위를가진다. 여기서 종속변수와 설명변수를연 겨

ᆯ하는로짓 함수는 식 (2.1)과 같이 정의 한다.

ϕ(X = x) = P (y = 1|x) = 1

1 + e

^−(β

⁰

^+xβ)

, (2.1) ᄋ

ᅧ기서 β = (β

¹

, ..., β

p

)

^T

는모형의 모수이고, p는변수의 갯수이다. 승산(odds)은 실패할확률대비 성 ᄀ

ᅩ

ᆼ할확률의 비율로써 식 (2.2)과 같이 정의 하고, 로짓변환을 통한 로지스틱 회귀모형은 식 (2.3)에 각 ᄀ

ᅡ

ᆨ 제시한다.

odds = ϕ(X = x)

1 − ϕ(X = x), (2.2) logit(odds) = log

ϕ(X = x) 1 − ϕ(X = x)

= β

0

+ xβ. (2.3)

(3)

2.1.2. 라쏘를 활용한 변수선택법 (Lasso variable selection) ᄅ

ᅡ쏘 (LASSO, Least Absolute Shrinkage and Selection Operator)는 예측 정확도를 높이고, 변수 ᄉ

ᅥᆫ택방법으로도활용할 수 있는별점회귀분석 방법의 일종이다 (Kukreja, 2006). 로지스틱 회귀분석에 ᄉ

ᅥ의 음의 로그 가능도함수 (Log Likelihood Function)인 L에 최소화를 진행할때 회귀계수에 대해 제 ᄋ

ᅣ

ᆨ조건인 패널티함수, λP

p

j=1

|β

j

|, 를추가한 후 식 (2.5)을가장 작게하는모수, (β

0

, β

^T

)를추정한다 (Tibshirani, 1996). 여기서 L은 식 (2.4)과 같이 정의한다.

L = − log( Y

i:Y

_i

=+

p(X

i

) Y

j:Y

_j

=−

(1 − p(X

j

))), (2.4)

L + λ

p

X

j=1

|β

j

| , (2.5)

ᄋ

ᅧ기서 λ값이 클수록 강한 제약조건으로 모형이 간단해지고, 반대로 λ값이 작을수록 약한 제약조건으 ᄅ

ᅩ 인한 모형이 복잡해진다. 특히, 라쏘는패널티함수에서 λ값이 커질수록예측에 중요하지 않은변수 ᄀ

ᅡ 0이 되어 변수선택이 가능하다. 본 논문에서는이러한 라쏘의 특성을이용해 변수선택을 진행한 후 ᄅ

ᅩ지스틱 회귀모형을구축한다.

2.2. 랜덤포레스트 (random forest) ᄅ

ᅢᆫ덤포레스트는 Breiman (2001)에 의해 제안된방법으로써, 부츠트랩 방법을활용해서 비편향 모형 ᄃ

ᅳ

ᆯ의 예측값으 평균을 활용하여 과적합으로 인한 예측값의 분산을 줄이는앙상불기법의 일종이다. 또 ᄒ

ᅡᆫ 교호작용을고려하는 의사결정나무모형을 주로 활용한다. 하지만, 모든 변수의활용은추정된모형 ᄃ

ᅳ

ᆯ간의 상관관계를 높일 수 있기 때문에, 변수를비복원추출로 추출해서 모형을구축한다. 즉, 랜덤포 ᄅ

ᅦ스는예측값의 편차와 분산을감소시키면서 모형의 성능을향상시키는방법이다. 다음으로 랜덤포레 ᄉ

ᅳ트의 과정에 대해 설명한다.

의사결정나무모형을 활용한 랜덤포레스트 과정

Step 1부츠트랩 기법을사용하여 동일한 데이터 수의관찰값을추출한다.

Step 2 총변수 중에서 무작위적으로 임의의 변수를선택한다.

Step 3주어진 변수와 데이터에 의사결정모형을추정한다.

Step 4각 모형을 통해서 추정된값을앙상블기법을활용해서 최적의 값을예측한다.

ᄄ

ᅩ한 랜덤포레스트 방법은 변수의 중요도를 제시하고 있는데, 다만 선형회귀분석이나 로지스틱 회귀 부

ᆫ석과 같은 통계적분석 방법과는달리 개별변수의 통계적 유의성에 대한 검정은 진행하지 않는다. 대 ᄉ

ᅵᆫ에 다음의 같이 간접적인 방법으로 변수의 중요도를결정한다.

변수 중요도 과정

Step1 각 부츠트랩 데이터 집합에 생성된 모형에 대해 Out of Bag (OOB) 오차를 구한다.

(r

i

, i = 1, 2, . . . , t)

Step2 각 추정된 모형에서 특정변수의 값을 임의로 뒤섞은 데이터 집합에 대해 OOB오차를 구 ᄒ

ᅡᆫ다. (e

ⁱ

, i = 1, 2, . . . , t)