2021, 32
(3)
,487–499
통계적 학습을 이용한 다시점 기업부도 예측모형들의 비교
†
ᄌ
ᅩ경인
1
· 김영민2
12
경북대학교 통계학과ᄌ ᅥ
ᆸᄉ ᅮ 2021ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 13ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2021ᄂ ᅧ ᆫ 2ᄋ ᅯ ᆯ 19ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2021ᄂ ᅧ ᆫ 2ᄋ ᅯ ᆯ 23ᄋ ᅵ ᆯ
요 약
ᄇ
ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄃ ᅡᄋ ᅣ ᆼᄒ ᅡ ᆫ ᄐ ᅩ ᆼ ᄀ ᅨᄌ ᅥ ᆨ ᄒ ᅡ ᆨᄉ ᅳ ᆸ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄒ ᅪ ᆯᄋ ᅭ ᆼ ᄒ ᅢᄉ ᅥ ᄉ ᅵᄀ ᅡ ᆫᄋ ᅴ ᄒ ᅳᄅ ᅳ ᆷ ᄋ ᅦ ᄄ ᅡᄅ ᅳ ᆫ ᄀ ᅵᄋ ᅥ ᆸᄇ ᅮᄃ ᅩᄋ ᅨᄎ ᅳ ᆨ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄇ ᅧ ᆫ ᄒ
ᅪᄋ ᅪ ᄉ ᅥ ᆼᄂ ᅳ ᆼ ᄋ ᅴ ᄇ ᅧ ᆫᄒ ᅪᄅ ᅳ ᆯ ᄌ ᅩᄉ ᅡᄒ ᅡ ᆫᄃ ᅡ. ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅳ ᆫ 2000ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 1ᄋ ᅵ ᆯᄇ ᅮᄐ ᅥ 2016ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 31ᄋ ᅵ ᆯᄁ ᅡᄌ ᅵ ᄒ ᅡ ᆫᄀ ᅮ ᆨ ᄀ ᅥᄅ ᅢᄉ ᅩᄋ ᅦ ᄉ
ᅡ ᆼᄌ ᅡ ᆼ ᄃ ᅬ ᆫ ᄀ ᅵᄋ ᅥ ᆸᄋ ᅳ ᆯ ᄃ ᅢᄉ ᅡ ᆼᄋ ᅳᄅ ᅩ ᄒ ᅡᄆ ᅧ, ᄉ ᅡ ᆼᄌ ᅡ ᆼᄑ ᅨᄌ ᅵ ᄄ ᅩᄂ ᅳ ᆫ ᄋ ᅯᄏ ᅳᄋ ᅡᄋ ᅮ ᆺ ᄉ ᅵ ᆫᄎ ᅥ ᆼᄒ ᅡ ᆫ ᄀ ᅵᄋ ᅥ ᆸᄋ ᅳ ᆯ ᄇ ᅮᄃ ᅩᄅ ᅩ ᄌ ᅥ ᆼᄋ ᅴᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄋ ᅳ ᆯ ᄋ
ᅱᄒ ᅢᄉ ᅥ ᄉ ᅥ ᆼᄌ ᅡ ᆼᄉ ᅥ ᆼ ᄇ ᅵᄋ ᅲ ᆯ ᄀ ᅪ ᄀ ᅪ ᆫᄅ ᅧ ᆫ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄒ ᅬᄀ ᅨᄇ ᅧ ᆫᄉ ᅮᄋ ᅪ ᄀ ᅥᄉ ᅵᄀ ᅧ ᆼᄌ ᅦᄇ ᅧ ᆫᄉ ᅮᄅ ᅩᄊ ᅥ ᄌ ᅥ ᆫᄉ ᅡ ᆫᄋ ᅥ ᆸᄉ ᅢ ᆼᄉ ᅡ ᆫᄌ ᅵᄉ ᅮᄅ ᅳ ᆯ ᄒ ᅪ ᆯᄋ ᅭ ᆼ ᄋ ᅳᄆ ᅧ, ᄉ ᅵᄌ ᅡ ᆼᄇ ᅧ ᆫᄉ ᅮ ᄋ
ᅵ ᆫ ᄉ ᅵᄀ ᅡᄎ ᅩ ᆼᄋ ᅢ ᆨᄋ ᅳ ᆯ ᄒ ᅪ ᆯᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄇ ᅧ ᆫᄃ ᅩ ᆼᄉ ᅥ ᆼ, ᄋ ᅫᄃ ᅩ, ᄎ ᅥ ᆷᄃ ᅩᄅ ᅳ ᆯ ᄉ ᅢ ᆼᄉ ᅡ ᆫᄒ ᅢᄉ ᅥ ᄒ ᅪ ᆯᄋ ᅭ ᆼᄒ ᅢ ᆻᄃ ᅡ. 2000ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯᄇ ᅮᄐ ᅥ 2016ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯᄁ ᅡᄌ ᅵ ᄀ
ᅡ
ᆨ ᄉ ᅥ ᆫᄒ ᅢ ᆼ 3ᄂ ᅧ ᆫᄋ ᅳ ᆯ ᄒ ᅮ ᆫᄅ ᅧ ᆫᄃ ᅦᄋ ᅵᄐ ᅥ, ᄒ ᅮᄒ ᅢ ᆼ 1ᄂ ᅧ ᆫᄋ ᅳ ᆯ ᄀ ᅥ ᆷᄌ ᅥ ᆼᄃ ᅦᄋ ᅵᄐ ᅥᄅ ᅩ ᄉ ᅥ ᆯᄌ ᅥ ᆼᄒ ᅢᄉ ᅥ, ᄃ ᅡᄉ ᅵᄌ ᅥ ᆷ ᄀ ᅵᄋ ᅥ ᆸᄇ ᅮᄃ ᅩᄋ ᅨᄎ ᅳ ᆨ ᄋ ᅴ ᄆ ᅩᄒ ᅧ ᆼᄀ ᅪ ᄉ ᅥ ᆼᄂ ᅳ ᆼ ᄋ
ᅳ ᆯ ᄇ ᅵᄀ ᅭᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄅ ᅩᄌ ᅵᄉ ᅳᄐ ᅵ ᆨ ᄒ ᅬᄀ ᅱᄇ ᅮ ᆫᄉ ᅥ ᆨ, ᄇ ᅮᄇ ᅮ ᆫ ᄎ ᅬᄉ ᅩᄌ ᅦᄀ ᅩ ᆸᄇ ᅥ ᆸ, ᄅ ᅢ ᆫᄃ ᅥ ᆷᄑ ᅩᄅ ᅦᄉ ᅳᄐ ᅳ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄒ ᅪ ᆯᄋ ᅭ ᆼ ᄒ ᅢᄉ ᅥ ᄌ ᅢᄒ ᅧ ᆫᄋ ᅲ ᆯᄋ ᅳ ᆯ ᄀ ᅵᄌ ᅮ ᆫ ᄋ ᅳ ᄅ
ᅩ ᄎ ᅬᄌ ᅩ ᆼ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄉ ᅥ ᆫᄌ ᅥ ᆼᄒ ᅡᄋ ᅧ ᆻᄋ ᅳᄆ ᅧ, ᄋ ᅵ ᄄ ᅢ ᄇ ᅮ ᆯᄀ ᅲ ᆫᄒ ᅧ ᆼᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄀ ᅵᄋ ᅥ ᆸᄇ ᅮᄃ ᅩ ᄃ ᅦᄋ ᅵᄐ ᅥᄋ ᅴ ᄐ ᅳ ᆨᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄀ ᅩᄅ ᅧᄒ ᅢ ᄅ ᅩᄌ ᅵᄉ ᅳᄐ ᅵ ᆨ ᄒ ᅬᄀ ᅱᄇ ᅮ ᆫᄉ ᅥ ᆨ ᄀ
ᅪ ᄅ ᅢ ᆫᄃ ᅥ ᆷᄑ ᅩᄅ ᅦᄉ ᅳᄐ ᅳᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄇ ᅮᄃ ᅩᄀ ᅵᄋ ᅥ ᆸᄋ ᅦ ᄀ ᅡᄌ ᅮ ᆼ ᄎ ᅵᄅ ᅳ ᆯ ᄀ ᅩᄅ ᅧᄒ ᅡᄋ ᅧ ᆻᄀ ᅩ, ᄇ ᅮᄇ ᅮ ᆫ ᄎ ᅬᄉ ᅩᄌ ᅦᄀ ᅩ ᆸᄇ ᅥ ᆸᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ Synthetic Minority Oversampling Technique (SMOTE)ᄅ ᅳ ᆯ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅢᄉ ᅥ ᄇ ᅮ ᆯᄀ ᅲ ᆫᄒ ᅧ ᆼᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄃ ᅦᄋ ᅵᄐ ᅥᄋ ᅴ ᄐ ᅳ ᆨᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄇ ᅩ ᄋ ᅪ ᆫ ᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮ ᄋ
ᅦᄉ ᅥᄂ ᅳ ᆫ ᄋ ᅬᄇ ᅮ ᄀ ᅧ ᆼᄌ ᅦᄉ ᅡ ᆼ ᄒ ᅪ ᆼᄋ ᅵ ᄇ ᅧ ᆫᄒ ᅪᄀ ᅡ ᄏ ᅥᄌ ᅵᄆ ᅧ ᆫ ᄌ ᅮᄋ ᅭ ᄇ ᅧ ᆫᄉ ᅮᄃ ᅳ ᆯ ᄋ ᅵ ᄉ ᅵᄌ ᅥ ᆷᄇ ᅧ ᆯᄅ ᅩ ᄇ ᅧ ᆫᄒ ᅪᄒ ᅡᄂ ᅳ ᆫ ᄀ ᅥ ᆺᄋ ᅳ ᆯ ᄒ ᅪ ᆨ ᄋ ᅵ ᆫᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄋ ᅳᄆ ᅧ, ᄐ ᅳ ᆨ ᄒ
ᅵ ᄌ ᅥ ᆫᄉ ᅡ ᆫᄋ ᅥ ᆸᄉ ᅢ ᆼᄉ ᅡ ᆫᄌ ᅵᄉ ᅮ, ᄉ ᅥ ᆼᄌ ᅡ ᆼᄉ ᅥ ᆼ ᄇ ᅵᄋ ᅲ ᆯ ᄒ ᅬᄀ ᅨᄇ ᅧ ᆫᄉ ᅮᄀ ᅡ ᄆ ᅩᄃ ᅳ ᆫ ᄉ ᅵᄌ ᅥ ᆷᄋ ᅦᄉ ᅥ ᄀ ᅵᄋ ᅥ ᆸᄇ ᅮᄃ ᅩᄋ ᅦ ᄋ ᅲᄋ ᅴᄆ ᅵᄒ ᅡ ᆫ ᄀ ᅧ ᆯᄀ ᅪᄀ ᅡ ᄌ ᅦᄉ ᅵᄃ ᅬᄋ ᅥ ᆻᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄇ ᅮᄇ ᅮ ᆫ ᄎ ᅬᄉ ᅩᄌ ᅦᄀ ᅩ ᆸᄇ ᅥ ᆸ, ᄇ ᅮ ᆯᄀ ᅲ ᆫᄒ ᅧ ᆼ ᄃ ᅦᄋ ᅵᄐ ᅥ, ᄉ ᅥ ᆼᄌ ᅡ ᆼᄉ ᅥ ᆼ ᄇ ᅵᄋ ᅲ ᆯ ᄒ ᅬᄀ ᅨᄇ ᅧ ᆫᄉ ᅮ, ᄌ ᅥ ᆫᄉ ᅡ ᆫᄋ ᅥ ᆸᄉ ᅢ ᆼᄉ ᅡ ᆫᄌ ᅵᄉ ᅮ, ᄅ ᅢ ᆫᄃ ᅥ ᆷᄑ ᅩᄅ ᅦᄉ ᅳᄐ ᅳ.
1. 서론 이
ᆯ반적으로 한국증권거래소의 상장기업의 부도는 국가의 경제뿐만 아니라 상장이 되지 않은다른 중 ᄉ
ᅩ기업, 거래하는 은행과 관련 기업에 투자한 투자자들에게까지 악영향을미친다. 따라서, 정부부처나 ᄀ
ᅢ별은행들은기업의 구조조정 및 자금조달, 리스크 분석 등의 다양한 방법으로 기업부도의 이슈를사전 미
ᆾ 사후적 방법으로 다양하게 해결하려고 노력하고 있다. 대한민국은무역의존도가 70%인 만큼 국제경 ᄌ
ᅦ 상황이 기업에 미치는영향이 상당하므로 (Kim 등, 2011)거시경제가 기업부도에 미치는영향에 대 ᄒ
ᅡᆫ 다양한 연구가 꾸준히 진행되고 있다. 특히, 2008년 세계금융위기로 인해 악화된 국제경제 상황 속 ᄋ
ᅦ서금융시스템의 안정성을 측정하는 Stress Test에관심이 급증했으며, 이는거시경제의 변화가 기업 ᄇ
ᅮ도에 미치는영향에 대한관심이 높아지는계기가 되었다.
Beaver (1966)와 Altman (1968)이 기업의 부도예측에 관한 연구를 실시한 이후로 꾸준히 부도예 ᄎ
ᅳ
ᆨ모형에관한 연구는 진행되어 오고 있다. Altman (1968)은 기업의 회계정보를 다변량판별분석방법 ᄋ
ᅳᆯ 적용해서 기업의 부도를 예측하는 Z-점수모형을 제안하였고, Ohlson (1980)은 Z-점수모형의 문제
† ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅳ ᆫ ᄉ ᅡ ᆫᄋ ᅥ ᆸᄐ ᅩ ᆼ ᄉ ᅡ ᆼᄌ ᅡᄋ ᅯ ᆫ ᄇ ᅮᄅ ᅩᄇ ᅮᄐ ᅥ ᄌ ᅢᄋ ᅯ ᆫᄋ ᅳ ᆯ ᄇ ᅮᄋ ᅧᄇ ᅡ ᆮᄋ ᅳ ᆫ ᄒ ᅡ ᆫᄀ ᅮ ᆨ ᄋ ᅦᄂ ᅥᄌ ᅵ ᄀ ᅵᄉ ᅮ ᆯ ᄑ ᅧ ᆼᄀ ᅡᄋ ᅯ ᆫ (KETEP)ᄋ ᅴ ᄋ ᅦᄂ ᅥᄌ ᅵ ᄀ ᅵᄉ ᅮ ᆯ ᄋ ᅵ ᆫᄅ ᅧ ᆨ ᄌ
ᅵᄋ ᅯ ᆫ ᄉ ᅡᄋ ᅥ ᆸᄋ ᅴ ᄌ ᅵᄋ ᅯ ᆫᄋ ᅳ ᆯ ᄇ ᅡ ᆮᄋ ᅡ ᆻᄋ ᅳ ᆷ (No. 20204010600060).
1 (41566) ᄃ ᅢᄀ ᅮ ᄀ ᅪ ᆼᄋ ᅧ ᆨᄉ ᅵ ᄇ ᅮ ᆨ ᄀ ᅮ ᄃ ᅢᄒ ᅡ ᆨᄅ ᅩ 80 (ᄉ ᅡ ᆫᄀ ᅧ ᆨᄃ ᅩ ᆼ), ᄀ ᅧ ᆼᄇ ᅮ ᆨ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄉ ᅥ ᆨᄉ ᅡ.
2 ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (41566) ᄃ ᅢᄀ ᅮ ᄀ ᅪ ᆼᄋ ᅧ ᆨᄉ ᅵ ᄇ ᅮ ᆨ ᄀ ᅮ ᄃ ᅢᄒ ᅡ ᆨᄅ ᅩ 80 (ᄉ ᅡ ᆫᄀ ᅧ ᆨᄃ ᅩ ᆼ), ᄀ ᅧ ᆼᄇ ᅮ ᆨ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄌ ᅩᄀ ᅭᄉ ᅮ.
E-mail: [email protected]
ᄌ ᅥ
ᆷ을개선하기 위해 로짓분석을이용한 O-점수모형을제안하였다. 반면 시장변수를활용한 모형으로는 Merton (1974)의 부도거리모형 (distance to default)이 가장 잘 알려져 있다. Duan (1994)은가능도 ᄒ
ᅡᆷ수를시장변수에 적용해서 기업의 부도를예측하는연구를 진행하였다. Shumway (2001)는회계정보 ᄋ
ᅪ 시장정보를 통합하여 기업의 부도예측력을 높인 헤저드모형을제안하였으며, Gwon 등 (2019)는거 ᄉ
ᅵ경제변수, 회계변수, 시장변수를고려한 모형을구축하였다. 하지만, 그 연구에서는관찰 기간을전부 ᄒ
ᅡ나의 데이터 집합으로 가정해서, 그 데이터 집합 안에서 훈련데이터와 검정데이터를표본추출해서 모 혀
ᆼ구축하였는데, 일반적으로 기업부도예측은과거와 현재의 데이터로 미래를예측하는것에 대한 목적 ᄋ
ᅵ기 때문에, Gwon 등 (2019) 연구에서는모형구축방법과 모형활용 목적의 차이가 발생하는한계가 조
ᆫ재한다. 예를 들어, 2008년 세계금융위기와 같은큰 사건이 발생하면 세계금융위기 이전의 기업부도 ᄋ
ᅦ 영향을미치는주요 변수와 2008년 세계금융위기 이후에는기업부도에 영향을미치는주요 변수가다 르
ᆯ수 있다.
보
ᆫ연구에서는과거 및 현재의 데이터로 미래를예측하는기업부도예측모형을구축해서 시점 별로 기 어
ᆸ부도예측모형 및 성능을비교한다. 특히 시점별로 기업부도에 영향을미치는변수특성을확인할 것이 ᄃ
ᅡ.
보
ᆫ 논문은 다음과 같이 구성되어 있다. 2절은기업부도예측모형을 구축하고자 적용된 통계적분석방 버
ᆸ 및 통계학습방법 (또는기계학습방법)에 대해서 설명한다. 3절에는 기업 부도예측을 위한 변수들에 ᄃ
ᅢ해 설명과 그 변수들의 기초데이터를 분석을 실시한다. 4절은각 분석방법들을적용해 만든기업부도 ᄋ
ᅨ측모형들을활용해 모형추정 결과 및 각 다시점 부도예측모형의 특성들에 대한 비교할 것이다. 5절은 ᄒ
ᅧᆫ재 연구결과에 대한 결론 및 제언을다룬다.
2. 통계적 분석방법론
2.1. 라쏘를 활용한 로지스틱 회귀분석 2.1.1. 로지스틱 회귀모형
ᄅ
ᅩ지스틱 회귀모형은 영국의 통계학자인 Cox (1958)가 제안한 확률 모형으로서 독립 변수들의 선형 겨
ᆯ합을활용해서 사건의 발생 가능성을예측하는 통계 기법이다. 로지스틱 회귀모형은 종속변수가 범 ᄌ
ᅮ형 데이터이고, 새로운관측치가 주어졌을때 기존범주 중하나로 예측되는 일종의 분류기법이다. 로 ᄌ
ᅵ스틱 회귀모형은범주가 두 개일 경우에 이항형, 범주가 세개 이상일 경우에 다항형으로 분리된다. 로 ᄌ
ᅵ스틱 회귀모형에서는 독립변수 x가 주어졌을때, 종속변수가 범주 1에 속할확률을의미하며, 독립변 ᄉ
ᅮ가 [−∞, ∞] 의 범위를가지며, 종속변수는 [0, 1]의 범위를가진다. 여기서 종속변수와 설명변수를연 겨
ᆯ하는로짓 함수는 식 (2.1)과 같이 정의 한다.
ϕ(X = x) = P (y = 1|x) = 1
1 + e
−(β
0+xβ)
, (2.1) 여기서 β = (β
1
, ..., βp
)T
는모형의 모수이고, p는변수의 갯수이다. 승산(odds)은 실패할확률대비 성 고
ᆼ할확률의 비율로써 식 (2.2)과 같이 정의 하고, 로짓변환을 통한 로지스틱 회귀모형은 식 (2.3)에 각 ᄀ
ᅡ
ᆨ 제시한다.
odds = ϕ(X = x)
1 − ϕ(X = x), (2.2) logit(odds) = log
ϕ(X = x) 1 − ϕ(X = x)
= β
0
+ xβ. (2.3)2.1.2. 라쏘를 활용한 변수선택법 (Lasso variable selection) ᄅ
ᅡ쏘 (LASSO, Least Absolute Shrinkage and Selection Operator)는 예측 정확도를 높이고, 변수 ᄉ
ᅥᆫ택방법으로도활용할 수 있는별점회귀분석 방법의 일종이다 (Kukreja, 2006). 로지스틱 회귀분석에 ᄉ
ᅥ의 음의 로그 가능도함수 (Log Likelihood Function)인 L에 최소화를 진행할때 회귀계수에 대해 제 ᄋ
ᅣ
ᆨ조건인 패널티함수, λP
p
j=1
|βj
|, 를추가한 후 식 (2.5)을가장 작게하는모수, (β0
, βT
)를추정한다 (Tibshirani, 1996). 여기서 L은 식 (2.4)과 같이 정의한다.L = − log( Y
i:Y
i=+
p(X
i
) Yj:Y
j=−
(1 − p(X
j
))), (2.4)L + λ
p
X
j=1
|β
j
| , (2.5)ᄋ
ᅧ기서 λ값이 클수록 강한 제약조건으로 모형이 간단해지고, 반대로 λ값이 작을수록 약한 제약조건으 ᄅ
ᅩ 인한 모형이 복잡해진다. 특히, 라쏘는패널티함수에서 λ값이 커질수록예측에 중요하지 않은변수 ᄀ
ᅡ 0이 되어 변수선택이 가능하다. 본 논문에서는이러한 라쏘의 특성을이용해 변수선택을 진행한 후 ᄅ
ᅩ지스틱 회귀모형을구축한다.
2.2. 랜덤포레스트 (random forest) ᄅ
ᅢᆫ덤포레스트는 Breiman (2001)에 의해 제안된방법으로써, 부츠트랩 방법을활용해서 비편향 모형 ᄃ
ᅳ
ᆯ의 예측값으 평균을 활용하여 과적합으로 인한 예측값의 분산을 줄이는앙상불기법의 일종이다. 또 ᄒ
ᅡᆫ 교호작용을고려하는 의사결정나무모형을 주로 활용한다. 하지만, 모든 변수의활용은추정된모형 ᄃ
ᅳ
ᆯ간의 상관관계를 높일 수 있기 때문에, 변수를비복원추출로 추출해서 모형을구축한다. 즉, 랜덤포 ᄅ
ᅦ스는예측값의 편차와 분산을감소시키면서 모형의 성능을향상시키는방법이다. 다음으로 랜덤포레 ᄉ
ᅳ트의 과정에 대해 설명한다.
의사결정나무모형을 활용한 랜덤포레스트 과정
Step 1부츠트랩 기법을사용하여 동일한 데이터 수의관찰값을추출한다.
Step 2 총변수 중에서 무작위적으로 임의의 변수를선택한다.
Step 3주어진 변수와 데이터에 의사결정모형을추정한다.
Step 4각 모형을 통해서 추정된값을앙상블기법을활용해서 최적의 값을예측한다.
ᄄ
ᅩ한 랜덤포레스트 방법은 변수의 중요도를 제시하고 있는데, 다만 선형회귀분석이나 로지스틱 회귀 부
ᆫ석과 같은 통계적분석 방법과는달리 개별변수의 통계적 유의성에 대한 검정은 진행하지 않는다. 대 ᄉ
ᅵᆫ에 다음의 같이 간접적인 방법으로 변수의 중요도를결정한다.
변수 중요도 과정
Step1 각 부츠트랩 데이터 집합에 생성된 모형에 대해 Out of Bag (OOB) 오차를 구한다.
(r
i
, i = 1, 2, . . . , t)Step2 각 추정된 모형에서 특정변수의 값을 임의로 뒤섞은 데이터 집합에 대해 OOB오차를 구 ᄒ
ᅡᆫ다. (e