• 검색 결과가 없습니다.

준지도 회귀(Semi-Supervised Regression) 기법

<그림 4-1> Co-training 준지도 학습 방법 개념도

준지도 회귀(Semi-Supervised Regression: SSR)의 기본 원리를 순차 적으로 설명하면 우선 지정된 n개의 기본 회귀분석기로부터 준지도 회 귀 알고리즘을 실행하는 커미티(committee)에 의한 Self-training 및 Co-training을 수행한다(회귀분석기 목록에 모형이 하나만 있으면 Self-training이 수행됨). 처음에는 레이블이 지정된 학습용 데이터 세트 L에 대해 독립적인 부트스트랩(bootstrap) 샘플로 학습된 n개의 기본 모 형 세트가 커미티로 구성된다. 이 때 일부 샘플은 OOB(Out-of-Bag) 요 소로 유효성 검사에 사용된다. 다음으로 레이블이 지정되지 않은 데이터 세트 U에서 가장 관련성이 높은 요소를 선택하여 각 기본 모형 b(base 를 의미함)에 대한 학습용 데이터 세트가 보강된다. 각 기본 모형 b에 대해 가장 관련성이 높은 요소를 결정하기 위해 b를 제외한 다른 모형 은 U로부터 u의 크기를 가지는 pool로 샘플링된 데이터 포인트 세트의 예측치 평균을 취하여 레이블값을 부여한다. 새로 레이블이 지정된 각 데이터 포인트에 대해 기본 모형 b는 현재 레이블이 지정된 학습용 데

이터와 신규 데이터 포인트를 추가하여 학습 알고리즘을 수행하고 OOB

가중 평균을 계산한 후 지정된 인스턴스 xi에 대한 회귀 추정치로 부여 한다.

<그림 4-2> 회귀를 위한 CoBC 알고리즘(Hady et al., 2009)

<그림 4-3> CoBCreg에서 연관 예제 선택을 위한 알고리즘(Hady et al., 2009)

회귀분석기의 앙상블 조합은 다양성을 가지는 경우에만 효과적이다.

이를 위해 CoBCreg에서는 Brown et al.(2005)이 제시한 앙상블의 다양 성을 만드는 여러 기법 중 회귀분석기에서 사용 가능한 인스턴트 x에 대한 앙상블 다양성(분산)의 개념인 식(4-1)을 이용하여 정량화하였다.

(4-1)

Krogh & Vedelsby(1995)는 앙상블오차(E)는 앙상블 멤버의 가중평균 오차(¯E)와 주어진 인스턴스에 대한 출력값의 다양성이라는 두 가지 항 으로 분해된다는 오차-모호성 분해(error-ambiguity decomposition) 개

류를 감소시키기 위해서는 앙상블 멤버의 평균 오차는 낮아야하고, 다양 성은 높아야한다 것을 함의한다. CoBCReg에는 RBF 네트워크 회귀분석 기의 다양성 생성을 위해 3 가지 방식을 사용한다: (1) 상이한 부트 스 트랩 샘플, (2) RBF 중심에 대한 상이한 랜덤 초기값, (3) 상이한 거리 측정 방법에 의한 학습. 식(4-2)에 정의 된 두 개의 D-차원 변수 벡터 x1과 x2 사이의 Minkowski 거리는 서로 다른 RBF 네트워크 회귀분석 기를 훈련시키기 위해 서로 다른 거리 차수 p을 사용한다. 일반적으로 차수 p가 작을수록 데이터 변동에 대한 거리 측정 결과가 더욱 강력해 진다.

(4-2)

CoBCReg는 회구분석기에 의해 선택된 예제가 U에서 제거되기 때문 에 회귀분석기 간의 다양성을 해치지 않는다. 따라서 회귀분석기의 학습 용 데이터 세트를 유사하게 유지하지 않는 다른 회귀분석기에 의해 더 이상 선택 될 수 없게 된다. 학습용 데이터 세트가 유사해지더라도 회귀 분석기는 거리 측정 방식에 의해 서로 다른 인스턴스로 작용할 수 있기 때문에 여전히 다양성을 유지할 수 있다.

Co-training 스타일 알고리즘의 성능에 영향을 미치는 가장 중요한 요소 중 하나는 레이블이 없는 특정 예제의 신뢰도를 측정하는 방법이 다. 부정확한 신뢰도 추정된 레이블이 지정되지 않은 예제가 레이블이 지정된 학습용 데이터 세트에 추가될 경우 준지도 학습 알고리즘의 성능 에 부정적인 영향을 줄 수 있다. 분류(Classification)의 문제에서는 많은 분류기가 Naive Bayes 분류기와 같은 클래스(class) 사후확률을 추정하 거나 신경망 및 의사결정나무의 경우에도 클래스에 포함될 확률을 계산 하는 것이 쉽기 때문에 0.5를 기준으로 클래스를 분류하고 신뢰도를 계 산하는 방식으로 알고리즘의 구현이 비교적 간단하다. 그러나 회귀 (Regression)의 문제에서는 가능한 예측치가 특정 값으로 정의되지 않기

때문에 신뢰도 추정이 어렵다. Krogh & Vedelsby(1995)에서는 앙상블

예제의 목표 출력이고 식(4-3)의 H는 활성 행렬(activation matrix)이다.

(4-3) 학습 과정에서 경사 하강 오차 역전파(gradient-descent error backpropagation) 학습 방법은 계산 부하를 피하기 위해 고려하지 않았 다. 반면에, W의 직접적인 계산은 더 쉽고 네트워크의 즉각적인 훈련을 제공하기 때문에 효율적으로 새로운 레이블이 지정된 예제를 사용하여 회귀분석기 성능을 개선할 수 있게 한다.

관련 문서