• 검색 결과가 없습니다.

Forecasting algorithm using an improved genetic algorithm based on backpropagation neural network model

N/A
N/A
Protected

Academic year: 2021

Share "Forecasting algorithm using an improved genetic algorithm based on backpropagation neural network model"

Copied!
10
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

2017, 28

(

6)

,

1327–1336

개선된 유전자 역전파 신경망에 기반한 예측 알고리즘

ᅲᆫ여창

1

·조나래

2

·이성덕

3

1우석대학교 정보보안학과 ·23충북대학교 정보통계학과

ᄌ ᅥ

ᆸᄉ ᅮ 2017ᄂ ᅧ ᆫ 10ᄋ ᅯ ᆯ 20ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2017ᄂ ᅧ ᆫ 11ᄋ ᅯ ᆯ 15ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2017ᄂ ᅧ ᆫ 11ᄋ ᅯ ᆯ 21ᄋ ᅵ ᆯ

요 약

ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄃ ᅡ ᆫᄀ ᅵ ᄋ ᅨᄎ ᅳ ᆨᄋ ᅳ ᆯ ᄋ ᅱᄒ ᅡ ᆫ ᄌ ᅡᄀ ᅵᄒ ᅬᄀ ᅱᄂ ᅮᄌ ᅥ ᆨᄋ ᅵᄃ ᅩ ᆼᄑ ᅧ ᆼᄀ ᅲ ᆫ ᄆ ᅩᄒ ᅧ ᆼ, ᄋ ᅧ ᆨᄌ ᅥ ᆫᄑ ᅡ ᄉ ᅵ ᆫᄀ ᅧ ᆼᄆ ᅡ ᆼ ᄆ ᅵ ᆾ ᄋ ᅲᄌ ᅥ ᆫᄌ ᅡ ᄋ ᅡ ᆯᄀ ᅩᄅ ᅵᄌ ᅳ ᆷ ᄋ

ᅴ ᄀ ᅧ ᆯᄒ ᅡ ᆸ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄋ ᅦ ᄃ ᅢᄒ ᅡᄋ ᅧ ᄂ ᅩ ᆫ ᄋ ᅴᄒ ᅡᄀ ᅩ ᄋ ᅵᄅ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅡ ᆫ ᄋ ᅲᄌ ᅥ ᆫᄌ ᅡ-ᄉ ᅵ ᆫᄀ ᅧ ᆼᄆ ᅡ ᆼ ᄋ ᅡ ᆯᄀ ᅩᄅ ᅵᄌ ᅳ ᆷ ᄋ ᅴ ᄒ ᅭᄋ ᅭ ᆼᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄉ ᅡ ᆯᄑ ᅧᄇ ᅩ ᆫ ᄃ ᅡ. ᄋ ᅵ ᆯᄇ ᅡ ᆫᄌ ᅥ ᆨᄋ ᅳ ᄅ

ᅩ ᄋ ᅧ ᆨᄌ ᅥ ᆫᄑ ᅡ ᄋ ᅡ ᆯᄀ ᅩᄅ ᅵᄌ ᅳ ᆷᄋ ᅳ ᆫ ᄌ ᅵᄋ ᅧ ᆨ ᄎ ᅬᄉ ᅩᄀ ᅡ ᆹᄋ ᅦ ᄉ ᅮᄅ ᅧ ᆷᄃ ᅬ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄃ ᅡ ᆫᄌ ᅥ ᆷᄋ ᅵ ᄋ ᅵ ᆻᄀ ᅵ ᄄ ᅢᄆ ᅮ ᆫ ᄋ ᅦ, ᄋ ᅧᄀ ᅵᄉ ᅥᄂ ᅳ ᆫ ᄋ ᅨᄎ ᅳ ᆨ ᄌ ᅥ ᆼᄒ ᅪ ᆨ ᄃ ᅩᄅ ᅳ ᆯ ᄂ ᅩ ᇁ ᄋ

ᅵᄀ ᅵ ᄋ ᅱᄒ ᅢ ᄋ ᅧ ᆨᄌ ᅥ ᆫᄑ ᅡ ᄉ ᅵ ᆫᄀ ᅧ ᆼᄆ ᅡ ᆼ ᄀ ᅮᄌ ᅩᄅ ᅳ ᆯ ᄎ ᅬᄌ ᅥ ᆨᄒ ᅪᄒ ᅡᄀ ᅩ ᄋ ᅲᄌ ᅥ ᆫᄌ ᅡ ᄋ ᅡ ᆯᄀ ᅩᄅ ᅵᄌ ᅳ ᆷᄋ ᅳ ᆯ ᄀ ᅧ ᆯᄒ ᅡ ᆸᄒ ᅡ ᆫ ᄋ ᅲᄌ ᅥ ᆫᄌ ᅡ-ᄉ ᅵ ᆫᄀ ᅧ ᆼᄆ ᅡ ᆼ ᄋ ᅡ ᆯᄀ ᅩᄅ ᅵᄌ ᅳ ᆷ ᄀ ᅵᄇ ᅡ ᆫ ᄋ

ᅨᄎ ᅳ ᆨ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆯ ᄀ ᅮᄎ ᅮ ᆨ ᄒ ᅡ ᆫᄃ ᅡ. ᄉ ᅵ ᆯᄒ ᅥ ᆷᄋ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅡ ᆫ ᄋ ᅩᄎ ᅡ ᄇ ᅵᄀ ᅭᄂ ᅳ ᆫ KOSPI ᄌ ᅵᄉ ᅮᄅ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡ ᆫᄃ ᅡ. ᄀ ᅧ ᆯᄀ ᅪᄂ ᅳ ᆫ ᄋ ᅵ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥ ᄌ ᅦᄋ ᅡ ᆫ ᄃ ᅬ

ᆫ ᄋ ᅲᄌ ᅥ ᆫᄌ ᅡ-ᄉ ᅵ ᆫᄀ ᅧ ᆼᄆ ᅡ ᆼ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅵ ᄋ ᅧ ᆨᄌ ᅥ ᆫᄑ ᅡ ᄉ ᅵ ᆫᄀ ᅧ ᆼᄆ ᅡ ᆼ ᄆ ᅩᄒ ᅧ ᆼᄀ ᅪ ᄇ ᅵᄀ ᅭᄒ ᅡ ᆯ ᄄ ᅢ ᄋ ᅨᄎ ᅳ ᆨ ᄌ ᅥ ᆼᄒ ᅪ ᆨ ᄃ ᅩᄋ ᅦᄉ ᅥ ᄋ ᅥᄂ ᅳ ᄌ ᅥ ᆼᄃ ᅩ ᄋ ᅲᄋ ᅴᄒ ᅡ ᆫ ᄒ ᅭᄋ ᅲ ᆯᄉ ᅥ ᆼ ᄋ

ᅳ ᆯ ᄇ ᅩᄋ ᅧᄌ ᅮᄀ ᅩᄌ ᅡ ᄒ ᅡ ᆫᄃ ᅡ.

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄋ ᅧ ᆨᄌ ᅥ ᆫᄑ ᅡ, ᄋ ᅨᄎ ᅳ ᆨ, ᄋ ᅲᄌ ᅥ ᆫᄌ ᅡ-ᄉ ᅵ ᆫᄀ ᅧ ᆼᄆ ᅡ ᆼ, ᄋ ᅲᄌ ᅥ ᆫᄌ ᅡ ᄋ ᅡ ᆯᄀ ᅩᄅ ᅵᄌ ᅳ ᆷ, ᄎ ᅩᄀ ᅵᄀ ᅡᄌ ᅮ ᆼ ᄀ ᅡ ᆹ.

1. 서론 ᄌ

ᅡ본시장에서 유통되는금융상품들은장단기 운영되는유가증권들을말한다. 유가증권은주식, 채권, ᄇ

ᅩ증증권, 뮤추얼펀드 그리고 옵션, 선물 등과 같은파생상품들로 구성되어 있다. 공공투자를위한 대 ᄋ

ᅡᆫ으로서의 자본시장에서 사람들은그들이 선호하는금융상품에 대한 투자수익과 위험을받아들이는정 ᄃ

ᅩ에 따라 자금을투자한다. 투자자의 가장 중요한 투자 요인중의 하나는금융상품가격이다. 주식시장 ᄋ

ᅦ서 주가는변동성이 매우 크다. 주가는주식의 수요와 공급에 의하여 결정된다. 주식의 수요와 공급 ᄋ

ᆫ이자율, 인플레이션, 환율 등과 같은거시경제 요인과 기업의 성과 그리고 사회 정치적 조건 등과 같 ᄋ

ᆫ비경제 요인에 영향을받는다 (Yang과 Zhu, 2007).

ᅮ가변동 자료는 높은 위험과 변동성을보여주는시계열자료이다. 투자가들은 예측 및 판단의 가장 주

ᆼ요한 요인인 가격 정보 등을이용하여 주가를예측한다. 이때 가장 많이 이용하는시계열자료 분석기 버

ᆸ 중의 하나는자기회귀누적이동평균 (ARIMA)기법이다 (Luo 등, 2016). Song (2016)은 2015년 5월 ᄋ

ᅦ 발생한 메르스 사태의 영향을 연구한 바 계절형 ARIMA-Intervention 모형을이용하였고, 여행목 ᄌ

ᆨ 별 제주관광객 수를예측하였다. Jung과 Lee (2016)는 Gooogle에서 개발한 ARGO 모형보다 고전 ᄌ

ᅥᆨ인 계절 누적자기회귀이동평균 (SARIMA)모형이 인플루엔자를모니터링하는 좋은모형이라는것을 ᄇ

ᅡᆰ혔다.

ᅵ스템관점에서 볼때 주가 자료는 복잡성이큰비선형 자료로서 시계열 예측은 좋은선택지의 하나 ᄃ

ᅡ. 그러나 전통적인 시계열 예측방법은비정상 상태에서 모형식별이 쉽지만은않다. 최근에는다양한

1

(55338) ᄌ ᅥ ᆫᄇ ᅮ ᆨ ᄋ ᅪ ᆫ ᄌ ᅮᄀ ᅮ ᆫ ᄉ ᅡ ᆷᄅ ᅨᄋ ᅳ ᆸ ᄉ ᅡ ᆷᄅ ᅨᄅ ᅩ 443, ᄋ ᅮᄉ ᅥ ᆨᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄌ ᅥ ᆼᄇ ᅩᄇ ᅩᄋ ᅡ ᆫᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.

2

(28644) ᄎ ᅮ ᆼᄇ ᅮ ᆨ ᄎ ᅥ ᆼᄌ ᅮᄉ ᅵ ᄉ ᅥᄋ ᅯ ᆫ ᄀ ᅮ ᄎ ᅮ ᆼ ᄃ ᅢᄅ ᅩ 1, ᄎ ᅮ ᆼᄇ ᅮ ᆨ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄌ ᅥ ᆼᄇ ᅩᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄇ ᅡ ᆨᄉ ᅡᄀ ᅪᄌ ᅥ ᆼ.

3

ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (28644) ᄎ ᅮ ᆼᄇ ᅮ ᆨ ᄎ ᅥ ᆼᄌ ᅮᄉ ᅵ ᄉ ᅥᄋ ᅯ ᆫ ᄀ ᅮ ᄎ ᅮ ᆼ ᄃ ᅢᄅ ᅩ 1, ᄎ ᅮ ᆼᄇ ᅮ ᆨ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄌ ᅥ ᆼᄇ ᅩᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.

E-mail: [email protected]

(2)

ᄐ ᅩ

ᆼ계적 속성들을이론적으로 모형에 고려하지 않고 비선형 자료를 직접 예측에 적용할 수 있다는면에 ᄉ

ᅥ 인공 신경망 (ANN) 모형이 주목받고 있다 (Ara´ujo, 2010). 또한 ANN 모형은지수모형으로 증가 ᄒ

ᅡ는 추세가 있는 실제 문제에 더 적합하다. ANN 모델링에는 역전파 (backpropagation) 알고리즘을 이

ᆯ반적으로 사용하지만 지역 최소값으로 쉽게 수렴하는경향이 있다. 또한 전역 최소값에 수렴하여도 ᄀ

ᅳ 학습 속도가 느려서 신뢰도 높은모형 적합성에 영향을 준다 (Xiaodong, 2015; Wu와 Zhang, 2002).

ᅲ전자 알고리즘은자연 선택에근거한 생물학적 진화론을이용한 일종의 계산 모형으로서 다차원 공 ᄀ

ᅡᆫ 자료의 예측을다루는주요 학습방법중의 하나다. 수렴 문제에 있어서도 전역 최소값으로의 최적화 ᄂ

ᅳᆼ력이 있다고 알려져 있다 (Yang과 Zhu, 2007).

보

ᆫ연구에서는 유전자 알고리즘을 ANN과 결합하여 유전자-신경망 (GA-BP) 모형을 제시하고 이를 ᄃ

ᅡᆫ기 주가 예측에 적용해 본다. 2장에서는 ARIMA모형, 역전파 (BP) 신경망 그리고 유전자 모형에 ᄃ

ᅢ하여 설명하고 알고리즘의 구체적인 구현 과정에 대하여 설명한다. 3장에서는주가 자료를이용하여 ARIMA예측결과와 함께 정상적인 초기 가중값이 적용되었을경우에 BP모형과 GA-BP모형의 학습 ᄀ

ᅪ정과 예측을살펴본다. 실험 결과는 BP 모형에 비해 GA-BP모형의 예측 능력이 향상되었음을보여 ᄌ

ᅮ고 있다. 4장은결론으로 향후 연구 방향을제시한다.

2. GA-BP 모형

2.1. ARIMA모형

Box-Jenkins모형의 일반적인 표기법은 ARIMA (p,d,q)이며 다음 식 (2.1)과 같다. 여기서 p는자기 ᄒ

ᅬ귀 (AR)계수이며, d는계절성 등과 같은차분계수이다. 그리고 q는모형의 이동평균 (MA)계수이다 (Box와 Jenkins, 1970).

(1 − ϕ1B − · · · − ϕpBp)(1 − B)dZt= (1 − θ1B − · · · − θqBq)ϵt, (2.1) ᄋ

ᅧ기서 B는 후진연산자 (backshift)이다. AR모형은 종속변수가 이전 시점의 동일 종속변수에 의 ᄒ

ᅢ 영향을 받는 모형이다. 반면에 MA모형의 독립변수는 전 시점의 잔차에 영향을 받는 모형이다.

ARIMA모형은 AR과 MA 모형의 결합모형이다.

ARIMA모형화는모형식별, 모수추정 및 모형평가 그리고 모형검증의 세가지 기본적인 단계로 구성 되

ᆫ다. 모형식별 단계는 관찰된 자료를 통하여 자기상관함수, 편자기상관함수 등을구하여 이들로부터 ARIMA모형의 적합한 p, d, q 계수를찾는단계이다. 모수추정 및 모형평가 단계는 식별된모형에 포 ᄒ

ᅡᆷ되어 있는 AR모수와 MA 모수들을추정하는단계이다. 추정 단계에서는 일반적으로 적률법, 최소제 고

ᆸ추정법 (ordinary least square), 그리고 최우추정법 등을이용하여 추정한다. 모형검증단계는모형 ᄋ

ᅵ 식별, 추정된후 그 모형이관찰된시계열자료에 얼마나 잘 부합되는가를조사한다. 즉자료에 더 잘 ᄌ

ᅥᆨ합하는 ARIMA모형으로 설정될수 있도록확인하는단계이다. 모형검증단계는오차 또는백색소음 (white noise)값에 따르는잔차분석과 과다적합분석이 있다. 만약 모형이 적합하지 않으면 모형화 단계 ᄂ

ᅳᆫ모형식별의 처음단계로 되돌아 간다 (Box와 Jenkins, 1970).

2.2. 유전자 역전파 신경망모형

BP 신경망의 학습 과정에서 지역 최소값 수렴의 가능성을 줄이기 위한 방법은, 초기 가중값의 범위 서

ᆯ정과 학습률의 선택 (Wu와 Zhang, 2002; Smith, 1993; Yoon, 2010) 그리고 유전자 알고리즘을 이 ᄋ

ᆼ한 ANN의 가중값을결정하는것이다. 유전자 알고리즘은전역 최소값으로의 수렴 능력과 고차 함수

(3)

ᅦ 대한 문제 해결 능력이 있다 (Yang과 Zhu, 2007; Xiaodong, 2015). 따라서 유전자 알고리즘과 인공 ᄉ

ᅵᆫ경망의 결합은네트워크의 연결 가중값들을최적화 할 수 있다. 네트워크 구조는경험적 방법에 따라 ᄋ

ᅥᆮ어지므로 실제적인 응용 문제에서 일반화시키기가 어렵다. 그러므로 최적의 네트워크 구조는,개선된 ᄎ

ᅩ기 가중값과 유전자 알고리즘을이용하여 신경망의 가중값을최적화한다. 신경망의 구조는네트워크 ᄋ

ᅧᆫ결구조와 각 노드의 전달 함수로 구성된다 (Smith, 1993). GA-BP모형에 적용할 수 있는최적의 신 겨

ᆼ망 구조는학습 속도, 일반화한 네트워크 구조 또는오차 탐색 공간 구조 등을고려한 모형이어야 한 ᄃ

ᅡ. 또한 신경망 구조를설계하기 위해 유전자 알고리즘에 함께 적용하는오차판단기준도 중요한 문제 ᄋ

ᅵ다.

2.2.1. 데이터 전 처리 ᄌ

ᅮ식시장의 가장 중요한 평가 지표중의 하나인 거래량은시장의 과열 정도나 주식의 인기, 추세를판 ᄃ

ᅡᆫ하는 직접적인 척도이다. 또한 주식의 수요와 공급 과정에서 나타나는시장의 역동적인 상태를나타 ᄂ

ᅢᆫ다. 거래량의 증감은 특정 주가의 흐름을추세적으로 볼수 있다.

ᅮ식 시장에서 종가를 예측하기 위한 시계열의 흐름은 다음과 같이 {시가, 고가, 저가, 종가, 거래 ᄅ

ᅣᆼ}을주로 이용한다.

X= {(x11, x12, x13, x14, x15), (x21, x22, x23, x24, x25), · · · , (xt1, xt2, xt3, xt4, xt5)}

ᅵ다. 여기서 X은 ANN에 직접 이용할 수 있는자료는아니며 신경망 학습을위해 다음 식 (2.2)와 같 ᄋ

ᅵ 표준화한다 (Luo 등, 2016).

X = {(x11, x12, x13, x14, x15), (x21, x22, x23, x24, x25), · · · , (xt1, xt2, xt3, xt4, xt5)}, xkl= (xkl)

avgl

 xkl maxl

+ xkl minl



× 0.5, zkl= 1

1 + e−xkl, 0 < zkl< 1, (2.2) ᄋ

ᅧ기서 avgl, maxl 그리고 minl은주가를구성하는 자료인 {시가, 고가, 저가, 종가, 거래량}에 대한 펴

ᆼ균값, 최대값 및 최소값이다. 여기서 k = 1, 2, · · · , t이고 l = 1, 2, · · · , 5이다.

2.2.2. 네트워크 은닉층의 노드 설정 ᄌ

ᅡ료에 따라 은닉층의 적정 노드 개수를정하는 일반적인 방법은알려져 있지 않고 (Smith, 1993), 실 ᄒ

ᅥᆷ과 경험에 의한 수 많은시행착오 후에 결정된다. 은닉노드의 개수는검정자료를반복학습하여 결정 ᄒ

ᅡ는데 이 연구에서 은닉노드의 개수는 입력노드 개수의 1.5배를넘지 않는범위로 한정한다.

2.2.3. 모집단 초기화 ᄆ

ᅩ집단 초기화 함수를이용하여 모집단의 크기를정의한다. 개별 자료는 신경망의 모든가중값과 임 ᄀ

ᅨ값을포함하고, 각 층의 연결 가중값은 입력층, 은닉층, 출력층연결 가중값 및 은닉층값과 출력층 종 ᄀ

ᅡ 요소들에 의해 정해진다. 가장 간단한 초기 모집단의 생성은다음 식 (2.3)과 같이확률난수 발생으 ᄅ

ᅩ 얻을수 있다 (Smith, 1993). 여기서 c는난수의 발생 구간이다.

Inits = 0.2 × (X − 0.5), X ∼ U (0, c). (2.3)

(4)

2.2.4. 적합도 함수 ᄌ

ᅥᆨ합도 함수는환경에 개별적으로 적응하는정도를나타낸다. 즉적합도가 클수록개별적인 유전능력 ᄋ

ᆫ더욱강하다. 다음세대에 선택되는개별 특질의확률이 크면 클수록우리가 얻게 되는해는더 좋은 겨

ᆯ과를얻는다. 최소오차를구하기 위한 목적함수의 개별 적합도는다음 식 (2.4)와 같이 오차제곱합으 ᄅ

ᅩ 정의한다.

E = 1 n

n

X

i=1

(ti− yi)2, (2.4)

ᅧ기서 n은네트워크에서 자료의 개수이다. ti는 i번째 노드의 신경망 출력값이다. yi는 BP네트워크 ᄋ

ᅦ서 i번째 노드에 대한 목표값 (학습자료)이다.

2.2.5. 유전자 모형의 모수 설정 ᄋ

ᅲ전자 알고리즘에서 적용하는기본도구는 선택, 교차 및 돌연변이 연산이다. 오차판단기준으로 설 저

ᆼ한 학습목표의 허용값을 만족할 때거나 최대 학습회수에 도달할 때까지 학습과정은 위의 세 단계를 ᄇ

ᅡᆫ복한다. 유전자 알고리즘을이용하여 신경망에 대한 가중값들을최적화하고 학습을반복하면서 유전 ᄌ

ᅡ 알고리즘을최적화하는시뮬레이션 결과를얻을수 있다.

(a) 선택 ᄌ

ᅥᆫ체 적합도의 비율은선택 연산에서 계산된다. 개별적 적합도를 따르는선택은 복사될개별확률을 겨

ᆯ정한다. 적합도가 높은개체는유전적으로 다음세대에 나타난다. Ai에 대하여 복사될기대값 M은 ᄃ

ᅡ음 식 (2.5)와 같다.

M = E(Ai) Pn

i=1E(Ai), (2.5) ᄋ

ᅧ기서 i는그룹의 개체번호, E(Ai)는개체 Ai의 적합도이다.

ᄇ ᅩ

ᆨ사 연산을 실행하기 위하여 현재 모집단의 개체 적합도 E(Ai)를계산한다. 그러면 적합도의 전체 ᄆ

ᅩ집단 F 는다음 식 (2.6)과 같다.

F =

n

X

i=1

E(Ai), (2.6)

ᅵ때 각 개체 적합도의확률은다음 식 (2.7)과 같이 선택된다.

Pi(Ai) = E(Ai)

F . (2.7)

(5)

(b)유전자 교차 ᄋ

ᅲ전자 교차는모집단으로부터확률 Pc에 따르는개체 수를선택하는것이다. 유전자 교차율은다음 시

ᆨ (2.8)과 같이 자동적응조절 알고리즘을이용한다 (Yoon, 2010).

Pc=

( k1(fmax− fc)/(fmax− f ), fc≥ f

k3, fc< f , (2.8) ᄋ

ᅧ기서 fc은 유전자 교차가 이루어지기 전에 부모가 갖고 있는 값이다. f는 모집단의 평균값이고 fmax는모집단의 최대값이다. 그리고 k1= 1, k3= 5이다. 돌연변이율은 1점 교차와 2점 교차 후에 얻 ᄋ

ᅥ지는고정된상수다.

ᅢ체 코드 문자열은몇몇 비트를 임의 위치로부터 시작하면서 교환한다. 교환이 기대되는개수는 다 ᄋ

ᅳᆷ 식 (2.9)와 같다.

nc= nPc, (2.9)

ᅧ기서 n은모집단 크기이고 Pc는유전자 교차확률이다.

ᅭ차 연산자는두 객체를서로 교환하기 위하여 무작위로 선택한다. 알고리즘 실행시의 교차확률은 겨

ᆼ험적으로 약 0.6으로 설정되며 돌연변이확률은약 0.09이다 (Ara´ujo, 2010; Xiaodong, 2015).

(c) 돌연변이 ᄃ

ᅩᆯ연변이는어떤 위치의 개체코드로 특별한확률에 따라 변종을 1또는 0으로 각각 전이시킨다. 돌연 ᄇ

ᅧᆫ이를만드는부호화 비트는다음 식 (2.10)과 같다.

Bm= Pm· L · n, (2.10) ᄋ

ᅧ기서 n은모집단의 크기이고 L은부호화 문자열의 길이 그리고 Pm은 돌연변이확률이다.

ᅲ전자 알고리즘과 유전자 교차율 그리고 돌연변이율은 일반적으로 연구자들의 경험적인 학습 결과 르

ᆯ따른다. 이 연구에서 적용시킨 유전자 교차확률은 Pc = 0.5 ∼ 1구간의 상수이고, 돌연변이확률은 Pm= 0.001 ∼ 0.5구간의 상수이다.

2.3. GA-BP 알고리즘

BP 알고리즘은비선형 문제를해결할 수 있는새로운방안이지만 지역 최소값에 수렴가능성이 높고 ᄉ

ᅮ렴 속도가 늦다는단점이 있다. 반면에 GA 알고리즘은전역최소값으로 수렴하는발견적 탐색이 가능 ᄒ

ᅡ다 (Yang과 Zhu, 2007; Wu와 Zhang, 2002). 그러므로 우리는 신경망 일반 학습과정 중에 빠질 수 이

ᆻ는지역 최소값의 수렴 문제를해결할 수 있는새로운방안으로서 유전자 모형과 신경망모형을결합한 GA-BP모형을구축한다. 랜덤하게 초기 모집단 (Xiaodong, 2015; Smith, 1993)을발생시킨 후 GA 알 ᄀ

ᅩ리즘을최적화 계산에 이용한다. 이와 같은과정을수식화 하면 다음단계와 같고 학습처리절차를도 시

ᆨ화 하면 Figure 2.1과 같다.

(6)

ᅡᆫ계1. 랜덤하게 초기 모집단을생성한다.

ᅡᆫ계2. 오차함수를계산하여 그들의 적합도를결정한다. 만약 계산된오차의 한계가 작으면 작을수록 ᄀ

ᅳ 적합도는커진다.

ᅡᆫ계3. BP 알고리즘을이용한 신경망 학습을수행하고 오차의 허용한계에 부합하면 끝.

ᅡᆫ계4. 높은적합도를갖는개체를유전적으로 다음세대로 유전시킨다.

ᅡᆫ계5. 교배와 돌연변이 연산은현재의 모집단을이용하여 다음세대를만든다.

ᅡᆫ계6. 새로운모집단을 원래의 모형에 비교하여 네트워크 오차를계산한다.

ᅡᆫ계7. 단계3에서 단계6을반복한다. 모집단의 적합도가 일정하거나, 오차의 허용한계와 또는최대 ᄇ

ᅡᆫ복회수에 도달하면 끝.

Figure 2.1 Training process of GA-BP model

(7)

3. 예제

GA-BP 신경망 모형의 예측을 살펴보기 위한 주가 학습자료는 2016년의 3월부터 2017년 2월까지 ᄋ

ᅴ 1년 자료이고 검정자료는 2017년 3월의 5거래일 자료이다. 실험의 입력자료 (zkl, k = 1, 2, · · · , t, l = 1, · · · , 5)는 KOSPI의 일일 주가를구성하는자료로서 각 시점의 {시가, 고가, 저가, 종가, 거래량}

ᅡ료를이용하고 목표값 (zk, k = t + 1))으로는 종가를이용한다. 각 자료는표준화 과정으로 변화시킨 ᄌ

ᅡ료를이용한다. 통계분석에 이용한 도구는 MATLAB를이용하였다. 통계적 모형식별과 모형검증의 겨

ᆯ과는 ARIMA (0,1,2)이다 (Demuth와 Beale, 2001).

ᅮ가 학습자료에 적합시킨 신경망모형은 5×5×1구조로서, 입력노드 5개, 은닉층 1개, 은닉노드 5개, 추

ᆯ력노드 1개이다. 변환함수는시그모이드함수이다. 오차의 허용한계는 0.001이다.

ᅨ측오차의 비교는평균제곱추정량 (mean square error)을이용한다. 각 예측방법에서의 결과는 Ta- ble 3.1, Table 3.2와 같다. Table 3.1은정상적인 초기 가중값에서는 Wu와 Zhang의 일반적인 신경망 ᄒ

ᅡᆨ습결과가 BP신경망 (Yoon과 Lee, 2013)과 GA-BP신경망 간의 차이가 적으나, 식 (2.3)의 c값에 따 ᄅ

ᅡ 지역최소값 수렴의 불안정한 상태가 반복될수록 GA-BP신경망 결과의 안정된학습수렴 결과를 확 ᄋ

ᅵᆫ할 수 있다. 이 학습의 결과는 Table 3.2의 단기 주가예측에서도 반영되고 있다. 여기서 c값이 수렴 ᄇ

ᅥᆷ위를벗어나는구간에서는지역 최소값으로 수렴된 결과를학습에 최종반영함으로서 나타나는예측 ᄋ

ᅴ 오차 (BPNN)가 그렇지 않은경우 (GA-BP)와 비교할 때 상대적으로 매우 크다. 5-거래일 예측에서 ᄃ

ᅩ 초기에는 큰변화가 없지만 4-거래일 이후의 예측 오차는점차 벌어지고 있음을 알 수 있다. Table 3.2에서 ARIMA예측방법의 MSE결과를 살펴보면 5-거래일 예측 평균이 0.011569이고, BP모형을 이 ᄋ

ᆼ한 예측의 MSE결과에서 평균이 0.009917이다. 그리고 GA-BP모형의 경우는 0.009283이다. Table 3.2에서 주가 예측의 정확도는 GA-BP 신경망에서 상대적으로 안정적인 추세를보임을알 수 있다.

ᅵᆫ경망 학습에서 상대적 수렴 정도는 일정하지 않으며 적용하는알고리즘에 따라 그 안정성은 직접적 ᄋ

ᅵᆫ관계가 있다. 또한 이 연구에서 유전자 알고리즘을이용한 네트워크 최적화 문제는 실험의 목적에 충 부

ᆫ히 부합한다고 할 수 있다.

ᅮ가지수 예측을위한 단순 BP 신경망은초기가중값의 설정이 인위적이어서 값의 범위가 임의적이고 (Xiaodong, 2015),따라서 수렴의 속도 및 전역 최소값으로의 수렴문제와 평균오차의 개선이 절대적으 ᄅ

ᅩ 필요하다. 또한, 예측 정확도를위하여 시장이 개장되면서 고가와 저가를이용한 시가의 결정, 그리 ᄀ

ᅩ 같은방법으로 폐장시의 종가 결정문제가 중요하다. 시가와 종가 결정의근거가 되는주요 요인으로 며

ᆾ 가지 특별한 상황을고려할 수 있다. 먼저, 단기 예측으로서의 주식시장은 인간 결정 행위들로 인하 ᄋ

ᅧ 나타날 수 있는정신적 감정적 오차들이 많기 때문에 종가 예측과 그 예측의 정확도를 높이기에 어려 ᄋ

ᆷ이 많다. 또한, 경험에 의한 변수들의 선택, 오차의 학습중단 결정 수준,그리고 다양한 학습률들의 설 저

ᆼ 등과 같은선택의 어려움이 있다.

Table 3.1 Training results based on initial values

c Result of Wu & Zhang Result of BPNN Result of GA-BP

Epochs MSE Epochs MSE Epochs MSE

0.001 312 .012412 231 .012124 240 .012093

0.01 446 .011924 252 .011889 261 .011637

0.1 852 .011852 237 .011019 179 .012018

1 501 .013290 351 .013101 224 .012514

2 725 .012521 406 .013566 215 .012004

5 ∞ 417 .013515 206 .012165

10 ∞ 712 .013784 194 .012107

(8)

Table 3.2 Forecasting results (MSE)

Trading days ARIMA (0,1,2) BPNN GA-BP

1 0.013506 0.0083321 0.008416

2 0.010083 0.009514 0.008973

3 0.010643 0.010029 0.00976

4 0.011475 0.010694 0.00989

5 0.012139 0.011017 0.009374

Mean 0.011569 0.009917 0.009283

4. 결론 ᄋ

ᅲ전자 알고리즘을결합한 신경망 학습은비정형 자료의 학습 및 예측모형의 효율성으로 자연과학뿐 ᄆ

ᅡᆫ 아니라 사회과학의 여러 응용 분야에서 사용된다. 단점은 신경망의 은닉층구조나 개수를결정하기 ᄀ

ᅡ 어렵고, 초기 가중값 설정이 임의적일 수밖에 없으며, 수렴 속도가 느리거나 포화상태에 빠질 수 있 ᄀ

ᅩ 그로 인한 평균학습오차가 커져서 예측효율이 떨어질 수 있다는것이다.

GA-BP알고리즘은이러한 특정 문제점들에 대하여 학습과정을부분적으로 개선시킬 수 있다. BP알 ᄀ

ᅩ리즘을이용한 신경망 학습과정에서 학습중단조건에 수렴하면 이때의 가중값을 이용하여 최종예측 ᄆ

ᅩ형에 이용하고, 지역최소값에 빠지거나 학습오차의 변화가 없는경우에는유전자 알고리즘을 통하여 ᄉ

ᅢ로운 가중값을 선택하고 이를 통한 신경망 학습 결과를예측 모형에 이용한다. GA-BP 알고리즘은 ᄋ

ᅲ전자 연산의 변이과정을 통한 학습탐색과정에서 지역 최소값에 수렴 가능성을 줄일 수 있다. 유전자 ᄋ

ᆯ고리즘과 신경망의 결합은개별 자료에 대한 오차 적합도를 줄이고, 선택 교차 및 돌연변이 연산으로 최적의 개별 모수들을찾을수 있다. 따라서 네트워크의 초기 가중값을최적화하는 문제를해결할 수 있 ᄃ

ᅡ. 학습중단조건 하에서 학습과정의 신뢰도를 높일 수 있고 그 결과는전역 최소값으로의 수렴 가능성 ᄋ

ᅳᆯ 높이고 예측의 정확도를개선시킨다.

ᄋ ᅳ

ᆼ용예제로 보인 주가 예측결과의 정확도를 높이려면 학습자료의 기간 선택과 함께 다른자료들의 ᄌ

ᅵ수와 주가 변동간의관련성에 대해 추가 연구가 필요하지만 여기서는단순한 주가 구성만을이용하였 ᄃ

ᅡ. 이 알고리즘은기존 신경망의 예측정확도를향상시켰지만 신경망의 정확한 예측을위한 오차 최적 ᄒ

ᅪ 문제는 다루지 못하였다. 유전자 알고리즘의 무작위성으로 인해 발생할 수 있는알고리즘의 안정성 ᄌ

ᅥ하문제는향후 연구주제가될수 있다. 또한 예측정확도와 실용적 이용은여전히 서로 보완되어야 할 무

ᆫ제이고, 따라서 유전자 알고리즘의 안정성을개선하고 예측정확도를향상시키는것은향후 연구로 남 기

ᆫ다.

References

Ara´ ujo, R. A. (2010). A hybrid intelligent morphological approach for stock market forecasting. Neural Processing Letters, 31, 195-217.

Box, G. E. P. and Jenkins, G. (1970). Time series analysis forecasting and control , Holdel-Day, San Francisco.

Demuth, H. and Beale, M. (2001). Neural network toolbox for use with MATLAB , TheMathWorks.

Hwang, S. Y. (2014). Contemporary review on the bifurcating autoregressive models : Overview and perspectives. Journal of the Korean Data & Information Science Society, 25, 1137-1149.

Jung, J. and Lee. S. (2016). Comparison study of SARIMA and ARGO models for influenza epidemics prediction. Journal of the Korean Data & Information Science Society, 27, 1075-1081.

Luo, B., Chen, Y. and Jiang, W. (2016). Stock market forecasting algorithm based on improved neural net-

work. 2016 Eighth International Conference on Measuring Technology and Mechatronics Automation,

628-631.

(9)

Smith, M. (1993). Neural networks for statistical modeling, Van Nostrand Reinhold, New York.

Song, J. (2016). A study on demand forecasting for Jeju-bound tourists by travel purpose using seasonal ARIMA-intervention model. Journal of the Korean Data & Information Science Society, 27, 725-732.

Yang, C. X. and Zhu, Y. F. (2007). Time series analysis using GA optimized neural networks. Third International Conference on Neural Computation, 270-276.

Yoon, Y. (2008). A learning using GA optimized neural networks. Proceedings of KIPS , 15, 27-29.

Yoon, Y. (2010). Time series forecasting based on genetic neural network. Proceedings of KIPS , 17, 1106- 1108.

Yoon, Y. and Lee, S. (2013). A comparison of the effects of optimization learning rates using a modified learning process for generalized neural network. The Korean Journal of Applied Statistics, 26, 847-856.

Wu, Y. and Zhang, L. (2002). The effect of initial weight, learning rate and regularization on generalization performance and efficiency. Proceedings on ICSP , 1191-1194.

Xiaodong, Y. (2015). Selection of initial weights and thresholds based on the genetic algorithm with the

optimized back-propagation neural network. 12th International Conference on Fuzzy Systems and

Knowledge Discovery, 173-177.

(10)

2017, 28

(

6)

,

1327–1336

Forecasting algorithm using an improved genetic algorithm based on backpropagation neural network

model

YeoChang Yoon

1

· Na Rae Jo

2

· Sung Duck Lee

3

1Department of Information Security, Woosuk University

23Department of Information and Statistics, Chungbuk National University

Received 20 October 2017, revised 15 November 2017, accepted 21 November 2017

Abstract

In this study, the problems in the short term stock market forecasting are analyzed and the feasibility of the ARIMA method and the backpropagation neural network is discussed. Neural network and genetic algorithm in short term stock forecasting is also examined. Since the backpropagation algorithm often falls into the local minima trap, we optimized the backpropagation neural network and established a genetic algorithm based on backpropagation neural network for forecasting model in order to achieve high forecasting accuracy. The experiments adopted the korea composite stock price index series to make prediction and provided corresponding error analysis. The results show that the genetic algorithm based on backpropagation neural network model proposed in this study has a significant improvement in stock price index series forecasting accuracy.

Keywords: Backpropagation, forecasting, GA-BP, genetic algorithm, initial weight.

1

Professor, Department of Information Security, Woosuk University, 443, Samnye-ro, Samnye-eup, Wanju-Gun, Jeollabuk-do, Korea.

2

Ph.D. program, Department of Information and Statistics, Chungbuk National University, 1, Chungdae-ro, Seowon-gu, Cheongju-si, Chungcheongbuk-do, Korea.

3

Corresponding author: Professor, Department of Information and Statistics, Chungbuk Na- tional University, 1, Chungdae-ro, Seowon-gu, Cheongju-si, Chungcheongbuk-do, Korea. E-mail:

[email protected]

수치

Figure 2.1 Training process of GA-BP model
Table 3.1 Training results based on initial values
Table 3.2 Forecasting results (MSE)

참조

관련 문서

An efficient algorithm for mining association rules in large databases. An effective hash-based algorithm for

generalized least square algorithm using variograms as weighting functions. With the least square algorithm, the estimate becomes unbiased and its variance becomes

&#34;Optimal Acoustic Search Path Planning Based on Genetic Algorithm in Continuous Path System,&#34; OCEANS'2006 IEEE Asia Pacific-Singapore, pp..

In this chapter, we introduce unsupervised pattern recognition using a spiking neural network (SNN) based on the proposed synapse device and neuron circuit.. Unsupervised

 알고리즘 담합: 경쟁사업자들이 알고리즘을 이용하여 가격, 공급량 등을 조정하거나 관련 정보를 공유하는 행태를 의미함.. 이는 시장에서 경쟁

AHP based multi-criteria VHO algorithm decides priority of influencing factors and the decision criteria based on the location for different traffic types such

– An artificial neural network that fits the training examples, biased by the domain theory. Create an artificial neural network that perfectly fits the domain theory