<학술논문> DOI:10.3795/KSME-A.2009.33.8.813
크리깅 메타모델의 전역모델과 상관계수 선정 방법
조수길* · 변현석* · 이태희†
(2008 년 12 월 29 일 접수, 2009 년 7 월 6 일 수정, 2009 년 7 월 7 일 심사완료)
Selection Method of Global Model and Correlation Coefficients for Kriging Metamodel
Su Kil Cho, Hyun-suk Byun and Tae Hee Lee
Key Words : Kriging Metamodel(크리깅 메타모델), Design and Analysis of Computer Experiments (전산실험계획), Correlation Coefficient(상관계수), Global Model(전역모델)
Abstract
Design analysis and computer experiments (DACE) model is widely used to express efficiently nonlinear responses in the field of engineering design. As a DACE model, kriging model can approximately replace a simulation model that is very expensive or highly nonlinear. The kriging model is composed of the summation of a global model and a local model representing deviation from the global model. The local model is determined by correlation coefficient with the pre-sampled points, where the accuracy and robustness of the kriging model depends on the selection of proper correlation coefficients. Therefore, to achieve the robust kriging model, the range of the correlation coefficients is explored with respect to the degrees of the global model. Based on this study we propose the proper orders of the global model and range of parameters to make accurate and robust kriging model.
기호설명 ˆ( )
Y x : 크리깅 모델 q : 상관계수 xi : i 번째 실험점
1. 서 론
크리깅모델은 채광학자인 Krige 의 연구를 바탕 으로 공간분석 및 공간자료의 연관관계를 규명하 기 위해 지질통계학에서 처음으로 이용되었다.(1) 1963 년 Metheron 에 의해 수학적으로 정립되었고, 1989 년
Sacks 에 의해 전산실험모델로서 공학분야에 적용되었으며,(2) 설계변수가 많고 비선형성이 강한 모델에 대해서 크리깅모델의 우수한 예측성능이 다양하게 확인되었다.(3,4) 이러한 크리깅모델은 보간모델이라는 특성 때문에 같은 입력에 대해서 동일한 응답을 주는 전산실험에서 활용성이 더욱 중요하게 인식되고 있다.
그러나 크리깅모델은 보간모델의 특성상 회귀 모델과 달리 실험점을 모두 지나기 때문에 현재의 실험점을 이용하여 모델의 정확도를 판별하는데 어려움이 있다. 이에 대한 연구로 교차검증방법(5) 이나 크리깅모델의 평균과 분산을 이용한 모델의 정확도 평가법이 있는데(6) 크리깅모델의 정확 도에 큰 영향을 주는 실험점들 간의 상관계수에 관한 연구는 활발히 진행되지 못하고 있다.
따라서 본 논문에서는 크리깅모델이 상관 계수에 따라 정확도가 어떻게 변하는 지 살펴본다.
이를 근거로 전역모델의 차수가 모델의 정확도와 상관 계수의 강건성에 어떠한 영향을 미치는지 [ 이 논문은 대한기계학회 2 0 0 8 년도 추계학술대회
(2008. 11. 5.-7., 용평리조트) 발표논문임]
† 책임저자, 회원, 한양대학교 기계공학부 E-mail : [email protected]
TEL : (02)2220-0449 FAX : (02)2298-4634 * 한양대학교 대학원 자동차공학과
살펴 본다. 또한, 함수의 비선형 정도에 따라 정확한 크리깅모델을 만들기 위한 전역모델의 차수와 상관계수의 범위를 제안하고자 한다.
2. 크리깅모델의 상관함수
2.1 크리깅모델
크리깅모델은 모델링 할 실제 함수의 전역특성을 나타내는 전역모델과 실제함수와 전역모델의 편차에 해당하는 국부모델(deviation)의 합으로 표현한다.(7)
( ) ( )T ( )
Y x =f x β+Z x (1) 여기에서 β={ ,b b1 2,Lbp}T는 미지의 계수벡터이고,
1 2
( ) { ( ), ( ), ,= f f fp( )}T
f x x x L x 는 설계변수xÎRnd로 정의 된 전역모델 벡터이다. 전역모델이 상수(constant) 라고 가정할 경우는 p=1, 선형(linear)은 p n= d+1, 2 차 다항식(quadratic)은 p=(nd+1)(nd+2) / 2가 된 다. Z x 는 독립적인 정규분포를 갖는다고 가정( )
하며, n 개의 실험점에서 얻은 응답벡터
1 2
[ ( ), ( ), , ( )]y y y n T
=
Y x x L x 을 식 (1) 에 적용하면 다 음과 같은 식이 성립한다.
1 1 1
1 2
2 2 2
1 2
1 2
1 2
ˆ
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
p
p
n n n
p n T
f f f
f f f
f f f
Z Z Z
= +
é ù
ê ú
ê ú
º ê ú
ê ú
ê ú
ë û
é ù
º ë û
Y Fβ Z
x x x
x x x
F
x x x
Z x x x
L L
M M O M
L L
(2)
편차와 무작위오차가 독립적이라는 가정하에서 두 응답간의 공분산 행렬은 다음과 같이 표현할 수 있다.
Cov[ ( ), ( )] Cov[ ( ), ( )]
Cov[ ( ), ( )]
i j i j
i j
r r
Y Y Z Z
e e
= +
x x x x
x x (3) ( )
Z x 의 공분산은 아래의 식과 같이 분산sz2 과 상관행렬(correlation matrix) R x x 의 곱으로 표( , )i j 현할 수 있다.
Cov[ ( ), ( )]Z xi Z xj =s2R x x( , )i j (4) 상관행렬은 데이터들의 공간적인 상관관계(spatial correlation)를 표현하는 상관함수 R 로 정의된다.
1 1 1 2 1
2 1 2 2 2
1 2
( , , ) ( , , ) ( , , ) ( , , ) ( , , ) ( , , ) ( , , ) ( , , ) ( , , )
n
n
n n n n
R R R
R R R
R R R
é ù
ê ú
ê ú
= ê ú
ê ú
ê ú
ë û
θ x x θ x x θ x x
θ x x θ x x θ x x
R
θ x x θ x x θ x x
L L
M M O M
L
(5)
여기서 상관함수는 두 샘플링 점 xi와 xj의 일 차원 상관도의 곱(products of one-dimensional
correlations)으로 나타낼 수 있는 상관관계로 한정 한다. 일차원 상관도의 곱은 각 차원의 상관관계 를 그 차원의 거리의 함수로만 표현하고 이들의 곱으로 상관관계를 표현한다.
상관함수를 가우스(gauss) 상관함수로 정의하면 상관행렬은 아래와 같이 표현된다.
( )
21
( , , ) exp d
n
i j i j
k k
R q
=
é ù
= ê- - ú
ë
å
ûθ x x x x (6) 여기서 θ x, ÎRnd이고, 상관행렬은 대각요소가 1 을 가지는 양정행렬 (positive definite matrix)이다. 상관 계수 q 는 k x 방향에 대한 응답값들의 상관관계를 k 나타내는 파라미터로써 크리깅모델의 x 방향 곡k 률을 결정한다. 즉, q 가 크면 상관함수의 정의에 k 따라 상관도는 작고 이 입력변수 방향에 대한 크 리깅모델의 곡률은 비선형적 특성을 보인다. 반면
q 값이 작으면 상관도는 커지며 이 입력변수 방k
향에 대해서 예측값은 선형적인 특성을 보인다.
한편, 서로 다른 두 실험점에서 무작위오차가 서 로 독립적인 상수라고 가정하면 다음과 같이 표현 할 수 있다.
Cov[ ( ), ( )]er xi er xj =sz2I (7) 식 (4), (6), (7)을 식 (3)에 대입하면 공분산 행렬 은 아래와 같이 표현할 수 있다.
( )
22
1 2
Cov[ ( ), ( )] exp ,
nd
i j i j
z k k k
k n n z
Y Y x x
R
s q
s
=
´
é æ öù
= ê ç- - ÷ú
ê è øú
ë û
= Î
å
x x
R R
(8)
2.2 최우량 추정 과정
식 (6)에서 정의된 모수 qk와 편차의 분산 sz2를 구해야만 크리깅모델의 구현이 가능하다. 편차의 분 산은 일반 최소제곱법을 이용하여 n 개의 실험점에 서의 응답으로부터 추정된 분산으로 대체할 수 있다.
1
2 ( ˆ) ( ˆ)
ˆ T T T
s = Y F β R- n- Y F β- (9) 식 (8)의 크리깅모델에서 남은 미지수인 qk 는, 최우량추정법(maximum likelihood estimation : MLE) 에 의해서 구할 수 있다. 크리깅모델의 모수를 결 정하는 우량함수(likelihood function)는 다음과 같이 정의된다.
1 / 2 2 2
ˆ ˆ
1 exp ( ) ( )
2ˆ (2 ) ˆ
T T T
n z z
L p s s
æ - - - ö
º ççè- ÷÷ø
Y F β R Y F β R
(10)
우량함수를 최대로 만든다는 것은 확률적으로 가 능성이 높은 qk값을 추정한다는 의미이다.
일반적으로 우량함수는 다중국부 최대점을 갖고 있
어 해석적인 방법으로 구할 수 없는 것으로 알려져 있기 때문에 최우량추정 과정에서는 수치적인 최적 화가 요구된다. 식 (10)의 우량함수에 로그를 취하고 상수항을 제외하고 정리하면 다음과 같다.
ˆ2
ln ln 2 Maximize æn se + ö
- ççè ÷÷ø
R (11)
최적화 과정에서 특이행렬(singular matrix)이 될 경우, ln R의 수치계산이 불가능해지기 때문에 식(12)와 등 가의 최우량 추정과정을 다음과 같이 표현할 수 있다.
2 1
ˆ
0, 1, 2, ,
z n
k d
Minimize
Subject to k n
s
q > = R
L
(12)
3. 전역모델 차수와 상관계수의 관계
총 21 개의 2 차 함수에 대하여 함수의 비선형 정 도를 2 차 RSM 모델의 R2으로 비선형, 중간, 선형급 함수로 분류하였다. RSM 모델은 전조합실시법(full factorial sampling)을 이용하여 49 개의 실험점을 뽑아 RSM 모델을 만든 뒤 R2을 구하였다. Table 1 은 R2에 따라 함수를 세 분류로 나눈 표이다. 여기에서 사용 한 21 개의 함수의 수식은 부록에 있다.
Table 1 의 21 개 함수에 대해서 θ 를 0.001 에서 100 까지 변화시키면서 크리깅모델의 정확도를 살 펴보았다. 모델의 정확도를 측정하는 방법으로는 전조합 실시법을 이용하여 100 개의 검증점에서의 평균제곱오차(root mean squared error :RMSE)를 예측 하였다. 상관계수는 변수의 개수에 상관없이 하나 로 가정하였다. Fig. 1 은 각 등급의 대표적인 함수 에 대해 θ 와 평균제곱오차의 상관관계를 그래프 로 나타낸 것이다. 전역모델은 0 차, 1 차, 2 차로 변 화시켜 하나의 그래프 안에서 동시에 비교하였고, 샘플링 기법은 RSM 모델을 만들 때와 같이 전조 합실시법으로 49 개의 실험 점을 이용해 크리깅모 델을 구성하였다.
Table 1 Classification of the test functions Class R-square Function Linear 0.8~1
Booth, Dixonprice, Hump, Goldstein, Linear, Matyas, Michalewicz, Rosenbrock
Moderate 0.4~0.8
Branin, Griewangk, Jin, Schwefel, Shubert, Sixhumpcamelback, Threehumpcamelback Nonlinear 0~0.4 Bird, Crane, Haupt,
Mystery, Peak, Rastrigin
(a) Michalewicz function
(b) Schwefel function
(c) Peak function
Fig. 1 RMSE with respect to the correlation coefficient
Table 2 Accuracy with respect to the order of global model
Global model Function Class
0th 1st 2nd Linear
Booth Matyas
○
○
○
◎
◎
◎
◎
◎
◎ Michalewicz
Dixonprice
○
○
○
○
◎
◎ Rosenbrock
Hump Goldstein
Linear θÎ[0.01, 1]
○ Δ Δ
○
○
○
◎
◎
◎ Threehumpcamelback
Schwefel Branin
Δ Δ Δ
Δ Δ Δ
○ Δ Δ Griewangk
Jin
Δ Δ
Δ Δ
Δ Δ Shubert
Sixhumpcamelback
Moderate θÎ[0.1, 10]
Δ Δ
Δ Δ
Δ Δ Mystery
Rastrigin
Δ Δ
×
×
×
× Crane
Haupt
×
×
×
×
×
× Bird
Peak
Nonlinear
×
×
×
×
×
× Fig. 1 을 살펴보면 선형등급 함수는 θÎ[0.01, 1]의 범위에서 θ 에 관계없이 크리깅모델이 정확한 것을 확인할 수 있었다. 또한 2 차 전역모델을 사용한 크 리깅모델의 평균제곱오차가 0 차 또는 1 차 전역모델 을 사용한 크리깅모델에 비해 더 정확하며 θ 의 변 화에도 강건한 것을 볼 수 있다. 중간등급의 함수의 크리깅모델의 정확도는 선형등급의 함수에 비해 θ 에 민감하며 θÎ[0.1, 10] 범위에서 크리깅모델의 오 차가 가장 작은것으로 관찰되었다. 또한 중간등급의 함수 역시 2 차 전역모델을 사용하는 것이 θ 에 대해 강건하다고 볼 수 있다. 비선형등급의 함수는 θÎ [0.03, 0.3] 범위에서 크리깅모델의 오차가 크게 발생 하는 것을 볼 수 있다. 특히 그 부분에서는 1 차, 2 차 전역모델을 사용한 모델이 더 많은 오차가 발생 하며, θÎ[0.03, 0.3] 이외의 부분에서는 전역모델의 차 수에 의한 영향이 적은 것을 관찰할 수 있다.
본 연구에서 사용한 21 개의 함수에 대해 전역모 델의 차수를 변화시킬 때 크리깅모델의 정확도와 θ 의 변화에 대한 특징을 살펴보면 Table 2 와 같이 나타낼 수 있다.
(a) θ=0.0316 (10-1.8) (a) θ=0.1585 (10-0.8)
(b) θ=1 (100) (d) θ=10 (101)
(e) Positions of the correlation coefficient Fig. 2 Kriging model with respect to the correlation
coefficient
Table 2 는 특정 θ 의 범위에서 크리깅모델의 정확 도를 기호로 나타내었다. 정확도는 전조합실시법으 로 얻은 100 개의 검증점에서 크리깅모델의 예측값 과 검증점에서 실제모델의 평균제곱오차로 판별하였 다. ◎는 임의의 θ 값에서 모델의 오차가 0.1% 이내 의 정확한 크리깅모델을 만들 수 있는 경우이다. 최 적화 없이 좋은 크리깅모델을 만들 수 있다. ○는 1% 이내의 정확한 크리깅모델을 만들 수 있으며 최 적화를 수행하면 더 좋은 크리깅모델을 만들 수 있 는 경우이다. 그리고 Δ는 θ 에 따라 정확도가 크게 변화하는 경우이며 최적화가 꼭 필요한 경우이다.
마지막으로 ×는 비선형등급에서만 나타나며
θÎ[0.03, 0.3] 영역에서 생성한 크리깅모델의 평균제 곱오차가 실제 모델의 표준편차보다 100%이상 차이 가 나는 부정확한 크리깅모델을 만드는 경우이다.
Fig. 2 는 비선형등급인 Crane 함수에 대하여 θ=0.03, 0.15, 1, 10 인 크리깅모델의 그래프를 그려 보았다. Fig. 2 를 살펴보면 매우 비선형적인 함수 에 대해 특정영역의 θ 값에서 크리깅모델이 매우 부정확해지는 것을 확인할 수 있다. 이는 Fig. 1
Table 3 Selection of parameters for kriging metamodel Class Suggested parameters
Linear θÎ[0.01, 1]
2nd order global model Moderate Optimize θ on θÎ[0.1, 10]
Less influence on global models Nonlinear Some inaccuracies within θÎ[0.03, 0.3]
0th order global model
Fig. 3 RMSE of the kriging model of crane function using Latin hypercube sampling
에서 평균제곱오차가 크게 증가하는 영역과 같은 영역에서 발생한 것을 알 수 있다.
또한 이러한 오차의 발생이 실험점 선택기법에 문제가 있는지 확인하기 위하여 실험점의 중첩이 일어나지 않는 라틴방격법(latin hypercube sampling) 을 이용하여 크리깅모델을 생성하였다. 실험점의 개수는 동일하고 비선형성이 강한 Crane 함수에 대하여 θ 와 평균제곱오차값으로 Fig. 3 과 같은 그래프를 그려보았다. 라틴방격법 역시 그래프의 형태가 θÎ[0.03, 0.3] 영역에서 평균제곱오차가 크 게 증가하는 것을 볼 수 있다. 이러한 특징은 비 선형등급에 있는 모든 함수가 같은 현상이 나타났 으며 같은 θ 영역에 대해 이와 같은 현상이 나타 났다.
Table 3 은 지금까지 본 연구에서 제안된 크리깅 모델 파라미터 선정 방법을 나타낸 것이다.
4. 결 론
함수의 비선형 정도를 모른다는 가정하에 RSM 모델을 생성하여 R2에 따라 비선형성을 분류하고 그 분류에 따라 정확한 크리깅모델을 만들기 위한 크리깅모델의 전역모델 차수, 그리고 상관계수 θ
의 범위를 살펴 보았다. 총 21 개의 함수에 대해 예제를 실시하였고 그 결과 선형적인 함수에 대해 서는 전역모델을 2 차모델로 쓰는 것이 정확도가 높은 크리깅모델을 만들 수 있으며 0.01 부터 1 까 지 θ 범위에서 정확한 크리깅모델을 만들 수 있음 을 확인하였다. 그러므로 RSM 모델의 R2가 0.8 이 상인 함수에 대해서 θ=[0.01, 1]의 범위의 θ 값과 2 차 전역모델을 사용할 것을 제안한다. 그리고 R2 이 0.4 이상 0.8 이하인 함수에 대해서는 θ 값에 민 감한 특성을 보이므로 θ 의 최적화가 필요하며 θ=[0.1, 10]의 범위에서 최적값이 나타남을 확인하 였다. R2 이 0.4 이하인 함수에 대해서 특정 영역 [0.03, 0.3] 에서 크리깅모델이 부정확해지는 현상 을 확인하였다. 그러므로 특정영역의 θ 를 제외한 부분에서 크리깅모델을 생성할 것을 제안한다. 이 러한 방법은 크리깅모델의 전역모델의 차수와 상 관계수의 범위를 결정하는 기준으로 사용할 수 있 을 것으로 생각된다.
본 연구에서는 비선형이 큰 함수를 특정영역의 θ 값으로 크리깅모델을 생성할 때 발생하는 현상 의 원인을 정확히 규명하지 못하였고 이러한 현상 때문에 비선형성이 큰 함수에 대해서는 전역모델 의 차수를 0 차모델로 크리깅모델을 생성할 것을 제안하였다. 그리고 앞으로 이에 대한 연구가 수 행되어야 할 것이다.
참고문헌
(1) Matheron, G., 1963, “Principles of Geostatistics,”
Economic Geology, Vol. 58, pp. 1246~1266.
(2) Sacks, J., Welch, W.J., Mitchell, T.J. and Wynn, H.P., 1989, “Design and Analysis of Computer Experiments,” Statistical Science, Vol. 4, No.4, pp.
409~435.
(3) Simpson, T.W., Mauery, T.M., Korte, J.J. and Mistree, F., 2001, “Kriging Models for Global Approximation in Simulation-Based Multidisciplinary Design Optimization,” AIAA Journal, Vol. 39, No. 12, pp. 2234~2241.
(4) Lee, T.H., Lee, C.J. and Lee, K.K., 2003, “Shape Optimization of a CRT based on Response Surface and Kriging Metamodels,” Trans. Of KSME (A), Vol.
27, No. 30, pp. 381~386.
(5) Mitchell, T.J. and Morris, M.D., 1992, “Baysesian Design and Analysis of Computer Experiments: Two Examples,” Statistica Sinica, Vol. 2, pp. 359~379.
(6) Byun, H.S., Jung, J.J. and Lee, T.H., 2007,
“Validation Technique of Kriging Model Using Integrated Mean Squared Errors and Responses,” 7th
World Congress on Structural Multidisciplinary Optimization, pp. 18~23.
(7) Sacks, J., Schiller, S.B. and Welch, W.J., 1989,
“Designs for Computer Experiment,” Technometrics, Vol. 31, No. 1, pp. 41~47.
(8) Lee, T.H. and Jung, J.J., 2005, “Generalized Kriging Model for Interpolation and Regression,”
Trans. Of KSME (A), Vol. 29, No. 2, pp. 277~283.
부록
Function Equation
Bird ( ) ( )
( )
2
1 2 1 2
1 2 2 1 2
1 2
exp cos( ) sin , 0 , 4
1
x x x x
f x x x x
x x
æ - + + ö
ç ÷
= - £ £
ç + - ÷
è ø
Booth f =(x1+2x2-7)2+(2x1+x2-5) , 102 - £x x1 2, £10
Branin 1 2 1 2
2 5.1( ) 5( ) 6 10(1 1cos( ) 10, 51 1 10, 0 2 15
2 8
x x
f x x x x
p p p
æ ö
=çè - + - ÷ø + - + - £ £ £ £
Crane ( )
( )
2 1 2 1 2
1 2 2 1 2
1 2
cos ( )
exp cos( ) sin , 0 , 4
1
x x x x
f x x x x
x x
æ - + + ö
ç ÷
= - £ £
ç + - ÷
è ø
Dixonprice f =(x1-1)2+2(2x12+x2) , 102 - £x x1 2, £10
Goldstein 1 2 2 1 12 2 1 2 22 1 22
2 2
1 1 2 1 2 2 1 2
(1 ( 1) (19 14 3 14 6 3 ))(30 (2 3 )
(18 32 12 48 36 27 )), 2 , 2
f x x x x x x x x x x
x x x x x x x x
= + + + - + - + + + -
- + + - + - £ £
Griewangk 212 1.0514 1 16 1 2 22, 2 1 6, 2 2 2 f = x - x +6x -x x +x - £x £ - £x £ Haupt f =x1sin(4 ) 1.1 sin(2 ), 0x1 + x2 x2 £x x1, 2£4 Hump f =4x12-2.1x14+x16/ 3+x x1 2-4x22+4 , 5x42 - £x x1 2, £5
Jin f =cos(6x1-0.5) 3.1+ x1-0.7 2(+ x1-0.5) sin+ (x1-0.5 0.31+ )-1+0.5 , 0x2 £x x1 2, £1 Linear f =x1+x2+10, 10- £x x1 2, £10
Matyas f =0.26(x12+x22) 0.48- x x1 2, 10- £x x1 2, £10
Michalewicz f= -sin( )sin (x1 2 x12/ ) sin( )sin (2p - x2 2 x22/ ), 1.5p £x1£2.5 ,1£x2£2 Mystery f = +2 0.01
(
x2-x12)
2+ -(1 x1)2+2(2-x2)2+7sin(0.5 )sin(0.7x1 x x1 2), 0£x x1 2, £5Peak 3 1( 1)2exp 12 (2 1)2 10 1 13 52 exp
(
12 22)
1exp(
12 22)
, 3 1 2, 35 3
f= -x æç-x - x + - æçx -x -x ö÷ö÷ -x -x - -x -x - £x x £
è ø
è ø
Rastrigin f =20+x12+x22-10cos(2px1) 10cos(2- px2), 0.4- £x x1, 2£0.8 Rosenbrock f =100(x2-x12 2) + -(1 x1) , 42 - £x x1 2, £4
Schwefel f =x1sin( x1)-x2sin( x2) 50, 15+ - £x x1 2, £15 Shubert f sin(x1 4)sin10 (x1 4)2 sin(x2 4)sin10 (x2 4)2 , 5 x x1 2, 6.5
p p
æ - ö æ - ö
ç ÷ ç ÷
= - çè ÷ø- - çè ÷ø £ £
Sixhump camelback
2 2 4 2 2
1(4 2.11 1 1) 1 2 2( 4 4 ), 22 1 2, 1 2 1 f=x - x +3x +x x +x - + x - £x £ - £x £ Threehump
camelback
2 4 6 2
1 1 1 1 2 2 1 2
2 1.05 1/ 6 , 2 2 , 1.5 1.5
f = x - x + x -x x +x - £x £ - £x £