다변량 통계 분석을 이용한 결측 데이터의 예측과 센서이상 확인
이창규·이인범† 포항공과대학교화학공학과
794-784 경북포항시남구효자동산 31 (2006년 10월 31일접수, 2007년 1월 9일채택)
Missing Value Estimation and Sensor Fault Identification using Multivariate Statistical Analysis
Changkyu Leeand In-Beum Lee†
Department of Chemical Engineering, POSTECH, San 31, Hyoja-dong, Nam-gu, Pohang 790-784, Korea (Received 31 October 2006; accepted 9 January 2007)
요 약
최근공정의이상을감지하고진단하기위한공정모니터링시스템의개발이공정시스템분야에서많은주목을받 고있다. 공정으로부터얻어지는데이터는공정의특성에대한유용한정보를제공하고이는공정의모델링과모니터 링그리고제어에사용된다. 현대의화학및환경공정은고차원적인특성과변수간의강한상관관계와동특성그리고 비선형적특성을가지고있어모델기반접근을통해공정을분석하는것을쉽지않다. 이러한모델기반접근의한계 를극복하기위해많은시스템엔지니어와연구자들이주성분분석법(principal component analysis, PCA) 또는부분 최소자승법(partial least squares, PLS)과같은다변량분석을접목한통계기반접근법에초점을맞추고있다. 또한동 특성, 비선형성등과같은특성을가진공정에적용하기위해많은다변량분석법들이보완되었다. 여기에서는동적주 성분분석법(dynamic PCA)과케노니컬변수분석법(canonical variate analysis)을이용한결측데이터의예측법과공 정변수의복원을통한센서오작동의판별법에대해언급해보고자한다.
Abstract– Recently, developments of process monitoring system in order to detect and diagnose process abnormali- ties has got the spotlight in process systems engineering. Normal data obtained from processes provide available infor- mation of process characteristics to be used for modeling, monitoring, and control. Since modern chemical and environmental processes have high dimensionality, strong correlation, severe dynamics and nonlinearity, it is not easy to analyze a process through model-based approach. To overcome limitations of model-based approach, lots of system engineers and academic researchers have focused on statistical approach combined with multivariable analysis such as principal component analysis (PCA), partial least squares (PLS), and so on. Several multivariate analysis methods have been modified to apply it to a chemical process with specific characteristics such as dynamics, nonlinearity, and so on.
This paper discusses about missing value estimation and sensor fault identification based on process variable reconstruc- tion using dynamic PCA and canonical variate analysis.
Key words: Process Monitoring, Multivariate Analysis, Missing Value Estimation, Sensor Fault Identification
1. 서 론
화학공정은그특성상수많은단위공정의조합으로이루어진 거대장치산업이며, 공정의운전상에있어서유량, 온도, 압력, 농 도및조성등의수많은공정변수들은변수간의강한선형적또는 비선형적인상관관계를가지고있다. 이러한고차원적인상관관계
를분석하기위하여기존의화학적반응식을기반으로한물질및
에너지수지를이용하여화학공정또는단지를모델링하고모니터 링한다는것은사실상불가능하다. 이러한문제를해결하기위해
각공정변수의실시간데이터를이용하여통계적인유의구간을 설정하여공정의이상유무를판단하고진단하는통계기반공정 모니터링시스템이제안되었다. 초기의통계모니터링시스템은각 각의공정변수마다의유의구간을설정하고실시간으로측정되는 변수가유의구간을벗어나게되는경우를공정이상이라고판단하 는단변수모니터링시스템을사용하였다. 그러나이러한모니터링 시스템은화학공정으로부터측정되는공정변수모두를일일이감
†To whom correspondence should be addressed.
E-mail: [email protected]
시해야한다는단점과함께공정변수간의상관관계를고려하지못 하는한계성을드러내면서다변량통계분석을통한공정모니터링
시스템의개발이활기를띠게되었다[1]. 고차원공정데이터의상
관관계를분석하기위해주성분분석법(principal component analysis, PCA)이나부분최소자승법(partial least squares, PLS)과같은다변
량분석방법을도입하기시작하였고이를기반으로동적특성또 는비선형적인특성을가지는여러가지공정에적용하기위해많
은이론들이개발되어왔다[2-4]. 또한이러한이론들은공정의이
상을감지하는데그치지않고공정의이상을확인하거나공정데이 터의수집과정에서발생하는데이터의결측에관한문제를해결하 기위한방법으로발전하였다. 본연구에서는 PCA와 CVA를기반 으로하여결측데이터가존재하는공정데이터를어떻게처리하여 공정시스템에유용한모델을찾아내는지와실시간적으로공정데 이터를복원하는방법을통해여러공정의측정장치의이상유무 를확인하는방법에대해언급하고자한다.
2. 결측 데이터 처리를 통한 공정 모델링 언급한바와같이데이터마이닝에기반한공정모니터링시스템 의구축에서가장중요한문제는정상공정데이터의확보라할수 있다. 하지만실제공정데이터를수집하는과정에서원치않은요 인들로인해데이터의결측이일어나는경우가많다. 결측된공정
데이터의처리를위하여다변량분석을통한통계기반접근법이 외에도물질및에너지수지등과같은수학적모델링을이용한접 근방법들이제안되었다. 하지만전언한바와같이모델링에기반 한접근법은대상공정에대한모델의부재및모델에대한불확실 성등의이유로다변량분석을통해이러한결측데이터를처리할 수있는연구가꾸준히진행되어왔다. 이전연구[5]에따르면, 결 측데이터의정도가전체데이터의 20%미만일때소개되는방법 이유용하게적용된다. 일반적으로결측데이터의처리과정을보
면, 소위 EM(expectation-maximization) 알고리즘이라고불리는두
가지의단계를거쳐반복계산함으로써결측된데이터값을찾아간다. E단계(예측단계)에서는결측데이터값을모델로부터구하는단계 이며, M단계(최대화단계)에서는공정데이터를이용하여공정시
스템구축에필요한모델링을하는단계이다. Fig. 1은 PCA와 CVA
에기반한 EM 알고리즘을이용한불완전한데이터의예측방법을
간단하게설명하고있다.
공정의특성에맞는어떤모델링방법을적용시키느냐에따라서 그리고어떤예측방법을채택하느냐에따라서불완전한데이터를 채택하는여러가지방법으로나누어진다. 다변량기반공정모니
터링시스템의일반적인모델링방법으로 PCA, PLS, 그리고캐노
니컬변수분석법(canonical variate analysis, CVA)[6, 7] 등을들수 가있으며, 이러한방법의선택은 EM 알고리즘의반복계산과정 중 M단계와연관된다. 결측데이터의예측방법또한여러방법의
선택에따라달라지지만, 일반적으로는확률적인기대치를최대화 시키는방법이가장좋은방법으로알려져있다. 그러나이방법은
데이터의상관관계분석에있어랭크부족(rank deficiency)으로인
한역행렬문제(inversion problem)가생기는데이터에대해서는적
용할수없다는단점을가지고있다[8]. 또다른방법으로는모델공
간에서제외된잔차공간(residual space)이나공정의잡음으로해석
되는공간의값을최소화시킴으로써보다모델에근접한데이터값 으로예측하는방법이있다. 이외에도여러접근방법이있지만, 본 연구에서는이두가지의방법을기준으로결측된불완전한데이터 의예측방법을설명하고자한다.
2-1. PCA를이용한불완전한데이터의처리
공정의모델링을위한방법으로 PCA를선택하였다면, 전언한바
와같이결측데이터의예측방법을몇가지생각해볼수있다. 첫
째로측정된데이터의조건부기대치(conditional expectation)의값
을결측데이터로예측하는방법이다[5]. 조건부기대치를결측데
이터의예측값으로사용하기때문에조건부평균치환법(conditional
mean replacement, CMR)이라고불리는이방법은초기치를이용하
여 PCA를이용하여모델링하고이모델과결측데이터를제외한 나머지데이터를조건으로보고결측데이터를예측하게된다. 예
측된데이터로다시 PCA를통해모델링을하여 Fig. 1에서보듯반
복적으로계산하여수렴하는값을구하여결측데이터를처리한다.
이방법은알고있는데이터를이용하여결측치를선형회귀하는방 법과동일하므로 PCA에기반한 KDR(known data regression)이라
고도불린다[8]. 알고있는데이터의정보를모두이용하므로예측
능력이상당히뛰어나다는장점이있지만, 알고있는데이터의선 형회귀를통해결측데이터를예측함으로공정변수간의상관관계 가아주강할경우에는언급한바와같이역행렬문제가발생할수 있다는단점을가지고있다. 두번째방법으로는모델공간을제외
한잔차공간의거리를최소화하여모델에근접한데이터를찾아내 는방법이다. 이는잔차공간의거리를목적함수로두고이를결측 데이터가존재하는공정변수로편미분하여최소값을구할수있다.
이방법은예측성능에서는 CMR보다는떨어지지만, CMR에서발
생하는역행렬문제는피해갈수있다는장점을가지고있다. 잔차 공간의거리를최소화하여얻어지는결과는실제결측치를포함한
데이터를모델공간상에투영(projection)하여얻어지는값과동일하
여이방법을모델공간투영법(projection to the model plane, PMP)
이라고도한다[8].
Fig. 1. PCA and CVA based EM algorithm to deal with incomplete data.
2-2. CVA를 이용한불완전한데이터의처리
동특성이강한공정이라면 DPCA나소개한 CVA의분석방법을 채택하는것이타당하다. CVA는시스템확인(system identification)
법의한방법으로연구되었던방법으로이를공정모니터링에이용 한연구들이최근많이제안되었으며공정이상의감지및확인성
능에서는 DPCA보다탁월하다고연구되어있다[6, 7, 9]. DPCA와
마찬가지로 CVA를이용하여결측데이터를예측방법을생각해볼
수있다. CVA를이용한결측데이터처리방법역시 PCA와같이
크게두가지로볼수있다. 우선첫째로알고있는데이터를기반 으로하여상태공간모델(state space model)의상(state)을예측하
는방법이다[10]. 이방법은 PCA를기반으로한 CMR과같은원리
의접근방법이며, 알고있는데이터의상관관계가강할경우랭크
결여로인한역행렬문제가발생할수있다는단점을가지고있다.
두번째의접근방법또한 PCA의접근방법과유사한방법이지만 최소화시키는목적함수가 PCA와는달리두가지를생각해볼수
있다. CVA에서는 PCA에서의잔차공간처럼상(state)으로선택되지
못하는공간즉잔여상태공간(residual state space)뿐아니라상의예
측및출력신호의예측에서발생하는잡음공간(noise space)이함
께존재한다. 즉, PCA는잔차공간의최소화하는하나의방법만이존
재하지만, CVA는잔여상태공간뿐아니라잡음공간에서발생하
는크기를최소화하는이두가지방법이존재한다. 물론이두가지
방법을조합도생각할수있다. Table 1은 PCA와 CVA를통한모델
과각각의결측데이터방법의특성을비교하여설명하고있다. 3. 공정변수 복원을 통한 센서이상 확인
화학공정의운전상에서발생하는비이상성의원인은작동기
(actuator)나센서, 입출력신호의외란등여러가지가있다. 공정
모니터링시스템에서는공정의이상을빠르게감지하는것도중요 한문제이지만이러한이상이어디서발생하는지판단하는과정또 한중요한문제이다. 기존의공정이상에대한확인방법으로제안 된방법이바로기여도도표(contribution chart)이다. 이방법은공 정이상의기여하는공정변수의기여도를표시함으로해서공정의 이상을확인하는방법인데, 공정이상의전파로인해발생되는모든 변수의값이비정상으로인식되어명확한공정이상변수를제시하 지못하는한계점을가진다. 이를극복하기위해우선적으로고려 해야할부분이공정이상의특징들이다. 공정의이상은특성에따
라크게두가지로나뉘어진다[11]. 첫번째가단순이상(simple fault)
이다. 단순이상은공정이상이발생한위치에서만계속발생하는형 태로서한위치에서발생한공정의이상이다른공정변수로전파가 이루어지지않는형태이며대표적으로센서이상(sensor fault)을들
수있다. 두번째는한곳에서발생한이상이다른곳으로전파되는
형태인데이를복합이상(complex fault)이라고한다. 예를들어작
동기와같은공정의전체에영향을미치는요소에이상이발생하였 을경우, 공정의이상이작동기에한해발생하기는하지만다른공 정의여러요소들에영향을미치게된다. 또다른예로센서이상이
라고하더라도센서가제어기와같은공정운전전반에영향을미 치는공정변수와연관이되어있다면이는복합이상으로해석하는 것이타당하다. 복합이상에는그위치가동일하더라하더라도전파 되는이상의패턴이상당히복잡하여해석하기가힘들다. 복합이상
을확인하기위한방법으로일반적으로제안된방법은패턴분류
(pattern classification)나 SDG(signed directed graph)와같은방법들 이제안되었다. 단순이상은복합이상에비해전파되는경로를해석 할필요가없기때문에이상의확인이비교적용이하다. 단순이상
이든복합이상이든여러위치에서동시이상이발생하는경우를다 중이상(multiple fault)라고한다.
다변량통계분석에기반한공정모니터링시스템에서가장기본 적으로갖춰져야할부분은공정의정상운전데이터의확보이며,
센서오작동의확인은이러한기본조건을만족시키기위한것에 연구목적의의의를두고있다. 본연구에서는한곳에서발생하는 단순이상의대표적인경우인센서오작동에대해실시간으로확인 가능한공정변수복원에기반한센서오작동확인방법에대해언 급하고자한다. 공정변수복원을이용한센서오작동의확인은앞
서언급한결측데이터의예측방법과동일한방법을사용한다. 결 측데이터처리과정에서는 E단계와 M단계를반복계산을하지만,
선택한다변량분석방법에맞게공정이모델링되었다고한다면 M
단계는생략된다. 즉, 실시간측정되는데이터를이용하여연속적으
로모든공정변수들에대한예측치를계산할수있게되고현재측 정되는값과의비교를통하여센서의이상을확인할수있다. 일반 적인비교의수단은실시간으로복원된공정측정치의공정모니터 링인자(process monitoring indices)를이용한다. 복원된데이터의
신뢰구간은선형통계적인관계식을이용하여유도할수도있지만,
정상으로수집된데이터의경험적인신뢰구간(empirical reference
distribution, ERD)[12]을이용하는것도하나의방법이라고할수
있다. Fig. 2는공정데이터의복원을통한센서이상감지시스템의
구조를설명하고있다.
4. 공정 데이터 복원을 통한 센서이상 확인 예제 본연구에서언급된공정데이터복원을통한센서이상의확인 방법을간단한공정시뮬레이션을통해적용해보았다. 적용된대 상공정은 1차반응이이루어지는 CSTR(continuous stirred tank
reactor)로공정모니터링을위한측정변수로 9개의센서를사용하
였다. 공정의구조도와측정변수및간단한물성은 Fig. 3과 Table 2
Table 1. Comparison of missing data treatment methods according to analysis strategy
PCA CVA
model projected vector and variance to principal components state space model
reconstruction method KDR linear regression of score vector and measured data CMR linear regression of state and measured data
PMP minimization in residual space NM minimization in noise space
SRM minimization in state residual space NM : noise minimization, SRM: state residual minimization
에설명되어있다. 공정시뮬레이터에대한자세한설명은여기서
는생략하였다[11, 13].
센서이상의종류는더많은경우를따져볼수있지만센서가완 전히측정을하지못하는경우(completely broken), fouling 등에의 해갑작스레측정의정확도가떨어지거나(precision degradation), 시
간이지남에따라점점실제값에서동떨어지는값을나타내는경
우(drifting), 또는실제값에서편중된값을측정하는(bias) 4가지
정도의현상을고려해볼수있다. 본예제에서는모델링방법으로 CVA를선택하였으며, 모델링을위한지연시간(lag time) 수는 4로,
정상공정운전하에수집된 1,000개의샘플데이터를데이터분석
을통하여전체상의 90%이상을표현하는상의수를상공간으로 선택하였다[10]. 센서의이상시나리오로센서가정상적으로작동되
다가정확도가저하되는현상을모사였다. 공정변수의복원방법 으로는 CMR를선택하였으며, 복원데이터의신뢰구간은수집된 샘플데이터를기준으로 95%의범위로설정하였다. Fig. 4[9]는공 정모사의결과와모니터링방법을이용하여공정의이상을감지하 고센서이상을확인한결과를보여주고있다.
Fig. 4(a)는샘플링시간 200 이후에냉각수유량의측정센서가
Fig. 2. Structure of sensor fault identification system based on process variable reconstruction.
Fig. 3. The simulated CSTR process.
Table 2. Information of CSTR process process variable
state variable : C, T control variable : C, T manipulating variable : Fs, Fc
measured variable : Tc, Ti, Ca, Cs, Fs, Fa, Fc, C, T CSTR model information
V=1 m3; ρ=106 g/m3; ρc=106 g/m3; Cp=1 cal/g/K; Cpc=1 cal/g/K;
k0= 1,010 min−1; a=1.678×106 cal/min; b=0.5; ∆Hr=-1.3×107 cal/kmol
정확하게측정하지못하고있음을보여주고있다. Fig. 4(b)는 CVA
에기반한공정이상감지의결과를보여주고있다. Fig. 4(b)의첫
번째그림은상공간에서의공정이상감지를, 두번째그림은잡음
공간에서의공정이상을감지한결과이며두공간에서모두샘플링 시간 200이후에나타나는공정의이상을감지하고있다. 변수복
원을통한센서의이상감지결과가 Fig. 4(d)에도식화되어있다.
상공간에서의변수복원을통한센서이상의확인결과를 Fig. 4(d)
의첫번째그림에표현되어있으며, 정상적으로측정하고있는센 서(실선)와오작동되는센서(점선)가명확하게구분되고있다. Fig. 4(d)
의두번째그림에서잡음공간에서의센서이상감지역시성공적 으로이루어지고있음을보여주고있다. 기존에제안된 CVA에기
반한기여도표를 Fig. 4(c)에도식화하였다. 이접근방법으로는센 서의이상위치(점선)를명확하게구분할수없다. 변수복원을통 한공정의이상감지가기존의제안된방법보다센서이상확인성
능이보다좋음을확인할수있다. CVA를기반한접근법이여러
가지의센서이상에대해서탁월한센서이상감지성능을보이고있
음을이전연구를통해알수있다[9].
5. 결 론
다변량통계기반공정모니터링시스템의구축에있어가장중 요시되는부분중의하나인공정에서발생하는결측데이터의복 원방법과이러한복원방법을응용하여오작동센서의이상확 인방법에대해본연구에서는언급하고있다. 대표적인 다변량 분석방법인 PCA와 CVA가결측데이터의처리방법인 EM 알
고리즘에어떻게적용되는지에대해언급하였으며, 각다변량분 석방법을이용한여러가지결측데이터의복원방법에대한원 리에대해언급하였다. 또한결측데이터의복원방법을센서오 작동확인에응용하는원리에대해서도언급하였다. 공정이상확
인측면에서기존에제안되었던방법에대한한계성[15]이밝혀 짐에따라공정의특성에맞는다변량분석방법의선택과채택 된분석방법의장점과단점을올바르게이해하고대상공정에올 바르게적용한다면해석하기힘든화학공정의안정성확보와양 질의제품을생산할수있는향상된공정모니터링시스템을구축 할수있을것이다.
Fig. 4. Results of sensor fault detection and identification.
감 사
본연구는 Brain Korea 21 지원으로수행되었으며지원에감사
를드립니다.
참고문헌
1. MacGregor, J. F. and Kourti, T., “Statistical Process Control of Multivariate Processes,”Cont. Eng. Prac., 3(3), 403-414(1995).
2. Choi, S. W., Lee, C., Lee, J.-M., Park, J. H. and Lee, I.-B., “Fault Detection and Identification of Nonlinear Processes Based on Kernel PCA,”Chem. Int. Lab. Sys., 75, 55-67(2005).
3. Cho, J.-H., Choi, S. W., Lee, D. and Lee, I.-B., “Fault Identifi- cation for Process Monitoring Using Kernel Principal Compo- nent Analysis,”Chem. Eng. Sci., 60, 279-288(2005).
4. Ku, W., Storer, R. H. and Georgakis, C., “Disturbance Detection and Isolation by Dynamic Principal Component Analysis,”
Chem. Int. Lab. Sys., 30, 179-196 (1995).
5. Nelson, P. R. C., Taylor, P. A. and MacGregor, J. F., “Missing Data Methods in PCA and PLS; Score Calculations with Incom- plete Observations,”Chem. Int. Lab. Sys., 35, 45-65(1996).
6. Russell, E. L., Chiang, L. H. and Braatz, R. D., “Fault Detection in Industrial Processes Using Canonical Variate Analysis and Dynamic Principal Component Analysis,”Chem. Int. Lab. Sys., 51, 81-93 (2000).
7. Negiz, A. and Cinar, A., “Statistical Monitoring of Multivariable Dynamic Processes with State Space Model,”AIChE J., 43, 2002-2020(1997).
8. Arteaga, F. and Ferrer, A., “Dealing with Missing Data in MSPC:
Several Method, Different Interpretations, Some Examples,”J.
Chemometrics, 16, 408-418(2002).
9. Lee, C., Choi, S. W. and Lee, I.-B., “Variable Reconstruction and Sensor Fault Identification Using Canonical Variate Analysis,” J.
Process Control, 16, 747-761(2006).
10. Larimore, W. E., “Canonical Variate Analysis in Identification, Filtering, and Adaptive Control,” Proceedings of IEEE Confer- ence on Decision and Control, Honolulu, Hawaii, 596-604(1990).
11. Yoon, S. and MacGregor, J. F., “Fault Diagnosis with Multivari- ate Statistical Models Part I: Using Steady State Fault Signa- tures,”J. Process Control, 11, 387-400(2001).
12. Willemain, T. R. and Runger, G. C., “Designing Control Charts Using an Empirical Reference Distribution,”J. Quality Technol- ogy, 28, 31-38(1996).
13. Marlin, T. E., Process Control, McGraw-Hill, New York(1995).
14. Conference report, “Abnormal Situation Detection and Projec- tion Methods-industrial Applications,”Chem. Int. Lab. Sys., 76, 215-220(2005).
15. Lee, C., Choi, S. W., Lee, J.-M. and Lee, I.-B., “Sensor Fault Identification in MSPM Using Reconstructed Monitoring Statis- tics,”Ind. Eng. Chem. Res., 43(15), 4293-4304(2004).