[특별기획] 통계적 공정 감시 및 진단 기술을 통한 품질 향상

(1)

점들을 종합하면 생태산업단지의 설계와 관리·운 영은 단지 내 물질·에너지 흐름 분석에 근거한 거 대 규모의 공정 설계 및 운전 문제로 볼 수 있다.

기업 간의 ‘상호보완적 공생’을 통하여 환경적 영향과 경제적 효율을 동시에 향상시키고자하는

학산업으로 특화된 산업단지부터 생태산업단지로 의 전환을 시도하고 그 결과를 다른 산업단지로 확산함으로써 화학산업의 재도약과 지속가능한 발전을 꾀할 수 있다.

통계적 공정진단기술이란 공정 측정치들로부터 공정의 상태를 통계적 방법을 이용해서 진단하는 기술이다. 예를 들어 의사가 환자의 감기여부를 진단하고 있다면 의사는 공정진단 기술자이고 환 자는 대상공정으로 생각할 수 있다. 의사는 환자 로부터 목이 부었는가, 열이 나는가, 콧물이 나는 가, 기침이 나는가 등을 검사하여 환자가 감기에 걸렸는지 여부를 판단한다. 환자로부터 얻은P개 검사값들의 집합을 특징(feature)벡터라 명명하 고x로 표기하자. 만일 감기환자들의 특징벡터가

평균 µ이고 공분산이 Σ인 정규분포를 따른다고 가정하면 이를N(x: µ, Σ)으로 표기하여 선형변 환을 통해N(Σ^-0.5·(x–µ): 0, I)와 같이 표현될 수 있다. 또한 특징벡터들이 통계적 독립이고 각 각 정규분포를 따른다고 가정하면χ²분포의 정의 로부터 ||Σ^-0.5·(x–µ)||²~χ²(P)와 같은 관계식을 얻을 수 있다¹⁾. 따라서 검사대상 환자로부터 얻은 특징벡터xn이 ||(Σ^-0.5·(xn–µ)||²< χ²(1–α; P)를 만 족 한다면 의사는 이 환자가 (1–α)·100% 신뢰 도 범위 내에서 감기환자라고 통계적 진단을 내릴 김동순·이인범

포항공과대학교 환경공학부/화학공학과, {kimsoph, iblee}@postech.ac.kr

1)이때 ||Σ^-0.5·(x–µ)||은x의 Mahalanobis 거리를 의미하고, χ²(P)는 자유도가P인 Chi-square 확률분포를 나타낸다.

(2)

수 있다. 이 방법은 다변량통계분석 기법 중 in- normal 테스트라고 불린다.

생물학적 폐수처리 공정을 예로 들어 in-normal 테스트의 유용성을 살펴보자. [그림 1(A)]는 공 정에 설치된 36개의 센서들(36차원의 특징벡터) 로부터 얻은 500개의 시계열 데이터 값을 보여준 다. 조업자가 이 그림을 보고 “430번째의 특징벡 터를 발생시킬 당시의 공정상태는 정상이었는 가?” 하는 물음에 명확한 대답을 하기란 매우 어 려운 일이다. 그러나 in-normal 테스트를 수행하 면 조업자는 특정 특징벡터를 발생시킬 당시의 공 정이 정상운전 되고 있었는가에 대해 통계적이고 합리적으로 답할 수 있다. [그림 1(B)]는 401~450번째 특징벡터들에 대한 in-normal 테스 트 결과이다. 이 그림에서 실선은 95% 신뢰도 범 위를 나타내고, 점선은 테스트 결과 값을 보여준 다. 만일 테스트 결과 값이 실선 위에 존재하면 이 특징벡터는 95% 신뢰도 범위 내에서 공정의 비정 상 운전상태를 나타낸다고 볼 수 있으며, 실선 밑 에 존재하면 정상적인 공정 운전상태를 나타낸다 고 할 수 있다. 따라서 예로 든 430번째 특징벡터 는 in-normal 테스트 결과 95% 신뢰도 범위 내에

서 공정이 정상 조업되고 있음을 나타낸다고 할 수 있다. 결국 통계적 공정진단기술이란 [그림 1(A)]와 같이 복잡한 현상을 데이터 조작을 통해 [그림 1(B)]와 같이 단순한 형태로 변환시켜서 공정의 상태진단을 수행하는 것이라고 할 수 있다.

그러나 실제 현장에서 이 작업을 수행하려면 다음 의 몇가지 사항을 반드시 고려해야 한다.

불충분한 샘플 개수

충분히 많은 샘플이 확보되지 않은 상태에서 보 정된 모델을 통해 in-normal 테스트를 수행하기 위해서는χ²통계량 대신 Hotelling’s T²통계량을 이용해야 한다. 이것은 [그림 1(B)]의 실선을 그

릴 때χ^-2(1–α; P)대신에P·(N²–1)·(N²–N·

P)^-1·F^-1(1–α; P, N–P)를 이용해야 함을 의미한다²⁾. 이 방법은 특징벡터 차원(P)에 비해 샘플 수(N) 가 충분히 크지 않은 데이터를 분석할 때 유용하 나, 온라인 센서 등을 통해 충분히 많은 샘플을 쉽 게 확보할 수 있는 경우에는 큰 의미가 없는데 그 이유는P에 비해 충분히 큰 N에 대해서 T² 테스 트 값은χ²테스트 값에 수렴하기 때문이다.

그림 1. (A)생물학적 폐수처리공정의 데이터 패턴, (B)In-normal 테스트 결과.

2)이때P는 특징벡터의 차원을 나타내고 N은 추정에 사용된 셈플개수, F^-1(1–α; P, N–P)는 자유도P와 N––P를 갖는 누적F 분포 값 중 유의수준α에 상응하는 값이다.

(A) (B)

(3)

나타내리라 기대하는 것과 같다. 그러나 측정치는 많으면 많을수록 진단의 정확도를 높이는 반면 분 산으로 측정되는 불안정성을 증대시키는 경향이 있다³⁾. 그 이유는 고차원 특징벡터 공분산의 최소 Eigen값은 0에 가까울 것이므로 이 값의 역수가 이용되는 in-normal 테스트는 약간의 추정오차만 으로도 그 흔들림이 매우 클 것으로 기대되기 때 문이다.

이 정확성과 불안정성의 상호보완 문제 해결을 위해 널리 사용되고 있는 방법은 공분산행렬을 Eigen분해한 뒤 분해된 모든 Eigen값에 일정상수 를 더해서 공분산행렬을 재합성하여, 재합성된 공 분산행렬의 최소 Eigen값이 일정상수 이상 유지 되도록 하는 릿지법(ridge method)과 공분산행렬 을 Eigen분해한 뒤 분해된 Eigen 부속차원 (subspace) 중 중요도가 높은 순서로 몇 개만을 골라 이들로부터 공분산을 재합성하여, 재합성된 공분산행렬의 최소 Eigen값이 선택된 부속차원 의 최소 Eigen값이 되도록 하는 인자분석법 등이 있다⁴⁾.

이 중 널리 사용되는 인자분석법은 특징벡터를 내재벡터의 선형조합으로 인식한다. 즉x=A·z

(x)을 통해 감기균의 정도를 간접 추정하여 진단 을 내린다. 따라서 감기균에 의해 발현되는 몸 상 태 측정치는 무수히 많을 수 있지만, 중요한 것은 이 측정치들 자체가 아니라 이들로부터 유추한 감 기균의 정도이다. 결국 의사는 측정된 특징벡터 값으로부터 내재벡터값을 추정하고 추정된 내재 벡터값에 따라 환자를 진단한다. 이러한 진단법을 in-control 테스트라 한다. 그러나 이 테스트를 적 용하기 위해서는 반드시 선행되어야 할 것이 있는 데, 그것은 감기환자에게서 측정된 특징벡터로부 터 환자 몸 속 감기균의 정도를 추론하기 위해서 는 감기환자모델을 이용해야지 간염환자모델을 이용하면 안된다는 것이다. 이 모델 적합도에 대 한 통계적 판단법을 in-model 테스트라 한다.

전술한 in-normal 테스트는 in-control 테스트 와 in-model 테스트의 조합으로 표현될 수 있다.

[그림 2(A)]과 [그림 2(B)]은 [그림 1(B)]와 같은 in-normal 테스트를 각각 in-model 테스트 와 in-control 테스트로 분해한 결과를 보여준다.

또한 [그림 2(D)]는 in-model 테스트 결과를 수 직축에 표시하고 in-control 테스트 결과를 수평축 에 표시한 그림이다. 이 테스트의 예로 427번째

3)정확성과 불안정성의 상호간섭 효과는 종종 H-원리라 불리는데, 이것은 하이젠베르크의 원리를 말한다. 본 예의 경우 H-원리는 정확성을 높이면 높일수록 불안정성이 증대되고, 안정성을 높이면 높일수록 정확성이 떨어진다는 것을 의미한다.

4)인자분석법(FA：factor analysis)은 주성분분석법(PCA：principal component analysis)과 별도로 취급되어 왔 으나, Rowis(1998)는 주성분분석법이 인자분석법의 한 부분임을 보였다.

(4)

샘플을 분석하면, [그림 1(B)]와 같은 in-normal 테스트에서는 이 셈플이 단지 비정상이라는 정보 만을 나타낼 수 있는데 반해, [그림 2(C)]에서는 이 비정상성이 대부분 모델 부적합도로부터 발생 되었고 내재변수의 이상에 기인한 정도는 상대적 으로 매우 작다는 것을 알 수 있다. 또한 단변수 통계분석의 결과를 나타내는 [그림 2(D)]는 36개 의 측정치중 어떤 측정치의 영향 때문에 모델불일 치 현상이 발생하였는가를 보여주는데, 이것은 모 델 부적합성에 대한 특징벡터 원소의 기여도라고 볼 수 있으며 두 개의 실선으로 표시된 95% 신뢰 도 범위를 벗어날수록 그 기여도가 크다고 할 수 있다.

불완전데이터

실제 공정을 진단함에 있어 실무적으로 중요한 것 중 하나는 특징벡터가 일정한 차원으로 고정되 어서는 안된다는 점이다. 예를 들면 5개의 측정치 를 이용한 공정진단 시스템을 구성함에 있어서 3 번째 센서가 고장이 났다면 나머지(1, 2, 4, 5) 센 서의 측정치 만으로도 공정진단이 가능해야 한다 는 것이다. 의사가 감기환자를 진단할 때 체온계 하나가 고장났다는 이유로 진단 불가 판정을 내릴 수 없듯이, 수십개 이상의 센서들로 구성된 공정 진단 시스템을 구성함에 있어서 당연히 발생하리 라 기대되는 몇몇 센서의 고장 때문에 공정상태 진단 시스템이 영향을 받아서는 안된다. 따라서 공정진단 시스템은 정상작동 하는 센서들만으로 도 in-normal, in-model, in-control 테스트를 수 그림 2. (A)In-model 테스트 결과, (B)In-control 테스트 결과, (C)In-model-control 테스트 결과, (D)특징벡터 구성인 자의 모델불일치에 대한 기여도.

(A)

(C) (D)

(B)

(5)

행할 수 있도록 유연하게 구성되어야 한다. 이 경 우 정상과 비정상의 구분 기준인 통계선은 직선이 아니라 고장난 센서의 개수에 영향을 받아 [그림 1(B)]와 [그림 2(A)]처럼 톱니 모양을 갖게 된다.

정규분포

통계적으로 공정을 진단함에 있어 가장 큰 가정 은 대상 공정이 단일 정상상태라는 것인데, 이것 은 곧 특징벡터, 내재벡터, 오차벡터의 확률분포가 단일 정규분포를 따른다고 가정한 것과 동일하다.

그러나 일반적인 공정은 다수의 정상상태가 혼재 하며 존재한다. 일례로 생물학적 폐수처리 공정의 상태는 온도에 절대적인 영향을 받게 되므로 연 단위의 데이터 집합 안에는 계절별 정상상태가 혼 재하게 된다. 이 문제는 또한 추정의 정밀성에도 큰 영향을 미친다. [그림 3(A)]는 2차원 특징벡 터 집합 ‘ ’을 하나의 정규분포 모델로 근사 했을 경우 추정된 내재변수 값 ‘×’을 보여주고, [그림 3(B)]는 동일한 집합을 두 개의 정규분포 모델로 근사 했을 경우 추정된 내재변수값을 보여준다.

그림에서 볼 수 있듯이, 하나의 모델로 전체 데이 터를 표현하는 것보다는 우선 전체집단을 두 개의

부분집단으로 나누고(clustering), 특징벡터를 나 뉜 집단 중 하나에 할당한 뒤(classification), 할 당된 부분모델을 이용하여 공정 상태를 파악하는 것이 보다 나은 진단 성능을 보일 것을 기대할 수 있다⁵⁾.

생물학적 폐수처리 공정을 예로 들면 [그림 4(A)]는 [그림 2(A)]의 in-model 테스트를 2개 의 부분모델을 구성하여 테스트한 결과이며, [그 림 4(B)]는 [그림 2(B)]의 in-control 테스트를 역시 2개의 부분모델로부터 구현한 결과를 보여 준다. 이 때 첫번째 부분모델은 ‘바람직한’ 공정상 태를 나타내고 샘플을 이 모델에 비추어 테스트한 결과를 ‘ ’로 표기하였으며, 두번째 부분모델은

‘바람직하지 못한’ 공정상태를 나타내고 이 모델 을 기준으로 샘플을 테스트한 결과를 ‘☆’로 표기 하였다. 이 방법을 이용할 경우 한 샘플은 두 모델 에 대해서 동시에 테스트되며, 그 결과 공정상태 는 [그림 4(A)]에서 볼 수 있듯이 바람직한 상태 에서 바람직하지 못한 상태로 전이되고 있음을 알 수 있다. 전술한 단일모델을 이용한 공정진단 방 법이 단순히 공정을 정상과 비정상으로 구분하는 데 반하여, 다중모델을 이용한 방법은 그 방법상 그림 3. (A)단일확률분포 요인모델로 평가한 데이터 특성, (B)다중확률분포 요인모델로 평가한 데이터 특성.

5)이는 곧N(x: µ, Σ)를N(x | ω= k : µk, Σk)로 정밀화 시킨 것을 의미하며, 이것은 특징벡터 x가 k라는 집단으 로부터 발생했다면, 특징벡터의 확률밀도함수는 평균이µk이고 공분산이Σk인 정규분포를 갖는다는 것을 의미한다.

(6)

정밀함에 더하여 공정상태가 한 클러스터에서 다 른 클러스터로 이동하는 과정을 표현할 수 있다는 장점이 있다.

결어

본 고는 통계적 공정진단 방법에 대해 논의의 초점을 맞추었고 이와 병행되어 진행되어야 할 확 률모델 파라미터를 결정하는 공정모델링 부분은 언급하지 않았으나 이를 간단히 살펴보면 다음과 같다. 현재 공정 모델링은 크게 두 가지 접근방법 으로 연구가 수행되고 있는데, 하나는 NIPALS (nonlinear iterative partial least square) 알고리 즘을 기초로 한 투사모델링 방법이고, 다른 하나 는 EM(expectation and maximization) 알고리 즘에 기반을 둔 확률론적 발생모델링 방법이다.

전자가 최소자승법에 기초한 반복계산 알고리즘 이라면, 후자는 최대우도추정법을 이용한 반복학 습 알고리즘이라고 할 수 있다. 이 중 EM 알고리 즘은 특히 인공지능을 연구하는 분야에서 통계적 기계학습법이란 이름으로 매우 활발히 연구되고

있으며 ‘확률론적으로 가장 그럴듯한 값’을 찾아 내는 방법인 만큼, ‘오차거리 합이 가장 작아지는 값’을 찾아내는 최소자승법 만큼이나 그 적용범위 가 넓다고 할 수 있겠다.

본 고에서는 통계적으로 공정상태를 진단하는 방법들에 대해 간략히 살펴보았다. 우선 공정이 단일 정상상태이고, 다중공선성이 약하고, 불완전 데이터가 없으며, 정규분포 특성을 갖는 극히 이 상적이나 현실감이 없는 경우를 시작으로 점차 전 제된 가정들을 제거해서 결국엔 실제 공정에 적용 가능한 다양한 형태의 공정진단 방법들을 유도하 였다. 온라인 측정기기와 정보통신 기술의 발달로 공정에서 발생되는 특징벡터를 얻기 위한 노력은 지속적으로 감소하는 반면, 특징벡터의 차원은 갈 수록 높아질 것이 기대된다. 따라서 이 고차원 특 징벡터를 얻어야 하는 근본 이유인 “이 공정의 현 재 상태는 어떤가?”란 물음에 대한 답이 될 수 있 는 공정진단기술에 대한 연구 역시 이에 발맞춰 진행되어야 하리라 기대한다.

그림 4. (A)다중확률분포 요인모델로 평가한 in-model 테스트 결과, (B)다중확률분포 요인모델로 평가한 in- control 테스트 결과.

(A) (B)