Journal of the Korean Institute of Industrial Engineers http://dx.doi.org/10.7232/JKIIE.2015.41.1.025
Vol. 41, No. 1, pp. 25-33, February 2015. © 2015 KIIE
ISSN 1225-0988 | EISSN 2234-6457 <Original Research Paper>
다중공선성과 불균형분포를 가지는 공정데이터의 분류 성능 향상에 관한 연구
이채진1, 2․박정술2․김준석2†․백준걸2
1LG전자 HE사업본부 / 2고려대학교 산업경영공학과
A Study on Improving Classification Performance for Manufacturing Process Data with Multicollinearity and Imbalanced Distribution
Chae Jin Lee1, 2․Cheong-Sool Park2․Jun Seok Kim2․Jun-Geol Baek2
1LG Home Entertainment Company
2School of Industrial Management Engineering, Korea University
From the viewpoint of applications to manufacturing, data mining is a useful method to find the meaningful knowledge or information about states of processes. But the data from manufacturing processes usually have two characteristics which are multicollinearity and imbalance distribution of data. Two characteristics are main causes which make bias to classification rules and select wrong variables as important variables. In the paper, we propose a new data mining procedure to solve the problem. First, to determine candidate variables, we propose the multiple hypothesis test. Second, to make unbiased classification rules, we propose the decision tree learning method with different weights for each category of quality variable. The experimental result with a real PDP (Plasma display panel) manufacturing data shows that the proposed procedure can make better information than other data mining procedures.
†
Keywords: Multicollinearity, Imbalanced Data, Multiple Hypothesis Testing, Weighted Decision Tree, Plasma Display Panel
1. 서 론
데이터마이닝은 복잡한 제조 공정의 대용량 데이터로부터 공정 상태에 대한 의미 있는 정보를 발견할 수 있는 유용한 방법으로, 품질 개선을 위한 중요 변수와 품질을 구분하는 규 칙을 탐색하기 위해 많이 이용된다. 제품의 품질은 다양한 공 정변수의 상호 작용에 의해 결정되기 때문에 생산 과정에서 수집되는 공정데이터를 분석하여 품질과 관련된 중요한 특 징을 찾아서 관리해야만 목표하는 품질 개선을 이룰 수 있다.
품질 개선을 위해서는 관심 대상인 불량품에 대한 데이터를
중심으로 분석하기 때문에 분류(Classification) 방법은 불량 발생의 원인이 되는 중요 공정변수를 찾고 품질 특성과 공정 변수간의 인과 관계나 규칙을 추론하기 위해 이용된다(Köksal et al., 2011). 그러나 다양한 형태로 수집된 대용량의 공정데 이터는 종종 공정변수간에 강한 상관관계가 있는 다중공선 성(Multicollinearity)과 불량품 범주의 수가 매우 적은 불균형 분포(Imbalanced distribution)를 가지는 특징으로 인하여 낮은 분류 성능을 얻게 되어 품질 개선을 위한 유용한 정보를 얻기 힘들다. 실제 공정데이터의 분류 성능이 낮은 이유는 다음과 같다.
이 논문은 2013년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(NRF-2013R1A1A2010019).
본 논문은 BK21 플러스 사업(고려대학교, 제조․물류분야에서의 빅 데이터 운용 사업팀)으로 지원된 연구임.
†연락저자 : 김준석, 136-701 서울시 성북구 안암동 5가 1번지 고려대학교 산업경영공학과, Tel : 02-3290-3396, Fax : 02-929-5888, E-mail : [email protected]
2014년 1월 20일 접수; 2014년 10월 4일 수정본 접수; 2014년 11월 3일 게재 확정.
26 이채진․박정술․김준석․백준걸
1.1 다중공선성에 의한 변수 선택 편의(Bias)
디스플레이(Display)나 반도체(Semiconductor) 공정과 같은 다단계 생산 공정(Multi-stage process)에서 수집된 공정데이터 는 변수 간의 상관관계가 강하고 품질변수와 공정변수간의 관 계가 복잡하다(Park and Byun, 2002). 상류공정(Upstream)과 하 류공정(Downstream)의 공정변수 간에 공선성(Collinearity)이 존재할 때 하류공정의 공정변수는 더 이상 중요하지 않은 변 수가 될 수 있고 품질과 연관이 없거나 중복된 변수가 존재할 수 있다(Cunningham et al., 1995). 일반적으로 품질에 영향을 주는 공정변수의 수는 적으면 적을수록 효과적인 품질 개선이 가능하기 때문에 변수의 차원 축소는 효과적인 분류 분석을 위해 중요한 절차 중 하나이다.
변수 선택(Variable selection)은 차원 축소의 한 가지 방법으 로 수많은 공정변수 중에서 관심 대상인 품질변수와 연관성이 있는 변수들을 찾아내는 것이 주된 목적이다. 일반적으로 변 수 선택은 변수를 탐색하는 평가 기준에 따라 필터(Filter) 접근 법, 래퍼(Wrapper) 접근법으로 나뉜다(Zeng and Cheun, 2008).
필터 접근법은 변수들을 상관계수와 같은 통계량에 따라 순위 를 부여하고 가장 높은 순위부터 선택하는 방법이다. 계산 방 법이 간단한 장점이 있으나 변수 간의 상관성을 고려하지 않 는 점과 선택된 변수의 개수를 결정할 수 있는 기준이 없는 단 점이 있다. 변수간의 상관에 의한 필터 방법 중 하나인 CFS (Correlation-based Feature Selection)는 설명 변수간의 강한 상호 작용이 있거나 변수 탐색 과정에서 변수와 변수, 변수와 범주 의 상관을 평가하는 함수가 국소 최대(Local maximum)가 되는 변수 집합이 선택되는 경우 분류 성능을 저하시키는 문제점이 있다(Hall, 1999).
래퍼 접근법은 분류나 회귀모델을 사용하여 모델의 성능을 최대화시키는 변수 집합을 선택하는 방법이다(John et al., 1994).
회귀분석의 단계적 선택 방법(Stepwise Regression)이 래퍼 접 근법의 한 예라 할 수 있다. 모델 기반의 특성 때문에 래퍼 접 근법은 필터 접근법과 비교하면 상대적으로 성능이 뛰어나다 는 장점이 있지만, 변수간의 강한 상관관계는 모델 기반의 변 수 선택 방법에 있어 다중공선성의 문제를 발생시킨다. 품질 특성이 양품과 불량품으로 구분되는 이진 분류(Binary classi- fication) 문제에서 품질에 영향을 주는 변수를 선택하기 위해 로지스틱회귀를 이용할 수 있다. 로지스틱회귀에서 일반적으 로 적용되는 최우추정법(Maximum likelihood estimation)은 다 중공선성이 존재할 경우 분산이 지나치게 증가하여 수렴하지 않는 문제가 발생하기 때문에 이 추정량에 바탕을 둔 변수선 택 결과는 심각하게 편의된다(Allison et al., 2004). 다중공선성 문제는 랜덤포레스트(Random forest)를 이용한 변수 선택에서 도 발생한다. 랜덤포레스트는 학습에 의한 분류 규칙의 해석 이 어려운 단점에도 불구하고, 의사결정트리(Decision tree)와 비교하면 예측력이 뛰어나고 순열 검정(Permutation test)을 이 용하여 공정변수가 분류에 미치는 영향을 나타내는 변수 중요 도를 제공하는 장점이 있어서 광범위한 분야에서 사용되고 있
다. 하지만 순열 검정은 잘 정의되지 않은(ill-posed) 방법으로 공정변수는 품질변수와 독립이고 모든 공정변수는 상호독립 을 가정한 검정이기 때문에 상관관계가 강한 변수에 더 많은 중요도 가중치를 부여한다. 따라서 변수 중요도는 다중공선성 이 높은 변수로 편의 되는 문제점이 있다(Strobl et al., 2008).
1.2 불균형분포에 의한 분류 성능 저하
일반적인 제조 공정에서 품질 측정 결과가 양품과 불량품으 로 구분될 경우 대부분의 공정데이터는 불량품이 매우 적은 불균형분포를 가진다. 불균형분포를 가지는 데이터의 분류 문 제의 경우 전체 오분류율(Misclassification rate)을 낮추기 위해 다수 범주(Majority class)로 분류를 많이 하게 되고, 소수 범주 (Minority class)는 다수 범주로 오분류가 되어 소수 범주의 오 분류율이 높아지게 된다(Weiss and Porvost, 2001). 이러한 불균 형분포의 분류 문제를 해결하기 위해 표본 추출(Sampling)과 오분류 비용(Misclassification cost)을 조정하는 방법이 이용된 다(Jang et al., 2008). 표본 추출에는 과소 표본 추출과 과대 표 본 추출이 있다. 과소 표본 추출은 정해진 규칙에 따라 소수 범 주의 수만큼 다수 범주에서 데이터를 추출하여 사용한다. 이 방법은 계산 시간이 매우 짧다는 장점이 있으나 다수 범주에 서 추출되는 데이터에 의해 분류 성능이 크게 영향을 받을 수 있는 단점이 존재한다. 과대 표본 추출은 정해진 규칙에 따라 다수 범주의 수만큼 소수 범주에서 데이터를 만들어 내는 방 법으로 모든 데이터의 정보를 사용할 수 있다는 장점이 있지 만 대용량의 공정데이터에 적용하면 계산 비용이 증가한다.
또한, 표본 추출 방법들은 학습 알고리즘과 성능 척도에 따라 분류 결과가 매우 의존적이다(Van Hulse et al., 2007). 오분류 비용 조정 방법은 데이터 구조는 그대로 유지하면서 소수 범 주 오분류에 가중치를 두어 데이터의 불균형을 해소하고자 하 는 방법이지만 실제 오분류 비용을 정확히 알 수 없다는 문제 점이 있다(Kim and Jeong, 2004).
따라서 본 논문에서는 앞서 지적한 공정데이터의 특징에 의 해 발생되는 분류 성능 저하를 개선하기 위해 다중 가설 검정 (Multiple hypothesis testing)을 이용한 후보 변수(Candidate vari- able) 선택과 품질변수의 범주에 가중치(Weight)를 부여한 의 사결정트리 모델 구축이 추가된 데이터마이닝 절차를 제안한 다. 제안된 절차와 방법은 국내 PDP(Plasma display panel) 제조 업체의 공정데이터에 적용하여 로지스틱회귀 및 랜덤포레스 트와 비교를 통해 분류 성능 향상 여부를 검증하고 품질 개선 효과를 확인하였다.
본 논문의 구성은 다음과 같다. 제 2장에서는 제안하는 데이 터마이닝 절차의 설명으로 데이터 사전분석, 후보 변수 선택, 가중치를 부여한 의사결정트리, 분류 성능 평가를 위한 척도 에 대해 설명한다. 제 3장에서는 실제 공정데이터를 이용한 실 험과 결과에 대해 설명하고 제 4장에서는 결론과 앞으로의 연 구 방향에 대해 서술한다.
다중공선성과 불균형분포를 가지는 공정데이터의 분류 성능 향상에 관한 연구 27
2. 제안 절차와 방법
<Figure 1>의 (a)는 데이터마이닝의 일반적인 절차로 이용되는 SAS사의 SEMMA 방법론의 개략도를 나타낸 것으로 SEMMA 는 데이터 추출(Sampling), 데이터 탐색(Explore)과 수정(Modify), 모델 구축(Model)과 평가(Assess)의 과정으로 구성된다(Fernandez, 2010). 그러나 다중공선성과 불균형분포의 특징을 가지는 공 정데이터의 분류 분석을 위한 데이터마이닝 절차에서는 중요 공정변수와 분류 규칙을 효과적으로 찾을 수 있는 방법이 추 가되어야 한다. <Figure 1>의 (b)는 본 논문에서 제안하는 데이 터마이닝 절차와 방법에 대한 개략도로서 크게 세 단계로 나 눌 수 있다. 첫 번째 단계는 데이터 탐색 과정으로 사전분석 (Pre-analysis)을 통해 수집된 데이터를 정제(Cleaning)한다. 두 번째 단계에서는 변수 선택 과정에서 나타나는 다중공선성의 문제점을 해결하기 위해 다중 가설 검정을 이용하여 후보 변 수를 선택한다. 세 번째 단계에서는 품질변수의 범주에 서로 다른 가중치를 부여한 의사결정트리를 구축하고 불량 발생 원 인이 되는 중요 변수와 규칙을 도출한다. 추가된 방법들은 분 류 성능을 높이기 위한 방법으로 이용되며 각 단계에 대한 자 세한 설명은 다음과 같다.
(a) SEMMA procedure (b) Proposed procedure Figure 1. Overall framework of the proposed procedure
2.1 데이터 사전분석
제조 공정의 측정 시스템으로부터 수집된 공정데이터는 결 측치(Missing value)를 포함하는 데이터가 많고, 제조 공정의 불확실성을 내재하고 있기 때문에 데이터를 정제하기 위한 사 전분석이 필요하다(Banks and Giovanni, 1991). 결측치 처리 방 법은 결측치가 포함된 변수와 관측치를 삭제하는 방법과 평 균, 중앙값, 회귀 분석, 선형보간법 등에 의한 데이터 추정 방 법이 있다(Pyle, 1999). 실제 공정데이터를 이용한 실험에서 결 측치를 추론하여 부여하면 데이터를 왜곡하여 나타낼 수 있는 위험이 있기 때문에 결측치가 포함된 변수나 관측치는 삭제시 켜서 데이터를 재구성할 수 있다(Byeon et al., 2004). 하지만 결
측치가 존재하는 공정변수 중에서 품질변수에 밀접한 관계가 있거나 결측치가 어떤 패턴을 가지고 있을 때에는 변수나 관 측치 삭제 방법은 데이터에 의한 결측치 추정 방법에 비해 분 석 결과가 편의 되는 문제점이 발생한다(Little and Rubin, 2002). 따라서 본 논문의 실험에 이용된 공정데이터에서는 공 정의 변화를 설명할 수 없는 분산이 0인 공정변수를 제거하여 데이터를 재구성 하였다.
2.2 다중 가설 검정
다중공선성이 존재하는 공정데이터에서 변수 선택 방법으 로는 품질변수와 공정변수 간의 상관계수를 이용한 가설검정 을 이용하여 품질에 영향을 줄 것으로 예상되는 공정변수를 선택할 수 있다. 그러나 변수의 수가 많은 공정데이터의 경우 각각의 공정변수에 대해 제1종 오류의 유의수준 0.05를 이용 한 가설검정을 행할 경우, 실제로는 귀무가설들이 모두 참일 경우라도 100개의 가설 중에 평균적으로 5개의 의미 없는 공 정변수가 잘 못 선택될 수 있다(Jang, 2013). 이러한 문제점을 해결하기 위해 다중 가설 검정을 이용한 변수 선택 방법이 제 안되었다(Farcomeni, 2008).
다중 가설 검정은 두 개 이상의 가설을 동시에 검정하는 방 법이다. 두 개 이상의 가설을 동시 검정하는 것은 각각의 검정 이 제1종 오류와 제2종 오류를 가지기 때문에 검정 전체의 오 류율을 측정하는 것이 명확하지 않다. 이 문제를 해결하기 위 해 FWER(Family-wise Error Rate)을 통제하는 Bonferroni 수정 (Bonferroni correction) 방법이 제안되었다(Hochberg and Tamhane., 1987). FWER 통제는 검정마다 제1종 오류를 사전에 정한 유의 수준에서 통제하는 것이 아니라 전체 검정의 오류율을 유의수 준으로 통제한다.
<Table 1>은 m개의 다중 가설 검정을 통해 발생할 수 있는 경우를 표현한 것으로 m0는 귀무가설 중 참인 가설의 수, V는 귀무가설 중 기각된 가설의 수, R은 전체 가설 중 기각된 가설 의 수를 의미한다.
Table 1. Outcomes of m tests of hypotheses
Accept null Reject null Total
Null true U V m0
Alternative true T S m-m0
Total m-R R m
FWER은 m개의 가설검정 중에서 거짓 양성이 1개 이상 발 생할 확률로 식 (1)과 같이 정의된다.
≥ (1)
FWER은 간단하게 다중 가설 검정의 문제점을 해결할 수 있는 장점이 있으나 가설의 개수가 증가할수록 유의수준이 급격히
28 Chae Jin Lee․Cheong-Sool Park․Jun Seok Kim․Jun-Geol Baek
감소하여 통계적 검정력(Power)이 낮아지는 단점이 있다(Storey, 2002). FWER 통제의 이러한 단점을 극복하기 위해 FDR(False discovery rate)을 통제하는 방법이 제안되었다(Benjamini and Hochberg, 1995). FDR은 식 (2)로 표현되며 전체 기각된 귀무가 설 중 거짓 양성의 기대 비율로 정의된다.
(2)
FDR 통제를 적용하는 방법은 FDR 수준(FDR level)을 로 고정하고 관측된 데이터의 유의확률(p-value)을 통해서 통제한 다. 동시에 검정된 가설의 개수가 m이라고 할 때, 구해진 m개 의 유의확률을 오름차순으로 정리한다. j번째 가설의 유의확 률 가
보다 작거나 같으면 대응하는 귀무가설을 기각
한다. 이 경우 가장 작은 유의확률은 Bonferroni 수정 방법에서 사용하는 의 유의수준에서 기각되고, 그 다음으로 작은 유 의확률부터는 Bonferroni 수정 방법보다 조금 더 관대한 규칙 이 적용되기 때문에 FDR 통제는 FWER 통제에 비해 제1종 오 류를 덜 엄격하게 통제함으로써 더욱 큰 검정력을 가진다 (Benjamini and Hochberg, 1995).
제 3.3절에서 실제 공정데이터를 이용하여 FWER 통제와 FDR 통제 방법으로 후보 변수를 선택하는 과정을 설명하고 각각의 방법으로 선택된 후보 변수를 이용한 분류 모델의 성 능을 비교하여 후보 변수 선택 방법을 결정한다.
2.3 가중치 부여 의사결정트리
효과적인 품질 개선을 위해서는 품질에 치명적인 영향을 주 는 중요 공정변수 및 중요 공정변수들을 최적화시킬 수 있는 정보가 필요하다. 그러므로 분류 결과의 해석이 어려운 인공 신경망(Artificial neural network)이나 공정변수들이 품질변수 에 미치는 교호 효과(Interaction effect)의 해석이 복잡한 로지스 틱회귀와 같은 방법은 품질 개선을 위한 분류 방법으로 적합 하지 않다. 따라서 품질에 영향을 주는 공정변수와 품질이 분 류되는 기준에 대한 정보를 쉽게 이해할 수 있는 형태로 제공 되는 의사결정트리는 실제 현장에서 품질 개선을 위한 효과적 인 공정데이터 분석 방법이 될 수 있다.
의사결정트리는 관측치들 사이의 동질성과 연관성이 최대 가 되도록 분류하는 변수를 선택하여 관측치들을 각각 동질의 집합으로 나누는 알고리즘으로 구성되며 끝 마디(Leaf node)에 속하는 모든 관측치가 같은 범주이거나 분류를 중지하는 정지 규칙을 만족할 때까지 반복해서 트리를 구축하는 비모수적 분 류 방법이다. 의사결정트리는 분류 규칙의 근거를 트리 구조 로 표현하기 때문에 변수들 간의 교호 효과를 해석할 수 있으 며 각 마디를 분할하는 변수를 통해 품질변수에 영향을 주는 변수를 선택할 수 있는 장점이 있다(Lemon et al., 2003). 일반적
으로 사용되는 의사결정트리 알고리즘으로는 지니 지수(Gini index) 또는 분산의 감소량을 분리 기준으로 하는 CART(Classi- fication and Regression Tree), 카이 제곱 통계량을 분리 기준으 로 하는 CHAID(Chi Squared Automatic Interaction Detection), 엔 트로피 지수(Entropy index)를 분리 기준으로 사용하는 C4.5 등 이 있다(Shmueli et al., 2001).
본 논문에서는 불균형분포 공정데이터의 분류 문제를 해결 하기 위해 제조 현장에서 일반적인 의사결정트리 알고리즘으 로 많이 활용되는 CART 알고리즘에 대해 품질변수 범주에 서 로 다른 가중치를 부여한 의사결정트리를 이용한다. 품질변수 가 n개의 범주를 갖고 특정 마디에서 k범주에 속하는 관측치들 의 비율을 라고 하면 분할 마디에서 불순도(Impurity)를 측정 하는 지니 지수의 오분류 확률 추정치는 식 (3)으로 정의된다 (Breiman et al., 1984)
⋯ (3)
품질변수의 범주에 가중치를 부여한 오분류 확률 추정치는 식 (4)과 같이 수정된다(Polo et al., 2006).
⋯ (4)
는 번째 범주의 가중치이고,
이다.
2.4 분류 성능 평가
불량 원인 분석을 위해 불균형분포를 가지는 공정데이터에 서 소수 범주인 불량품을 정확히 분류해서 품질 개선을 위한 정보를 제공할 수 있어야하기 때문에 분류 성능을 평가할 척 도의 선택이 중요하다. <Table 2>의 정오분류표(Confusion ma- trix)에 나타낸 것과 같이 소수인 불량 범주에 속하는 데이터를 양성(Positive)이라고 하고 다수인 양품 범주에 속하는 데이터 를 음성(Negative)이라고 할 때 일반적으로 분류 성능 척도로 식 (5)와 같이 계산되는 정확도(Accuracy)를 이용하나 불균형 분포의 분류 문제에 있어 참 음성(True Negative)이 정확도에 미치는 영향이 참 양성(True Positive)보다 크기 때문에 전체 오 류율을 줄이기 위해 소수 범주를 다수 범주로 분류하는 문제 가 발생한다.
Table 2. Confusion matrix
Predict
Positive Negative
Actual
Positive True Positive (TP)
False Negative (FN) Negative False Positive
(FP)
True Negative (TN)
A Study on Improving Classification Performance for Manufacturing Process Data with Multicollinearity and Imbalanced Distribution 29
Table 3. Dataset description
Variable Type Scale Number of variables Code
Quality Inspection Nominal 1 y
Process
Process Time Process Path Facilities Parameter
(1) Printer … (7) Furnace Environments Parameter Material Parameter Tool Parameter
Interval Nominal Continues Continues
… Continues
Interval Nominal Nominal
7 7 289 Confidential
… Confidential
29 2 4
x1○○○
x2○○○
x3○○○
x31○○
… x37○○
x4○○○
x5○○○
x6○○○
따라서 소수 범주와 다수 범주의 분류 성능을 구분하기 위 해 식 (6)와 식 (7)으로 표현되는 민감도(Sensitivity)와 특이도 (Specificity)가 필요하다(Lin and Chen, 2012).
(5)
(6)
(7)
하지만 민감도와 특이도는 서로 상충 관계가 있기 때문에 분류 모델의 성능을 동시에 파악하기가 어렵고 주된 관심 사 항인 불량의 분류 성능을 높이기 위해 민감도만을 성능 척도 로 이용하면 소수 범주에 과적합(Over-fitting)된 분류 모델이 구축될 수 있다. 이는 다수 범주의 분류 성능이 감소하여 전체 적인 분류 성능의 저하가 발생한다. 이런 문제점은 다수 범주 와 소수 범주의 분류 성능을 모두 고려한 기하 평균(Geometric mean)을 이용하면 해결 할 수 있다(Kubat et al., 1997). 기하 평 균은 소수 범주와 다수 범주의 분류 성능을 동등하게 고려할 수 있는 성능 척도이다. 기하 평균은 식 (8)과 같이 계산한다.
×
(8)
본 논문에서는 소수 범주인 불량품의 정확한 분류를 평가 하기 위한 민감도와 분류 모델의 과적합을 방지하기 위한 기 하평균을 분류 성능의 척도로 이용한다.
3. 실험 및 결과
본 장에서는 지금까지 논의된 공정데이터의 다중공선성과 불 균형분포 문제를 해결하기 위해 제안한 데이터마이닝 절차와 방법을 실험을 통해 검증한다. 실험에 이용된 데이터는 국내 PDP(Plasma display panel) 제조업체에서 신제품의 파일럿(Pilot)
생산 시 수집된 전극 형성 공정데이터로 신제품의 품질 개선 을 위해 불량 발생 원인을 도출하는 것을 목적으로 한다.
3.1 공정 소개와 데이터 설명
PDP는 기체 방전으로 생성된 플라즈마(Plasma)를 이용하여 영상을 표시하는 디스플레이 소자이다. PDP 전극은 각 셀(Cell) 에서 플라즈마를 생성시키는 전압을 인가하는 역할을 하므로 PDP 전극의 품질은 중요하게 관리되는 품질 항목이다(Boeuf, 2003). PDP 전극 공정은 <Figure 2>에 나타낸 것과 같이 전극 재 료인 페이스트(Paste)를 인쇄(Printing)하고 건조(Dry)하기 위한 공정, 전극 패턴(Pattern)을 형성하기 위한 노광(Exposure)과 현 상(Develop) 공정, 형성된 전극 패턴을 소결(Sintering)하는 소성 (Firing) 공정으로 구성된 다단계 공정이다. 이런 형태의 공정에 서는 하류공정의 품질이 상류공정의 품질에 영향을 줄 수 있고 공정의 레이아웃(Layout)이나 온도, 습도, 기류등과 같은 환경 적 요인에 의한 상호작용으로 공정변수 간에 상관관계가 발생 할 가능성이 있다.
Printing
Firing Develop
Dry
Exposure
Squeezer
Screen Mask
Photosensitivity Ag paste
UV exposure
Photomask Photo cured pattern
Electrode
Glass
Electrode
Figure 2. Fabrication of PDP electrode patterning process
수집된 데이터 구성은 <Table 3>에 나타내었다. 품질변수는 각 제품의 검사 완료 후 양품과 불량품으로 판정한 결과이며 불량률이 4%인 불균형분포를 가진다. 공정변수는 가공 시간
30 이채진․박정술․김준석․백준걸
(Process time), 공정 경로(Process path), 인쇄기(Printer), 소성로 (Furnace)와 같은 설비의 상태를 나타내는 설비 파라메타(Faci- lities parameter), 공정 내의 온도, 습도 등의 환경 파라메타 (Environments parameter), 재료의 Lot를 나타내는 재료 파라메 타(Material parameter), 인쇄와 노광 마스크를 나타내는 툴 파 라메타(Tool parameter)로 구분되며 모두 338개이다. 공정변수 들은 제조업체의 내부 정보 보안을 위해 다섯 자리 코드로 변 환하였다.
3.2 데이터 사전분석
제 2.2절에서 설명한 것과 같이 다단계 공정에서 수집된 데 이터셋(Dataset)은 결측치와 분산이 0인 데이터를 포함하고 있 기 때문에 데이터 정제를 실시한다. 결측치를 포함하고 있는 재료, 툴 파라메타와 설비 파라메타 중 분산이 0인 공정변수는 공정엔지니어와 상의하여 제거하였다. 재구성된 데이터셋은 관측치 913개와 공정변수 180개이다.
<Figure 3>은 공정변수간의 상관관계를 시각적으로 확인하 기 위해 상관행렬(Correlation matrix)을 열지도(Heat map)로 나 타낸 것으로 X축과 Y축은 공정변수를 의미하고 각 셀의 색이 짙을수록 상관계수가 크다는 것을 의미한다. <Figure 3>을 통 해 정제된 데이터셋에서 강한 상관관계가 존재하는 변수들이 상당히 많이 존재하는 것을 대략적으로 알 수 있다. 따라서 PDP 전극 품질 개선의 정보를 얻기 위한 효과적인 분류 학습 을 위해서는 다중공선성에 의해 발생되는 후보 변수 선택의 편의 문제를 해결할 수 있는 방법이 필요하다.
Figure 3. Correlation matrix(Heat map)
3.3 후보 변수 선택
공정변수간의 강한 상관관계로 인해 변수 선택 방법으로 일 반적으로 이용되는 로지스틱회귀 모형은 수렴하지 않는 문제 가 발생하여 후보 변수를 선택하는데 이용할 수 없다. 따라서
제 2.2절에서 기술한 다중 가설 검정을 이용하여 후보 변수를 선택한다. 유의확률(p-value)은 데이터 정제로 얻어진 180개의 공정변수에 대해 비모수 검정 방법 중 하나인 Kruskal-Wallis 검정(Kruskal-Wallis test)으로 구한다(Gibbons, 1993). <Figure 4>는 무작위로 선택된 4개의 공정변수에 대한 분포를 확인하 기 위한 히스토그램으로 공정변수는 비정규분포를 가지는 경 우가 많기 때문에 둘 이상의 모집단에 대해 중위수의 동일성 을 추론하는 Kruskal-Wallis 검정을 이용한다.
8000 7800 7600 7400 7200 7000 6800 100
75 50 25 0
392 384 376 368 360 352 200 150 100 50 0
42 4 41 6 40 8 40 0 39 2 38 4 100
75 50 25 0
562 5 550 0 537 5 525 0 512 5 500 0 487 5 300
200 100 0
x1001 x3796
x3201 x3512
Figure 4. Examples for distributions of process data
Kruskal-Wallis 검정으로 구한 조정되지 않은 유의확률(Un- adjusted p-value)을 이용하여 FWER 통제와 FDR 통제에 의한 조정된 유의확률(Adjusted p-value)을 구한다. m을 검정이 수행 되는 공정변수의 개수라고 하고 를 오름차순으로 정리된 j 번째 공정변수의 유의확률이라고 할 때, 각 다중 가설 검정 방 법에 의한 조정된 유의확률은 식 (9)와 식 (10)으로 나타낼 수 있다(Dudoit et al., 2003).
(9)
(10)
<Figure 5>는 Kruskal-Wallis 검정으로 구한 유의확률 및 FWER 통제와 FDR 통제에 의해 조정된 유의확률을 나타낸 것 이다. 귀무가설을 기각하는 오류율()을 0.05로 하면 FWER 통제는 38개, FDR 통제는 93개의 공정변수를 선택한다.
Figure 5. Adjusted p-values
다중공선성과 불균형분포를 가지는 공정데이터의 분류 성능 향상에 관한 연구 31
Table 4. The performance of classification learning
Sensitivity Geometric mean Weight of minority Weight of minority
Variable selection Classifier 0.5 0.96 0.5 0.96
FDR
① Decision tree
② Random forest
③ Logistic regression
0.676 0.786 0.171
0.983 0.941 0.059
0.792 0.849 0.031
0.954 0.961 0.028 FWER
④ Decision tree
⑤ Random forest
⑥ Logistic regression
0.395 0.802 0.177
0.867 0.941 0.059
0.555 0.881 0.034
0.866 0.961 0.028 no selection
⑦ Decision tree
⑧ Random forest
⑨ Logistic regression
0.563 0.791 0.229
0.861 0.941 0.423
0.660 0.867 0.085
0.867 0.961 0.164 3.4 분류 모델 구축
본 논문에서 제안하는 가중치 부여 의사결정트리의 분류 성 능을 확인하기 위해 통계 패키지 소프트웨어 R을 이용하여 실 험을 실시한다. 먼저 분류 학습에 적용할 가중치는 공정변수 180개를 모두 이용한 의사결정트리에서 소수인 불량품 범주 의 가중치를 0.5부터 1까지 0.1씩 증가시키면서 3겹 교차검증 (3 fold cross-validation)을 10회 반복하여 민감도가 최대가 되는 것을 선택한다. <Figure 6>은 가중치 에 따른 민감도를 나타낸 것으로 소수 범주의 가중치를 0.96일 때 민감도는 최대가 된다.
Figure 6. The sensitivity by weight of minority class
따라서 실험에 이용된 분류 모델의 가중치는 불량품 범주에 0.96, 양품 범주에는 0.04로 설정한다.
분류 모델의 성능 비교를 위해 변수 선택 방법 3수준(no se- lection, FWER, FDR), 소수 범주의 가중치부여 2수준(0.5, 0.96), 분류 모델 3수준(Logistic regression, Random forest, Decision tree) 으로 하는 다원배치실험에 대해 3겹 교차검증을 5회 반복하는 총 240회의 실험을 실시한다. 교차검증은 학습 데이터(Training data)에 의존하여 발생할 수 있는 과적합을 방지하기 위해 이 용되는 방법으로 전체 데이터를 임의로 3등분하여 데이터셋 을 3개를 구성하여 2개의 데이터셋을 학습 데이터로 이용하고 나머지 데이터셋으로 분류 모델의 성능을 평가한다. 동일한
방법으로 데이터셋 변경을 5번 반복하여 구한 민감도와 기하 평균으로 각 분류 모델의 성능을 평가한다.
<Table 4>는 실험 조건에 따른 각 분류기의 분류 성능을 비 교한 결과이다. 실험 결과에 의하면 민감도는 ①번 분류 모델 인 FDR 통제로 선택된 후보 변수와 가중치를 다르게 부여한 의사결정트리에서 0.983으로 가장 좋으며 공정데이터의 특징 을 고려하지 않은 ⑦번 의사결정트리의 민감도 0.563과 비교 할 때 74.6%의 성능 개선 효과가 있으며 기하평균 역시 0.660 에서 0.954로 52.2%의 성능 개선 효과가 나타난다.
본 논문에서 제안하는 절차의 분류 성능을 모든 실험 조건에 서 우수한 성능이 나온 랜덤포레스트와 비교를 위해 가중치를 다르게 부여한 경우의 분류 성능을 <Figure 7>에 나타내었다.
(a) Sensitivity
(b) Geometric mean
Figure 7. Performance comparison when weight of minority class is 0.96(DT : Decision tree, RF : Random forest)
32 Chae Jin Lee․Cheong-Sool Park․Jun Seok Kim․Jun-Geol Baek
Table 5. Frequency of variable selection No. Selected
Variable
Frequency of selection Decision tree Random forest 1
2 3 4 5 6 7 8 9 10 11 12
x1001 x3627 x3630 x3633 x3705 x3714 x3724 x3746 x3779 x3781 x3788 x3796
5
4 4 1
5
5 5 2 3 3 2 5 3 4 5 3 5
Table 7. Selected rules for quality improvement
No. Rule
1 IF x1001 ≥ 7246.5, THEN class is Pass.
2 IF x1001 < 7246.5, x3796 < 359.5, x3633 ≥ 22.72, THEN class is Fail.
3 IF x1001 < 7246.5, x3796 < 359.5, x3633 < 22.72, THEN class is Pass.
4 IF x1001 < 7246.5, x3796 ≥ 359.5, x3705 < 260.5, THEN class is Fail.
5 IF x1001 < 7246.5, x3796 ≥ 359.5, x3705 ≥ 260.5, THEN class is Pass.
Table 6. Correlation coefficient matrix of selected variables by random forest
x1001 x3627 x3633 x3705 x3724 x3746 x3779 x3781 x3788 x3796
x1001 1 0.39 0.31 0.06 -0.10 0.12 0.06 -0.09 -0.08 -0.06
x3627 0.39 1 0.01 -0.01 0.04 0.11 0.03 -0.09 0.06 -0.14
x3633 0.31 0.01 1 0.27 -0.12 0.03 0.08 0.02 -0.11 0.00
x3705 0.06 -0.01 0.27 1 -0.27 -0.06 0.02 -0.02 -0.26 0.10
x3724 -0.10 0.04 -0.12 -0.27 1 0.51 0.31 0.30 0.99 -0.63
x3746 0.12 0.11 0.03 -0.06 0.51 1 0.90 0.84 0.54 -0.83
x3779 0.06 0.03 0.08 0.02 0.31 0.90 1 0.94 0.38 -0.64
x3781 -0.09 -0.09 0.02 -0.02 0.30 0.84 0.94 1 0.35 -0.58
x3788 -0.08 0.06 -0.11 -0.26 0.99 0.54 0.38 0.35 1 -0.71 x3796 -0.06 -0.14 0.00 0.10 -0.63 -0.83 -0.64 -0.58 -0.71 1 FDR 통제에 의해 선택된 후보 변수 경우 의사결정트리의 민
감도와 기하평균은 랜덤포레스트와 비교할 때 평균은 통계적 으로 동등하나 분산이 적은 특징을 가진다. 또한 후보 변수 선택 방법 따른 의사결정트리 성능을 비교하면 FWER 통제가 FDR 통제 대비 낮은 성능을 보이는데 이것은 FWER 통제로 선택된 상대적으로 적은 수의 후보 변수 집합으로 인한 전체 데이터셋 의 정보 손실이 분류 성능에 영향을 준 것으로 판단된다.
또한 분류 모델의 민감도와 기하평균의 분산이 적다는 것은 모델의 신뢰성이 높다는 것을 의미하기 때문에 품질 개선을 위 한 공정데이터의 분류 분석에서 의사결정트리의 분류 성능 향 상과 신뢰도 확보를 위해서는 적절한 후보 변수 선택과 품질변 수의 범주에 가중치를 부여하는 것이 필요함을 알 수 있다.
3.5 중요 변수와 규칙 선택
<Table 5>는 FDR 통제에 의해 선택된 후보 변수와 불량 범 주의 가중치를 0.96으로 부여한 분류 학습 과정에서 3겹 교차 검증을 5회 반복할 때, 각 학습 결과에서 선정된 중요 변수들 이 선택된 빈도가 3회 이상인 변수를 정리한 표이다.
의사결정트리 학습에서 3회 이상 반복 선택되어 품질에 치 명적인 영향을 주는 것으로 판단되는 중요 공정변수는 x1001,
x3633, x3705, x3796 4개이다. 반면, 랜덤포레스트에 의한 학습 결과로 3회 이상 선택된 중요 변수10개에 대한 상관행렬이
<Table 6>의 상관계수행렬에서 나타나듯이 x3724, x3746, x3779, x3781, x3788, x3796 변수들 간에는 다른 변수들에 비해 상관계 수가 1과 -1에 가까운 강한 상관관계가 있어 품질에 치명적인 영향을 주는 중요 공정변수의 선택을 어렵게 한다. 따라서 본 논문에서 제안하는 품질 변수의 범주에 가중치를 부여한 의사 결정트리를 통해 도출된 품질 분류 규칙이 품질 개선을 위한 유용한 정보로 이용될 수 있다.
<Table 7>은 앞의 분류 분석 결과를 근거로 반복 교차 검증 시 가장 높은 분류 성능을 얻은 의사결정트리의 구조를 나타 낸 것으로 분류 기준이 되는 4개의 공정변수로 5개의 분류 규 칙이 해석이 쉬운 형태로 도출되는 것을 확인할 수 있다. 5개 의 분류 규칙 중 불량품이 발생되는 2번과 4번 규칙을 통해 불 량이 발생되는 원인에 대한 정보를 얻을 수 있다.
4. 결 론
본 논문에서는 불량 발생 원인이 되는 중요 공정변수와 규칙 을 찾기 위해 다중공선성과 불균형분포의 특징을 가지는 공정
A Study on Improving Classification Performance for Manufacturing Process Data with Multicollinearity and Imbalanced Distribution 33
데이터의 효과적인 분류 모델 구축을 위한 데이터마이닝 절차 와 방법을 제안하였다. 또한 실제 공정데이터를 이용한 실험 으로 제안하는 절차와 방법을 통해 우수한 성능의 분류 모델 이 구축되는 것을 입증하였다. 최종 선택된 중요 변수와 품질 분류 규칙은 관리도(Control chart)와 같은 통계적 공정 관리 방 법을 이용하여 관리하거나 공정 조건 재설정의 기준으로 활용 하면 품질 개선의 효과를 얻을 수 있을 것이다.
향후 연속형과 범주형이 혼합되어 있거나 품질변수가 여러 개인 공정데이터에서 효율적인 후보 변수 선택 방법과 불량률 변동에도 적용할 수 있는 가중치를 부여한 분류 모델이 함께 연구가 된다면 다양한 제조 공정에서 품질 개선을 위한 유용 한 데이터마이닝 방법으로 이용될 수 있을 것이다.
참고문헌
Allison, P., Altman, M., Gill, J., and McDonald, M. P. (2004), Conver- gence problems in logistic regression, Numerical issues in statistical computing for the social scientist, 238-252.
Banks, D. L. and Giovanni P. (1991), Preanalysis of Superlarge Indu- strial Datasets, I (S) DS, Duke University, USA.
Benjamini, Y. and Hochberg, Y. (1995), Controlling the false discovery rate : A practical and powerful approach to multiple testing, Journal of the Royal Statistical Society : Series B(Methodological), 57, 289- 300.
Boeuf, J. P. (2003), Plasma display panels : physics, recent developments and key issues, Journal of physics D : Applied physics, 36(6), R53.
Breiman, L., Friedman, J., Olshen, R., and Stone, C. (1984), Classifica- tion and Regression Trees, Wadsworth, Califonia, USA
Byeon, S. K., Kang, C. W., and Sim S., B. (2004), Defect Type Prediction Method in Manufacturing Process Using Data Mining Technique, Journal of industrial and systems engineering, 27(2), 10-16.
Cunningham, Sean P., Costas, J. Spanos, and Katalin Voros. (1995), Semiconductor yield improvement : results and best practices, Semi- conductor Manufacturing IEEE Transactions, 8(2), 103-109.
Dudoit, S., Shaffer, J. P., and Boldrick, J. C. (2003), Multiple hypothesis testing in microarray experiments, Statistical Science, 18(1), 71-103.
Farcomeni, A. (2008), A review of modern multiple hypothesis testing, with particular attention to the false discovery proportion, Statistical Methods in Medical Research, 17(4), 347-388.
Fernandez, G. (2010), Statistical Data mining using SAS applications, 2nd edition, CRC press, New Yok, USA.
Gibbons, J. D. (1993), Nonparametric statistics : An introduction Vol. 90, Sage, California, USA.
HALL, Mark A. (1999), Correlation-based feature selection for machine learning, Ph.D. Thesis, The University of Waikato.
Hochberg, Y. and Tamhane, A. (1987), Multiple Comparison Procedu- res, Wiley, New York, USA.
Jang, Y. S., Kim J. W., and Hur J. (2008), Combined application of data
imbalance reduction techniques using genetic algorithm, Journal of Intelligence and Information Systems, 14(3), 133-154.
Jang, W. C. (2013), Multiple testing and its applications in high-di- mension, Journal of the Korean data & information science society, 24(5), 1063-1076.
John, G. H., Kohavi, R., and Pfleger, K. (1994), Irrelevant features and the subset selection Problem, ICML, 94, 121-129.
Kim, J. H. and Jeong, J. B. (2004), Classification of class-imbalanced da- ta : Effect of over-sampling and under-sampling of training data, The Korean Journal of Applied Statistics, 17(3), 445-457.
Kubat, M., Holte, R., and Matwin, S. (1997), Learning when negative ex- amples abound, Proceedings of the 9th European Conference on Machine Learning, ECML-97, 146-153.
Köksal, G., Batmaz, İ., and Testik, M. C. (2011), A review of data mining applications for quality improvement in manufacturing industry, Expert Systems with Applications, 38(10), 13448-13467.
Lemon, S. C., Roy, J., Clark, M. A., Friedmann, P. D., and Rakowski, W.
(2003), Classification and regression tree analysis in public health : methodological review and comparison with logistic regression, Annals of Behavioral Medicine, 26(3), 172-181.
Lin, W. J. and Chen, J. J. (2012), Class-imbalanced classifiers for high-dimensional data, Briefings in bioinformatics, 14(1), 13-26.
Little, R. J. and Rubin, D. B. (2002), Statistical Analysis with Missing Data, 2nd edition, John Wiley and Sons, New York.
Park, J. H. and Byun, J. H. (2002), An analysis method of superlarge manufacturing process data using cleaning and graphical analysis, Journal of the Korean Society for Quality Management, 30(2), 72-85.
Polo, J. L., Berzal, F., and Cubero, J. C. (2006), Taking class importance into account, In Hybrid Information Technology, ICHITʼ 06. Interna- tional Conference on, 1, 1-6.
Pyle, D. (1999), Data preparation for data mining, Morgan Kaufmann, San Francisco, USA.
Shmueli, G., Patel, N. R., and Bruce, P. C. (2011), Data Mining for Business Intelligence : Concepts, Techniques, and Applications in Microsoft Office Excel with XLMiner, 2nd edition, Wiley, New York, USA.
Storey, J. D. (2002), A direct approach to false discovery rates. Journal of the Royal Statistical Society : Series B (Statistical Methodology), 64(3).
Strobl, C., Boulesteix, A. L., Kneib, T., Augustin, T., and Zeileis, A.
(2008), Conditional variable importance for random forests, BMC bi- oinformatics, 9(1), 307.
Van Hulse, J., Khoshgoftaar, T. M., and Napolitano, A. (2007), Experi- mental perspectives on learning from imbalanced data, In Proceed- ings of the 24th international conference on Machine learning, 935-942.
Weiss, G. M. and Provost, F. (2001), The effect of class distribution on classifier learning : an empirical study, Technical Report ML-TR-44, Department of Computer Science, Rutgers University.
Zeng, H. and Cheun, T. (2008), Feature selection for clustering high di- mensional data, Lecture Notes in Artificial Intelligence, 5351, 913- 922.