• 검색 결과가 없습니다.

Outlier Detection in Time Series Monitoring Datasets using Rule Based and Correlation Analysis Method

N/A
N/A
Protected

Academic year: 2021

Share "Outlier Detection in Time Series Monitoring Datasets using Rule Based and Correlation Analysis Method"

Copied!
11
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

† Department of Construction Information Engineering, Induk University (Corresponding Author : [email protected])

규칙기반 및 상관분석 방법을 이용한 시계열 계측 데이터의 이상치 판정

Outlier Detection in Time Series Monitoring Datasets using Rule Based and Correlation Analysis Method

전 제 성・ 구 자 갑1)・ 박 창 목2) Jesung Jeon ・ Jakap Koo ・ Changmok Park

Received: February 24th, 2015; Revised: March 2nd, 2015; Accepted: April 7th, 2015

ABSTRACT : In this study, detection methods of outlier in various monitoring data that fit into big data category were developed and outlier detections were conducted for both artificial data and real field monitoring data. Rule-based methods applied rate of change and probability of error for monitoring data are effective to detect a large-scale short faults and constant faults having no change within a certain period. There are however, problems with misjudgement that consider the normal data with a large scale variation as outlier caused by using independent single dataset. Rule-based methods for noise faults detection have a limit to application of real monitoring data due to the problem with a choice of proper window size of data and finding of threshold for outlier judgment.

A correlation analysis among different two datasets were very effective to detect localized outlier and abnormal variation for short and long-term monitoring dataset if reasonable range of training data could be selected.

Keywords : Monitoring data, Instrumentation, Outlier, Outlier detection, Rule-based method, Correlation analysis, Big data

요 지 : 본 연구에서는 빅데이터 범주에 포함되는 각종 계측 데이터를 대상으로 각종 이상치를 판단하기 위한 기법을 고안하고, 인공 데이터 및 실 계측 데이터를 이용한 이상치 분석을 수행하였다. 계측결과에 대한 1차 차분 값 및 오차율을 적용한 규칙기반 방법은 큰 규모의 Short fault 분석 및 일정 기간 계측값에 변화가 발생하지 않는 경우의 Constant fault 분석에 효과적으로 적용될 수 있었으나, 독립적인 단일 데이터셋만을 이용하는 관계로 큰 변화폭을 보이는 실 계측 데이터의 정상 데이터를 이상치로 오판하 는 문제점이 있었다. 규칙기반 방법을 이용한 Noise fault 분석은 적정 데이터 윈도우 사이즈의 선택 및 이상치 판정용 한계값 선정 상의 문제로 인해 실 계측 데이터 적용에 한계가 있었다. 이종 데이터 간 상관분석 방법은 학습 데이터의 적정범위 선정이 선행된다 면 장단기 계측 데이터의 이상 거동 및 국부적 이상치 판정에 매우 효과적으로 이용될 수 있음을 알 수 있었다.

주요어 : 계측 데이터, 계측기, 이상치, 이상치 판정, 규칙기반 방법, 상관분석 방법, 빅데이터 Journal of the Korean Geo-Environmental Society

16(5): 43~53. (May, 2015) http://www.kges.or.kr

ISSN 1598-0820 DOI http://dx.doi.org/10.14481/jkges.2015.16.5.43

1. 서 론

건설분야에서 수행되는 각종 시공내용 및 구조물에 대한 거동 감시, 이를 바탕으로 한 안정성 평가에 있어 과거부터 가장 널리 이용되고 있는 직접적 관찰방법은 계측이라 할 수 있다. 댐, 교량, 터널 등 대규모 구조물의 경우는 각 계측 항목 및 항목별 수량에 있어 상당한 규모가 반영되고 있으 며 최근 들어 계측규모는 더욱 증가하고 있는 경향을 나타 내고 있다. 댐을 예로 들면 필댐의 경우 시공 시 및 유지관 리 시의 거동감시를 위해 변형, 응력, 간극수압, 침투량, 지 , 수위 등의 계측을 목적으로 총 13항목 이상의 계측 내용 이 반영되고 있으며, 구조물 규모에 따라 차이가 발생하지 만 다목적댐을 대상으로 했을 때 총 설치되는 계측기는 대

략 160여 개에 이르고 있다. 특히 최근에는 계측기술의 발 전으로 인해 과거 수동계측 방식에서 점차 자동계측 방식으 로 계측방법이 변화되고 있으며, 이로 인해 계측주기도 과 거 수동계측 시의 일 단위, 주 단위, 월 단위에서 시간 단위 이내로 크게 단축되고 있다. 결과적으로 최근 구조물에 계 획되는 계측항목과 계측기 수량, 그들 각각에 대한 계측주 기 및 계측기간 등을 고려할 때, 구조물의 거동감시와 안정 성 평가를 위해 양산되는 계측 데이터는 그 규모에 있어 최 근 사회적 이슈로 대두되고 있는 빅데이터의 범주에 포함된 다고 할 수 있다. 다양한 구조물에서 양산되는 수많은 계측 데이터들을 여과 없이 구조물 안전도 판정에 이용할 시, 최 종 결과의 신뢰성은 크게 떨어질 수밖에 없다. 각종 센서들 을 통해 수집되는 방대한 양의 계측 데이터에는 다양한 물

(2)

리적 혹은 기계적 원인에서 야기되는 각종 오류 데이터들이 포함될 수 있으며, 이러한 오류 데이터의 영향으로 지속적 으로 상당 기간 계측 데이터에 이상치 발생이 나타나기도 한다. 즉 계측 데이터는 다양한 방법의 필터링 과정을 통해 이상치가 제거된 상태에서 구조물의 거동감시 및 안전관리 에 이용되는 것이 매우 중요하다(Williams et al., 2002). 과 거 국내에서 수행된 구조물 안전도 평가를 위한 데이터 마 이닝 관련 연구는 계측정보를 바탕으로 한 회귀분석 방법의 적용, 인공신경망 기법의 적용, 해석변수의 불확실성을 고 려한 신뢰도 평가 등 추후 거동예측에 관한 내용이 대부분 이었으며, 입력정보 즉 계측결과 자체에 대한 신뢰성 평가 및 분석에 관한 연구는 미비한 실정이었다.

국외에서는 센서 네트워크 분야를 중심으로 다양한 오류 데이터의 형태를 구분(Ramanathan et al., 2006; Ni et al, 2009;

Sharma et al., 2010)하고 각 오류데이터 형태별 이상치 판정 기법 들을 제시하는 연구가 진행되었다. 데이터에 대한 이상 치 판정은 개별 데이터 및 일정 공간 내의 복수 데이터를 대상 으로 각기 수행될 수 있는데, Mourad & Bertrand-Krajewski (2002)는 개별 시계열 데이터를 대상으로 이동평균법에 의 한 오류 데이터 판정기법을 연구하였다. Jeffery et al.(2006) 은 개별 데이터만을 대상으로한 분석보다는 데이터 간의 공 간적 상관성을 이용하여 오류 데이터 판정의 정확성을 높이 는 연구를 수행하였다. 과거 데이터들의 공간적 상관성에 기반한 오류 데이터 판정 기법으로서 베인지안 분석 방법이 널리 활용(Elnahrawy & Nath, 2003; Krishnamachari & Iyengar, 2004)되었으나, 개별 데이터 내에서 특정 한계값을 설정하 여 개별 오류 데이터를 선별하는 방식 및 각기 다른 내용과 형식을 나타내는 데이터 간 차별 경향 등으로 인해 건설분야 계측 데이터에 대한 범용적 이상치 판정 방법으로 적용되는 데는 한계가 있었다. Ni et al.(2009)은 센서 네트워크 분야 의 이상치 판정에 적용되는 알고리즘 대부분이 모호한 오류 데이터 형태 및 모델을 기반으로 생성되었기에 다양한 데이 터의 이상치 판정에 범용적으로 적용되는 데 한계가 있음을 지적하였다. 국내에서도 산업공학 및 센서 네트워크 분야에 서 국외와 유사한 연구결과가 발표되고 있으며, Park et al.

(2012)은 댐 계측 데이터에 대한 주파수 분석을 통해 계측 기 및 계측 신호의 신뢰성을 평가하는 연구를 수행하였다.

본 연구에서는 건설 관련 구조물에서 발생되는 계측 데이 터의 오류 형태를 정의하고, 확률론적 방법에 의한 개별 계 측 데이터셋 대상의 이상치 판정 및 회귀분석 방법에 의한 복수 계측 데이터셋 대상의 이상치 판정 연구를 수행하였 다. 오류 데이터의 형태별로 인공 오류 데이터를 생성하였 으며 이를 대상으로 각각의 방법을 이용한 이상치 판정을 수행하였고, 동일 방법을 이용하여 실제 수변 구조물 실 계

측 데이터를 대상으로 한 조건별 이상치 판정을 수행하였다.

2. Data faults

일반적인 센서 네트워크 분야에서 수집되는 다양한 계측 데 이터에는 많은 오류 데이터가 포함되어 있다. Ni et al.(2009) 은 과거 자신이 분석했던 각종 계측 데이터들 중 의미 있는 자료로써 활용이 가능했던 데이터는 전체의 49%에 불과했 다는 연구결과를 발표했으며, Szewczyk et al.(2004)은 Great Duck Island에서 측정한 장기간의 시계열 계측 데이터를 분 석한 결과 전체 데이터 중 기간별로 3%~60%에 해당하는 데이터가 오류 데이터임을 확인하였다. 국내에서도 한국수 자원공사에서 발표된 자료에 의하면 댐에 설치된 계측기의 신뢰도 평가 결과, 대략 40%의 정도의 계측기가 오류 데이 터를 양산하고 있는 것으로 나타났다. 국내에서는 구조물 계측 데이터 중 이상 데이터의 경시변화 형태를 일단전이, 다단전이, 단기 결측, 단기 급변동, 영구결측, 차별경향, 상 시격동, 주기변화, 특이변동 등의 대략 9가지 정도로 구분하 고 실제 계측결과에 대한 기술자의 판단에 따라 최종 오류 분석을 실시하는 것이 일반적이다. 그러나 이러한 방법은 많은 계측항목이 적용된 다양한 구조물의 방대한 계측 데이 터를 분석하는 데 한계가 있으며, 기술자의 주관적 판단에 따라 최종 평가결과의 신뢰성에 큰 차이가 발생할 수 있는 문제가 있다.

과거 국외 연구에서는 부적절한 하드웨어 설계, 기계적 고장, 전원장치 이상, 캘리브레이션 오류 등 다양한 데이터 이상치의 발생원인들을 분석하고, 오류 데이터의 형태를 크 게 Short fault, Constant fault, Noise fault로 구분(Tolle et al., 2005; Ramanathan et al., 2006; Werner-Allen et al., 2006) 하기도 하였다. Ni et al.(2009)은 데이터 경향에 따라 오류 데이터를 Spike fault, Stuck-at fault, Noise fault로 구분하였 는데 이는 근본적으로는 기존 Ramanathan et al.(2006)의 구 분방법과 유사한 결과를 나타내었다.

본 연구에서는 오류 데이터의 형태를 기존 연구에서와 같이 Short fault, Constant fault, Noise fault로 구분하였으며, 이러한 데이터 형태를 고려한 인공 오류 데이터 생성 및 이 상치 판정, 실제 계측 결과에 대한 이상치 판정 등의 연구를 수행하였다. Fig. 1은 OO지역 댐에서 측정된 간극수압 계측 결과를 나타낸 것으로서 Short fault란 연속된 두 개의 데이 터 값이 급변하는 경우를 의미한다. 이러한 경우 데이터의 평균 및 분산, 변화도 등이 왜곡되어 의미 있는 정보제공에 문제가 발생되며, 대부분 이러한 데이터는 삭제가 필요한 것이 일반적이다. Constant fault란 일정구간 내 연속된 다수

(3)

Fig. 1. Classification of faults in deployment of monitoring data from dam

Fig. 2. Decision of short faults using confidence interval by probability of error (=0.05)

Fig. 3. Histogram shape for finding threshold (Sharma et al., 2010) 데이터값이 일정하거나 변화량이 매우 작은 경우를 나타내

는 것으로서 일정한 계측값은 정상 계측값에 비해 매우 크 거나 작으며, 오류 데이터 발생 이후에 정상거동으로 복귀 하거나 오류 데이터 전후에서 데이터 노이즈가 발생하기도 한다. Noise fault란 일정 구간에서 데이터의 분산이 증가하 는 경우를 나타내는데 Short fault가 특정 개별 데이터에 해 당되는데 반해 Noise fault는 다수 데이터에 해당되는 특징 이 있다. 경우에 따라 Noise fault는 낮은 신뢰도 범위에서 의미 있는 정보를 제공하기도 한다.

3. 시계열 데이터에 대한 이상치 판정 방법

센서 네트워크 분야의 각종 데이터들에 대한 이상치 탐 지에 있어 베이지안 필터 및 인공 신경망 등을 활용한 다양 한 기법들이 연구되어 왔다. Sharma et al.(2010)은 센서 네 트워크 분야에서 활용 가능한 다양한 이상치 탐지기법을 규 칙기반의 방법, 회귀분석 등을 활용한 평가법, 시계열 분석 법, 학습기법에 의한 분석법의 4가지로 분류하였다. 본 연구 에서는 시계열 형태의 계측 데이터에서 발생하는 이상치를 판정 하는 데 있어 규칙기반 방법 및 상관분석 방법을 적용 하였다.

3.1 규칙기반 방법에 의한 이상치 판정 방법

규칙기반의 방법(rule-based method)은 일련의 시계열 데 이터를 대상으로 데이터의 변화추이를 분석하되 오류 데이 터 형태별로 각기 다른 방식의 이상치 판정을 수행하는 방 법이다. 본 연구에 적용한 규칙기반 방법은 특정 계측기에 서 생성되는 단일 데이터셋만을 대상으로 하되, 오류 데이 터의 종류 중 short fault와 noise fault에 대한 분석방법을 상 이하게 적용하였다. 규칙기반 방법을 이용한 Short fault를 판정하는 데 있어 Ramanathan et al.(2006)은 각 개별 데이 터의 변화량을 분석한 후, 그 값이 일정 한계값을 벗어날 때 의 데이터를 오류 데이터로 판정하였다. 본 연구에서는 일 련의 시계열 데이터를 대상으로 각 데이터 간 1차 차분 값 에 대한 히스토그램을 작성한 후, Fig. 2에서와같이 일정 오 차율(= 0.05~0.20)에 의한 신뢰구간을 설정하고 이를 만 족하지 않는 데이터를 Short fault로 판정하였다.

Noise fault의 경우는 일련의 시계열 데이터를 N개씩 일 정 간격의 군으로 분류한 후 해당 군의 표준편차를 연속해 서 계산하고 이 값이 일정 한계값을 벗어날 때의 데이터들 을 오류 데이터로 판정하였다. Sharma et al.(2010)은 일련 의 데이터들을 하나의 군으로 분류하는 기준값 N을 윈도우 사이즈로 표현하였다. Noise fault 판정에 있어서는 한계값 설정이 최종 판정결과에 큰 영향을 미치게 되는데 Shamar et al.(2010)이 제안한 히스토그램 방법에서는 Fig. 3에서와

(4)

같이 일련의 윈도우 내 데이터들의 표준편차 또는 차분 값 에 대한 히스토그램을 통해 특정 단절구간을 찾아내고 이를 한계값으로 선정하여 최종적인 이상치 판정을 수행하였다. 본 연구에서는 일정수의 데이터를 포함하는 특정 데이터 창 규모(window size N)에 대하여 데이터 창을 순차적으로 옮 겨가며 각 데이터 창에 포함된 계측값의 표준편차 히스토그 램을 작성하고, 다른 N값에 대한 작업을 반복적으로 수행하 였다. 다양한 N값에 대한 히스토그램을 대상으로 특정 표준 편차의 단절이 나타나는 N값 결과를 통해 Noise fault를 판 정하는 한계값을 산정하였다.

3.2 상관분석 방법에 의한 이상치 판정 방법

특정 계측기에서 생성되는 데이터는 공간적 일정 구역 내 타 계측 데이터와 상호 연관성을 갖는 것이 일반적이다. 즉 계측 데이터의 이상치를 판정하는 데 있어 특정 계측기에서 생성되는 단일 데이터셋만을 분석하는 것보다는 상호 연관 성을 나타낼 수 있는 타 계측 데이터를 동시에 분석하는 과 정을 통해 더욱 효과적인 이상치 판정이 가능하다. 본 연구 에서는 Eq. (1)과 같은 선형 최소자승법(LLSE) 회귀분석 모 델(Kailath, 1975)을 이용하여 일정 상관관계를 가질 수 있 는 두 세트의 계측 데이터 셋을 대상으로, 계측 데이터들 간 의 상관성에 기초한 특정 계측 데이터의 이상치 판정을 수 행하였다.

  

 

 

(1)

여기서

,

는 데이터셋 , 의 평균값,

, 의 공분산,

에 대한 분산,  내의 특정 데이터를 이용하여 산정한 예측값을 나타낸다. 본 연구에서는 두 계측기의 결과값을 대상으로 동일 기간에 대 한 학습 데이터셋을 선별하고 이를 이용하여 공분산 및 분 산, 평균 등 회귀분석 모델 파라미터를 산정하였다. 구성된 모델을 이용하여 특정 계측기의 결과값을 이용한 타 계측기 의 결과값을 예측한 후, 이를 실제 계측결과와 비교하는 과 정을 통해 최종적인 이상치 판정을 수행하였다. 회귀분석 방법을 적용한 이상치 판정에 있어 가장 중요한 과정은 각 데이터를 최종 이상치로 판단할 수 있는 한계값을 설정하는 것이다. 과거 이상치 판정 연구에서는 한계값 설정에 있어 최대 오차값()을 도입하거나 신뢰구간을 적용(Williams et al., 2002; Ramanathan et al., 2006; Sharma et al., 2010)하였 . 최대 오차값은 오류 데이터를 전혀 포함하지 않는 학습 데이터() 내의 값을 이용하여 Eq. (2)와 같이 산정될 수

있지만, 건설 구조물에서 측정되는 계측 데이터 중 오류 데 이터를 전혀 포함하지 않는 데이터를 선별하는 것은 현실적 으로 불가능한 과정이다.

      (2)

이상치 판정 시 가장 널리 적용되었던 방법은 규칙기반 방법에서와같이 일정 오차율에 의한 신뢰구간 산정 및 이 를 통한 오류 데이터의 구분이었다. 단일 계측기에서 생성 되는 단일 데이터셋만을 대상으로 한 규칙기반 방법과는 달 리 이종의 계측 데이터를 대상으로 한 상관분석 방법에서는 과거 경험적 오차율을 적용하기보다는 상관관계에 대한 적 합도를 판단하여 이를 이상치 판정에 적용하는 과정이 필요 하다.

본 연구에서는 실측값과 상관분석을 통한 예측값의 적합 도를 검정하는 방법으로서 Eq. (4)와 같은 추정 표준오차 ()를 이용하였다. 즉 Eq. (3)에서와 같이 특정 계측기의 측 정값 데이터셋 중, 실측 데이터와 타 계측 결과값을 이용한 예측값의 차이가 추정 표준오차의 일정 배율() 이상일 때 이를 이상치로 판정하였다. 만약 모든 계측값들이 회귀선 주위로 정규분포를 따른다고 가정하면 모든 계측값의 68%

는 ± 1 내에 들어오고, 95.5%는 ± 2 내에 99.7%는 ± 3 내에 들어오게 된다. 본 연구에서는 실제 계측값에 대한 이 상치 판정에 있어 = 1.5를 적용하였다.

     →  (3)

  

   

 

(4)

여기서 은 계측 데이터의 총 개수를 나타낸다.

4. 인공 데이터에 대한 이상치 판정

4.1 인공 오류 데이터 생성

본 연구에서는 계측 데이터에 대한 이상치 판정에 있어 규칙기반 방법 및 상관분석 방법을 적용하였으며, 각 분석 기법의 검증은 오류 데이터가 포함된 인공 데이터 및 보 구 조물에서 취득한 실 계측 데이터를 이용하였다. 분석기법의 기초 검증을 위하여 Short fault 및 Noise fault가 포함된 인 공 데이터를 생성하였다. 일단 시계열 모델 중 ARIMA 모 델을 이용하여 기본 시계열 데이터를 생성한 후, 선형 회귀

(5)

(a) Normal sensor readings

(b) Normal sensor readings and injected short faults

(c) Normal sensor readings and injected noise faults Fig. 4. Artificial monitoring data having short and noise faults

Fig. 5. Histogram for rate of change of artificial data (= 0.05)

Fig. 6. Detection of short faults in artificial data by rule-based method (= 0.05)

Table 1. Results of short fault detection by rule-based method

= 0.05 = 0.10 = 0.15 = 0.20

Z ( /2) 331.4 278.1 243.3 216.6

Z (- /2) -332.1 -278.8 -244.1 -217.3

N fault 57 57 57 57

N detection 44 50 53 55

분석 모델을 이용하여 기본 상관 시계열 데이터를 생성하였 다(Fig. 4(a)). 이러한 정상적 시계열 상관 데이터를 이용하 여 Fig. 4에서 보는 바와 같이, 정상 시계열 데이터 대비 불 규칙하게 정상값을 크게 상회하는 Short fault 및 Short fault 가 일정 기간 지속되는 형태의 Noise fault를 다수 생성하고 이들을 정상 시계열 데이터에 포함시키는 방식으로 최종적 인 인공 데이터를 생성하였다.

4.2 규칙기반 방법에 의한 인공 데이터 이상치 판정

규칙기반 방법을 적용하여 인공 데이터에 대한 이상치 판정을 수행하였다. 규칙기반 방법은 오류 데이터의 형태별 로 상이하게 적용되었는데 Short fault의 경우 각 인공 데이 터의 1차 차분 값에 대한 히스토그램과 오차율 적용을 통하 여 이상치 판정을 수행하였다. Fig. 5와 Fig. 6은 Short fault 가 포함된 인공 데이터의 1차 차분 값 히스토그램 및 오차

=0.05 적용조건에 대한 최종 이상치 판정결과를 나타 낸다. 총 50개 구간에 대해 작성된 1차 차분 값 히스토그램 은 일정 차분 값을 중심으로 한 정규분포 형태를 나타내고 있 으며, 신뢰구간 95%에 대한 이상치 판정결과 전체 오류 데 이터 57개 중 44개를 이상치로 판정할 수 있었다. Table 1은 각 오차율에 따른 이상치 판정 결과를 나타낸 것으로서 오 차율을 0.2로 설정하였을 때는 거의 모든 Short fault가 이상 치로 구분되는 결과를 확인할 수 있었다. 그러나 규칙기반 방법은 특정 계측기에서 생성되는 단일 데이터셋 만을 대상 으로 한 분석이므로 큰 오차율의 적용은 실제 발생 가능한 정상 데이터를 오류 데이터로 오판할 수 있는 가능성을 동 시에 수반하게 된다.

Noise fault의 경우 특정 윈도우 내의 인공 데이터에 대한 표준편차를 구하되 전체 인공 데이터를 대상으로 이러한 윈 도우를 이동시켜가며 각 윈도우별 표준편차를 구하고 최종

(6)

Fig. 7. Histogram for standard deviation of artificial data as window size

Fig. 8. Detection of short faults in artificial data by LLSE method 적으로 이들 표준편차에 대한 히스토그램을 작성하였다.

Fig. 7은 윈도우 사이즈 N=10, 20, 30, 40, 50, 60 조건에 대 한 윈도우별 표준편차 히스토그램을 나타낸다. 최종 이상치 판정에 적용될 한계값을 산정하기 위한 히스토그램의 단절 부분을 살펴보면 N=10, 20, 30일 때 모두 상이한 결과를 나 타내고 있으며, N=40, 50, 60에서는 단절 부분 자체가 보이 지 않았다. 즉 규칙기반 방법에 의한 이상치 판정에 있어 Noise fault의 판정은 한계값 산정 시의 불확실성으로 인해 그 신뢰도가 떨어지는 것으로 나타났다.

4.3 상관분석 방법에 의한 인공 데이터 이상치 판정

선형 회귀분석 방법(LLSE)을 이용하여 상관성을 갖는 복 수의 인공 데이터셋에 대한 이상치 판정을 수행하였다. 센 서 1 데이터셋에는 정상 시계열 데이터와 함께 Short fault 및 Noise fault가 각각 포함되어 있으며, 센서 2 데이터셋은 정상 시계열 데이터와 상관성을 갖는 인공 데이터이다. 두 데이터셋 초반부에서 총 300개의 학습 데이터를 선별하고 이를 통해 각 데이터셋의 평균, 분산, 공분산 등의 모델값을 평가한 후, Eq. (1)을 이용하여 학습 데이터 이후 214개 데 이터를 대상으로 센서 2에 의한 센서 1의 예측값을 산정하 였다. 최종적인 이상치 판정은 Eq. (4)와 같은 추정 표준오 차를 이용하되 = 1.5를 적용하였다. Fig. 8 및 Fig. 9는 상 관분석 방법에 의한 Short fault 및 Noise fault 각각의 판정 결과를 나타낸다. 센서 1 데이터셋에는 오류 데이터가 포함 되어 있으나, 이러한 데이터셋과 센서 2 데이터셋의 상관분 석을 통해서도 각각의 오류 데이터가 매우 정확하게 탐지 되는 것을 알 수 있으며, 특히 급격한 값의 변화 후에 일정

기간 지속되는 Noise fault도 효과적으로 탐지되었다. 물론 이러한 결과는 센서 1 및 센서 2의 데이터셋이 확실한 상관 성을 보이는 관계에서 도출될 수 있는 것으로서 본 연구에 적용한 센서 2의 인공 데이터셋은 기본적으로 센서 1 데이 터셋과 상관관계를 갖도록 생성되었기에 상관분석을 통한 이상치 판정의 정확도가 매우 높았던 것으로 판단된다.

(7)

Fig. 9. Detection of noise faults in artificial data by LLSE method

Fig. 10. Monitoring system of concrete weir

Fig. 11. Pore water pressure (PW1~PW6) and water level of concrete weir

5. 실 계측 데이터에 대한 이상치 판정

5.1 보 구조물에 대한 실계측 데이터

본 연구에서는 제안된 이상치 판정기법을 이용하여 오류 데이터가 포함된 인공 데이터 대상의 이상치 분석과 함께 수변 구조물에서 측정된 실 계측 데이터를 대상으로 한 이 상치 분석을 수행하였다. 대상 구조물은 4대강 사업의 일환 으로 낙동강 OO지역에 건설되었으며 가동보와 고정보를 포함한 길이 878m, 높이 11m의 다기능 보이다. Fig. 10은 보 구조물에 설치된 주요 계측기 배치현황을 나타낸 것으로 서, 소수력 발전소 상・하류 및 중앙가동보 상・하류, 고정보 상・하류 각각에 간극수압계(PW1∼PW6)가 기초 지반에 설 치되어 있고, 소수력 발전소 좌・우측에 응력계(SG)와 무응 력계(NS), 소수력 발전소와 가동보 상단에 GPS 변위계(MG), 지진계(AC) 등이 설치되어 있다. 지반공학적 관점에서 보 구

조물의 안정성 평가에 있어 가장 큰 관심사는 상류 저수위 변화에 따른 기초지반의 간극수압 변화이다. Fig. 11은 동일 횡단면 상에 설치된 간극수압계들의 계측결과를 저수위와 함께 나타낸 것으로서 저수위는 담수 후 측정 개시일부터의 계측값을 나타낸다. 동일 횡단면 상에 설치된 복수의 간극 수압계 계측결과는 상호 연관성을 보이는 것이 일반적이며 이는 상류 저수위 변화와도 일정한 연관성을 보이게 된다.

실 계측결과에서 보듯이 PW-1과 PW-2, PW-5와 PW-6은 상 호 변화패턴에 있어 유사한 경향을 나타내고 있으며 이는 저 수위 변화와도 일관된 경향을 보이고 있으나, PW-3과 PW-4 는 계측 중반기 이후 상호 차별화된 거동을 나타내고 있다.

5.2 규칙기반 방법에 의한 실계측 데이터 이상치 판정

인공 데이터에 대한 이상치 판정 시와 동일한 방식의 규 칙기반 방법을 적용하되 보 구조물에서 측정된 실계측 데이 터를 대상으로 한 이상치 분석을 수행하였다. 본 연구에서 는 계측항목 중 기초지반 세굴 등과 관련하여 구조물 안전 에 가장 큰 영향을 미치는 기초부 간극수압 계측결과에 대 한 이상치 분석을 실시하였다. 초기의 저수위 증가구간 및

(8)

= 0.05 = 0.10 = 0.15 = 0.20

Z ( /2) 3.43 2.91 2.51 2.31

Z (- /2) -3.05 -2.53 -2.19 -1.93

N detection 46 64 73 87

・ PW-3 : pore water pressure

Fig. 12. Detection of short faults in field monitoring data by rule-based mehtod 일정 저수위 유지구간을 모두 포함하여 간극수압 계측 시점

부터의 모든 데이터를 대상으로 분석을 수행하였다. Short fault와 Noise fault 각각에 대한 이상치 분석을 수행하였으 며, 분석 방법은 인공 데이터의 경우와 동일하게 적용하였 다. Short fault의 경우 특정 간극수압계에서 생성되는 단일 데이터셋을 대상으로 각 일자별 간극수압에 대한 1차 차분 값을 산정하고, 이에 대한 히스토그램 작성과 오차율 적용 을 통해 최종적인 이상치 판정을 수행하였다.

Fig. 12는 PW-3 계측결과에 대한 오차율별 이상치 판정 결과를 나타낸다. 간극수압은 담수과정에 따라 계측 중반부 까지 지속적으로 증가하는 경향을 나타내며, 일정한 저수위 조건에 도달해서는 큰 증감을 나타내지 않고 있다. 그러나 결과에서 알 수 있듯이 계측 중반부까지 저수위 증가에 따 른 정상적 증가 거동을 보이는 간극수압 계측결과 중 상당 수가 이상치로 판정되었으며, 오차율을 증가시킬수록 이상 치로 판정되는 계측값의 수가 증가하였다. 즉 규칙기반 방 법에 의한 이상치 판정 시 정상적 간극수압 증가구간에서의 계측값 중 상당수가 이상치로 판정되는 과다 오류 판정 결 과가 나타났다. 이는 특정 계측기에서 생산되는 단일 데이 터셋만을 대상으로 한 규칙기반 방법상의 한계라 판단된다.

일정한 수위유지 구간에 비하여 초기 담수과정에서는 값의 변화가 상대적으로 크게 나타나게 되며 전체 구간의 데이터 를 대상으로 한 분석에서는 이러한 수위증가에 따른 정상적

간극수압 증가구간의 상당수 데이터를 이상치로 오인하게 되는 것이다. 이러한 오판 결과를 방지하기 위해서는 전체 적인 수위증감 구간을 구별하여 별도의 분석을 수행하는 방 법이 있을 수 있으나 이 역시 근본적 해결책은 되지 못할 것으로 판단되며, 궁극적으로는 단일 데이터셋에 대한 규칙 기반 방법상의 평가와 이종 데이터셋 간의 상관분석 방법에 의한 평가가 복합적으로 요구된다고 할 수 있다. Noise fault 의 경우는 인공 데이터의 경우와 마찬가지로 윈도우 사이즈 별 표준편차 히스토그램 결과를 통해 적정 이상치 판정 한 계값을 산정하는 데 어려움이 있었으며, 그 신뢰도는 인공 데이터에 비해 더욱 감소하였다.

5.3 상관분석 방법에 의한 실계측 데이터 이상치 판정 OO지역 보 구조물에서 측정한 간극수압 계측결과를 대 상으로 상관분석 방법에 의한 이상치 분석을 수행하였다.

간극수압 계측기는 3개의 동일 횡단면 내 상・하류부 기초지 반에 각각 설치되어 있는바 그 각각의 계측값은 일정한 상 관관계를 보일 수 있으며, 또한 각 계측기에서의 간극수압 과 저수위 변화도 일정한 상관관계를 나타내는 데이터셋이 라 할 수 있다. 본 연구에서는 간극수압 변화에 가장 큰 영 향을 미치는 상류 저수위를 포함하여 공간적 상관성이 예측 되는 개소별 간극수압을 대상으로 이상치 분석을 수행하였 다. 즉 PW-3의 경우를 예로 들면, PW-3 계측결과와 상류

(9)

Fig. 13. Prediction of PW-3 value and detection of faults using reservior water level by LLSE-based mehtod

Fig. 14. Prediction of PW-4 value and detection of faults using reservior water level by LLSE-based method

저수위 데이터 및 PW-1, PW-4, PW-5 간극수압 계측결과를 각각 조합하되 각각의 조합 경우에 포함되는 계측값을 대상 으로 초반 학습 데이터 선별 및 기초 상관성 분석을 수행한 , 타 계측결과를 이용하여 PW-3 값을 예측하고 그 결과를 실제 PW-3 계측값과 비교하는 방식으로 전체적인 분석을 수행하였다. 회귀분석을 수행하는 데 있어 각 간극수압 계 측값을 그대로 이용하는 것보다는 1차 차분 값 산정을 통한 정상 시계열 형태로의 데이터 변환 후 이용하는 것이 최종 적인 이상치 판정에 더욱 효과적인바, 본 연구에서도 저수 위와 간극수압 계측값의 1차 차분 값을 대상으로 분석을 수 행하였다.

Fig. 13은 저수위 데이터와 PW-3 계측결과를 대상으로 한 상관분석 방법의 적용 결과를 나타낸 것으로서 저수위를 이 용하여 특정 예측 기간에 대한 PW-3 값의 예측 결과를 나타 낸다. 저수위 측정시점을 고려하여 두 데이터셋에 대한 학습 데이터는 초기 담수 후 15개월 가량(2011. 09. 22.∼2012. 12.

10.)의 총 300개 데이터를 대상으로 하였다. 학습 데이터에 는 최소한 전체적인 데이터의 절대값 분포 및 경시변화 상 에서 판단 가능한 계측기 망실 및 오작동 등의 대규모 오류 를 포함하지 않아야 하지만 어느 정도 수준의 오류는 포함 되어도 무방하다. 학습 데이터를 대상으로 한 두 데이터셋 의 상관계수는 0.84, 공분산은 11.74로 나타났다. 상관분석

방법에 의한 데이터 예측은 학습 데이터 이후 10개월 기간 에 해당하는 총 291개 데이터를 대상으로 수행되었다. 최종 적인 이상치 판정은 인공 데이터 평가 시와 동일하게 추정 표준오차를 이용하되 = 1.5를 적용하였다. 전체적인 두 데 이터 경향 및 상관계수 값에서 알 수 있듯이 두 데이터셋은 어느 정도 높은 수준의 상관성 및 일관된 변화 경향을 보이 고 있으며, 분석 결과에서도 총 291개 데이터 중 28개 데이 터만이 이상치로 판정되었다.

저수위 데이터 및 PW-4 계측결과를 대상으로 한 유사 분 석을 실시하였는데 Fig. 14는 저수위 데이터를 이용하여 PW-4 계측결과를 예측하고 이상치를 판정한 결과를 나타 낸다. 분석에 적용된 학습 데이터와 예측 데이터의 기간 및 최종 이상치 판정방법은 앞선 PW-3 경우와 동일하며, 학습 데이터를 대상으로 한 두 데이터셋의 상관계수는 –0.75, 공 분산은 –12.791로 나타났다. 저수위와 PW-4 계측값을 살펴 보면 초기 담수시점을 지나 저수위는 급격히 증가한 후 일 정 범위 내에서 소폭 변화되는 반면 PW-4의 간극수압은 저 수위 증가구간에서도 지속적으로 감소하며 부분적 급락을 반복하다 최종적으로는 0에 가까이 수렴하는 이상 거동을 나타내고 있다(Fig. 11). 이러한 이상 거동이 확인됨에도 불 구하고 저수위를 이용한 PW-4 예측결과 상에는 다량의 이 상치 판정결과가 나타나고 있지 않다. 학습 데이터 내에 확

(10)

Fig. 15. Prediction of PW-4 value and detection of faults using PW-3 data by LLSE-based method

연한 이상 거동을 나타내는 데이터가 다량 포함되었음에도 불구하고, 학습 데이터 선별 기간 내에서 상관관계 상 음의 값 을 갖는 비교적 높은 정도의 모순된 상관성이 나타났으며 실 제 예측 기간 내에서 각 데이터들의 차분 값에 확연한 변화 가 없었기에 이러한 모순된 결과가 도출되었다고 판단된다.

PW-4 계측결과를 예측하는 데 있어 저수위가 아닌 공간 적 상관관계를 가질 수 있는 PW-3 데이터를 이용한 이상치 분석을 수행하였으며 그 결과는 Fig. 15와 같다. 학습 데이 터의 선정은 두 계측기 모두 전체적 결과값 및 시계열 거동 상에서 대규모 오류가 포함되지 않은 구간 내의 데이터를 대 상으로 수행되어야 한다. 학습 데이터는 초기 두 계측기 측 정 시점부터 일정한 증가경향을 보이는 구간까지의 66개 데 이터를 대상으로 하였으며, 이 기간 학습 데이터를 대상으 로 한 두 데이터셋의 상관계수는 0.97, 공분산은 250.4로 나 타났다. 상관분석 방법에 의한 PW-4 값의 예측은 총 185개 데이터를 대상으로 수행되었다. 결과에서 알 수 있듯이 이 상거동이 발생하는 2011년 하반기부터의 간극수압 결과 중 상당수가 이상치로 판정되었다. 이를 통해 상관분석을 수행 하여 이상치를 판단하는데 있어서는 적정 학습 데이터의 선 정이 매우 중요하며, 공간적 상관관계에 있는 복수 데이터 를 추가로 분석하여 이상치 판정결과의 적성성 판단에 활용 하는 것이 필요함을 알 수 있었다.

6. 결 론

각종 건설공사와 시설물 유지관리에 있어 장기간에 걸친 다양한 항목의 계측 및 결과분석은 가장 기본적 안전관리 업무로 인식되고 있다. 최근에는 자동계측 기술의 발달에 따라 계측주기는 매우 짧아지되 계측항목은 지속적으로 증 가하고 있는 추세이며, 이로 인해 장기간에 걸쳐 양산되는 계측 데이터의 수는 가히 빅데이터 수준에 육박한다고 할 수 있다. 그러나 이러한 다량의 계측 데이터에는 수많은 오 류 데이터가 포함되어 있으며, 이러한 오류 데이터는 계측 값을 이용한 최종적인 안전성 분석결과에 큰 영향을 미치게 된다. 본 연구에서는 각종 계측 데이터에 포함되는 각종 이 상치를 효과적으로 분석하기 위한 기법을 고안하고, 인공 데이터 및 실 계측 데이터를 활용한 이상치 분석을 수행하 였다.

건설분야 계측 데이터에서 발생할 수 있는 오류 데이터 의 형태를 Short fault, Constant fault, Noise fault로 구분 (Ramanathan et al., 2006)하였으며, 이러한 구분은 실제 계 측 데이터에서 발견되는 각종 이상치를 포괄적으로 포함할 수 있는 실용적 구분이라고 판단된다.

특정 계측기에서 생성되는 단일 데이터셋을 대상으로 규 칙기반 방법을 이용한 이상치 분석을 수행하였다. 인공 데 이터 및 실 계측 데이터에 대한 이상치 분석 결과, 각 계측 결과에 대한 1차 차분 값 및 일정 오차율 적용을 통해 Short fault 판정이 효과적으로 수행될 수 있음을 확인하였다.

그러나 오차율에 따라 이상치로 판정되는 데이터 수가 증가하는 문제 및 실 계측 데이터 분석 시 정상적 증가경향 을 나타내는 구간에서 과다한 이상치 판정 등의 문제점이 발생하였다. 이는 특정 계측기에서 생성돼 단일 데이터셋만 을 대상으로 한 규칙기반 방법상의 한계라 할 수 있으며, 이 를 통해 적정 오차율의 반영 및 이종 데이터 간 상관분석 방법의 복합적 적용이 요구됨을 확인할 수 있었다.

규칙기반 방법을 통한 Noise fault의 분석에서는 적정 윈 도우 사이즈의 선택과 이를 통한 이상치 판정용 한계값 산 정이 매우 중요하였으나, 인공 데이터 및 실 계측 데이터의 분석 결과 이들에 대한 정량적 산정방법 도출에 한계가 있음 을 알 수 있었다. 즉 규칙기반 방법은 큰 규모의 Short fault 분석 및 일정 기간 계측값에 변화가 발생하지 않는 경우의 Constant fault 분석에 효과적으로 적용될 수 있음을 알 수 있었다.

이종 데이터 간 상관분석을 통하여 인공 데이터 및 실 계 측 데이터에 대한 이상치 분석을 수행한 결과, 상관성이 확 인된 두 계측결과 간의 상호 예측 정도는 매우 우수하게 나

(11)

타났으며, 특정 오류 데이터 및 상당 기간 시계열 구간에 대 한 전체적 이상치 판정에도 본 방법은 매우 효과적임을 알 수 있었다. 특히 규칙기반 방법을 통해 판단할 수 없는 완만 한 데이터 변화 경향에서도 이종 데이터의 상관분석을 통해 데이터의 전체적인 이상 거동을 판단할 수 있었다. 이러한 상관분석 방법의 적용 시 적정 학습 데이터의 선정이 매우 중요하며, 공간적 상관관계에 있는 복수 데이터를 추가로 분석하여 이상치 판정결과의 적성성 판단에 활용하는 것이 필요함을 알 수 있었다.

감사의 글

본 연구는 국토교통부/국토교통과학기술진흥원 건설기 술연구사업의 연구비지원(14SCIP-B065985-02)에 의해 수 행되었습니다.

References

1. Elnahrawy, E. and Nath, B. (2003), Cleaning and querying noisy sensors, Proc. of 2nd ACM International Conference on Wireless Sensor Networks and Applications, USA, pp. 78~87.

2. Jeffery, S. R., Alonso, G., Franklin, M. J., Hong, W. and Widom, J. (2006), Declarative support for sensor data cleaning, Proc. of 4th International Conference on Pervasive Computing, Ireland, pp. 83~100.

3. Kailath, T. (1975), Square-root algorithms for least-squares estimation, IEEE Trans. Automatic Control, Vol. 20, No. 4, pp.

487~497.

4. Krishnamachari, B. and Iyengar, S. (2004), Distributed bayesian algorithms for fault-tolerant event region detection in wireless sensor networks, IEEE Trans. Vol. 53, No. 3, pp. 241~250.

5. Mourad, M. and Bertrand-Krajewski, J. L. (2002), A method for automatic validation of long time series of data in urban hydrology, Water Science & Technology, Vol. 45, No. 4~5, pp.

263~270.

6. Ni, K., Ramanathan, N., Chehade, M., Balzano, L., Nair, S., Zahedi, S., Pottie, G., Hansen, M. and Srivastava., M. (2009), Sensor network data fault types, ACM Transactions on Sensor Networks, Vol. 5, No. 3, Article25, pp. 1~29.

7. Park, H. C., Hwang, H. J. and Lee, J. W. (2012), Development of new data analysis method to evaluate reliability of the sensor or measured data, Journal of the Korea Institute for Structural Maintenance and Inspection, Vol. 16, No. 6, pp. 34~44.

8. Ramanathan, N., Balzano, L., Burt, M., Estrin, D., Kohler, E., Harmon, T., Harvey, C., Jay, J., Rothenberg, S. and Srivastava, M. (2006), Rapid deployment with confidence: calibration and fault detection in environmental sensor networks. Tech. Rep.

62, CENS. pp. 1~14.

9. Sharma, A. B., Golubchik, L. and Govindan, R. (2010), Sensor faults: detection methods and prevalence in real-world datasets, ACM Transactions on Sensor Networks, Vol. 6, No. 3, Article23.

pp. 1~39.

10. Szewczyk, R., Mainwaring, A., Polastre, J., Anderson, J. and Culler, D. (2004), An analysis of a large scale habitat monitoring application, Proc. of the 2nd international conference on Embedded networked sensor systems, USA, pp. 214~226.

11. Tolle, G., Polastre, J., Szewczyk, R., Culler, D., Turner, N., Tu, K., Burgess, S., Dawson, T., Buonadonna, P., Gay, D. and Hong, W. (2005), A macroscope in the redwoods, Proc. of the 2nd International Conference on Embedded Networked Sensor Systems, ACM Press, New York, pp. 51~63.

12. Werner-Allen, G., Lorincz, K., Johnson, J., Lees, J. and Welsh, M. (2006), Fidelity and yield in a volcano monitoring sensor network, Proc. of the 7th USENIX Symposium on Operating Systems Design and Implementation, Seattle, pp. 381~396.

13. Williams, G. J., Baxter, R. A., He, H. X., Hawkins, S. and Gu, L. (2002), A comparative study of RNN for outlier detection in data mining, IEEE International Conference on Data-mining (ICDM’02), Maebashi City, Japan, CSIRO Technical Report CMIS-02/102, pp. 1~709.

수치

Fig. 1. Classification of faults in deployment of monitoring data  from dam
Fig. 6. Detection of short faults in artificial data by rule-based  method (  = 0.05)
Fig. 7. Histogram for standard deviation of artificial data as window size
Fig. 9. Detection of noise faults in artificial data by LLSE method
+4

참조

관련 문서

또한, 「기상청 데이터 관리 및 제공 규정」 제6조(공공데이터제공담당관의 임무)에는 데이터 관리에 관한 기본정책의 수립 및 제도의 개선, 데이터 통계의 작성·관리

본 연구의 내용은 전기자동차 충전소와 연관된 데이터를 수집하고 충전소 데이터의 주소를 활용하여 지리공간정보와 결합하였고, 데이터 전처리 및

본 연구에서는 한국어 보조사 ‘도, 까지, 조차, 마저’의 의미․통사적 특징을 살피고, 한국어 학습자들의 사용 오류 양상 및 한국어 교재 분석을 토대로 이들

따라서 이 연구에서는 해부학적 형태의 다양성을 가지는 하악 제1대구치 원심치근의 근관계 형태를 치과용 표준 방사선 사진을 이용하여 분석하고 임 상에서 근관 치료

Record Fault Tree Analysis Event Tree Analysis Frequency or Probability.. Common-cause analysis

최상의 데이터 센터 구축을 위한 데이터 인프라 혁신 전략..

이 연구에서는 농업부문 데이터 경제 체계 구축 활성화를 위해 농업부문 데이 터의 전주기 활용 체계를 구축하기 위한 데이터 활용 현황과 문제점을 진단하고,

In this paper, a fault-tolerant routing protocol based on AODV called FT-AODV is proposed for reliable and high-performance routing in MANETs...