• 검색 결과가 없습니다.

평활화 기법을 이용한 노이즈 제거

문서에서 저작자표시 (페이지 33-38)

4.3 데이터 수집 및 전처리

4.3.2 평활화 기법을 이용한 노이즈 제거

센서를 통해 수집된 데이터를 효과적으로 활용하기 위해서는 전처리 과정을 거쳐 데이터의 특징이 담겨 있는 의미 있는 데이터를 추출해야 한다. 본 절에서는 데이터 전처리 과정 중 데이터의 노이즈를 제거하기 위한 방법을 설명한다. 노이즈는 측정된 데이터에 무작위 또는 통계적으로 잡음이 포함되는 것을 말하며, 과도한 노이즈는 데 이터의 분석 결과에 의미 없는 결과값을 도출하게 한다. < 그림 11 > 은 센서 데이터 노이즈를 제거 하기 전 x1(0.3 ~ 1.0 미세먼지)와 y(유량) 데이터를 시각화 한 것 이 다.

그림 9. 노이즈 제거 전 시각화

온도 및 습도 등 환경은 급변하지 않고 일정 시간을 두고 천천히 변화한다. 하지만

본 연구에서는 수집된 센서 데이터 x1(0.3 ~ 1.0 미세먼지)의 경우 초 단위로 진폭이 급격히 존재하는 것을 확인할 수 있다. 이는 센서의 측정값에 대한 신뢰도가 높지 않 고 너무 민감하게 반응하는 특성에 따른 결과이다. 이러한 급격한 측정값을 변화는 상대적으로 변화가 더딘 환경 특성과는 맞지 않기 때문에 측정된 값에 노이즈가 존재 했다고 생각 할 수 있다. y(유량) 데이터 의 경우 필터에 시각화를 통해 확인한 결과 먼지가 포집되어 시간이 지남에 따라 필터를 통과하는 공기의 유량이 감소해야 함에 도 불구하고 노이즈로 인해 성능 저하의 뚜렷한 특징이 드러나지 않는 것처럼 보인다.

따라서 본 연구에서는 수집된 센서에 노이즈를 제거하고 실제 값을 분석에 사용하기 위해 다양한 기법을 사용하여 노이즈를 제거한다.

노이즈를 제거하는 방법으로는 kalman Filter, Wavelet Transform, Smoothing spline,

simple moving average, local regression 등 여러 방법이 존재한다. 이중에서 본 연 구는 simple moving average 그리고 local regression [50]을 사용하였다. simple moving average는 전체 데이터 중 일정 시점을 기준으로 연속된 일부 데이터 n개를 사 용하여 순차적으로 평균을 구하는 방법이다 (그림 10 참조). local regression은 전체 데이터 중 특정 x0값 근처의 관측자료를 사용하여 최소자승법을 적용해가는 방법으로 두 기법은 변동성이 존재하는 데이터를 평활화 하여 노이즈를 제거하는 방법이다.

local regression의 경우 차수가 3,4차 이상인 경우 특정 x0 값 근처의 nearest neighbor을 찾기 힘들어 성능이 낮아진다. 따라서 y(유량)의 값은 시간이 지남에 따라 감소하는 성능 지표인 y(유량) 데이터는 시간에 따라 증가 하고 감소하는 환경 데이터 에 비하여 낮은 차수로 데이터를 설명 할 수 있으므로 local regression을 사용하였 다. 운용 환경데이터인 (x1,……,x5)의 측정값들은 simple moving average를 사용하였다.

그림 10. Simple moving average

[그림 출처: http://blog.naver.com/PostView.nhn?blogId=ntkor&logNo=199891958]

Simple Moving Average의 사용된 식은 아래와 같다.

= +. . . . + +

는 t 시점을 기준으로 이전 n개 데이터의 평균을 계산한 데이터의 평균 값을 의미 하며, 마지막 값인 까지 데이터를 계산한다. 예를 들어 데이터 집합 X = (2,3,7,4,6,....)이 존재 하고 n은 3이라고 가정 하면, = 4 의 값이 의 값

이 되며, = 4.6이 값이 되는 것이다. 계산이 완료 되면 데이터의 짧은 주 기에 존재하는 노이즈 데이터가 평균으로 대체되어 노이즈가 제거 된다. 본 연구에 사용한 n 값은 10000개이다.

그림 11. Local regression[50]

Local regression의 알고리즘은 네 단계로 구성되어있다[50]. 첫 번째 0~1사이의 값 을 가지는 파라미터 s값을 선택한다. s는 x1 ~ xn 개의 데이터 집합 중 x1에서 가까운

일부분의 데이터를 선택하기 위한 파라미터 값이다. 파라미터 s는 다음과 같이 정의 된다. s = k/n n은 전체 데이터 개수를 가리키며, k는 n개중 선택할 데이터의 개수 이다. k값이 높아 질수록 s값이 높아진다. s 값이 높을 수록 데이터를 많이 사용 하며 국부적인 평활화가 진행 되어 좀더 부드러운 평활화가 진행된다. 그에 반에 적은 s 값을 사용 할 수록 국소적으로 평활화가 진행되어 좀 더 구불한 평활화가 진행된다.

본 연구에 사용한 s 값은 0.7이다. 두 번째 x0에서 가까운 k 개의 데이터에 가중치 Kx0

= K(xi , x0)를 할당하여 x0로부터 가장 가까운 점은 높은 가중치를 가지게 하고 가장 먼 점은 낮은 가중치를 가지게 한다. k 개를 제외한 모든 자료는 0의 가중치를 갖는다.

세 번째 Error를 최소화하는 과 을 구한다. 네 번째 x0에서의 적합 값을 ( ) = + 0에 의해 계산한다. < 그림 12 > 은 x1(0.3 ~ 1.0 미세먼지) 데이터를 Simple Moving Average로 y(유량) 데이터는 Local Regression을 사용하여 노이즈를 제 거한 데이터를 시각화한 결과이다.

그림 12. 노이즈 제거 후 시각화

주황색 실선은 데이터에서 노이즈를 제거하고 실제 값으로 추출한 데이터이다.

x1(0.3 ~ 1.0 미세먼지)의 경우 노이즈 제거를 통해 초단위로 변하는 값의 변화를 완 화하였으며, y(유량) 데이터 의 경우 사용 중 잘못 측정된 성능의 이상 변화를 제거하 여 필터의 성능이 점차 감소하는 것을 확인 할 수 있다. 4.3.2 에 적용된 노이즈 제 거를 통해 데이터의 특징이 담겨 있는 의미 있는 데이터를 추출 하여 분석 결과에 정 확도를 높이도록 한다.

문서에서 저작자표시 (페이지 33-38)

관련 문서