특징 분류 - 저작자표시

cos    

 ∙ 

 



^  

^



_^×_{  }



^ ^^^^

  





_×_

(4.3)

마할라노비스 거리는 두 점 사이의 거리를 계산할 때 데이터의 분포를 고려하 는 거리이다. 데이터의 분포 및 공분산을 사용하여 거리를 측정하며 식 (4.4)와 같이 나타낼 수 있다.

  



^^ _^ ^{ }_ _ (4.4)

제4장 실험 및 결과 분석

제 1절 심전도 데이터베이스

MIT-BIH 부정맥 데이터베이스는 32-89세의 남성 25명, 23-89세의 여성 22명인 47명의 환자에게서 얻은 것이며 두 번에 걸쳐 48시간 동안 기록한 심전도 신호가 구성되어 있다. 4000개 이상의 Holter 테이프에서 무작위로 선택한 23개의 기록과 무작위 기록에서 잘 나타나지 않지만 부정맥의 중요한 부분을 포함하는 25개의 기 록으로 구성되어있다. 각 샘플링 속도는 초당 360Hz로 디지털화되며 10mV 범위에 서 11비트 해상도로 디지털화된다[33-36]. 이 데이터베이스는 42개는 리드Ⅱ와 V1 이며 나머지는 리드Ⅰ및 V5, V2, V5, V4가 포함되며 신호의 파형은 그림 4-1과 같 다.

그림 4-1. 실험에서 사용된 심전도 신호(Grid intervals: 0.2sec, 0.5mV)

제 2절 실험 방법

본 절에서는 제안된 방법의 심전도 인식 성능을 평가하기 위해 기존의 기법과 제안하는 기법의 인식률을 비교하며 1차원 벡터 신호를 2차원 영상으로 변환하고 2차원 영상을 3차원 텐서로 변환하여 처리하는 방법 통해 심전도의 인식률 결과에 대한 분석을 한다.

NVIDA Geforce GTX 750 Ti이며 소프트웨어는 Matlab 2018a 버전을 사용하였다.

주성분 분석, 선형 판별 분석과 다선형 판별 분석의 심전도 인식률 성능을 비교하 기 위한 실험 데이터는 MIT-BIH 부정맥 데이터베이스가 사용되었고 2차원 영상을 3차원 텐서로 변환하여 인식률 성능을 나타내기 위해 데이터는 PTB 진단 데이터베 이스가 사용되었다.

MIT-BIH 부정맥 데이터베이스 47클래스에 대해 일정한 간격의 주기로 신호를 얻기 위해 3초간 30번의 샘플링을 하여 데이터를 구성한다. 샘플링을 거친 데이터 의 구성은 프레임, 채널, 레코드로 구성되고 3000×2×2350의 데이터 크기를 가지 며 이 데이터의 주성분 분석과 선형 판별 분석에서의 고유벡터의 개수를 조절하여 인식률을 나타낸다. 인식률을 나타내기 위해 고유벡터의 개수는 1개부터 1개씩 증 가시켜 100개까지의 인식률을 나타낸다. 이때 선형 판별 분석에서는 클래스 수에 서 하나를 뺀 값으로 고유벡터 수를 계산하여 처리한다. 인식률 성능을 나타내기 위해 거리 유사도 측정 기법 중 맨하탄 거리(L1), 유클리디안 거리(L2), 코사인 거리(Cos), 마할라노비스 거리(Mahal)를 사용하여 주성분 분석에서 인식률은 표 4-1과 같이 각각 79.23%, 78.97%, 79.48%, 77.95%의 인식률을 확인 할 수 있으며 그림 4-2는 주성분 분석의 고유벡터에 대한 인식률 성능을 나타낸다.

표 4-1. 주성분 분석의 유사도별 인식률

특징 추출 고유벡터 수 유사도 인식률

PCA 1 ~ 100

L1 79.23%

L2 78.97%

Cos 79.48%

Mahal 77.95%

그림 4-2. 주성분 분석의 고유벡터에 대한 인식률

주성분 분석과 동일한 거리 유사도 기법을 통해 선형 판별 분석에서 인식률은 표 4-2와 같이 각각 85.39%, 86.34%, 87.91%, 84.42%의 인식률을 확인 할 수 있으 며 그림 4-3는 선형 판별 분석의 고유벡터에 대한 인식률을 나타낸다.

표 4-2. 선형 판별 분석의 유사도별 인식률

특징 추출 고유벡터 수 유사도 인식률

LDA 1 ~ 100

L1 85.39%

L2 86.34%

Cos 87.91%

Mahal 84.42%

그림 4-3. 선형 판별 분석의 고유벡터에 대한 인식률

다선형 판별 분석은 주성분 분석, 선형 판별 분석에서 사용한 것과 마찬가지로 동일한 MIT-BIH 부정맥 데이터베이스를 사용하여 47클래스에 대해 3초간 30개의 샘플링을 하여 데이터를 구성하여 다선형 판별 분석에서 텐서로 재정렬하여 적용 시킬 수 있도록 특징추출한 데이터를 사용한다. 한 클래스당 20개의 데이터가 존 재하여 학습 및 검증 데이터는 각각 940개로 구성한다. 그리고 전처리 과정을 통 해 구성되는 프레임의 수는 전후 400프레임으로 구성하면 801프레임을 구성할 수 있으며 두 개의 리드에 대해 두 번 처리하기 때문에 총 1602프레임을 구성할 수 있다. 학습데이터의 수는 940개와 1602프레임으로 학습 데이터는 940×1602크기가 되며 검증 데이터 또한 940×1602으로 구성된다.

다선형 판별 분석에 입력 데이터로 사용하기 위해 1차원 벡터 신호를 3차원 텐서로 재구성한다. 입력 데이터를 3차원 데이터로 재구성하기 위해 데이터를 4개 씩 묶어서 시퀀스 데이터로 구성하면 한 개당 1602×4의 크기가 된다. 이때 양 끝 1프레임씩을 제거한 후 텐서 데이터를 재정렬하여 40×40×4로 구성할 수 있으며 학습 데이터 수는 940개에서 4개씩 묶어서 구성되면 235개가 되기 때문에 텐서는 40×40×4×235크기를 가지며 검증 데이터 또한 같은 크기를 갖는다. 다선형 판별

분석에서는 다선형 주성분 분석의 기능을 갖는데, 여기서 특징차원은 다선형 판별 분석 내에서 다선형 주성분 분석의 차원축소 이후 선형 판별 분석을 수행할 수 있 는 값으로 인식률 성능은 특징차원의 값으로 결정된다. 특징차원의 수는 150으로 설정하였고 보존 에너지값인 Q는 기본적으로 사용되는 값인 97로 설정하였으며 최 대 반복수는 1로 설정하였다. 이 실험의 인식률 성능은 주성분 분석, 선형 판별 분석의 인식률 성능 비교하기 위해 거리 유사도 측정 기법 중 맨하탄 거리(L1), 유클리디안 거리(L2), 코사인 거리(Cos)를 사용하였다. 마할라노비스 거리의 경우 인식률이 0%에서 90%까지 반복되는 형태를 나타내고 있어 다선형 판별 분석에서는 제외하였다. 다선형 판별 분석에서 인식률은 표4-1과 같이 각각 97.87%, 97.44%, 97.44%의 인식률을 확인할 수 있으며 그림 4-4는 다선형 판별 분석의 특징차원의 수에 대한 인식률 성능을 나타낸다.

표 4-3. 다선형 판별 분석의 유사도별 인식률

특징 추출 특징차원 수 유사도 인식률

MLDA 1~100

L1 97.87%

L2 97.44%

Cos 97.44%

그림4-4. 다선형 판별 분석의 특징차원의 수에 대한 인식률

제 3절 결과 분석

심전도의 개인 인식 성능 검증을 위해 MIT-BIH 부정맥 데이터베이스를 사용하 여 주성분 분석, 선형 판별 분석에서 데이터의 인덱스 및 리드 데이터를 정리하여 저장하고 특징 추출하여 학습 및 검증 데이터를 구성하였다. 분류하고자하는 47클 래스에 대해 각각 한사람 당 20개의 학습 및 검증데이터를 사용하였으며 공분산 행렬에 대한 고유벡터 수를 통해 변환된 공간으로 투영하여 얻은 값을 통해 인식 률 성능을 나타내었으며 선형 판별 분석도 위와 마찬가지로 데이터를 구성하고 클 래스 내의 분산행렬, 클래스 간의 분산행렬을 통해 고유값에 대한 고유벡터를 선 택하여 투영행렬을 통해 얻은 값의 인식률을 성능을 볼 수 있다.

다선형 판별 분석에서도 위와 마찬가지로 같은 데이터베이스를 사용하여 심전 도 신호는 전처리 과정을 거쳐 신호의 잡음을 제거 한 후 1차원 벡터 신호를 3차 원 텐서로 구성하여 다선형 주성분 분석을 이용하여 mode투영 후 선형 판별 분석 을 통해 다선형 투영하여 얻어진 특징벡터를 통해 거리 유사도 기법을 통해 인식

률의 성능을 볼 수 있었다. 표 4-4는 주성분 분석, 선형 판별 분석, 다선형 판별 분석의 인식률을 비교한 것을 나타내었다.

표 4-4. 주성분 분석, 선형 판별 분석, 다선형 판별 분석의 인식률 비교

특징추출 / 인식률

거리 유사도 PCA LDA MLDA

L1 79.23% 85.39% 97.87%

L2 78.97% 86.34% 97.44%

Cos 79.48% 87.91% 97.44%

Mah 77.95% 84.42%

-주성분 분석에서 행렬에 대한 고유벡터 수를 통해 변환된 공간으로 투영하여 얻은 값을 통해 얻은 인식률보다 선형 판별 분석에서 클래스 내의 분산행렬, 클래 스 간의 분산행렬을 통해 고유값에 대한 고유벡터를 선택하여 투영행렬을 통해 얻 은 값의 인식률을 성능이 더 좋은 인식률을 보였다.

다선형 판별 분석을 통해 얻은 인식률은 주성분 분석과 선형 판별 분석보다 높 은 인식률이 나타나는 것을 볼 수 있다. 선형 방법에서의 벡터화는 원래 구조와 상관관계가 깨져 원래의 정보가 없어지는 문제가 있지만, 다선형 방법에서는 텐서 를 직접 입력을 매핑하기 전에 데이터 구조를 보존하기 때문에 다선형 방법이 선 형 방법보다 원래의 구조, 상관관계 및 정보를 더 포함하여 처리되기 때문에 더 좋은 결과를 볼 수 있다. 다선형 판별 분석이 주성분 분석보다 평균 18%, 선형 판 별 분석을 통한 인식률보다 거리 유사도의 평균11% 더 좋은 결과를 보여준다.

제5장 결론 및 향후 연구과제

본 논문에서는 다선형 판별 분석 기법을 통해 다차원 데이터 배열인 3차원 텐 서 특성을 이용하여 기존의 차원 축소 방법인 주성분 분석, 선형 판별 분석 기법 의 차원보다 높은 차원의 특성 공간에서 얻은 값을 통해 인식률을 나타내었고 기 존의 차원 축소 기법인 주성분 분석, 선형 판별 분석 기법을 사용하여 얻은 인식 률과 선형 판별 분석 기법을 통해 얻은 인식률을 비교하는 실험을 수행하였다.

이 실험에서는 MIT-BIH 부정맥 데이터베이스가 사용되었으며 심전도 신호에서 정상적인 파형과 다르게 튀는 신호나 범위를 벗어나는 파형들을 효과적으로 인식 할 수 있도록 시퀀스 형태로 나타내어 텐서로 재구성하고 다선형 투영을 통해 얻 은 값을 특징차원의 수를 통해 인식률을 얻는다. 특징분류는 맨하탄 거리, 유클리 디안 거리, 코사인 유사도를 사용하였으며 최고 인식률은 각각 97.87%, 97.44%, 97.44%의 인식률을 얻을 수 있었다.

다선형 판별 분석의 인식률 결과와 비교하기 위해 주성분 분석과 선형 판별 분 석을 사용하였다. 주성분 분석에서는 공분산행렬을 통해 고유값에 대한 고유벡터 를 선택하여 투영행렬을 통해 대상에 투영하여 수행하였으며 특징분류는 맨하탄 거리, 유클리디안 거리, 코사인 유사도, 마할라노비스 거리를 사용하였으며 각각 79.23%, 78.97%, 79.48%, 77.95%의 인식률을 볼 수 있었다. 선형 판별 분석 기법 에서는 주성분 분석과 동일하게 데이터를 구성하고 클래스 내의 분산행렬, 클래스 간의 분산행렬을 통해 고유값에 대한 고유벡터를 선택하여 투영행렬을 통해 얻은 값의 인식률을 성능을 얻을 수 있었으며 거리 유사도 기법은 주성분 분석과 동일 하며 각각 85.39%, 86.34%, 87.91%, 84.42%의 인식률을 볼 수 있었다.

주성분 분석과 선형 판별 분석이 다선형 판별 분석을 사용한 결과보다 성능이 떨어지는 것을 볼 수가 있다. 주성분 분석과 선형 판별 분석을 통해 데이터를 재 구성할 때 데이터의 일부 정보가 유실되는 반면에 데이터를 재구성해도 대부분의 데이터가 보존되는 다선형 판별 분석보다 인식률이 떨어지며, 신호를 연속적인 시 퀀스 형태로 구성하고 텐서로 재구성하여 신호를 더 효과적으로 인식할 수 있기 때문에 다선형 판별 분석이 개인 식별에 높은 효율을 보인다.

향후 실험에서는 1차원 신호를 2차원 웨이블릿 변환을 통해 scalogram 이미지 로 구성하고 다시 3차원 텐서로 재구성하여 다선형 주성분 분석, 다선형 판별 분

문서에서 저작자표시 (페이지 36-50)