• 검색 결과가 없습니다.

Comparison study of classification methods for image data<sup>†</sup>

N/A
N/A
Protected

Academic year: 2021

Share "Comparison study of classification methods for image data<sup>†</sup>"

Copied!
10
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

2018, 29

(

1)

,

267–276

이미지 데이터에 대한 분류 방법의 비교 연구

ᄇ ᅡ

ᆨ범진

1

·박창이

2

12서울시립대학교 통계학과

ᄌ ᅥ

ᆸᄉ ᅮ 2017ᄂ ᅧ ᆫ 12ᄋ ᅯ ᆯ 26ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 8ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 9ᄋ ᅵ ᆯ

요 약

ᅵᄆ ᅵᄌ ᅵᄂ ᅳ ᆫ ᄒ ᅢ ᆼᄅ ᅧ ᆯᄒ ᅧ ᆼᄐ ᅢᄅ ᅩ ᄌ ᅡᄋ ᅧ ᆫᄉ ᅳᄅ ᅥ ᆸᄀ ᅦ ᄑ ᅭᄒ ᅧ ᆫᄃ ᅬᄆ ᅳᄅ ᅩ ᄀ ᅵᄌ ᅩ ᆫ ᄋ ᅴ ᄀ ᅵᄀ ᅨ ᄒ ᅡ ᆨᄉ ᅳ ᆸ (machine learning) ᄇ ᅡ ᆼᄇ ᅥ ᆸᄃ ᅳ ᆯᄋ ᅳ ᆯ ᄋ ᅵ ᄆ

ᅵᄌ ᅵ ᄃ ᅦᄋ ᅵᄐ ᅥᄋ ᅦ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅢᄉ ᅥᄂ ᅳ ᆫ ᄒ ᅢ ᆼᄅ ᅧ ᆯᄋ ᅳ ᆯ ᄇ ᅦ ᆨᄐ ᅥᄅ ᅩ ᄇ ᅧ ᆫᄒ ᅪ ᆫ ᄒ ᅢᄋ ᅣ ᄒ ᅡ ᆫᄃ ᅡ. ᄎ ᅬ ᄀ ᅳ ᆫ ᄌ ᅵᄌ ᅵᄒ ᅢ ᆼᄅ ᅧ ᆯᄀ ᅵᄀ ᅨ (support ma- trix machine)ᄂ ᅳ ᆫ ᄃ ᅦᄋ ᅵᄐ ᅥ ᄒ ᅢ ᆼᄅ ᅧ ᆯᄋ ᅳ ᆯ ᄇ ᅦ ᆨᄐ ᅥᄅ ᅩ ᄇ ᅧ ᆫᄒ ᅪ ᆫ ᄒ ᅡᄌ ᅵ ᄋ ᅡ ᆭᄀ ᅩ ᄌ ᅵ ᆨᄌ ᅥ ᆸ ᄇ ᅮ ᆫ ᄅ ᅲᄒ ᅡᄃ ᅩᄅ ᅩ ᆨ ᄀ ᅩᄋ ᅡ ᆫᄃ ᅬᄋ ᅥ ᆻᄃ ᅡ. ᄀ ᅳᄅ ᅥᄂ ᅡ ᄆ ᅮ ᆫᄒ ᅥ ᆫᄉ ᅡ ᆼ ᄋ

ᅴ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄌ ᅵᄌ ᅵᄒ ᅢ ᆼᄅ ᅧ ᆯᄀ ᅵᄀ ᅨᄋ ᅪ ᄌ ᅵᄌ ᅵᄇ ᅦ ᆨᄐ ᅥᄀ ᅵᄀ ᅨ (support vector machine)ᄋ ᅴ ᄇ ᅮ ᆫ ᄅ ᅲ ᄌ ᅥ ᆼᄒ ᅪ ᆨ ᄃ ᅩᄆ ᅡ ᆫᄋ ᅳ ᆯ ᄇ ᅵᄀ ᅭᄒ ᅡ ᄋ

ᅧ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄌ ᅵᄌ ᅵᄇ ᅦ ᆨᄐ ᅥᄀ ᅵᄀ ᅨᄋ ᅴ ᄋ ᅨᄎ ᅳ ᆨ ᄉ ᅥ ᆼᄂ ᅳ ᆼᄋ ᅳ ᆯ k-ᄀ ᅳ ᆫ ᄇ ᅡ ᆼ ᄇ ᅮ ᆫ ᄅ ᅲ, ᄌ ᅵᄌ ᅵᄇ ᅦ ᆨᄐ ᅥᄀ ᅵᄀ ᅨ, ᄀ ᅳᄅ ᅵᄀ ᅩ ᄉ ᅵ ᆷᄎ ᅳ ᆼ ᄉ ᅵ ᆫᄀ ᅧ ᆼᄆ ᅡ ᆼ (deep neural network)ᄀ ᅪ ᄀ ᅡ ᇀᄋ ᅳ ᆫ ᄋ ᅵᄆ ᅵᄌ ᅵ ᄃ ᅦᄋ ᅵᄐ ᅥᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄌ ᅮᄋ ᅭ ᄇ ᅮ ᆫ ᄅ ᅲᄇ ᅡ ᆼᄇ ᅥ ᆸᄃ ᅳ ᆯ ᄀ ᅪ ᄇ ᅵᄀ ᅭᄒ ᅡᄀ ᅩ ᄋ ᅵᄅ ᅥᄒ ᅡ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄃ ᅳ ᆯ ᄋ ᅴ ᄐ

ᅳ ᆨᄌ ᅵ ᆼᄋ ᅦ ᄃ ᅢᄒ ᅡᄋ ᅧ ᄋ ᅡ ᆯᄋ ᅡᄇ ᅩᄀ ᅩᄌ ᅡ ᄒ ᅡ ᆫᄃ ᅡ.

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄉ ᅵ ᆷᄎ ᅳ ᆼ ᄉ ᅵ ᆫᄀ ᅧ ᆼᄆ ᅡ ᆼ, ᄌ ᅵᄌ ᅵᄇ ᅦ ᆨᄐ ᅥᄀ ᅵᄀ ᅨ, ᄌ ᅵᄌ ᅵᄒ ᅢ ᆼᄅ ᅧ ᆯᄀ ᅵᄀ ᅨ.

1. 서론 ᄌ

ᅥᆫ통적으로 이미지 분류는 인공지능 분야에서 주요한 문제중하나로 간주된다. 지지벡터기계와 같은 ᄀ

ᅵ존의 분류방법들은대부분스칼라 혹은 벡터 형태의 데이터를기반으로 한다. 이러한 스칼라 혹은 벡 ᄐ

ᅥ 기반의 방법은이차원행렬 형식의 이미지를 벡터로 변환하여 분석하는데, 이 때 행렬 형태의 데이 ᄐ

ᅥ 구조를 잃어버리게 된다는 문제점이 있다. 객체지향 (object oriented) 데이터분석의 관점에서 데 ᄋ

ᅵ터 고유의 구조를 살리는 분석법이 바람직하다고 할 수 있다. 객체지향 데이터 분석에 대한 소개는 Marron과 Alonso (2014)를참조하기 바란다. 또 다른 문제점으로는변환 결과로 얻는 벡터가 흔히 초 ᄀ

ᅩ차원이라는것이다.

ᅵ에 Luo 등 (2015)에서는 행렬 형식의 입력값에 기반한 지지행렬기계를제안하고, 지지벡터기계 및 ᄀ

ᅳ 변형들과 비교함으로써 지지행렬기계가 이미지를포함한 행렬 형식의 데이터에 적합함을보였다. 그 ᄅ

ᅥ나 실제 이미지 데이터의 분류에는 k-근방 분류나 딥러닝 기법이 일반적으로 많이 사용되는데 이러한 ᄇ

ᅡᆼ법들과의 성능비교에 대한 연구는 문헌상에 없는것으로 보인다. 본연구에서는지지행렬기계를 이 ᄆ

ᅵ지 분류의 주요 방법론인 k-근방 분류와 심층 신경망 (deep neural network)과 비교하고자 한다.

보

ᆫ 논문은다음과 같이 구성되어 있다. 제 2절에서는지지벡터기계와 지지행렬기계에 대하여 간략히 ᄉ

ᅩ개한다. 제 3절에서는모의 실험 및 실제 이미지 데이터를이용하여 k-근방 분류, 지지벡터기계, 지지 ᄒ

ᅢᆼ렬기계, 그리고 심층 신경망의 성능을 비교한다. 마지막으로 제 4절에서는 본연구의 결과를요약하 ᄀ

ᅩ 향후 연구방향 등을 논의한다.

ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ 2015ᄂ ᅧ ᆫᄃ ᅩ ᄌ ᅥ ᆼᄇ ᅮ (ᄀ ᅭᄋ ᅲ ᆨ ᄇ ᅮ)ᄋ ᅴ ᄌ ᅢᄋ ᅯ ᆫ ᄋ ᅳᄅ ᅩ ᄒ ᅡ ᆫᄀ ᅮ ᆨᄋ ᅧ ᆫᄀ ᅮᄌ ᅢᄃ ᅡ ᆫᄋ ᅴ ᄌ ᅵᄋ ᅯ ᆫᄋ ᅳ ᆯ ᄇ ᅡ ᆮᄋ ᅡ ᄉ ᅮᄒ ᅢ ᆼᄃ ᅬ ᆫ ᄀ ᅵᄎ ᅩᄋ ᅧ ᆫᄀ ᅮᄉ ᅡᄋ ᅥ ᆸᄋ ᅵ ᆷ (No.

2015R1D1A1A01059984).

1

(02504) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄃ ᅩ ᆼ ᄃ ᅢᄆ ᅮ ᆫ ᄀ ᅮ ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢᄅ ᅩ 163 (ᄌ ᅥ ᆫᄂ ᅩ ᆼᄃ ᅩ ᆼ), ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄉ ᅥ ᆨᄉ ᅡᄀ ᅪᄌ ᅥ ᆼ.

2

ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (02504) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄃ ᅩ ᆼ ᄃ ᅢᄆ ᅮ ᆫ ᄀ ᅮ ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢᄅ ᅩ 163 (ᄌ ᅥ ᆫᄂ ᅩ ᆼᄃ ᅩ ᆼ), ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.

E-mail: [email protected]

(2)

2. 본론 ᄋ

ᅵ 절에서는지지벡터기계를기반으로 지지행렬기계를설명하고자 하며, 이에 필요한 최소한의 내용 ᄆ

ᅡᆫ 소개하고 자세한 사항은제시된참고문헌을보기 바란다. 또한 심층 신경망에 대한 소개와 KOSPI의 ᄉ

ᅡᆼ향 또는하향 예측 문제에의 적용은 Lee (2017)을참고할 수 있다.

2.1. 지지벡터기계 ᄇ

ᅩᆫ 연구에서는 {−1, 1}을 출력값으로 갖는 이진 분류 문제만으로 고려하기로 한다. 훈련데이터는 {(xi, yi)}ni=1이며 xi ∈ Rp와 yi ∈ {−1, 1}는각각 i번째 입력 백터와 출력값을 나타내기로 하자. 지 ᄌ

ᅵ벡터기계는주어진 훈련 데이터를이용하여 마진 (margin) 을최대화하는초평면 (hyperplane)을찾 ᄂ

ᅳᆫ학습기법으로 다음과 같은최적화 문제 (optimization problem)를 푼다.

min

w

,b

1

2∥w∥2+ C

n

X

i

ξi

!

subject to yi(wTxi+ b) ≥ 1 − ξi, ξi≥ 0, ∀i. (2.1) ᄋ

ᅧ기서 [z]+= max(0, z), ξi= [1 − yi(wTxi+ b)]+ 이고 경첩 손실 (hinge loss) 이라 불린다.

이

ᆯ반적으로 식 (2.1)을 직접 풀기 보다는다음과 같은쌍대 문제 (dual problem) 를 풀게된다.

α∈Rminn 1 2

n

X

i=1 n

X

j=1

yiαixTixjαjyj−

n

X

i=1

αi

!

subject to 0 ≤ αi≤ C,

n

X

i=1

αiyi= 0, ∀i. (2.2)

(2.2)는결국 2차 계획법 (quadratic programming) 문제이며 그 해를 αi ∈ R, i = 1, . . . , n라 하면 법선 베

ᆨ터 (normal vector) w와 절편 b는 KKT (Karush-Kuhn-Tucker)조건을이용하여 다음과 같이 구할 ᄉ

ᅮ 있다.

w =

n

X

i=1

αiyixi,

b = −1 2



i:ymini=−1w∗Txi+ max

i:yi=1w∗Txi

 . ᄌ

ᅵ지벡터기계에 대한 보다 자세한 소개와 빅데이터에 적용 가능한 알고리즘은 각각 Vapnik (1995)과 Choi 등 (2013)을참고하기 바란다.

2.2. 지지행렬기계 ᄌ

ᅵ지행렬기계에서는 입력값이 행렬 형식이므로 훈련데이터를 {(Xi, yi)}ni=1로 나타내기로 하자. 여 ᄀ

ᅵ서 Xi ∈ Rp×q와 yi ∈ {−1, 1}는각각 i번째 입력 행렬값과 출력값을 나타낸다. 또한 행렬을 벡터 ᄅ

ᅩ 변환한 형태를 xi= vec(XTi) ∈ Rpq로 표기하자. 벌점항에 등장하는핵 노음 (nuclear norm)은계 ᄉ

ᅮ (rank)가 r인 행렬 A ∈ Rp×q에 대하여 특이값 분해 (singular value decomposition)에 의해 A = U SVT이고 UTU = Ir, VTV = Ir, S = diag(σ1, . . . , σr)를얻었을때 ∥A∥=Pmin(p,q)

i=1 σi(A)으로 저

ᆼ의된다.

(3)

ᅵ미지의 분류문제에서 입력 데이터의 형태는 행렬로 주어지기 때문에 전형적인 분류방법을적용하기 ᄋ

ᅱ해서는 벡터로 변환하는 작업이 필요하다. 예를 들어 이미지가 X ∈ Rp×q일 때 지지벡터기계 등을 ᄌ

ᆨ용하기 위해서는 pq 벡터 x = vec(X)으로 변환한 후 입력 데이터로 사용하게된다. 이 경우 서론에 ᄉ

ᅥ 지적한 바와 같이 행렬이 가지는 구조가 무너지게 되고 결과적으로 이미지 데이터가 가지는고유의 ᄑ

ᅢ턴이 무시될수 있다. Luo 등 (2015)이 제안한 지지행렬기계는 행렬 형식의 입력 데이터를 직접 다 ᄅ

ᅮ는객체지향 분류법이라고 볼수 있다.

ᅵ지행렬기계의 최적화 문제는다음과 같다.

min

W

,b

1

2tr(WTW ) + τ ∥W ∥∗+ C

n

X

i

ξi

!

subject to yi[tr(WTXi) + b] ≥ 1 − ξi, ξi≥ 0, ∀i, (2.3) ᄋ

ᅧ기서 ξi= [1 − yi{tr(WTXi) + b}]+이다. 식 (2.3)은 tr(WTW ) = vec(WT)Tvec(WT) = wTw이 ᄀ

ᅩ tr(WTXi) = vec(WT)Tvec(XTi) = wTxi이기 때문에 τ = 0이면 지지벡터기계와 똑같은형태의 시

ᆨ이된다. 하지만 τ ̸= 0이면 핵노음은 벡터로 표현될수 없기 때문에 행렬 구조를유지해야 한다.

시

ᆨ (2.3)의 해를 ( ˜W , ˜b)라고 하면 Luo 등 (2015)의 정리 2에 행렬 ˜W 는그룹효과를갖게된다. 즉, [ ˜W ]:,l을 ˜W의 l번째 열이라고 놓으면 상수 C > 0에 대하여

∥[ ˜W ]:,l1− [ ˜W ]:,l22≤ 2nC2(p −

p

X

k=1

fTkl

1fkl

2) ᄀ

ᅡ 성립한다. 특히, 어떤 k = 1, . . . , p에 대해 fkl1 = fkl2이면 [ ˜W ]:,l1 = [ ˜W ]:,l2이다. 여기서 fkl= ([X1]kl, ..., [Xn]kl)T이며 ∥fkl∥ = 1으로 훈련데이터의 각 열을단위길이로 정규화한 값이다. 정리 2에 ᄋ

ᅴ해 입력 행렬 Xi의 각 열의 상관관계가 W 에 반영되기 때문에 W 는그룹효과 혹은이미지 데이터의 ᄑ

ᅢ턴이 반영된값으로 찾아주게된다.

ᅵ지행렬기계의 목적함수는 W와 b에 대해서 볼록 (convex) 함수이기 때문에 지지벡터기계와 마찬 ᄀ

ᅡ지로 쌍대 최적화 문제를고려할 수 있다. 하지만 목적함수에 포함된 핵노음의 미분이 어렵기 때문에 KKT조건을구하기 어렵다. 대신 ADMM (alternating direction method of multipliers) 알고리즘을 ᄉ

ᅡ용하여 목적함수를최소화하는해를구할 수 있다. 식 (2.3)은 (W , b)와 S에 대해 다음과 같이 표현 되

ᆯ수 있다.

W

min,b,

S

(H(W , b) + G(S)) subject to S − W = 0, (2.4) ᄋ

ᅧ기서 H(W , b) = 12tr(WTW ) + CPn

i=1{1 − yi[tr(WTXi) + b]}+이고 G(S) = τ ∥S∥이다. 식 (2.4)를 확장 라그랑즈 승수법 (augmented Lagrange multiplier method)을 이용하여 다음의 함수를 ᄀ

ᅮ할 수 있다.

Lρ(W , b, S, Λ) = H(W , b) + G(S) + tr[ΛT(S − W )] + ρ

2∥S − W ∥2F, ᄋ

ᅧ기서 Λ ∈ Rp×q은라그랑즈 승수 행렬이고 ρ > 0는조율모수이다.

ᅵ 때 (2.4)의 해 (W, b)와 S는두 단계로 나누어 순차적으로 최적화 문제 (2.5)와 (2.6)로부터 구 ᄒ

ᅡᆯ 수 있다.

min

W

,b



H(W , b) − tr(ΛTW ) +ρ

2∥W − S∥2F



, (2.5)

min

S



G(S) + tr(Λ(k)TS) +ρ

2∥W(k+1)− S∥2F



. (2.6)

(4)

ADMM은 이 두 단계를 통해 주어진 초기치에 대하여 (W , b)와 S의 값을 업데이트 함으로써 해를 ᄀ

ᅮ하게 된다. 이 두 단계의 최적화와 각 단계에서의 해에 대한 자세한 설명은 Luo 등 (2015)의 정리 3과 4에 제시되어 있다. 아래의 지지행렬기계의 ADMM 알고리즘은 속도를 높이기 위해 재시작 규칙 (restart rule)을적용하였다. 재시작 규칙에 대한 보다 자세한 사항은 Goldstein 등 (2012)을참고할 수 이

ᆻ다. 또한 Choi 등 (2017)에서 언급된 것처럼 Nestrov의 가속화 (acceleration) 단계를추가하면 계산 ᄉ

ᆨ도를더욱향상시킬 수 있을것이다.

Algorithm 지지행렬기계 ADMM 알고리즘 Initialize :

S(−1)= ˆS(0)∈ Rp×q, Λ(−1)= ˆΛ(0)∈ Rp×q ρ > 0, η ∈ (0, 1), t(1)= 1

for k = 1, 2, 3, ...K do (W(k), b(k)) = arg min

W

,b



H(W , b) − tr( ˆΛ(k)TW ) +ρ

2∥W − ˆS(k)2F

 S(k)= arg min

S



G(S) + tr( ˆΛ(k)TS) + ρ

2∥W(k)− S∥2F

 Λ(k)= ˆΛ(k)− ρ(W(k)− S(k))

c(k)= ρ−1∥Λ(k)− ˆΛ(k)2F+ ρ∥S(k)− ˆS(k)2F

if c(k)< ηc(k−1)then t(k+1)= 1 +p

1 + 4t(k)2 2 Sˆ(k+1)= S(k)+t(k)− 1

t(k+1) (S(k)− S(k−1)) Λˆ(k+1)= Λ(k)+t(k)− 1

t(k+1)(k)− Λ(k−1)) else

t(k1)= 1 Sˆ(k+1)= S(k−1) Λˆ(k+1)= Λ(k−1) c(k)= η−1c(k−1) end if

end for

(2.5)의 해를구하기 위해서는 2차 계획법을 풀어야 하는데, 본연구에서는 W의 희소성 (sparsity)이 ᄂ

ᅩᇁ다는 특징을 고려하여 Platt 등 (1998)에서 제안된 SMO 알고리즘 (sequential minimization opti- mization algorithm)을 이용하여 구현하였다. 특히 연산 속도를 높이기 위해 R로 구현한 부분에서는 벼

ᆼ렬처리가 가능한 openBLAS 라이브러리를이용하였고 SMO 알고리즘자체는 C 언어로 구현하였다.

ᅩ한 ADMM 알고리즘을병렬 구조로 연산하게 되면 계산 속도를더욱빠르게 향상할 수도 있다 (Choi ᄃ

ᅳᆼ, 2017). 구현된소스 코드는 http://github.com/bbeomjin/SMM에서 내려받기 할 수 있다.

3. 데이터 분석 ᄋ

ᅵ 절에서는 모의실험과 실제 이미지 데이터에 대하여 지지행렬기계와 이미지 분류의 주요 학습 방 버

ᆸ인 k-근방 분류, 지지벡터기계, 심층 신경망의 성능을 비교한다. 모든 데이터 분석은 Ubuntu16.04 sever (32core, 32GB RAM)에서 시행되었다. k-근방 분류와 지지벡터기계는 각각 R의 class, e1071

(5)

ᅢ키지의 knn, svm 함수를사용하였고, 심층 신경망은가장 널리 사용되는모형인 다층퍼셉트론 (mul- tilayer perceptron)을 tensorflow로 구성해 사용하였다.

3.1. 모의실험

Luo (2015)의 데이터 생성모형을이용하여 패턴이 있는이미지 데이터를생성하였는데 그 방법은다 ᄋ

ᆷ과 같다. 먼저 G개의 n차원기저 벡터 v(1), v(2), . . . , v(G)를생성한다. i = 1, . . . , n에 대하여 데이 ᄐ

ᅥ 행렬 Xi∈ Rp×q의 원소를 akl= v([l/(0.2q)])

i + ϵkl, ϵkl∼ N (0, σ2), k = 1, . . . , p, l = 1, . . . , q로 구 서

ᆼ한다. 이 때 [l/(0.2q)]는 l/(0.2q)보다큰 최소의 정수이다. Xi의 원소들은 같은 그룹일 때 높은 상 과

ᆫ관계를갖고 다른그룹일 때는낮은상관관계를갖게된다. 다음으로 행렬의 계수가 0.2q인 계수 행렬 W ∈ Rp×q를생성하고 출력변수 yi의 클래스 값을 yi= sign[tr(WTXi)]로 지정한다.

보

ᆫ 모의실험에는 n = 1500, G = 10, p = 80, q = 100, σ = 10−3로 설정하여 크기 1500개의 데 ᄋ

ᅵ터를 생성하였다. 생성된 데이터를 랜덤하게 1000개의 훈련데이터와 500개의 시험데이터로 분할하 ᄋ

ᅧᆻ다. k-근방 분류, 지지벡터기계 그리고 지지행렬기계의 조율모수들은 10-묶음 교차확인법 (10-fold cross validation)으로 선택하였으며, 심층 신경망은 ReLU함수를활성 함수 (activation function)로 ᄉ

ᅡ용했고 은닉층의 수는 {1, 2, . . . , 5}에서, 은닉층내의 노드의 수는 {21, 22, . . . , 28}에서, 그리고 탈락 ᄇ

ᅵ율 (dropout rate)은 {0.5, 0.6, . . . , 1.0}상에서 10-묶음교차확인법을 통해 선택하였다. 또한 오분류 유

ᆯ의 변동성을파악하기 위해서 랜덤 분할을 20회 반복하여 오분류율의 평균과 표준오차를계산하였다.

Figure 3.1은 클래스가 각각 1과 -1인 경우의 샘플이미지 데이터를시각적으로 보여준다.

(a) positive class (b) negative class Figure 3.1 Sample images for positive and negative classes on simulated data

Figure 3.2에서는여러가지 가우시안 노이즈 레벨에 따른학습방법들의 평균오분류율과 표준오차를 ᄇ

ᅵ교한다. 노이즈가 없는경우에는지지벡터기계, 지지행렬기계, 심층 신경망의 오분류율이 0에 가깝게 ᄂ

ᅡ타는반면 k-근방 분류는 0.1정도로 다른방법에 비하여 상대적으로 높은오분류율을보였다. 또한 노 ᄋ

ᅵ즈의 레벨이 증가할수록 k-근방 분류, 지지벡터기계, 심층 신경망은 급격하게 오분류율이 증가하였지 ᄆ

ᅡᆫ, 지지행렬기계의 경우에는다른방법들과는다르게 어느정도 증가하다가 안정화 되는양상을보인다.

ᅮ어진 데이터와 상황에 따라서는학습방법들의 성능이 매우 다른양상을보일 수 있지만, 적어도 이 모 ᄋ

ᅴ실험을 통해서는지지행렬기계가 다른학습법보다 패턴화된이미지 데이터의 분류에서 안정성을갖는 ᄃ

ᅡ고 할 수 있다.

(6)

Figure 3.2 Average misclassification rates on simulated data with different levels of Guassian noises

3.2. 실제 이미지 데이터 ᄋ

ᅵ미지 데이터에 대한 학습법의 성능을비교하기 위해 다음과 같은 실제 이미지 데이터를 분석하였다.

• EEG alcoholism데이터3

ᅬ파와 알코올 중독에 대한 유전적 소인과의 상관관계를 실험한 데이터로, 알코올 중독 그룹과 ᄃ

ᅢ조 그룹은 각각 77개와 45개의 관측치들로 이루어져 있다. 각 관측치에는 256개의 시점마다 64가지의 전극채널 값이 기록되어 있다.

• Nottingham데이터4

ᆷ성과 여성의 정면 얼굴사진을스캔한 것으로 크기가 468 × 536인 그레이스케일 사진이며 남성 ᄀ

ᅪ 여성 각각 50장의 사진으로 구성되어 있다. 본연구에서는사진의 크기를 200 × 200로 줄여서 ᄉ

ᅡ용하였다. Figure 3.3에서는 Nottingham데이터의 일부를보여준다.

Figure 3.3 Sample images for Nottingham data

• MIT cbcl face데이터5

ᅡ람의 얼굴사진과 얼굴이 아닌 사진으로 구성된데이터로 크기는 19 × 19인 그레이스케일이다.

어

ᆯ굴사진과 얼굴이 아닌 사진은 각각 4548장과 2429장이다. Figure 3.4의 위쪽 행에서는얼굴 ᄉ

ᅡ진을아래쪽 행에서는얼굴이 아닌 사진을예시한다.

3

http://kdd.ics.uci.edu/databases/eeg/eeg.html

4

http://pics.stir.ac.uk/2D_face_sets.htm

5

http://cbcl.mit.edu/software-datasets/FaceData.html

(7)

Figure 3.4 Sample images for MIT cbcl face data

• INRIA person데이터6

ᅡ진에서 사람을 인식하기 위헤 수집된데이터로 사람이 존재하는 사진 614장과 존재하지 않는 ᄉ

ᅡ진 1218장으로 구성되어 있다. 사진의 크기를 일정하게 하기 위해 크기 160 × 96로 조절하였 ᄀ

ᅩ 그레이스케일로 변환하였다. Figure 3.5는 분석을위해 변환되기 전의 원본사진을예시한다.

Figure 3.5 Sample images for INRIA person data

ᅡᆨ습방법들의 성능을비교하기 위하여 주어진 데이터를 랜덤하게 7:3의 비율로 훈련데이터와 시험데 ᄋ

ᅵ터로 분할하였다. 훈련데이터를 이용하여 모형을 적합하고 시험데이터를 이용하여 평가를 위한 오 ᄇ

ᅮᆫ류율을 구하였다. 모형의 모수 선택 과정은 모의실험과 마찬가지로 교차확인법으로 하였다. EEG alcoholism과 Nottingham 데이터의 경우 데이터 개수가 작기 때문에 10-묶음대신 5-묶음교차확인오 ᄎ

ᅡ를구하였다. 또한 오분류율의 변동성을파악하기 위하여 랜덤 분할과정을 100회 반복하여 오분류율 ᄋ

ᅴ 평균과 표준오차를계산하였다.

Table 3.1 Comparison of classification methods for real image data sets (a) Average misclassification rates with their standard errors in parentheses

Data set k-NN SVM SMM DNN

EEG alcoholism 0.3146(±0.007) 0.2430(±0.0069) 0.1997(±0.0066) 0.2881(±0.0071) Nottingham 0.1583(±0.0001) 0.0917(±0.0000) 0.0867(±0.0001) 0.1133(±0.0046) MIT face 0.0201(±0.0004) 0.0123(±0.0002) 0.0396(±0.0004) 0.0077(±0.0002) INRIA person 0.2613(±0.0019) 0.2292(±0.0013) 0.1940(±0.0014) 0.1986(±0.0019)

(b) Average training times in second with their standard deviations in parentheses

Data set k-NN SVM SMM DNN

EEG alcoholism 0.39(±0.00) 20.11(±0.05) 10.39(±0.09) 255.10(±0.35) Nottingham 14.19(±0.16) 180.29(±3.11) 199.05(±8.37) 3884.75(±60.90)

MIT face 15.53(±0.39) 80.98(±1.52) 303.73(±5.66) 499.73(±1.59) INRIA person 89.07(±6.56) 114.73(±0.35) 162.46(±0.23) 1172.71(±14.98)

6

http://pascal.inrialpes.fr/data/human/

(8)

Table 3.1에서는 앞서 설명한 실제 이미지 데이터에 대하여 k-근방 분류, 지지벡터기계, 지지행렬 ᄀ

ᅵ계, 심층 신경망의 성능을 비교한다. (a)에서는 각 학습법의 평균 오분류율 (괄호안은 표준오차)을 ᄐ

ᆼ해 예측력을, (b)에서는 각 학습법의 평균 훈련시간 (괄호안은표준편차) 측면에서 비교한다. EEG alcoholism, Nottingham,그리고 INRIA person 데이터는데이터의 개수가 특성값 (feature)의 개수 보 ᄃ

ᅡ 크기 때문에 고차원데이터로 볼수 있다. 특히 EEG alcoholism과 Nottingham 데이터에서는데이 ᄐ

ᅥ의 개수와 특성값의 개수의 차이가 INRIA person 데이터 보다 월등히 더 차이가 난다. 이러한 고차 ᄋ

ᆫ데이터에서는지지벡터기계와 지지행렬기계의 오분류율이 다른방법들에 비해 낮게 나타났다. 특히 ᄌ

ᅵ지행렬기계가 더 낮은오분류율을보였다. 반면 MIT face 데이터는데이터 수가 많고 다른데이터에 ᄇ

ᅵ해 상대적으로 저차원의 데이터인데, 고려한 분류 방법들이 모두 낮은오분류율을보였지만 특히 심층 ᄉ

ᅵᆫ경망이 낮은오분류율을보였다. 훈련 속도는다른방법에 비해 K-최근접이웃이 가장 빠른것으로 나 ᄐ

ᅡ났고, 심층 신경망의 훈련속도는노드와 은닉층의 개수에 따라 차이가 컸지만 가장 느리게 나타났다.

4. 결론 보

ᆫ 논문에서는 최근 Luo 등 (2015)에서 제안된 이미지 데이터에 대한 분류 방법인 지지행렬기계에 ᄃ

ᅢ하여 설명하고, 이미지 분류의 주요 학습방법인 k-근방 분류, 지지벡터기계, 심층 신경망과의 성능 ᄋ

ᅳᆯ 모의실험과 실제 이미지 데이터에서 비교하였다. 모의실험 결과 행과 열에 패턴이 있는이미지 데 ᄋ

ᅵ터에 대해 지지행렬기계는다른 분류방법보다 노이즈에 적게 영향을받으면서 더 낮은오분류율을보 ᄋ

ᅧᆻ다. 또한 실제 이미지 데이터에 대한 분류 결과를 보면 EEG alcoholism과 Nottingham과 같이 고 ᄎ

ᅡ원 데이터에 대해 지지행렬기계의 오분류율이 가장 낮았다. 하지만 INRIA person 데이터처럼 훈련 ᄋ

ᅦ 사용된데이터의 개수가 천개근처 정도인 경우에는 심층 신경망과 지지행렬기계의 오분류율이 비슷 해

ᆻ고, MIT face 데이터와 같이 훈련 데이터의 개수가 5천여개로 많은경우 심층 신경망이 가장 우수한 부

ᆫ류 성능을보였다. MIT face 데이터는데이터 개수도 많을 뿐더러 클래스의 구분이 명확하기 때문에 ᄌ

ᅵ지행렬기계가 낮은오분류율을 보일 것이라 기대했지만 k-근방 분류보다도 높은오분류율을보였다.

ᅳ 이유는지지행렬기계의 알고리즘상 반복적으로 2차 계획법을 풀어야하기에 데이터의 개수가 많아지 ᄆ

ᅧᆫ 주어진 알고리즘반복횟수 동안 제대로 수렴하지 못할뿐더러근본적으로 선형분류방법이라는한계 르

ᆯ 가지고 있기 때문인 것으로 생각된다. 최근 문헌상에는 이미지 데이터에 대하여 심층 신경망이 다 ᄅ

ᆫ방법에 비해 매우 우수한 성능을보이는것으로 보고된다. 그러나 좋은성능이 나오도록 심층 신경 ᄆ

ᅡᆼ을 구성하기까지 고려해야할 모형 및 모수의 설정에는많은 시간과 노력이 요구된다. 특히 과대적합 (overfitting)이 쉽게 되는경향이 있는데, 실제로 데이터에서 심층 신경망의 훈련 오분류율은낮게 나오 ᄌ

ᅵ만 시험 오분류율이 높아지는현상을 흔히 볼수 있다. 반면에 지지행렬기계는과대적합의 위험이 상 ᄃ

ᅢ적으로 작고 비교적 빠른 훈련속도를가지고 있어 상황에 따라 심층 신경망과 함께 고려해 볼만한 분 ᄅ

ᅲ 방법으로 생각된다. 특히 데이터의 개수가 천단위 이내인 고차원데이터에서 효율적일 것으로 기대 되

ᆫ다.

ᅩᆫ 논문에서 살펴본 지지행렬기계는 기본적으로 선형분류방법이라는 한계점을 지니고 있기 때문에 MIT face데이터와 같이 데이터의 개수가 많은경우에는 심층 신경망보다 성능이 떨어지는것으로 생각 되

ᆫ다. 따라서 추후 연구해 볼만한 주제로 커널 트릭에 의하여 지지행렬기계에 대한 비선형 커널을 적 ᄋ

ᆼ하는 것이다. 지지행렬기계에서는 각각 행렬에서의 l1과 l2 노음에 해당되는 핵노음과 프로베니우스 ᄂ

ᅩ음 (Frobenius norm)이 결합된 일레스틱 네트 (elastic net) 형식의 벌점을 사용하므로 커널을 이용 ᄒ

ᅡᆫ 직접적인 비선형화는 어렵다. 대신 l2 노음만을벌점으로 사용하는경우에는 커널을 통한 비선형화 ᄀ

ᅡ 가능하리라 예상된다. 기존의 지지행렬기계에서는 ADMM과 같은 반복알고리즘을사용하는데 비 ᄒ

ᅢ 프로베니우스 노음만 벌점으로 사용하는 경우에는 2차 계획법을 한 번만 풀면 되므로 매우 간단해

(9)

ᅵ는장점이 있다. 또 다른연구로는 특성값 선택 (feature selection)이다. 최근 Zheng 등 (2017)에서 느

ᆫ지지행렬기계에서 벌점으로 핵노음만과 l1 노음을 사용하여 특성값을선택하는 방법을 제안하였다.

Shao와 Deng (2012)에서는회귀문제에서 절단 능형회귀 (thresholded ridge regression)에 대한 이론 으

ᆯ연구하였는데 간단하면서도 효율적인 특성값 선택법으로 여겨진다. 프로베니우스 노음을사용하는 겨

ᆼ우에는적당한 계수 절단법을 통해서 특성값을선택하는것도 고려할 수 있다.

References

Boyd, S., Parikh, N., Chu, E., Peleato, B. and Eckstein, J. (2011). Distributed optimization and statistical learning via the alternating direction method of multipliers. Foundations and Trends in Machine Learning, 3, 1-122.

Choi, H., Choi, H. and Park, S. (2017). ADMM algorithms in statistics and machine learning. Journal of the Korean Data & Information Science Society, 28, 1229-1244.

Choi, H., Park, H. W. and Park, C. (2013). Support vector machines for big data analysis. Journal of the Korean Data & Information Science Society, 24, 989-998.

Goldstein, T., Brendan, O. and Setzer, S. (2012). Fast alternating direction optimization methods. CAM report, 12-35.

Lee, W. (2017). A deep learning analysis of the KOSPI’s directions. Journal of the Korean Data & Infor- mation Science Society, 28, 287-295.

Luo, L., Xie, Y., Zhang, Z. and Li, W.-J. (2015). Support matrix machine. Proceedings of the 32

nd

International Conference on Machine Learning, Lille, France.

Marron, J. S. and Alonso, A. M. (2014). Overview of object oriented data analysis. Biometrical Journal, 56, 732-753.

Platt, J. (1998). Sequential minimal optimization: A fast algorithm for training support vector machines.

Advances in Kernel Methods - Support Vector Learning, MIT Press, Massachusetts.

Shao, J. and Deng, X. (2012). Estimation in high-dimensional linear models with deterministic design matrices. Annals of Statistics, 40, 812-831.

Vapnik, V. N. (1995). The nature of statistical learning theory, 2nd Ed., Springer, New York.

Zheng, Q., Zhu, F., Qin, J., Chen, B. and Heng, P.-A. (2017). Sparse support matrix machine. Pattern

Recognition. In Press. https://doi.org/10.1016/j.patcog.2017.10.003.

(10)

2018, 29

(

1)

,

267–276

Comparison study of classification methods for image data

Beom-Jin Park

1

· Changyi Park

2

12Department of Statistics, University of Seoul

Abstract

Since images are naturally represented as matrices, we have to reshape matrices into vectors in order to apply traditional methods in machine learning to image data.

Recently, support matrix machine (SMM) has been proposed to directly classify data matrices without reshaping those matrices into vectors. However, the classification ac- curacies of SMM and support vector machine were compared in the literature. In this paper, we compare the predictive performance of SMM with those of major classifica- tion methods for image data such as k-nearest neighborhood classifier, support vector machine, and deep neural network and understand the characteristics of those learning methods.

Keywords: Deep neural network, support matrix machine, support vector machine.

This research was supported by Basic Science Research Program through the National Research Foun- dation of Korea (NRF) funded by the Ministry of Education (No. 2015R1D1A1A01059984).

1

Master student, Department of Statistics, University of Seoul, Seoul 02504, Korea.

2

Corresponding author: Professor, Department of Statistics, University of Seoul, Seoul 02504, Korea.

E-mail: [email protected]

수치

Figure 3.2 ᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄋ ᅧᄅ ᅥᄀ ᅡᄌ ᅵ ᄀ ᅡᄋ ᅮᄉ ᅵᄋ ᅡ ᆫ ᄂ ᅩᄋ ᅵᄌ ᅳ ᄅ ᅦᄇ ᅦ ᆯᄋ ᅦ ᄄ ᅡᄅ ᅳ ᆫ ᄒ ᅡ ᆨᄉ ᅳ ᆸ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄃ ᅳ ᆯ ᄋ ᅴ ᄑ ᅧ ᆼᄀ ᅲ ᆫ ᄋ ᅩᄇ ᅮ ᆫ ᄅ ᅲᄋ ᅲ ᆯ ᄀ ᅪ ᄑ ᅭᄌ ᅮ ᆫ ᄋ ᅩᄎ ᅡᄅ ᅳ ᆯ ᄇ ᅵᄀ ᅭ하 ᆫᄃ ᅡ
Figure 3.2 Average misclassification rates on simulated data with different levels of Guassian noises 3.2
Table 3.1 Comparison of classification methods for real image data sets (a) Average misclassification rates with their standard errors in parentheses

참조

관련 문서

If the receiver received image type (II), then the data-hiding key is used to do data extraction and together recover the cover image.. If the receiver received image type

This dissertation is composed of 6 chapters. ChapterⅠ deals with the purpose and the methods of this study. ChapterⅡ refers the methods and the problems of

Objectives: The present study was conducted to determine the relationship between degree of work performance and job satisfaction in NICU nurses.. Methods: The subjects of

The purpose of this study is to clarify the effect of identification affirmation according to K-Pop star image on the desire of middle school students to participate

Finally, chapter 3 presents methods of education and those are classified the teaching methods for virtues of character, such as justice, temperance, and

Objective : This study is to identify factors related to performance of hand washing in daily life for emergency Medical Technology students.. Methods : The study subjects

As shown in the results of this study through research methods and data processing described above, since customer service is increasingly important, dance

 The simplest method of storing a raster layer in the memory of the computer is using a data structure called an array..  We consider alternative methods for searching through