Comparison study of classification methods for image data<sup>†</sup>

(1)

2018, 29

(

1)

,

267–276

이미지 데이터에 대한 분류 방법의 비교 연구 ^†

ᄇ ᅡ

ᆨ범진

¹

·박창이

²

12서울시립대학교 통계학과

ᄌ ᅥ

ᆸᄉ ᅮ 2017ᄂ ᅧ ᆫ 12ᄋ ᅯ ᆯ 26ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 8ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 9ᄋ ᅵ ᆯ

요 약

ᄋ

ᅵᄆ ᅵᄌ ᅵᄂ ᅳ ᆫ ᄒ ᅢ ᆼᄅ ᅧ ᆯᄒ ᅧ ᆼᄐ ᅢᄅ ᅩ ᄌ ᅡᄋ ᅧ ᆫᄉ ᅳᄅ ᅥ ᆸᄀ ᅦ ᄑ ᅭᄒ ᅧ ᆫᄃ ᅬᄆ ᅳᄅ ᅩ ᄀ ᅵᄌ ᅩ ᆫ ᄋ ᅴ ᄀ ᅵᄀ ᅨ ᄒ ᅡ ᆨᄉ ᅳ ᆸ (machine learning) ᄇ ᅡ ᆼᄇ ᅥ ᆸᄃ ᅳ ᆯᄋ ᅳ ᆯ ᄋ ᅵ ᄆ

ᅵᄌ ᅵ ᄃ ᅦᄋ ᅵᄐ ᅥᄋ ᅦ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅢᄉ ᅥᄂ ᅳ ᆫ ᄒ ᅢ ᆼᄅ ᅧ ᆯᄋ ᅳ ᆯ ᄇ ᅦ ᆨᄐ ᅥᄅ ᅩ ᄇ ᅧ ᆫᄒ ᅪ ᆫ ᄒ ᅢᄋ ᅣ ᄒ ᅡ ᆫᄃ ᅡ. ᄎ ᅬ ᄀ ᅳ ᆫ ᄌ ᅵᄌ ᅵᄒ ᅢ ᆼᄅ ᅧ ᆯᄀ ᅵᄀ ᅨ (support ma- trix machine)ᄂ ᅳ ᆫ ᄃ ᅦᄋ ᅵᄐ ᅥ ᄒ ᅢ ᆼᄅ ᅧ ᆯᄋ ᅳ ᆯ ᄇ ᅦ ᆨᄐ ᅥᄅ ᅩ ᄇ ᅧ ᆫᄒ ᅪ ᆫ ᄒ ᅡᄌ ᅵ ᄋ ᅡ ᆭᄀ ᅩ ᄌ ᅵ ᆨᄌ ᅥ ᆸ ᄇ ᅮ ᆫ ᄅ ᅲᄒ ᅡᄃ ᅩᄅ ᅩ ᆨ ᄀ ᅩᄋ ᅡ ᆫᄃ ᅬᄋ ᅥ ᆻᄃ ᅡ. ᄀ ᅳᄅ ᅥᄂ ᅡ ᄆ ᅮ ᆫᄒ ᅥ ᆫᄉ ᅡ ᆼ ᄋ

ᅴ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄌ ᅵᄌ ᅵᄒ ᅢ ᆼᄅ ᅧ ᆯᄀ ᅵᄀ ᅨᄋ ᅪ ᄌ ᅵᄌ ᅵᄇ ᅦ ᆨᄐ ᅥᄀ ᅵᄀ ᅨ (support vector machine)ᄋ ᅴ ᄇ ᅮ ᆫ ᄅ ᅲ ᄌ ᅥ ᆼᄒ ᅪ ᆨ ᄃ ᅩᄆ ᅡ ᆫᄋ ᅳ ᆯ ᄇ ᅵᄀ ᅭᄒ ᅡ ᄋ

ᅧ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄌ ᅵᄌ ᅵᄇ ᅦ ᆨᄐ ᅥᄀ ᅵᄀ ᅨᄋ ᅴ ᄋ ᅨᄎ ᅳ ᆨ ᄉ ᅥ ᆼᄂ ᅳ ᆼᄋ ᅳ ᆯ k-ᄀ ᅳ ᆫ ᄇ ᅡ ᆼ ᄇ ᅮ ᆫ ᄅ ᅲ, ᄌ ᅵᄌ ᅵᄇ ᅦ ᆨᄐ ᅥᄀ ᅵᄀ ᅨ, ᄀ ᅳᄅ ᅵᄀ ᅩ ᄉ ᅵ ᆷᄎ ᅳ ᆼ ᄉ ᅵ ᆫᄀ ᅧ ᆼᄆ ᅡ ᆼ (deep neural network)ᄀ ᅪ ᄀ ᅡ ᇀᄋ ᅳ ᆫ ᄋ ᅵᄆ ᅵᄌ ᅵ ᄃ ᅦᄋ ᅵᄐ ᅥᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄌ ᅮᄋ ᅭ ᄇ ᅮ ᆫ ᄅ ᅲᄇ ᅡ ᆼᄇ ᅥ ᆸᄃ ᅳ ᆯ ᄀ ᅪ ᄇ ᅵᄀ ᅭᄒ ᅡᄀ ᅩ ᄋ ᅵᄅ ᅥᄒ ᅡ ᆫ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄃ ᅳ ᆯ ᄋ ᅴ ᄐ

ᅳ ᆨᄌ ᅵ ᆼᄋ ᅦ ᄃ ᅢᄒ ᅡᄋ ᅧ ᄋ ᅡ ᆯᄋ ᅡᄇ ᅩᄀ ᅩᄌ ᅡ ᄒ ᅡ ᆫᄃ ᅡ.

ᄌ

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄉ ᅵ ᆷᄎ ᅳ ᆼ ᄉ ᅵ ᆫᄀ ᅧ ᆼᄆ ᅡ ᆼ, ᄌ ᅵᄌ ᅵᄇ ᅦ ᆨᄐ ᅥᄀ ᅵᄀ ᅨ, ᄌ ᅵᄌ ᅵᄒ ᅢ ᆼᄅ ᅧ ᆯᄀ ᅵᄀ ᅨ.

1. 서론 ᄌ

ᅥᆫ통적으로 이미지 분류는 인공지능 분야에서 주요한 문제중하나로 간주된다. 지지벡터기계와 같은 ᄀ

ᅵ존의 분류방법들은대부분스칼라 혹은 벡터 형태의 데이터를기반으로 한다. 이러한 스칼라 혹은 벡 ᄐ

ᅥ 기반의 방법은이차원행렬 형식의 이미지를 벡터로 변환하여 분석하는데, 이 때 행렬 형태의 데이 ᄐ

ᅥ 구조를 잃어버리게 된다는 문제점이 있다. 객체지향 (object oriented) 데이터분석의 관점에서 데 ᄋ

ᅵ터 고유의 구조를 살리는 분석법이 바람직하다고 할 수 있다. 객체지향 데이터 분석에 대한 소개는 Marron과 Alonso (2014)를참조하기 바란다. 또 다른 문제점으로는변환 결과로 얻는 벡터가 흔히 초 ᄀ

ᅩ차원이라는것이다.

ᄋ

ᅵ에 Luo 등 (2015)에서는 행렬 형식의 입력값에 기반한 지지행렬기계를제안하고, 지지벡터기계 및 ᄀ

ᅳ 변형들과 비교함으로써 지지행렬기계가 이미지를포함한 행렬 형식의 데이터에 적합함을보였다. 그 ᄅ

ᅥ나 실제 이미지 데이터의 분류에는 k-근방 분류나 딥러닝 기법이 일반적으로 많이 사용되는데 이러한 ᄇ

ᅡᆼ법들과의 성능비교에 대한 연구는 문헌상에 없는것으로 보인다. 본연구에서는지지행렬기계를 이 ᄆ

ᅵ지 분류의 주요 방법론인 k-근방 분류와 심층 신경망 (deep neural network)과 비교하고자 한다.

보

ᆫ 논문은다음과 같이 구성되어 있다. 제 2절에서는지지벡터기계와 지지행렬기계에 대하여 간략히 ᄉ

ᅩ개한다. 제 3절에서는모의 실험 및 실제 이미지 데이터를이용하여 k-근방 분류, 지지벡터기계, 지지 ᄒ

ᅢᆼ렬기계, 그리고 심층 신경망의 성능을 비교한다. 마지막으로 제 4절에서는 본연구의 결과를요약하 ᄀ

ᅩ 향후 연구방향 등을 논의한다.

†

ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ 2015ᄂ ᅧ ᆫᄃ ᅩ ᄌ ᅥ ᆼᄇ ᅮ (ᄀ ᅭᄋ ᅲ ᆨ ᄇ ᅮ)ᄋ ᅴ ᄌ ᅢᄋ ᅯ ᆫ ᄋ ᅳᄅ ᅩ ᄒ ᅡ ᆫᄀ ᅮ ᆨᄋ ᅧ ᆫᄀ ᅮᄌ ᅢᄃ ᅡ ᆫᄋ ᅴ ᄌ ᅵᄋ ᅯ ᆫᄋ ᅳ ᆯ ᄇ ᅡ ᆮᄋ ᅡ ᄉ ᅮᄒ ᅢ ᆼᄃ ᅬ ᆫ ᄀ ᅵᄎ ᅩᄋ ᅧ ᆫᄀ ᅮᄉ ᅡᄋ ᅥ ᆸᄋ ᅵ ᆷ (No.

2015R1D1A1A01059984).

1

(02504) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄃ ᅩ ᆼ ᄃ ᅢᄆ ᅮ ᆫ ᄀ ᅮ ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢᄅ ᅩ 163 (ᄌ ᅥ ᆫᄂ ᅩ ᆼᄃ ᅩ ᆼ), ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄉ ᅥ ᆨᄉ ᅡᄀ ᅪᄌ ᅥ ᆼ.

2

ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (02504) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄃ ᅩ ᆼ ᄃ ᅢᄆ ᅮ ᆫ ᄀ ᅮ ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢᄅ ᅩ 163 (ᄌ ᅥ ᆫᄂ ᅩ ᆼᄃ ᅩ ᆼ), ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.

E-mail: [email protected]

(2)

2. 본론 ᄋ

ᅵ 절에서는지지벡터기계를기반으로 지지행렬기계를설명하고자 하며, 이에 필요한 최소한의 내용 ᄆ

ᅡᆫ 소개하고 자세한 사항은제시된참고문헌을보기 바란다. 또한 심층 신경망에 대한 소개와 KOSPI의 ᄉ

ᅡᆼ향 또는하향 예측 문제에의 적용은 Lee (2017)을참고할 수 있다.

2.1. 지지벡터기계 ᄇ

ᅩᆫ 연구에서는 {−1, 1}을 출력값으로 갖는 이진 분류 문제만으로 고려하기로 한다. 훈련데이터는 {(xi, yi)}ⁿ_i=1이며 xi ∈ R^p와 yi ∈ {−1, 1}는각각 i번째 입력 백터와 출력값을 나타내기로 하자. 지 ᄌ

ᅵ벡터기계는주어진 훈련 데이터를이용하여 마진 (margin) 을최대화하는초평면 (hyperplane)을찾 ᄂ

ᅳᆫ학습기법으로 다음과 같은최적화 문제 (optimization problem)를 푼다.

min

w

,b

1

2∥w∥²+ C

n

X

i

ξi

!

subject to yi(w^Txi+ b) ≥ 1 − ξi, ξi≥ 0, ∀i. (2.1) ᄋ

ᅧ기서 [z]+= max(0, z), ξi= [1 − yi(w^Txi+ b)]+ 이고 경첩 손실 (hinge loss) 이라 불린다.

이

ᆯ반적으로 식 (2.1)을 직접 풀기 보다는다음과 같은쌍대 문제 (dual problem) 를 풀게된다.

α∈Rminⁿ 1 2

n

X

i=1 n

X

j=1

yiαix^Tixjαjyj−

n

X

i=1

αi

!

subject to 0 ≤ αi≤ C,

n

X

i=1

αiyi= 0, ∀i. (2.2)

(2.2)는결국 2차 계획법 (quadratic programming) 문제이며 그 해를 α^∗_i ∈ R, i = 1, . . . , n라 하면 법선 베

ᆨ터 (normal vector) w와 절편 b는 KKT (Karush-Kuhn-Tucker)조건을이용하여 다음과 같이 구할 ᄉ

ᅮ 있다.

w^∗ =

n

X

i=1

α^∗_iyixi,

b^∗ = −1 2

i:ymin_i=−1w^∗Txi+ max

i:y_i=1w^∗Txi

. ᄌ

ᅵ지벡터기계에 대한 보다 자세한 소개와 빅데이터에 적용 가능한 알고리즘은 각각 Vapnik (1995)과 Choi 등 (2013)을참고하기 바란다.

2.2. 지지행렬기계 ᄌ

ᅵ지행렬기계에서는 입력값이 행렬 형식이므로 훈련데이터를 {(Xi, yi)}ⁿ_i=1로 나타내기로 하자. 여 ᄀ

ᅵ서 Xⁱ ∈ R^p×q와 yⁱ ∈ {−1, 1}는각각 i번째 입력 행렬값과 출력값을 나타낸다. 또한 행렬을 벡터 ᄅ

ᅩ 변환한 형태를 xi= vec(X^T_i) ∈ R^pq로 표기하자. 벌점항에 등장하는핵 노음 (nuclear norm)은계 ᄉ

ᅮ (rank)가 r인 행렬 A ∈ R^p×q에 대하여 특이값 분해 (singular value decomposition)에 의해 A = U SV^T이고 U^TU = Ir, V^TV = Ir, S = diag(σ1, . . . , σr)를얻었을때 ∥A∥^∗=Pmin(p,q)

i=1 σi(A)으로 저

ᆼ의된다.

(3)

ᄋ

ᅵ미지의 분류문제에서 입력 데이터의 형태는 행렬로 주어지기 때문에 전형적인 분류방법을적용하기 ᄋ

ᅱ해서는 벡터로 변환하는 작업이 필요하다. 예를 들어 이미지가 X ∈ R^p×q일 때 지지벡터기계 등을 ᄌ

ᅥ

ᆨ용하기 위해서는 pq 벡터 x = vec(X)으로 변환한 후 입력 데이터로 사용하게된다. 이 경우 서론에 ᄉ

ᅥ 지적한 바와 같이 행렬이 가지는 구조가 무너지게 되고 결과적으로 이미지 데이터가 가지는고유의 ᄑ

ᅢ턴이 무시될수 있다. Luo 등 (2015)이 제안한 지지행렬기계는 행렬 형식의 입력 데이터를 직접 다 ᄅ

ᅮ는객체지향 분류법이라고 볼수 있다.

ᄌ

ᅵ지행렬기계의 최적화 문제는다음과 같다.

min

W

,b

1

2tr(W^TW ) + τ ∥W ∥∗+ C

n

X

i

ξi

!

subject to yi[tr(W^TXi) + b] ≥ 1 − ξi, ξi≥ 0, ∀i, (2.3) ᄋ

ᅧ기서 ξi= [1 − yi{tr(W^TXi) + b}]+이다. 식 (2.3)은 tr(W^TW ) = vec(W^T)^Tvec(W^T) = w^Tw이 ᄀ

ᅩ tr(W^TXi) = vec(W^T)^Tvec(X^T_i) = w^Txi이기 때문에 τ = 0이면 지지벡터기계와 똑같은형태의 시

ᆨ이된다. 하지만 τ ̸= 0이면 핵노음은 벡터로 표현될수 없기 때문에 행렬 구조를유지해야 한다.

시

ᆨ (2.3)의 해를 ( ˜W , ˜b)라고 하면 Luo 등 (2015)의 정리 2에 행렬 ˜W 는그룹효과를갖게된다. 즉, [ ˜W ]:,l을 ˜W의 l번째 열이라고 놓으면 상수 C > 0에 대하여

∥[ ˜W ]:,l₁− [ ˜W ]:,l₂∥²≤ 2nC²(p −

p

X

k=1

f^T_kl

1f_kl

2) ᄀ

ᅡ 성립한다. 특히, 어떤 k = 1, . . . , p에 대해 fkl1 = f_kl₂이면 [ ˜W ]:,l₁ = [ ˜W ]:,l₂이다. 여기서 fkl= ([X1]kl, ..., [Xn]kl)^T이며 ∥fkl∥ = 1으로 훈련데이터의 각 열을단위길이로 정규화한 값이다. 정리 2에 ᄋ

ᅴ해 입력 행렬 Xi의 각 열의 상관관계가 W 에 반영되기 때문에 W 는그룹효과 혹은이미지 데이터의 ᄑ

ᅢ턴이 반영된값으로 찾아주게된다.

ᄌ

ᅵ지행렬기계의 목적함수는 W와 b에 대해서 볼록 (convex) 함수이기 때문에 지지벡터기계와 마찬 ᄀ

ᅡ지로 쌍대 최적화 문제를고려할 수 있다. 하지만 목적함수에 포함된 핵노음의 미분이 어렵기 때문에 KKT조건을구하기 어렵다. 대신 ADMM (alternating direction method of multipliers) 알고리즘을 ᄉ

ᅡ용하여 목적함수를최소화하는해를구할 수 있다. 식 (2.3)은 (W , b)와 S에 대해 다음과 같이 표현 되

ᆯ수 있다.

W

min,b,

S

(H(W , b) + G(S)) subject to S − W = 0, (2.4) ᄋ

ᅧ기서 H(W , b) = ¹2tr(W^TW ) + CPn

i=1{1 − yi[tr(W^TXi) + b]}+이고 G(S) = τ ∥S∥^∗이다. 식 (2.4)를 확장 라그랑즈 승수법 (augmented Lagrange multiplier method)을 이용하여 다음의 함수를 ᄀ

ᅮ할 수 있다.

Lρ(W , b, S, Λ) = H(W , b) + G(S) + tr[Λ^T(S − W )] + ρ

2∥S − W ∥²F, ᄋ

ᅧ기서 Λ ∈ R^p×q은라그랑즈 승수 행렬이고 ρ > 0는조율모수이다.

ᄋ

ᅵ 때 (2.4)의 해 (W^∗, b^∗)와 S^∗는두 단계로 나누어 순차적으로 최적화 문제 (2.5)와 (2.6)로부터 구 ᄒ

ᅡᆯ 수 있다.

min

W

,b

H(W , b) − tr(Λ^TW ) +ρ

2∥W − S∥²F

, (2.5)

min

S

G(S) + tr(Λ^(k)TS) +ρ

2∥W^(k+1)− S∥²F

. (2.6)

(4)

ADMM은 이 두 단계를 통해 주어진 초기치에 대하여 (W , b)와 S의 값을 업데이트 함으로써 해를 ᄀ

ᅮ하게 된다. 이 두 단계의 최적화와 각 단계에서의 해에 대한 자세한 설명은 Luo 등 (2015)의 정리 3과 4에 제시되어 있다. 아래의 지지행렬기계의 ADMM 알고리즘은 속도를 높이기 위해 재시작 규칙 (restart rule)을적용하였다. 재시작 규칙에 대한 보다 자세한 사항은 Goldstein 등 (2012)을참고할 수 이

ᆻ다. 또한 Choi 등 (2017)에서 언급된 것처럼 Nestrov의 가속화 (acceleration) 단계를추가하면 계산 ᄉ

ᅩ

ᆨ도를더욱향상시킬 수 있을것이다.

Algorithm 지지행렬기계 ADMM 알고리즘 Initialize :

S⁽⁻¹⁾= ˆS⁽⁰⁾∈ R^p×q, Λ⁽⁻¹⁾= ˆΛ⁽⁰⁾∈ R^p×q ρ > 0, η ∈ (0, 1), t⁽¹⁾= 1

for k = 1, 2, 3, ...K do (W^(k), b^(k)) = arg min

W

,b

H(W , b) − tr( ˆΛ^(k)TW ) +ρ

2∥W − ˆS^(k)∥²F

S^(k)= arg min

S

G(S) + tr( ˆΛ^(k)TS) + ρ

2∥W^(k)− S∥²F

Λ^(k)= ˆΛ^(k)− ρ(W^(k)− S^(k))

c^(k)= ρ⁻¹∥Λ^(k)− ˆΛ^(k)∥²F+ ρ∥S^(k)− ˆS^(k)∥²F

if c^(k)< ηc^(k−1)then t^(k+1)= 1 +p

1 + 4t^(k)² 2 Sˆ^(k+1)= S^(k)+t^(k)− 1

t^(k+1) (S^(k)− S^(k−1)) Λˆ^(k+1)= Λ^(k)+t^(k)− 1

t^(k+1) (Λ^(k)− Λ^(k−1)) else

t^(k¹⁾= 1 Sˆ^(k+1)= S^(k−1) Λˆ^(k+1)= Λ^(k−1) c^(k)= η⁻¹c^(k−1) end if

end for

(2.5)의 해를구하기 위해서는 2차 계획법을 풀어야 하는데, 본연구에서는 W의 희소성 (sparsity)이 ᄂ

ᅩᇁ다는 특징을 고려하여 Platt 등 (1998)에서 제안된 SMO 알고리즘 (sequential minimization optimization algorithm)을 이용하여 구현하였다. 특히 연산 속도를 높이기 위해 R로 구현한 부분에서는 벼

ᆼ렬처리가 가능한 openBLAS 라이브러리를이용하였고 SMO 알고리즘자체는 C 언어로 구현하였다.

ᄄ

ᅩ한 ADMM 알고리즘을병렬 구조로 연산하게 되면 계산 속도를더욱빠르게 향상할 수도 있다 (Choi ᄃ

ᅳᆼ, 2017). 구현된소스 코드는 http://github.com/bbeomjin/SMM에서 내려받기 할 수 있다.

3. 데이터 분석 ᄋ

ᅵ 절에서는 모의실험과 실제 이미지 데이터에 대하여 지지행렬기계와 이미지 분류의 주요 학습 방 버

ᆸ인 k-근방 분류, 지지벡터기계, 심층 신경망의 성능을 비교한다. 모든 데이터 분석은 Ubuntu16.04 sever (32core, 32GB RAM)에서 시행되었다. k-근방 분류와 지지벡터기계는 각각 R의 class, e1071

(5)

ᄑ

ᅢ키지의 knn, svm 함수를사용하였고, 심층 신경망은가장 널리 사용되는모형인 다층퍼셉트론 (mul- tilayer perceptron)을 tensorflow로 구성해 사용하였다.

3.1. 모의실험

Luo (2015)의 데이터 생성모형을이용하여 패턴이 있는이미지 데이터를생성하였는데 그 방법은다 ᄋ

ᅳ

ᆷ과 같다. 먼저 G개의 n차원기저 벡터 v⁽¹⁾, v⁽²⁾, . . . , v^(G)를생성한다. i = 1, . . . , n에 대하여 데이 ᄐ

ᅥ 행렬 Xi∈ R^p×q의 원소를 akl= v([l/(0.2q)])

i + ϵkl, ϵkl∼ N (0, σ²), k = 1, . . . , p, l = 1, . . . , q로 구 서

ᆼ한다. 이 때 [l/(0.2q)]는 l/(0.2q)보다큰 최소의 정수이다. Xi의 원소들은 같은 그룹일 때 높은 상 과

ᆫ관계를갖고 다른그룹일 때는낮은상관관계를갖게된다. 다음으로 행렬의 계수가 0.2q인 계수 행렬 W ∈ R^p×q를생성하고 출력변수 yⁱ의 클래스 값을 yi= sign[tr(W^TXi)]로 지정한다.

보

ᆫ 모의실험에는 n = 1500, G = 10, p = 80, q = 100, σ = 10⁻³로 설정하여 크기 1500개의 데 ᄋ

ᅵ터를 생성하였다. 생성된 데이터를 랜덤하게 1000개의 훈련데이터와 500개의 시험데이터로 분할하 ᄋ

ᅧᆻ다. k-근방 분류, 지지벡터기계 그리고 지지행렬기계의 조율모수들은 10-묶음 교차확인법 (10-fold cross validation)으로 선택하였으며, 심층 신경망은 ReLU함수를활성 함수 (activation function)로 ᄉ

ᅡ용했고 은닉층의 수는 {1, 2, . . . , 5}에서, 은닉층내의 노드의 수는 {2¹, 2², . . . , 2⁸}에서, 그리고 탈락 ᄇ

ᅵ율 (dropout rate)은 {0.5, 0.6, . . . , 1.0}상에서 10-묶음교차확인법을 통해 선택하였다. 또한 오분류 유

ᆯ의 변동성을파악하기 위해서 랜덤 분할을 20회 반복하여 오분류율의 평균과 표준오차를계산하였다.

Figure 3.1은 클래스가 각각 1과 -1인 경우의 샘플이미지 데이터를시각적으로 보여준다.

(a) positive class (b) negative class Figure 3.1 Sample images for positive and negative classes on simulated data

Figure 3.2에서는여러가지 가우시안 노이즈 레벨에 따른학습방법들의 평균오분류율과 표준오차를 ᄇ

ᅵ교한다. 노이즈가 없는경우에는지지벡터기계, 지지행렬기계, 심층 신경망의 오분류율이 0에 가깝게 ᄂ

ᅡ타는반면 k-근방 분류는 0.1정도로 다른방법에 비하여 상대적으로 높은오분류율을보였다. 또한 노 ᄋ

ᅵ즈의 레벨이 증가할수록 k-근방 분류, 지지벡터기계, 심층 신경망은 급격하게 오분류율이 증가하였지 ᄆ

ᅡᆫ, 지지행렬기계의 경우에는다른방법들과는다르게 어느정도 증가하다가 안정화 되는양상을보인다.

ᄌ

ᅮ어진 데이터와 상황에 따라서는학습방법들의 성능이 매우 다른양상을보일 수 있지만, 적어도 이 모 ᄋ

ᅴ실험을 통해서는지지행렬기계가 다른학습법보다 패턴화된이미지 데이터의 분류에서 안정성을갖는 ᄃ

ᅡ고 할 수 있다.

(6)

Figure 3.2 Average misclassification rates on simulated data with different levels of Guassian noises

3.2. 실제 이미지 데이터 ᄋ

ᅵ미지 데이터에 대한 학습법의 성능을비교하기 위해 다음과 같은 실제 이미지 데이터를 분석하였다.

• EEG alcoholism데이터³ ᄂ

ᅬ파와 알코올 중독에 대한 유전적 소인과의 상관관계를 실험한 데이터로, 알코올 중독 그룹과 ᄃ

ᅢ조 그룹은 각각 77개와 45개의 관측치들로 이루어져 있다. 각 관측치에는 256개의 시점마다 64가지의 전극채널 값이 기록되어 있다.

• Nottingham데이터⁴ ᄂ

ᅡ

ᆷ성과 여성의 정면 얼굴사진을스캔한 것으로 크기가 468 × 536인 그레이스케일 사진이며 남성 ᄀ

ᅪ 여성 각각 50장의 사진으로 구성되어 있다. 본연구에서는사진의 크기를 200 × 200로 줄여서 ᄉ

ᅡ용하였다. Figure 3.3에서는 Nottingham데이터의 일부를보여준다.

Figure 3.3 Sample images for Nottingham data

• MIT cbcl face데이터⁵ ᄉ

ᅡ람의 얼굴사진과 얼굴이 아닌 사진으로 구성된데이터로 크기는 19 × 19인 그레이스케일이다.

어

ᆯ굴사진과 얼굴이 아닌 사진은 각각 4548장과 2429장이다. Figure 3.4의 위쪽 행에서는얼굴 ᄉ

ᅡ진을아래쪽 행에서는얼굴이 아닌 사진을예시한다.

3

http://kdd.ics.uci.edu/databases/eeg/eeg.html

4

http://pics.stir.ac.uk/2D_face_sets.htm

5

http://cbcl.mit.edu/software-datasets/FaceData.html

(7)

Figure 3.4 Sample images for MIT cbcl face data

• INRIA person데이터⁶ ᄉ

ᅡ진에서 사람을 인식하기 위헤 수집된데이터로 사람이 존재하는 사진 614장과 존재하지 않는 ᄉ

ᅡ진 1218장으로 구성되어 있다. 사진의 크기를 일정하게 하기 위해 크기 160 × 96로 조절하였 ᄀ

ᅩ 그레이스케일로 변환하였다. Figure 3.5는 분석을위해 변환되기 전의 원본사진을예시한다.

Figure 3.5 Sample images for INRIA person data

ᄒ

ᅡᆨ습방법들의 성능을비교하기 위하여 주어진 데이터를 랜덤하게 7:3의 비율로 훈련데이터와 시험데 ᄋ

ᅵ터로 분할하였다. 훈련데이터를 이용하여 모형을 적합하고 시험데이터를 이용하여 평가를 위한 오 ᄇ

ᅮᆫ류율을 구하였다. 모형의 모수 선택 과정은 모의실험과 마찬가지로 교차확인법으로 하였다. EEG alcoholism과 Nottingham 데이터의 경우 데이터 개수가 작기 때문에 10-묶음대신 5-묶음교차확인오 ᄎ

ᅡ를구하였다. 또한 오분류율의 변동성을파악하기 위하여 랜덤 분할과정을 100회 반복하여 오분류율 ᄋ

ᅴ 평균과 표준오차를계산하였다.

Table 3.1 Comparison of classification methods for real image data sets (a) Average misclassification rates with their standard errors in parentheses

Data set k-NN SVM SMM DNN

EEG alcoholism 0.3146(±0.007) 0.2430(±0.0069) 0.1997(±0.0066) 0.2881(±0.0071) Nottingham 0.1583(±0.0001) 0.0917(±0.0000) 0.0867(±0.0001) 0.1133(±0.0046) MIT face 0.0201(±0.0004) 0.0123(±0.0002) 0.0396(±0.0004) 0.0077(±0.0002) INRIA person 0.2613(±0.0019) 0.2292(±0.0013) 0.1940(±0.0014) 0.1986(±0.0019)

(b) Average training times in second with their standard deviations in parentheses

Data set k-NN SVM SMM DNN

EEG alcoholism 0.39(±0.00) 20.11(±0.05) 10.39(±0.09) 255.10(±0.35) Nottingham 14.19(±0.16) 180.29(±3.11) 199.05(±8.37) 3884.75(±60.90)

MIT face 15.53(±0.39) 80.98(±1.52) 303.73(±5.66) 499.73(±1.59) INRIA person 89.07(±6.56) 114.73(±0.35) 162.46(±0.23) 1172.71(±14.98)

6

http://pascal.inrialpes.fr/data/human/

(8)

Table 3.1에서는 앞서 설명한 실제 이미지 데이터에 대하여 k-근방 분류, 지지벡터기계, 지지행렬 ᄀ

ᅵ계, 심층 신경망의 성능을 비교한다. (a)에서는 각 학습법의 평균 오분류율 (괄호안은 표준오차)을 ᄐ

ᅩ

ᆼ해 예측력을, (b)에서는 각 학습법의 평균 훈련시간 (괄호안은표준편차) 측면에서 비교한다. EEG alcoholism, Nottingham,그리고 INRIA person 데이터는데이터의 개수가 특성값 (feature)의 개수 보 ᄃ

ᅡ 크기 때문에 고차원데이터로 볼수 있다. 특히 EEG alcoholism과 Nottingham 데이터에서는데이 ᄐ

ᅥ의 개수와 특성값의 개수의 차이가 INRIA person 데이터 보다 월등히 더 차이가 난다. 이러한 고차 ᄋ

ᅯ

ᆫ데이터에서는지지벡터기계와 지지행렬기계의 오분류율이 다른방법들에 비해 낮게 나타났다. 특히 ᄌ

ᅵ지행렬기계가 더 낮은오분류율을보였다. 반면 MIT face 데이터는데이터 수가 많고 다른데이터에 ᄇ

ᅵ해 상대적으로 저차원의 데이터인데, 고려한 분류 방법들이 모두 낮은오분류율을보였지만 특히 심층 ᄉ

ᅵᆫ경망이 낮은오분류율을보였다. 훈련 속도는다른방법에 비해 K-최근접이웃이 가장 빠른것으로 나 ᄐ

ᅡ났고, 심층 신경망의 훈련속도는노드와 은닉층의 개수에 따라 차이가 컸지만 가장 느리게 나타났다.

4. 결론 보

ᆫ 논문에서는 최근 Luo 등 (2015)에서 제안된 이미지 데이터에 대한 분류 방법인 지지행렬기계에 ᄃ

ᅢ하여 설명하고, 이미지 분류의 주요 학습방법인 k-근방 분류, 지지벡터기계, 심층 신경망과의 성능 ᄋ

ᅳᆯ 모의실험과 실제 이미지 데이터에서 비교하였다. 모의실험 결과 행과 열에 패턴이 있는이미지 데 ᄋ

ᅵ터에 대해 지지행렬기계는다른 분류방법보다 노이즈에 적게 영향을받으면서 더 낮은오분류율을보 ᄋ

ᅧᆻ다. 또한 실제 이미지 데이터에 대한 분류 결과를 보면 EEG alcoholism과 Nottingham과 같이 고 ᄎ

ᅡ원 데이터에 대해 지지행렬기계의 오분류율이 가장 낮았다. 하지만 INRIA person 데이터처럼 훈련 ᄋ

ᅦ 사용된데이터의 개수가 천개근처 정도인 경우에는 심층 신경망과 지지행렬기계의 오분류율이 비슷 해

ᆻ고, MIT face 데이터와 같이 훈련 데이터의 개수가 5천여개로 많은경우 심층 신경망이 가장 우수한 부

ᆫ류 성능을보였다. MIT face 데이터는데이터 개수도 많을 뿐더러 클래스의 구분이 명확하기 때문에 ᄌ

ᅵ지행렬기계가 낮은오분류율을 보일 것이라 기대했지만 k-근방 분류보다도 높은오분류율을보였다.

ᄀ

ᅳ 이유는지지행렬기계의 알고리즘상 반복적으로 2차 계획법을 풀어야하기에 데이터의 개수가 많아지 ᄆ

ᅧᆫ 주어진 알고리즘반복횟수 동안 제대로 수렴하지 못할뿐더러근본적으로 선형분류방법이라는한계 르

ᆯ 가지고 있기 때문인 것으로 생각된다. 최근 문헌상에는 이미지 데이터에 대하여 심층 신경망이 다 ᄅ

ᅳ

ᆫ방법에 비해 매우 우수한 성능을보이는것으로 보고된다. 그러나 좋은성능이 나오도록 심층 신경 ᄆ

ᅡᆼ을 구성하기까지 고려해야할 모형 및 모수의 설정에는많은 시간과 노력이 요구된다. 특히 과대적합 (overfitting)이 쉽게 되는경향이 있는데, 실제로 데이터에서 심층 신경망의 훈련 오분류율은낮게 나오 ᄌ

ᅵ만 시험 오분류율이 높아지는현상을 흔히 볼수 있다. 반면에 지지행렬기계는과대적합의 위험이 상 ᄃ

ᅢ적으로 작고 비교적 빠른 훈련속도를가지고 있어 상황에 따라 심층 신경망과 함께 고려해 볼만한 분 ᄅ

ᅲ 방법으로 생각된다. 특히 데이터의 개수가 천단위 이내인 고차원데이터에서 효율적일 것으로 기대 되

ᆫ다.

ᄇ

ᅩᆫ 논문에서 살펴본 지지행렬기계는 기본적으로 선형분류방법이라는 한계점을 지니고 있기 때문에 MIT face데이터와 같이 데이터의 개수가 많은경우에는 심층 신경망보다 성능이 떨어지는것으로 생각 되

ᆫ다. 따라서 추후 연구해 볼만한 주제로 커널 트릭에 의하여 지지행렬기계에 대한 비선형 커널을 적 ᄋ

ᅭ

ᆼ하는 것이다. 지지행렬기계에서는 각각 행렬에서의 l1과 l2 노음에 해당되는 핵노음과 프로베니우스 ᄂ

ᅩ음 (Frobenius norm)이 결합된 일레스틱 네트 (elastic net) 형식의 벌점을 사용하므로 커널을 이용 ᄒ

ᅡᆫ 직접적인 비선형화는 어렵다. 대신 l2 노음만을벌점으로 사용하는경우에는 커널을 통한 비선형화 ᄀ

ᅡ 가능하리라 예상된다. 기존의 지지행렬기계에서는 ADMM과 같은 반복알고리즘을사용하는데 비 ᄒ

ᅢ 프로베니우스 노음만 벌점으로 사용하는 경우에는 2차 계획법을 한 번만 풀면 되므로 매우 간단해

(9)

ᄌ

ᅵ는장점이 있다. 또 다른연구로는 특성값 선택 (feature selection)이다. 최근 Zheng 등 (2017)에서 느

ᆫ지지행렬기계에서 벌점으로 핵노음만과 l1 노음을 사용하여 특성값을선택하는 방법을 제안하였다.

Shao와 Deng (2012)에서는회귀문제에서 절단 능형회귀 (thresholded ridge regression)에 대한 이론 으

ᆯ연구하였는데 간단하면서도 효율적인 특성값 선택법으로 여겨진다. 프로베니우스 노음을사용하는 겨

ᆼ우에는적당한 계수 절단법을 통해서 특성값을선택하는것도 고려할 수 있다.

References

Boyd, S., Parikh, N., Chu, E., Peleato, B. and Eckstein, J. (2011). Distributed optimization and statistical learning via the alternating direction method of multipliers. Foundations and Trends in Machine Learning, 3, 1-122.

Choi, H., Choi, H. and Park, S. (2017). ADMM algorithms in statistics and machine learning. Journal of the Korean Data & Information Science Society, 28, 1229-1244.

Choi, H., Park, H. W. and Park, C. (2013). Support vector machines for big data analysis. Journal of the Korean Data & Information Science Society, 24, 989-998.

Goldstein, T., Brendan, O. and Setzer, S. (2012). Fast alternating direction optimization methods. CAM report, 12-35.

Lee, W. (2017). A deep learning analysis of the KOSPI’s directions. Journal of the Korean Data & Infor- mation Science Society, 28, 287-295.

Luo, L., Xie, Y., Zhang, Z. and Li, W.-J. (2015). Support matrix machine. Proceedings of the 32

^nd

International Conference on Machine Learning, Lille, France.

Marron, J. S. and Alonso, A. M. (2014). Overview of object oriented data analysis. Biometrical Journal, 56, 732-753.

Platt, J. (1998). Sequential minimal optimization: A fast algorithm for training support vector machines.

Advances in Kernel Methods - Support Vector Learning, MIT Press, Massachusetts.

Shao, J. and Deng, X. (2012). Estimation in high-dimensional linear models with deterministic design matrices. Annals of Statistics, 40, 812-831.

Vapnik, V. N. (1995). The nature of statistical learning theory, 2nd Ed., Springer, New York.

Zheng, Q., Zhu, F., Qin, J., Chen, B. and Heng, P.-A. (2017). Sparse support matrix machine. Pattern

Recognition. In Press. https://doi.org/10.1016/j.patcog.2017.10.003.

(10)

2018, 29

(

1)

,

267–276

Comparison study of classification methods for image data ^†

Beom-Jin Park

¹

· Changyi Park

²

12Department of Statistics, University of Seoul

Abstract

Since images are naturally represented as matrices, we have to reshape matrices into vectors in order to apply traditional methods in machine learning to image data.

Recently, support matrix machine (SMM) has been proposed to directly classify data matrices without reshaping those matrices into vectors. However, the classification ac- curacies of SMM and support vector machine were compared in the literature. In this paper, we compare the predictive performance of SMM with those of major classification methods for image data such as k-nearest neighborhood classifier, support vector machine, and deep neural network and understand the characteristics of those learning methods.

Keywords: Deep neural network, support matrix machine, support vector machine.

†

This research was supported by Basic Science Research Program through the National Research Foun- dation of Korea (NRF) funded by the Ministry of Education (No. 2015R1D1A1A01059984).

1

Master student, Department of Statistics, University of Seoul, Seoul 02504, Korea.

2

Comparison study of classification methods for image data<sup>†</sup>

2018, 29

1)

267–276

이미지 데이터에 대한 분류 방법의 비교 연구 †

1

2

ᄌ ᅥ

ᆸᄉ ᅮ 2017ᄂ ᅧ ᆫ 12ᄋ ᅯ ᆯ 26ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 8ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 9ᄋ ᅵ ᆯ

ᄋ

ᅴ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄌ ᅵᄌ ᅵᄒ ᅢ ᆼᄅ ᅧ ᆯᄀ ᅵᄀ ᅨᄋ ᅪ ᄌ ᅵᄌ ᅵᄇ ᅦ ᆨᄐ ᅥᄀ ᅵᄀ ᅨ (support vector machine)ᄋ ᅴ ᄇ ᅮ ᆫ ᄅ ᅲ ᄌ ᅥ ᆼᄒ ᅪ ᆨ ᄃ ᅩᄆ ᅡ ᆫᄋ ᅳ ᆯ ᄇ ᅵᄀ ᅭᄒ ᅡ ᄋ

ᅳ ᆨᄌ ᅵ ᆼᄋ ᅦ ᄃ ᅢᄒ ᅡᄋ ᅧ ᄋ ᅡ ᆯᄋ ᅡᄇ ᅩᄀ ᅩᄌ ᅡ ᄒ ᅡ ᆫᄃ ᅡ.

ᄌ

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄉ ᅵ ᆷᄎ ᅳ ᆼ ᄉ ᅵ ᆫᄀ ᅧ ᆼᄆ ᅡ ᆼ, ᄌ ᅵᄌ ᅵᄇ ᅦ ᆨᄐ ᅥᄀ ᅵᄀ ᅨ, ᄌ ᅵᄌ ᅵᄒ ᅢ ᆼᄅ ᅧ ᆯᄀ ᅵᄀ ᅨ.

2015R1D1A1A01059984).

E-mail: [email protected]

w

W

W

S

W

S

W

S

(a) positive class (b) negative class Figure 3.1 Sample images for positive and negative classes on simulated data

Figure 3.2 Average misclassification rates on simulated data with different levels of Guassian noises

Figure 3.3 Sample images for Nottingham data

http://kdd.ics.uci.edu/databases/eeg/eeg.html

http://pics.stir.ac.uk/2D_face_sets.htm

http://cbcl.mit.edu/software-datasets/FaceData.html

Figure 3.4 Sample images for MIT cbcl face data

Figure 3.5 Sample images for INRIA person data

Table 3.1 Comparison of classification methods for real image data sets (a) Average misclassification rates with their standard errors in parentheses

Data set k-NN SVM SMM DNN

(b) Average training times in second with their standard deviations in parentheses

Data set k-NN SVM SMM DNN

EEG alcoholism 0.39(±0.00) 20.11(±0.05) 10.39(±0.09) 255.10(±0.35) Nottingham 14.19(±0.16) 180.29(±3.11) 199.05(±8.37) 3884.75(±60.90)

MIT face 15.53(±0.39) 80.98(±1.52) 303.73(±5.66) 499.73(±1.59) INRIA person 89.07(±6.56) 114.73(±0.35) 162.46(±0.23) 1172.71(±14.98)

http://pascal.inrialpes.fr/data/human/

Boyd, S., Parikh, N., Chu, E., Peleato, B. and Eckstein, J. (2011). Distributed optimization and statistical learning via the alternating direction method of multipliers. Foundations and Trends in Machine Learning, 3, 1-122.

Choi, H., Choi, H. and Park, S. (2017). ADMM algorithms in statistics and machine learning. Journal of the Korean Data & Information Science Society, 28, 1229-1244.

Choi, H., Park, H. W. and Park, C. (2013). Support vector machines for big data analysis. Journal of the Korean Data & Information Science Society, 24, 989-998.

Goldstein, T., Brendan, O. and Setzer, S. (2012). Fast alternating direction optimization methods. CAM report, 12-35.

Lee, W. (2017). A deep learning analysis of the KOSPI’s directions. Journal of the Korean Data & Infor- mation Science Society, 28, 287-295.

Luo, L., Xie, Y., Zhang, Z. and Li, W.-J. (2015). Support matrix machine. Proceedings of the 32

International Conference on Machine Learning, Lille, France.

Marron, J. S. and Alonso, A. M. (2014). Overview of object oriented data analysis. Biometrical Journal, 56, 732-753.

Platt, J. (1998). Sequential minimal optimization: A fast algorithm for training support vector machines.

Advances in Kernel Methods - Support Vector Learning, MIT Press, Massachusetts.

Shao, J. and Deng, X. (2012). Estimation in high-dimensional linear models with deterministic design matrices. Annals of Statistics, 40, 812-831.

Vapnik, V. N. (1995). The nature of statistical learning theory, 2nd Ed., Springer, New York.

Zheng, Q., Zhu, F., Qin, J., Chen, B. and Heng, P.-A. (2017). Sparse support matrix machine. Pattern

Recognition. In Press. https://doi.org/10.1016/j.patcog.2017.10.003.

2018, 29

1)

267–276

Comparison study of classification methods for image data †

1

2

This research was supported by Basic Science Research Program through the National Research Foun- dation of Korea (NRF) funded by the Ministry of Education (No. 2015R1D1A1A01059984).

Master student, Department of Statistics, University of Seoul, Seoul 02504, Korea.

Corresponding author: Professor, Department of Statistics, University of Seoul, Seoul 02504, Korea.

E-mail: [email protected]

이미지 데이터에 대한 분류 방법의 비교 연구 ^†

¹

²

Comparison study of classification methods for image data ^†

¹

²