A Two-Stage Learning Method of CNN and K-means RGB Cluster for Sentiment Classification of Images

(1)

J Intell Inform Syst 2021 September: 27(3): 139~156 http://dx.doi.org/10.13088/jiis.2021.27.3.139

󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏

이미지 감성분류를 위한 CNN과 K-means RGB Cluster 이-단계 학습 방안*

김정태

가톨릭대학교 수학과 ([email protected])

박은비

가톨릭대학교 수학과 ([email protected])

한기웅

고려대학교 산업경영공학과 ([email protected])

이정현

연세대학교 정보산업공학과 ([email protected])

이홍주

가톨릭대학교 경영학과 ([email protected])

․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․

이미지 분류에서 딥러닝 모형을 사용하는 가장 큰 이유는 이미지의 전체적인 정보에서 각 지역 특징을 추출하여 서로 의 관계를 고려할 수 있기 때문이다. 하지만 이미지의 지역 특징이 없는 감정 이미지 데이터는 CNN 모델이 적합하지 않 을 수 있다. 이러한 감정 이미지 분류의 어려움을 해결하기 위하여 매년 많은 연구자들이 감정 이미지에 적합한 CNN기반 아키텍처를 제시하고 있다. 색깔과 사람 감정간의 관계에 대한 연구들도 수행되었으며, 색깔에 따라 다른 감정이 유도된 다는 결과들이 도출되었다. 딥러닝을 활용한 연구에서도 색깔정보를 활용하여 이미지 감성분류에 적용하는 연구들이 있 어왔으며, 이미지만을 가지고 분류 모형을 학습한 경우보다 이미지의 색깔 정보를 추가로 활용한 경우가 이미지 감성 분 류 정확도를 더 높일 수 있었다.

본 연구는 사람이 이미지의 감정을 분류하는 기준 중 많은 부분을 차지하는 색감을 이용하여 이미지 감성 분류 정확도 를 향상시키는 방안을 제안한다. 이미지의 RGB 값에 K 평균 군집화 방안을 적용하여 이미지를 대표하는 색을 추출하여, 각 감성 클래스 별 해당 색깔이 나올 확률을 가중치 식으로 변형 후 CNN 모델의 최종 Layer에 적용하는 이-단계 학습 방안을 구현하였다. 이미지 데이터는 6가지 감정으로 분류되는 Emotion6와 8가지 감정으로 분류되는 Artphoto를 사용하 였다. 학습에 사용한 CNN 모델은 Densenet169, Mnasnet, Resnet101, Resnet152, Vgg19를 사용하였으며, 성능 평가는 5겹 교차검증으로 CNN 모델에 이-단계 학습 방안을 적용하여 전후 성과를 비교하였다. CNN 아키텍처만을 활용한 경우보다 색 속성에서 추출한 정보를 함께 사용하였을 때 더 좋은 분류 정확도를 보였다.

주제어 : 이미지 감성분류, 색감, CNN, 이-단계 학습

․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․

논문접수일：2021년 5월 27일 논문수정일：2021년 7월 19일 게재확정일：2021년 7월 23일 원고유형：일반논문 교신저자：이홍주

* 이 논문은 2020년 대한민국 교육부와 한국연구재단의 지원을 받아 수행된 연구이며 (NRF-2020S1A3A2A02093277), 2021년도 가톨릭대학교 교비연구비의 지원을 받아 수행되었습니다.

1. 서론

소셜 미디어를 통한 다양한 경험과 의견의 제 시는 텍스트에만 머물지 않고 사진 이미지와 짧

은 동영상 공유로 확장되었다(Nam et al., 2015).

기업들은 브랜드 홍보를 위해 인스타그램 등의

이미지 기반 소셜 네트워크를 적극적으로 활용

하고 있으며, 젊은 세대들이 텍스트보다 이미지

(2)

<Figure 1> Grad cam image

기반 소셜 미디어에 더 많은 시간을 할애하고 있 다(Lee et al., 2015). Twitter와 같은 텍스트 기반 소셜 미디어 데이터를 활용하여 사용자의 감성 을 측정하거나(Lee and Park, 2019; Liao et al., 2017; Park and Shin, 2020), 기업 계정의 브랜드 특성을 파악하는 연구들이 수행되어 왔으며(Cruz and Lee, 2014; Netzer et al., 2012), 텍스트 감성 분석을 위해서는 딥러닝의 CNN, RNN, LSTM 아키텍처들이 활용되었다(Seo and Kim, 2016).

마찬가지로 이미지 기반 소셜 미디어에 올려진 이미지 데이터 분석을 통해 포스팅, 사용자 혹은 계정의 감성, 특성을 분석하는 연구들도 수행되 었다(Argyris et al., 2020).

컴퓨터 비전에서 출발한 이미지 콘텐츠 분석 의 주요한 분야는 이미지의 개체 인식같은 인지 적인 측면에 대한 연구이다(Zhao et al., 2018). 하 지만, 이미지를 감상하는 사용자들의 감정적인 느낌에 대한 이해도 다양한 분야에 활용될 수 있 기에 많은 연구들이 수행되어 왔다(Chen et al., 2015; Corchs et al., 2019; Li et al., 2018; Priya and Udayan, 2020; Song et al., 2018; Zhang et al., 2019; Zhang et al., 2020). 이미지를 가장 대표되

는 하나의 감정 카테고리에 할당한 데이터를 학 습하여 분류 모형을 만드는 전통적인 단일 레이 블 학습(single-label learning) 문제가 가장 대표적 인 방안이다.

사람마다 하나의 이미지를 다르게 느낄 수 있 기때문에 단일 레이블이 아니고 다중 레이블 (multi-label) 학습 문제로 적용되기도 하며, 다양 한 감성의 분포를 정확히 표현하는 것이 어렵기 에 감정 분포 학습(emotion distribution learning) 문제로 연구되고 있다(Yang et al., 2017).

이미지 분류에서 딥러닝 모형을 사용하는 가 장 큰 이유는 이미지의 전체적인 정보에서 각 지 역 특징을 추출하여 서로의 관계를 고려할 수 있 기 때문이다. 하지만 이미지의 지역 특징이 없는 감정 이미지 데이터는 CNN 모델이 적합하지 않 을 수 있다. 특히 이미지 분류 연구에서 관심 영 역을 확인할 수 있도록 식별 가능한 지역을 히트 맵 형태로 보여주는 Grad cam을 사용했을 때

<Figure 1>에서 보여지는 것처럼 감성 분류 연구 에서는 일반적인 이미지 분류와는 다르게 관심 영역, 즉 지역 특징이 불분명한 것을 볼 수 있다.

이러한 감정 이미지 분류의 어려움을 해결하기

(3)

위하여 매년 많은 연구자들이 감정 이미지에 적 합한 CNN기반 아키텍처를 제시하고 있다.

Zhang et al. (2020)은 이미지에 포함된 개체의 특 징을 추출하여 학습한 CNN 모형의 결과와 이미 지의 스타일을 표현하기 위한 Gram 행렬을 입력 값으로 갖는 CNN 모형의 결과를 합하여 감성분 류에 활용하는 아키텍쳐를 제안하였다.

색깔과 사람 감정간의 관계에 대한 연구들도 수행되었으며, 색깔에 따라 다른 감정이 유도된 다는 결과들이 도출되었다(D’Andrade and Egan, 1974; Gilbert et al., 2016). 이러한 연구결과에 기 반하여 이미지의 색깔을 감성분류에 활용하려는 노력이 있어왔다. 딥러닝을 활용한 연구에서도 색깔정보를 활용하여 이미지 감성분류에 적용하 는 연구들이 있었으며, 이미지만을 가지고 분류 모형을 학습한 경우보다 이미지의 색깔 정보를 추가로 활용한 경우가 이미지 감성 분류 정확도 를 더 높일 수 있었다(Gupta and Gupta, 2020).

본 연구는 사람이 이미지의 감정을 분류하는 기준 중 많은 부분을 차지하는 색감을 이용하여 이미지 감성 분류 정확도를 향상시키는 방안을 제안한다. Han et al. (2020)은 이미지의 전반적인 색감을 가져오기 위하여 이미지의 RGB 값에 K-means cluster를 적용하였다. 각 이미지 별로 많은 부분을 차지하는 대표적인 두 가지 색깔을 추출하여 각 클래스 별 해당 색깔의 조합이 나올 확률을 가중치 식으로 변형 후, CNN 모델의 최종 Layer에 적용하는 이-단계 학습(two-stage learning) 을 구현하였다. 본 논문은 Han et al. (2020)을 더욱 확장하여 색깔의 조합이 나올 확률 가중치 적용방안을 다양하게 고안하고 성과를 비교하 였다.

본 연구에서 제안하는 기법을 수행함에 있어 데이터는 감정 이미지 분류 모델에서 주로 쓰

는 Emotion6와 ArtPhoto 데이터를 사용했다. 학 습에 사용한 CNN 모델은 Densenet169, Mnasnet, Resnet101, Resnet152, Vgg19이며 성능 평가는 5 겹 교차검증으로 CNN 모델에 이-단계 학습 (two-stage learning) 적용 전후의 성과를 비교하 였다.

2. 관련 연구

심리학 연구에서는 감정을 표현하기 위해서 크게 감정 상태 카테고리 (categorical emotion states, CES) 방안과 감정 차원 공간(dimensional emotion space, DES)(Zhao et al., 2018) 두 가지 방안을 활 용하고 있다. 감정 상태 카테고리는 감정을 기본 카테고리 중의 하나로 분류하는 것이며, 대표적 으로 Ekman의 여섯 가지 감정(happiness, sadness, anger, disgust, fear, surprise) (Ekman, 1992)와 Mikels의 여덟 가지 감정(amusement, anger, awe, contentment, disgust, excitement, fear, sadness) (Mikels et al., 2005)가 활용된다. 감정 차원 공간 은 감정의 값을 2차원이나 3차원 공간에 표시하 는 것으로 예를 들어 pleasantness는 happy와 unhappy 사이의 정도 값으로 정해지는 방식과 같다 . 감정 차원 공간은 대표적으로 Valence arousal dominance(VAD) (Schlosberg, 1954)와 Activity temperature weight (Lee and Park, 2011)가 많이 활용된다. 이미지의 감성을 분류하는 연구들은 대체로 감정 상태 카테고리 중 하나의 분류방안 에 따라 감정이 분류된 이미지를 학습하여 모형 을 생성하고 있으며, 본 연구도 이와 같은 접근 방안을 따르고 있다.

이미지의 감성 분석을 위한 다양한 딥러닝 아

키텍처와 속성 정보 활용방안이 제안되었다.

(4)

Zhang et al. (2020)은 이미지에 포함된 개체의 특 징을 추출하여 학습한 CNN 모형의 결과와 이미 지의 스타일을 표현하기 위한 Gram 행렬을 입력 값으로 갖는 CNN 모형의 결과를 합하여 감성분 류에 활용하는 아키텍쳐를 제안하였다. 이미지 의 개체 특징만을 학습하였을 때 가장 정확도가 높았던 ResNet152에 비하여 스타일 표현을 추가 로 활용한 경우의 정확도가 더 높아졌다. Corchs et al. (2019)도 CNN을 통해 도출한 이미지 속성 과 이미지에 포함된 사람 얼굴의 수, 피부가 차 지하는 비율같은 이미지 속성에 이미지에 대한 텍스트 데이터로 부터 추출한 속성 값을 Bayesian model averaging을 통해 two-stage learning 으로 이미지 감성분류에 활용하였다.

공감각(Synesthesia)에 대한 연구에서 색깔과 감정간에 연관관계가 존재한다는 결과들이 보고 되었으며 (D’Andrade and Egan, 1974; Gilbert et al., 2016), 이미지의 주요 색깔에 따라 다른 감정이 유도될 것이라는 것에 기반하여 색깔을 이미지 감 성분류에 활용하려는 노력이 있어왔다(Gupta and Gupta, 2020; Lee and Park, 2011; Machajdik and Hanbury, 2010). Gilbert et al. (2016)은 감성 단어 를 제시하고 이에 해당하는 색을 선택하는 실험 을 실시하였으며, 감성단어별로 다른 패턴의 색 이 선택되는 것을 확인하였다. 이를 확장하여 다 양한 음료를 제시하고 해당하는 색을 선택하게 하였으며, 마찬가지로 음료별로 다른 패턴의 색 이 선택되는 것을 확인하였다. 색이 감정에 영향 을 미친다는 것을 확인하였으며, 개체가 띈 색에 의해서 인식에 영향을 미친다는 것도 확인할 수 있었다. D’Andrade and Egan (1974)의 연구에서 는 미국의 대학생과 멕시코 Chiapas 지역의 마야 어(Mayan)인 Tzeltal를 사용하는 성인들이 색깔 과 감성간의 연관관계 조사에서 유사한 관계를

나타내었다. 그렇기에 Osgood (1960)은 문화에 따른 색깔과 감성간의 관계에 차이가 존재하는 것을 보였지만, 어느 정도 보편적인 요인이 존재 하는 것으로 파악할 수 있다.

Gupta and Gupta (2020)은 56명의 사용자에게 50장의 사진을 보여주고 사진의 감성에 어울리 는 색깔을 선택하는 실험을 수행하였다. 이미지 를 분류하기 위한 CNN 모형의 결과와 실험에서 선택된 이미지별 대표 색깔 정보를 입력값으로 갖는 CNN 모형의 결과를 함께 활용한 방안이 사람이 이미지의 감성을 분류한 것보다 더 높은 정확도를 보였다. 딥러닝을 활용한 경우는 아니 지만 Lee and Park (2011)은 사례기반 추론을 활 용하여 감성을 알고 있는 이미지의 색깔을 사례 로 정의하고 새로운 이미지의 색깔과 가장 유사 한 이미지를 찾아 감성을 분류하였다. 이미지의 색깔과 질감(texture)은 MPEG-7으로 부터 추출 하였으며, fuzzy 기반 유사도를 활용하여 유사한 이미지를 파악하였다.

Machajdik and Hanbury (2010)는 심리학과 미 술 이론에 기반하여 감정 표현 영역에 해당하는 속성을 활용하여 이미지의 감성분류를 수행하였다 . 추출한 속성은 색깔 , 질감, 구성(composition), 내용 (content)이었으며, 색깔은 RGB를 cylindrical 색깔 좌표로 변환하여 명도 (Brightness), 채도(Saturation), 색상(Hue) 등을 추출하였다. 내용은 등장하는 얼 굴의 수와 피부를 나타내는 픽셀의 수가 사용되 었다. 위의 속성을 입력변수로하여 분류기를 학 습하여 성과를 측정하였다.

감정 상태 카테고리에 따른 이미지 감성 분류

연구에 많이 활용되는 데이터는 대부분 Ekman

(1992)와 Mikels et al. (2005)의 감정분류를 따르

고 있다. Flickr(Yang et al., 2014), Emotion6(Peng

et al., 2015)는 Ekman (1992)의 분류를 따르고 있

(5)

<Figure 2> Model Architecture

고, ArtPhoto(Machajdik and Hanbury, 2010), FlickrLDL(Yang et al., 2017), TwitterLDL(Yang et al., 2017)은 Mikels et al. (2005)의 분류를 따른다.

본 연구에서는 Emotion6와 ArtPhoto 데이터 집합 을 활용하였다.

이미지 기반 소셜미디어에 올려진 포스트의 이 미지 및 텍스트 데이터를 활용하여 포스트의 감성 을 분류하기 위한 연구들도 진행되었다. Argyris et al. (2020)은 인플루언서 마케팅에서 고객의 브랜 드 관여도에 브랜드 감성과 포스팅 이미지의 감 성 일치 여부가 미치는 영향을 연구하였으며, 브 랜드 감성과 포스팅된 이미지의 감성이 일치한 경우 고객들이 인플루언서의 포스팅에 더 많이 관여하고 광고대상이 되는 브랜드 포스트에 대 해서도 더 많은 관여를 하는 것으로 분석되었다.

3. 제안 알고리즘

본 연구는 CNN 모델이 감성 이미지를 분류한

뒤, 이미지의 색을 이용해 통계 기반으로 결과값 을 수정하여 정확도를 높이는 두 가지 방안을 제 시한다. 모든 데이터 이미지에 대해 클래스별로 가장 많이 분포하는 두 가지 색상 조합을 찾고 그에 따른 로그함수와 지수함수 기반의 가중치 를 구한 후 결과값에 영향을 주는 방안이다.

3.1 사전 학습 모델

가중치를 주기 전 사전 학습 모델로 감성 이미

지를 분류했다. VGG19, DenseNet169, Mnasnet,

ResNet101, ResNet152 총 5개를 모델을 통해 실

험을 진행했다. 사전학습된 가중치를 이용하였

고, 모델을 동결(freeze)한 뒤 모든 모델에 같은

구조의 완전 연결 계층(Fully connected layer)을

쌓았다. 마지막 층은 LogSoftmax를 사용했으며

결과값은 모두 음수로 나오게 되고 이 중 최댓값

을 모델의 예측값으로 결정한다 .

(6)

<Figure 3> K means 알고리즘으로 7개 군집 생성 이미지

<Figure 4> Figure 3 이미지의 색을 비슷한 색으로 변환시킨 이미지

* Understanding the Meaning of Colors in ColorPsychology, 2009. Available at http://www.empower-yourself-with-color -psychology.com/

3.2 색 기반 가중치

색상과 감정의 관계를 다루는 색채 심리학에 서 영감을 얻어, 감성 이미지를 분류하는 모델을 만들 때 색을 기반으로 결과값을 수정하여 정확 도를 향상하는 방법에 대해서 연구했다. 색의 가 짓수를 줄이기 위해 빨간색, 오렌지색, 노란색, 초록색, 파란색, 남색, 보라색, 청록색, 분홍색, 자홍색, 갈색, 회색, 은색, 금색, 흰색, 검은색 총 16가지 색을 사용했으며 모든 색들이 각각의 감 성적 의미를 지니고 있다.

¹⁾

Scikit-learn의 K-평균 군집화 방안을 이용해 이미지에서 가장 많이 분 포하는 7가지 색을 확인하고, 해당 색들의 RGB

좌표값과 위 자료에서 제시하는 16가지 색들의

RGB 좌표값을 비교하여 맨해튼 거리가 가장 가

까운, 즉 가장 비슷한 색으로 변환했다. 많은 색

상 조합으로 결과값을 수정할 경우 분포의 분산

때문에 결과값에 영향을 적게 미치는 상황을 방

지하기 위해 2가지 색상 조합을 찾아 모델에 가

중치를 주었다. 훈련 전 모든 훈련 데이터 이미

지에 대해서 가장 많이 분포하는 색상 조합을 찾

아, 테스트 진행 시 이용할 수 있도록 클래스별

색상 조합의 분포를 파이썬의 딕셔너리 형태로

저장했다 . 테스트를 진행할 때 각 이미지에 대해

서 가장 많이 분포하는 두 가지의 색상 조합을

(7)

찾아서 훈련 데이터에서의 색상 분포를 기반으 로 결과값을 수정했다. 모델을 통해 나온 결과값 을 추출해낸 색을 기반으로 가중치를 주기 위한 여러 가지 식을 고안했다.

3.2.1 로그함수 기반 가중치

로그함수 기반 가중치는 모델을 통해 나온 결과값을 로그함수를 기반으로 수정하는 방안이 며 식은 다음과 같다.

로그 함수 안에 들어가는 변수를 위처럼 설정 하여 해당 색 조합이 훈련 데이터에 많이 분포 돼 있을수록 결과값에 상대적으로 작은 양수 값 을 곱해주고, 적게 분포 돼 있을수록 상대적으로 큰 양수 값을 곱해줌으로써 해당 결과값이 뽑힐 확률을 조정하였다.

3.2.2 지수함수 기반 가중치

지수함수 기반 가중치는 모델을 통해 나온 결 과값을 지수함수 기반으로 만든 식을 이용해 수 정하는 방안이며 식은 다음과 같다.

지수 함수의 지수로 사용되는 값을 로그 함수 에 들어가는 값의 역수로 설정해 해당 색 조합이 훈련 데이터에 많이 분포되어 있을수록 결과값 에 상대적으로 작은 양수 값을 곱해주고, 적게 분포되어 있을수록 상대적으로 큰 양수 값을 곱 해주어 해당 결과값이 뽑힐 확률을 조정했다. 모 든 변수의 범위를 0에서 1 사이로 맞춰서 모든 결과값들이 같은 범위의 가중치를 받을 수 있도 록 했다. 3.2.1 절에 기술된 로그함수 기반 가중 치는 갯수 분포에 따른 가중치의 차이가 커지는 경향이 있기 때문에, 사용자는 데이터, 태스크에 적합하게 밑을 조정할 수 있다.

4. 실험 및 결과

4.1 Dataset

실험은 Emotion6(Panda et al., 2018)와 ArtPhoto (Machajdik & Hanbury, 2010) 데이터로 수행했 다. Emotion6는 복합적인 감정을 투표 방식을 통 해 구분하는데, 분류 실험을 위해 각 이미지의 감정 클래스가 해당 이미지에 대한 감정 분포에 서 가장 높은 확률을 가진 클래스라고 가정했다.

클래스는 각 330장씩이며 anger, disgust, fear, joy,

sadness, surprise 총 6가지 감정으로 이루어져 있

다. ArtPhoto는 그림이미지, 사진이미지 두 가지

가 존재하는데 사진 이미지로만 실험을 진행했

다. 데이터셋은 806장이며 클래스는 amusement,

anger, awe, contentment, disgust, excitement, fear,

sad 총 8가지 감정으로 이루어져 있다.

(8)

Emotion6 Dataset Image

anger disgust fear joy sadness surprise

<Table 1> Emotion6 데이터 각 감정별 이미지 예시

ArtPhoto Dataset Image

amusement anger awe contentment disgust excitement fear sad

<Table 2> ArtPhoto 데이터 각 감정별 이미지 예시

(9)

Dataset Model method original model (단위: %)

model with the suggested method

(단위: %)

Wilcoxon statistic (pvalue)

Emotion6

ResNet152 log 45.8000

(1.40)

46.6000 (1.42) 1.0 (0.0782)

exp 46.7667 (1.09) 0.0 (0.0679)

(0.91)

47.9667 (1.15) 1.5 (0.1975)

exp 47.8333 (1.36) 2.0 (0.1380)

VGG19 log 45.2000

(2.41)

45.4000 (2.31) 2.5 (0.3573)

exp 45.7667 (2.55) 0.0 (0.0431)

DenseNet169 log 47.5000

(2.29)

47.7000 (2.24) 4.0 (0.3452)

exp 48.1000 (2.10) 0.0 (0.0679)

MnasNet log 41.6667

(3.08)

42.6333 (2.72) 1.0 (0.0796)

exp 42.6333 (2.31) 0.0 (0.0431)

ArtPhoto

(1.98)

29.7727 (1.82) 1.5 (0.1040)

exp 29.5455 (1.29) 0.0 (0.0394)

(3.15)

28.6364 (2.61) 6.0 (0.6858)

exp 28.6364 (2.53) 3.0 (0.4652)

VGG19 log 28.7500

(0.68)

31.0227 (1.05) 0.0 (0.0421)

exp 30.7955 (0.84) 0.0 (0.0421)

DenseNet169 log 27.5000

(1.17)

29.8864 (1.17) 3.5 (0.8785)

exp 28.9773 (1.86) 0.0 (0.0679)

MnasNet log 25.4545

(2.28)

26.7045 (1.86) 3.0 (0.4652)

exp 26.2500 (0.66) 1.5 (0.1040)

<Table 3> 사전 학습된 모델과 가중치 모델 별 정확도 평균 및 표준편차

Emotion6 데이터는 랜덤으로 7:3, ArtPhoto 데 이터는 랜덤으로 8:2로 분할하여 각각 30%, 20%

를 테스트셋으로 이용해 모델을 검증했다. 또한 각각 70%, 80%의 훈련 데이터는 5겹 교차 검증 을 진행하기 위해 5등분으로 나눴다. 그 후 각각 다른 검증 데이터셋을 이용해 다섯 번 모델을 훈 련한 뒤, 테스트셋을 이용해 정확도를 확인했다.

옵티마이저(optimizer)로는 Adam, 학습률(learning rate)은 0.001로 설정했으며 1에폭(epoch)마다 학 습률을 1%씩 줄여나갔다. 50 에폭만큼 훈련을 진행했으며 10 에폭동안 검증 손실값이 줄어들 지 않으면 실험을 멈추고, 가장 좋은 검증 손실 값이 나왔던 모델을 불러올 수 있도록 얼리스타 핑(early stopping)을 설정했다.

4.2 가중치에 따른 성능 변화

연구의 결과를 비교하기 위해 본 연구에서 제 안하는 가중치를 주지 않은 VGG19, DenseNet169, Mnasnet, ResNet101, ResNet152에 사전 학습 된 모델의 정확도를 측정했고 실험의 결과는

<Table 3> 과 같다. 표의 셀에는 5겹 교차검증을

했을 때의 정확도 평균값이 제시되어 있으며, 괄

호 안의 값은 표준편차이다. original model은 해

당하는 CNN 모델만을 사용했을 때의 평균 정확도

값이며 , Emotion6에서는 DesNet169이, ArtPhoto에

서는 VGG19가 가장 높은 성과를 보였다. model

with the suggested method는 미리 뽑아 놓은 가중

치 없이 데이터의 색 조합 분포를 활용한 방안을

사용했을 때의 정확도이다. 로그함수 기반 가중

(10)

ResNet152 ResNet101

Vgg19 Densenet169

Mnasnet

<Figure 5> Emotion6 데이터의 지수함수 기반 모델 정확도

치를 사용하는 경우는 Emotion6 데이터에서 Original model만 사용한 경우보다 성과가 좋았 으며, 가장 성과가 좋은 경우는 ResNet101이다.

지수함수 기반 가중치를 사용한 경우는 모든 경 우에 좋았으며 특히 DenseNet169는 Emotion6 데 이터셋에서 가장 높은 성능을 보였다. ArtPhoto

데이터에서는 로그함수 기반, 지수함수 기반 가 중치를 사용한 두 경우 또한 Original model 보다 더 좋은 성과를 보였으며 특히 VGG19는 두 경 우 모두 가장 높은 성능을 보였다.

지수 함수로 실험을 진행했을 때에는 모든 색

을 기반으로 가중치를 주어도 괜찮도록 지수 함

(11)

ResNet152 ResNet101

Vgg19 Densenet169

Mnasnet

<Figure 6> ArtPhoto 데이터의 지수함수 기반 모델 정확도

수의 밑을 조정할 수 있으므로, 로그 함수 가중 치와는 다르게 모든 색을 이용해 가중치를 주었 고, 밑을 바꿔가며 실험을 진행했다. Emotion6 데이터에 대해 지수 함수 기반 가중치로 진행한 실험의 결과는 <Figure 5>에, Artphoto 데이터에 대한 결과는 <Figure 6>에 정리되어 있다. 전체

적으로 지수 함수의 밑이 작아질수록 정확도가

높아지다가 밑의 값이 0.005보다 작은 경우에는

정확도가 감소하는 것을 볼 수 있었다. 모든 딥

러닝 모형은 아니지만 대체로 Emotion6와

Artphoto 데이터 모두 지수함수의 밑이 0.005일

때 정확도가 가장 높았다.

(12)

<Figure 8> ArtPhoto 데이터의 지수함수 밑에 따른 모델 정확도

<Figure 7> Emotion6 데이터의 지수함수 밑에 따른 모델 정확도

또한 모델의 적합성을 검증하기 위해서 통계 적 유의성 검정을 수행하였다. 짝을 이룬 관측치 들이 서로 차이가 있는지 검증하는 비모수 통계 중 윌콕슨 검정을 사용했으며, 검정 결과는

<Table 3>의 Wilcoxon statistic에 표시하였다. 특 히 ArtPhoto의 VGG19 모델에 로그 함수 기반 가 중치를 적용했을 경우 p-value가 0.0421로 original model의 평균 정확도와 유의한 차이를 보였다.

Figure 7과 8은 Figure 5, 6의 그래프를 데이터

별로 하나로 합친 그래프이다. 각 CNN 모형별로 가장 높은 정확도 값이 그래프에 표시되어 있다.

Emotion6는 대체로 지수함수 밑이 0.005인 경우

가 가장 정확도가 높았으며, ArtPhoto 데이터는

모형에 따라 정확도가 높은 지수함수 밑의 값이

상이하였다.

(13)

5. 결론

본 연구는 이미지 감성분류를 위해 학습된 CNN 모델의 예측치에 이미지별로 많은 부분을 차지하는 색깔 정보를 고려하여 가중치를 적용하 는 이-단계 학습 방안을 제안하였다. Densenet169, Mnasnet, Resnet101, Resnet152, Vgg19 모델만을 적용하여 이미지 감성분류를 수행하였을 때보 다, 이미지의 색깔 분포를 고려하여 로그함수 기 반 가중치 적용과 지수함수 기반 가중치 적용을 한 경우가 더 높은 정확도를 보였다 . 가장 정확도 가 높은 경우는 Emotion6 데이터는 DenseNet169 모형에 지수함수 기반 가중치를 적용한 경우이 고, ArtPhoto 데이터는 VGG19 모형에 로그함수 기반 가중치를 적용한 경우였다(<Table 3> 참 조).

<Figure 1>에서 보인 것처럼 이미지 감성분류 는 이미지에서 물체를 인식하거나 물체의 경계 를 파악하는 것과 다르게 관심영역이 불분명하 다. 이미지에서 개체에 관심을 주는 방안에 이미 지의 색깔 분포를 고려하는 방안을 이 -단계로 적 용하는 것이 더 좋은 정확도를 보일 수 있다는 것을 제시하였다.

Emotion6와 ArtPhoto가 감성분류 문제에 많이 활용되는 데이터이지만 감성이 6개와 8개로 분 류되기 때문에 분류정확도가 각각 40%대와 20%

대에 머물고있다는 것은 한계로 지적할 수 있다.

이미지의 색깔을 고려한 다양한 방안을 고려하 여 성과를 개선하려는 노력이 이미지 감성분류 문제에 많이 적용될 필요가 있다.

참고문헌(References)

Ali, A. R., U. Shahis, M. Ali, J. Ho, "High-Level Concepts for Affective Understanding of Images," arXiv:1705.02751v1, 2017, https://

arxiv.org/abs/1705.02751

Argyris, Y. A., Z. Wang, Y. Kim, Z. Yin, "The effects of visual congruence on increasing consumers' brand engagement: An empirical investigation of influencer marketing on instagram using deep-learning algorithms for automatic image classification," Computers in Human Behavior, Vol. 112 (2020), 106443.

Chen, M., L. Zhang, J. P. Allebach, "Learning deep features for image emotion classification,"

Proceedings of 2015 IEEE International Conference on Image Processing(ICIP), Quebec, Canada, 2015, 4491~4495.

Corchs, S., E. Fersini, F. Gasparini, "Ensemble learning on visual and textual data for social image emotion classification," International Journal of Machine Learning and Cybernetics, Vol. 10, No. 8 (2019), 2057~2070.

Cruz, R. A., H. J. Lee, "The Brand Personality Effect: Communicating Brand Personality on Twitter and its Influence on Online Community Engagement," Journal of Intelligence and Information Systems, Vol. 20, No. 1 (2014), 67–101.

D’Andrade, R., M. Egan, “The colors of emotion,”

American Ethnologist, Vol. 1 (1974), 49–63.

Ekman, P., "An argument for basic emotions,"

Cognition Emotion, Vol. 6 (1992), 169–200.

Fei, Z., E. Yang, D. D. Li, S. Butler, W. Ijomah,

X. Li, H. Zhou, "Deep convolution network

based emotion analysis towards mental health

care," Neurocomputing, Vol. 388 (2020),

(14)

212~227.

Gajarla, V., A. Gupta, "Emotion detection and sentiment analysis of images," Georgia Institute of Technology, 2015.

Gilbert, A. N., A. J. Fridlund, L. A. Lucchina,

"The color of emotion: A metric for implicit color associations," Food Quality and Preference, Vol. 52 (2016), 203~210.

Gupta, S., S. K. Gupta, "Investigating Emotion-Color Association in Deep Neural Netwokrs,"

arXiv:2011.11058, 2020, https://arxiv.org/abs/

2011.11058

Han, G.-W., J. H. Lee, H. J. Lee, "A CNN and K-means RGB Cluster Ensemble Method for Image Sentiment Classification," Proceedings of 2020 Spring Korea Intelligent Information Systems Society Conference, Seoul, South Korea, 2020, 26.

He, K., X. Zhang, S. Ren, J. Sun, "Deep Residual Learning for Image Recognition," Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016, 770~778.

Kim, S. I., D. S. Kim, J. W. Kim, "Public Sentiment Analysis of Korean Top-10 Companies : Big Data Approach Using Multi-categorical Sentiment Lexicon," Journal of Intelligence and Information Systems, Vol. 22, No. 3 (2016), 45~69.

Lee, E., J. A. Lee, J. H. Moon, Y. Sung, "Pictures speak louder than words: Motivations for using Instagram," Cyberpsychology, behavior, and social networking, Vol. 18, No. 9 (2015), 552-556.

Lee, J.-S., D. H. Park, "Development of Customer Sentiment Pattern Map for Webtoon Content Recommendation," Journal of Intelligence and Information Systems, Vol. 25, No. 4

(2019), 67-88.

Lee, J., Park, E., "Fuzzy Similarity-Based Emotional Classification of Color Images," IEEE Transactions on Multimedia, Vol. 13, No. 5 (2011), 1031–1039.

Li, B., C. Guo, H. Ren, "Image Emotion Recognition Based on Deep Neural Network," Proceedings of 2018 IEEE International Conference of Safety Produce Informatization (IICSPI) (2018), 561~564.

Liao, S., J. Wang, R. Yu, K. Sato, Z. Cheng,

"CNN for situations understanding based on sentiment analysis of twitter data," Procedia Computer Science, Vol. 111, 2017, 376-381.

Liu, D., Y. Jiang, M. Pei, S. Liu, "Emotional image color transfer via deep learning,"

Pattern Recognition Letters, Vol. 110 (2018), 16~22.

Nam, M., E. Lee, J. Shin, "A Method for User Sentiment Classification using Instagram Hashtags," Korea Multimedia Society, Vol.

18, No. 11 (2015), 391-399.

Netzer, O., R. Feldman, J. Goldenberg, M. Fresko,

"Mine Your Own Business: Market-Structure Surveillance Through Text Mining," Marketing Science, Vol. 31, No. 3, (2012), 521–543.

Machajdik, J., A. Hanbury, "Affective image classification using features inspired by psychology and art theory," Proceedings of the ACM Multimedia 2010 International Conference(MM' 10), Firenze, Italy, 2010, 83 –92.

Mikels, J. A., B. L. Fredrickson, G. R. Larkin, C.

M. Lindberg, S. J. Maglio, "Emotional category

data on images from the international affective

picture system," Behavior Research Methods,

Vol. 37, No. 4 (2005), 626–630.

(15)

Osgood, C. E., "The Cross-Cultural Generality of Visual-Verbal Synesthetic Tendencies," Behavioral Science, Vol. 5 (1960), 146-169.

Panda, R. J. Zhang, H. Li, J.-Y. Lee, X. Lu, A. K.

Roy-Chowdhury, "Contemplating Visual Emotions:

Understanding and Overcoming Dataset Bias,"

Proceedings of European Conference on Computer Vision (ECCV), Munich, Germany, 2018, 594~612.

Park, H. J., K. S. Shin, "Aspect-Based Sentiment Analysis Using BERT: Developing Aspect Category Sentiment Classification Models,"

Journal of Intelligence and Information Systems, Vol. 26, No. 4 (2020), 1-15.

Peng, K., T. Chen, A. Sadovnik and A. Gallagher,

"A mixed bag of emotions: Model, predict, and transfer emotion distributions," Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, USA, 2015, 860–868.

Priya, D. T., J. D. Udayan, "Affective emotion classification using feature vector of image based on visual concepts," The International Journal of Electrical Engineering & Education, (July 2020), 1~22.

Schlosberg, H., "Three dimensions of emotion,"

Psychological Review, Vol. 61, No. 2 (1954), 81–88.

Seo, S.-H., J.-T. Kim, "Research trend of deep learning based sentiment analysis," Korea Multimedia Society, Vol. 20, No. 3 (2016), 8~22.

Song, K., T. Yao, Q. Ling, T. Mei, "Boosting image

sentiment analysis with visual attention,"

Neurocomputing, Vol. 312 (2018), 218-228.

Yang, Y., J. Jia, S. Zhang, B. Wu, Q. Chen, "How do your friends on social media disclose your emotions?" Proceedings of the National Conference on Artificial Intelligence, Quebec, Canada, 2014, 306–312.

Yang, J., M. Sun, X. Sun, "Learning visual sentiment distributions via augmented conditional probability neural network," Proceedings of AAAI Conference on Artificial Intelligence, San Francisco, California, USA, 2017, 224~230.

Zhang, W., X. He, W. Lu, "Exploring Discriminative Representations for Image Emotion Recognition With CNNs," IEEE Transactions on Multimedia, Vol. 22, No. 2 (2020), 515~523.

Zhang, J., H. Sun, Z. Wang, T. Ruan, "Another Dimension: Towards Multi-subnet Neural Network for Image Sentiment Analysis,"

Proceedings of 2019 IEEE International Conference on Multimedia and Expo (ICME), Shanghai, China, 2019, 1126-1131.

Zhao, S., G. Ding, Q. Huang, T.-S. Chua, B. W.

Schuller, K. Keutzer, "Affective Image Content Analysis: A Comprehensive Survey," Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence (IJCAI-18), Stockholm, Sweden, 2018, 5534-5541.

Understanding the Meaning of Colors in

ColorPsychology, 2009. Available at

http://www.empower-yourself-with-color-psyc

hology.com/

(16)

Abstract

A Two-Stage Learning Method of CNN and K-means RGB Cluster for Sentiment Classification of Images

1)

Jeongtae Kim*ㆍEunbi Park*ㆍKiwoong Han**ㆍJunghyun Lee***ㆍHong Joo Lee****

The biggest reason for using a deep learning model in image classification is that it is possible to consider the relationship between each region by extracting each region's features from the overall information of the image. However, the CNN model may not be suitable for emotional image data without the image's regional features. To solve the difficulty of classifying emotion images, many researchers each year propose a CNN-based architecture suitable for emotion images. Studies on the relationship between color and human emotion were also conducted, and results were derived that different emotions are induced according to color. In studies using deep learning, there have been studies that apply color information to image subtraction classification. The case where the image's color information is additionally used than the case where the classification model is trained with only the image improves the accuracy of classifying image emotions.

This study proposes two ways to increase the accuracy by incorporating the result value after the model classifies an image's emotion. Both methods improve accuracy by modifying the result value based on statistics using the color of the picture. When performing the test by finding the two-color combinations most distributed for all training data, the two-color combinations most distributed for each test data image were found. The result values were corrected according to the color combination distribution. This method weights the result value obtained after the model classifies an image's emotion by creating an expression based on the log function and the exponential function.

Emotion6, classified into six emotions, and Artphoto classified into eight categories were used for the image data. Densenet169, Mnasnet, Resnet101, Resnet152, and Vgg19 architectures were used for the CNN model, and the performance evaluation was compared before and after applying the two-stage

* Department of Mathematics, The Catholic University of Korea ** Department of Industrial Management Engineering, Korea University

*** Department of Information & Industrial Engineering, The Catholic University of Korea

**** Corresponding author: Hong Joo Lee

Department of Business Administration, Catholic University of Korea 43 Jibong-ro, Bucheon, Gyenggi 14662, Korea

Fax: +82-2-2164-4280, E-mail: [email protected]

(17)

learning to the CNN model.

Inspired by color psychology, which deals with the relationship between colors and emotions, when creating a model that classifies an image's sentiment, we studied how to improve accuracy by modifying the result values based on color. Sixteen colors were used: red, orange, yellow, green, blue, indigo, purple, turquoise, pink, magenta, brown, gray, silver, gold, white, and black. It has meaning. Using Scikit-learn's Clustering, the seven colors that are primarily distributed in the image are checked. Then, the RGB coordinate values of the colors from the image are compared with the RGB coordinate values of the 16 colors presented in the above data. That is, it was converted to the closest color. Suppose three or more color combinations are selected. In that case, too many color combinations occur, resulting in a problem in which the distribution is scattered, so a situation fewer influences the result value. Therefore, to solve this problem, two-color combinations were found and weighted to the model. Before training, the most distributed color combinations were found for all training data images. The distribution of color combinations for each class was stored in a Python dictionary format to be used during testing. During the test, the two-color combinations that are most distributed for each test data image are found. After that, we checked how the color combinations were distributed in the training data and corrected the result. We devised several equations to weight the result value from the model based on the extracted color as described above.

The data set was randomly divided by 80:20, and the model was verified using 20% of the data as a test set. After splitting the remaining 80% of the data into five divisions to perform 5-fold cross-validation, the model was trained five times using different verification datasets. Finally, the performance was checked using the test dataset that was previously separated. Adam was used as the activation function, and the learning rate was set to 0.01. The training was performed as much as 20 epochs, and if the validation loss value did not decrease during five epochs of learning, the experiment was stopped. Early tapping was set to load the model with the best validation loss value. The classification accuracy was better when the extracted information using color properties was used together than the case using only the CNN architecture.

Key Words : Sentiment Analysis of Image, Sense of Color, CNN, Two-stage learning

Received : May 27, 2021 Revised : July 19, 2021 Accepted : July 23, 2021

Corresponding Author : Hong Joo Lee

(18)

저 자 소 개