A Study on Enhancing Personalization Recommendation Service Performance with CNN-based Review Helpfulness Score Prediction

(1)

J Intell Inform Syst 2021 September: 27(3): 29~55 http://dx.doi.org/10.13088/jiis.2021.27.3.029

󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏󰠏

CNN 기반 리뷰 유용성 점수 예측을 통한 개인화 추천 서비스 성능 향상에 관한 연구^*

이청용

경희대학교 빅데이터응용학과 ([email protected])

이병현

이흠철

김재경

경희대학교 경영대학 & 빅데이터응용학과 ([email protected])

․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․

전자상거래 시장이 빠르게 성장하면서 다양한 유형의 제품이 출시되고 있으며, 이로 인해 사용자들은 구매 의사결정 과정에 많은 시간이 소요되는 정보 과부하 문제에 직면하고 있다. 따라서 사용자에게 맞춤형 제품 및 서비스를 제공해줄 수 있는 개인화 추천 서비스의 중요성이 대두되고 있다. 대표적으로 Netflix, Amazon, Google 등 세계적 기업은 개인화 추천 서비스를 도입하여 사용자의 구매 의사결정을 지원하고 있다. 이에 따라 사용자의 정보탐색 비용이 감소하는 효과가 나타났고, 기업의 매출 상승에도 긍정적인 영향을 끼치고 있다. 기존 개인화 추천 서비스 관련 연구에서 주로 사용된 협업 필터링(Collaborative Filtering, CF) 기법은 정량화된 정보를 활용하여 사용자의 선호도를 예측하였다. 그러나 정량화된 정 보만을 활용하면 사용자의 구매 의도는 고려하지 못하므로 추천 성능이 저하될 수 있다는 문제점이 제기되고 있다. 이와 같은 기존 연구의 문제점을 개선하기 위해 최근에는 사용자가 작성한 리뷰를 활용한 개인화 추천 서비스 연구가 활발히 진행되고 있다. 그러나 리뷰에는 광고성 내용, 거짓 후기, 의미를 전혀 파악할 수 없거나 제품과 관련 없는 내용 등 구매 의사결정을 저해하는 요소들이 포함되어 있다. 이러한 요소들이 포함된 리뷰를 활용하여 추천 서비스를 제공하게 되면, 추천 성능이 저하되는 문제가 발생할 수 있다. 따라서 본 연구에서는 이러한 문제점을 개선하기 위해 Convolutional Neural Network(CNN) 기반 리뷰 유용성 점수 예측을 통한 새로운 추천 방법론을 제안하였다. 본 연구에서 제안하는 유용 한 리뷰를 포함하는 방법론과 기존 모든 선호도 평점을 고려하는 추천 방법론을 비교한 결과, 본 연구에서 제안한 방법론 이 더 우수한 예측 성능을 나타내고 있음을 확인할 수 있었다. 또한 본 연구의 결과는 리뷰 유용성에 대한 정보를 개인화 추천 서비스에 반영하면 전통적인 CF의 성능을 향상할 수 있음을 시사한다.

주제어 : 개인화 추천 서비스, 리뷰 유용성, 협업 필터링, 딥러닝, CNN

․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․․

논문접수일：2021년 5월 21일 논문수정일：2021년 6월 29일 게재확정일：2021년 7월 12일 원고유형：일반논문 교신저자：김재경

* 본 논문은 교육부 및 한국연구재단의 4단계 두뇌한국21 사업(4단계 BK21 사업)으로 지원된 연구임.

1. 서론

최근 정보통신기술의 발전과 모바일 기기의 대중화로 인해 전 세계적으로 전자상거래 시장 규모가 급속하게 커지면서 새로운 제품들이 계

속 출시되고 있으며, 이에 따라 다양한 유형의 제품이 활발하게 거래되고 있다. 그러나 사용자 들은 선호하는 제품을 선택하는 데 많은 시간이 소모되며 구매 의사결정 과정에서 어려움을 겪 는 정보 과부하 문제에 직면하고 있다(Park et

(2)

al., 2012; Su and Khoshgoftaar, 2009). 특히, 사용 자들은 제품을 온라인에서 간접적으로 확인하기 때문에 정보 과부하 문제는 더 크게 드러날 수 있 다. 이러한 배경하에 개인화 추천 서비스의 중요 성이 대두되고 있으며, Netflix, Amazon, Google 등 세계적인 전자상거래 기업들은 개인화 추천 서비스를 도입하여 사용자의 구매 의사결정을 지원하고 있다(Bennett and Lanning, 2007; Das et al., 2007; Linden et al., 2003). 이와 같은 개인화 추천 서비스 제공으로 인해 사용자의 정보탐색 비용이 감소하는 효과가 나타났으며, 더 나아가 기업의 매출 증대에도 긍정적인 영향을 끼치고 있다. 예를 들어, Netflix는 사용자가 시청한 전체 동영상의 75%가 개인화 추천 서비스를 통해 제 공되고 있으며, Amazon은 전체 매출의 35%가 개인화 추천 서비스를 통해 사용자에게 추천된 제품에 의해 발생하고 있다(Lee and Hosanagar, 2019; Na and Nam, 2020).

협업 필터링(Collaborative Filtering, CF)은 개 인화 추천 서비스 관련 연구에서 현재까지 가장 우수한 추천 성능을 나타내고 있는 기법으로, 사 용자와 제품 간의 상호관계를 파악하여 사용자 에게 맞춤형 제품을 추천한다(Kim et al., 2009;

Su and Khoshgoftaar, 2009). 기존 CF 관련 연구 에서는 주로 사용자가 제품에 부여한 선호도 평 점, 구매 및 방문 여부 등 정량화된 정보를 바탕 으로 사용자의 선호도를 예측하였다(Li et al., 2014; Park et al., 2012; Ricci et al., 2011). 그러나 정량화된 정보만을 고려하면 제품 구매 동기, 이 유 등 정성적인 선호도는 고려하지 못하므로 추 천 성능이 저하될 수 있다는 문제점이 꾸준히 제 기되고 있다(Lu et al., 2015; Qiu et al., 2016). 최 근에는 이러한 문제점을 개선하기 위해 다양한 추가 정보를 사용하는 연구들이 진행되고 있으

며, 대표적으로 사용자가 작성한 리뷰를 사용한 연구가 활발히 진행되고 있다(Cheng et al., 2018;

Lei et al., 2016; Zheng et al., 2017). 대부분의 전 자상거래 사이트에서는 사용자가 구매한 제품에 대해 직접 리뷰를 작성할 수 있는 기능을 제공하 고 있다. Moore (2015)에 따르면, 사용자의 88%

는 제품을 구매할 때 다른 사용자가 작성한 리뷰 를 참고하여 구매 의사결정을 내리고 있다. 리뷰 에는 사용자가 해당 제품을 구매한 이유, 제품에 대한 평가 등 구체적이고 신뢰할 수 있는 정성적 인 정보가 포함되기 때문에 개인화 추천 서비스 를 제공할 때 유용하게 사용될 수 있다(Qiu et al., 2016). 그러나 기존의 리뷰를 사용한 개인화 추천 서비스 관련 연구는 주로 리뷰에 대한 감성 특성을 추출하거나 리뷰에 포함된 다양한 속성 을 파악하여 이를 CF에 반영하는 연구에 중점을 두었다(Srifi et al., 2020; Yun et al., 2018). 그러 나 사용자가 작성한 리뷰에는 광고성 내용, 거짓 후기, 의미를 전혀 파악할 수 없거나 제품과 관 련 없는 내용 등 구매 의사결정을 저해하는 내용 이 포함되어 있다(Ge et al., 2019). 따라서 사용 자가 작성한 리뷰가 신뢰할 수 있는지 또는 다른 사용자에게 유용한 정보를 제공할 수 있는지 등 에 대한 품질을 고려하지 않고 추천 서비스를 제 공하게 되면 추천 성능이 저하되는 문제가 발생 할 수 있다(Hu et al., 2017).

따라서 본 연구는 정량화된 선호도 평점만을 사용하는 기존 CF 기법의 추천 성능을 개선하기 위해, 사용자의 구매 의사결정에 영향을 줄 수 있는 리뷰 유용성(Helpfulness) 정보를 개인화 추 천 서비스에 반영하는 새로운 방법론을 제안하 고자 한다. 최근 전자상거래 사이트를 통해 제품 을 구매하는 사용자들이 증가하면서 제품에 대 한 리뷰 수가 증가하고 있다. <Table 1>에서 사

(3)

Product Category Product Name Number of Reviews

Electronics Amazon Fire TV Stick 4K 613,424

Books The Midnight Library by Matt Haig 70,460

Kindle Store These Tangled Vines by Julianne MacLean 4,460

Sports & Outdoors Hanes Women's Jersey Short 21,897

Video Games $10 PlayStation Store Gift Card 224,887

<Table 1> Number of Reviews Received by Amazon Best Sellers Items

용자가 리뷰를 통해 제품의 특성을 파악하기 위 해 구매 의사결정 과정에 많은 양의 정보를 사용 할 수 있음을 확인할 수 있다. 그러나 구매 의사 결정 과정에서 사용자가 모든 리뷰를 고려하는 것은 불가능하다. 따라서 사용자는 제품 구매과 정에서 참고할 수 있는 유용한 리뷰를 탐색하는 데, 어려움을 겪고 있다. 이러한 문제를 해결하 기 위해 Amazon은 2007년에 사용자가 작성한 리뷰가 의사결정에 도움이 되었는지 확인할 수 있는 리뷰 유용성 투표 기능을 도입하였다. 리뷰 유용성 투표수를 기반으로 리뷰의 순위가 정렬 되며 가장 투표수를 많이 받은 리뷰가 목록의 상 단에 표시된다(Kaushik et al., 2018). Castelli et al. (2017)의 연구에 따르면, 이와 같은 리뷰 유용 성 정보는 사용자의 구매 의사결정 과정에 큰 영 향을 끼치므로 개인화 추천 서비스 제공에 있어 중요한 요소로 볼 수 있다.

사용자의 구매 의사결정에 큰 영향을 끼치는 리뷰의 유용성 정보를 개인화 추천 서비스에 반 영하기 위해 본 연구에서는 다음과 같은 방법론 을 제안한다. 먼저, 최근 자연어 처리 분야에서 우수한 성능을 보이는 Convolutional Neural Network(CNN)를 활용하여 리뷰의 유용성 점수 를 정교하게 예측할 수 있는 CHSC(CNN-based Helpfulness Score Classifier) 모델을 구축한다

(Johnson and Zhang, 2014; Wu et al., 2020). 다음 으로 사용자가 작성한 리뷰에 CHSC 모델을 적 용하여 유용성 점수를 정교하게 예측하고, 유용 한 리뷰만을 포함하는 새로운 사용자 프로파일 을 구축한다. 마지막으로 개인화 추천 서비스 관 련 연구에서 가장 우수한 성능을 나타낸 CF 기 법을 활용하여 본 연구에서 제안한 모델의 추천 성능을 평가한다. 본 연구에서는 리뷰의 유용성 정보를 개인화 추천 서비스에 직접 적용한다. 따 라서 제품을 구매할 때 리뷰를 고려하는 사용자 들의 구매 행동을 반영하므로, 개인화 추천 서비 스의 추천 성능 향상에 기여할 수 있다. 또한, 개 인화 추천 서비스를 제공하거나 도입을 검토하 고 있는 전자상거래 사이트에 효율적인 개인화 추천 서비스 방법론에 대한 다양한 시사점을 제 공할 수 있다.

본 연구의 나머지 구성은 다음과 같다. 제2장 에서는 개인화 추천 서비스와 리뷰 기반의 개인 화 추천 서비스에 대한 이론적 배경을 설명한다.

제3장에서는 본 연구에서 제안하는 추천 방법론 에 관해 설명한다. 제4장에서는 실험 데이터, 평 가지표 및 결과에 관해 설명한다. 마지막으로 제 5장에서는 결론, 연구의 한계점 그리고 향후 연 구 계획에 관해 설명한다.

(4)

2. 이론적 배경

2.1. 협업 필터링(Collaborative Filtering) 개인화 추천 서비스는 사용자 선호도 평점, 구 매 기록, 검색 기록 등 데이터를 사용하여 사용자 에게 맞춤형 제품이나 서비스를 제공하는 것을 목표로 한다(Bennett and Lanning, 2007). 이와 같 은 개인화 추천 서비스는 다양한 유형의 제품 및 서비스 속에서 구매 의사결정의 어려움을 겪는 사용자에게 편의성을 제공할 수 있다(Wang et al., 2019). 대표적으로 Netflix, Amazon, Google 등의 전자상거래 기업은 개인화 추천 서비스 도 입을 통해 효율적인 이익 성과를 거두고 있다 (Lee and Hosanagar, 2019; Na and Nam, 2020).

따라서 개인화 추천 서비스는 다양한 분야의 산 업에서 활용되고 있으며 이와 관련된 연구들 또 한 꾸준히 진행되고 있다(Lu et al., 2015;

Paradarami et al., 2017). 현재 학계와 산업계에서 널리 사용되고 있는 방법으로는 CF 기법이 있다 (Kim et al., 2010; Park et al., 2012; Zhang et al., 2013).

CF 기법은 Goldberg et al. (1992)에 의해 처음 으로 제안된 방식이며, 특정 제품에 대해 선호도 를 보인 사용자는 다른 제품에 대해서도 비슷한 선호도를 보인다는 것을 가정하고 사용자 또는 제품 간의 유사도를 기반으로 추천하는 방법이다 (Lee et al., 2020; Su and Khoshgoftaar, 2009). 협업 필터링은 메모리 기반 협업 필터링(Memory-based Collaborative Filtering)과 모델 기반 협업 필터링 (Model-based Collaborative Filtering)으로 분류할 수 있다. 메모리 기반 협업 필터링 방식은 사용자 기 반 협업 필터링(User-based Collaborative Filtering;

UBCF)과 아이템 기반 협업 필터링(Item-based

Collaborative Filtering; IBCF) 방식으로 분류된다 (Al-Bashiri et al., 2018). UBCF는 추천 대상 사용 자와 유사한 성향을 지닌 사용자가 구매한 제품 을 추천하는 방식으로 먼저 사용자 간의 유사도 를 측정하여 추천 대상 사용자와 유사한 이웃 사 용자를 선정한다. 다음으로 추천 대상 사용자를 위한 제품별 선호도 예측값을 산출하여 최종적 으로 선호도 예측값이 큰 제품을 사용자에게 추 천한다(Elahi et al., 2016). IBCF는 사용자가 과거 에 구매했던 제품과 유사한 제품을 선호할 것이 라는 가정하에 추천이 이루어진다. 즉, 추천 대 상 사용자가 과거에 구매한 제품을 기준으로 가 장 유사도가 높은 제품을 추천하는 방식이다. 모 델 기반 협업 필터링은 사용자의 선호도 평점을 예측하기 위해 CF 기법을 기반으로 하며 분류, 군집화 그리고 예측 과정에서는 데이터 마이닝 기법을 사용하여 사용자가 선호할 만한 제품을 예측하여 추천하는 방식이다(Fu et al., 2018). 즉, 과거 사용자가 제품에 부여한 평점을 가지고 기 계학습이나 데이터 마이닝 모델을 활용하여 사용 자가 평점을 부여하지 않은 제품에 부여할 평점 을 예측하는 방식이다. 평점을 예측하는 방법으 로는 대표적으로 행렬 분해(Matrix Factorization) 방식이 있다(Abdollahi and Nasraoui, 2017). 행렬 분해는 사용자와 제품에 대한 평점으로 구성된 행렬을 두 개의 행렬로 분해하는 방법이다. 가장 널리 사용되는 행렬 분해 방법으로는 특이값 분 해(Singular Value Decomposition; SVD)가 있다 (Bang et al., 2015). SVD는 고차원의 행렬을 저 차원의 행렬로 축소하는 차원 축소의 개념이다 (Mishra et al., 2015). 따라서 행렬을 차원 축소한 후, 다시 원래의 행렬로 복원하면 결측치 값들이 채워지게 되며, 이를 기반으로 추천을 하는 방식 이다.

(5)

기존 CF 기법 관련 개인화 추천 서비스 연구 에서는 주로 정량화된 구매 및 거래 내역, 평점 정보 등의 데이터를 사용하여 추천 대상 사용자 와 유사한 이웃 사용자를 선택하고, 이를 바탕으 로 추천 대상 사용자의 선호도를 예측하였다. 그 러나 이러한 정량적 정보는 사용자의 선호도를 구체적으로 반영하지 못하여 추천 성능이 저하 되는 문제가 발생한다(Lu et al., 2015; Qiu et al., 2016). 따라서 본 연구에서는 리뷰 유용성 반영 여부에 따른 CF 기법의 성능 결과를 확인하고자 하며, 이를 통해 기존 CF 기법의 성능을 개선할 수 있을 것으로 기대한다.

2.2. 사용자 리뷰를 고려한 개인화 추천 서비스

사용자가 작성한 리뷰는 제품에 대한 정보와 사용 후기 등을 텍스트로 표현한 정성적 정보이 다. 이러한 리뷰는 사용자가 제품에 대해 상세한 의견을 표현할 수 있는 중요한 매개체이다(Guy et al., 2017). 따라서 정략적 정보만을 활용한 기 존 추천시스템의 한계를 보완하기 위해, 리뷰를 활용한 다양한 추천시스템이 개발되고 있다. 리 뷰를 활용한 추천 시스템 연구는 2000년대 중반 학계에서 처음으로 소개되었으며, Leung et al.

(2006)의 연구는 추천시스템에 사용자 리뷰를 반 영한 최초의 시도라 할 수 있다. 이 연구에서는 IMDb 영화 리뷰에 감성분석을 적용하여, 사용자 가 작성한 리뷰가 긍정 또는 부정인지에 대한 감 성 방향과 해당 리뷰의 강도를 추정할 수 있는 확률적 평가 추론 모형을 개발하였다. 그리고 모 형의 산출 값을 CF 기법에 반영한 추천시스템을 제안하였다. 따라서 추천시스템에 정성적 정보 인 사용자 리뷰를 적용한 최초의 연구라는 점에

서 의의가 있다. 그러나 정량적 정보인 평점과 정 성적 정보인 리뷰를 동시에 고려했다면 더 우수 한 성능의 추천 알고리즘을 제안할 수 있음에도 불구하고 정량적 정보인 평점을 전혀 고려하지 않았다. 그리고 리뷰에 대한 전처리 과정에서 감 성 특성만을 고려하였으며, 리뷰의 품질은 파악 하지 못한 한계점이 존재한다. Garcia-Cumberas et al. (2013) 은 사용자가 작성한 리뷰를 감성 분 석하여 해당 사용자가 주로 긍정적인 평가 또는 부정적인 평가를 하는지에 따라 직관주의자와 비관주의자로 분류하고, 집단별로 CF 기법을 적 용한 방법을 시도하였다. 따라서 IMDB 영화 리 뷰를 활용한 실증 분석에서 전체 사용자 대상으 로 CF 기법을 적용한 결과보다 사용자를 직관주 의자랑 비관주의자로 분류하여 CF 기법을 적용 하였을 때의 선호도 예측 성능이 더 높게 나타나 는 것을 확인하였다. 따라서 리뷰를 집단으로 분 류한 점에서 기존 연구들과 차별성이 있다. 그러 나 리뷰의 내용을 추천시스템에 직접적으로 반 영하지 못하였고, 이로 인해 정보 손실이 발생한 다는 한계점이 있다. Zhang et al. (2014)은 리뷰 를 반영한 추천 방법론을 제안하였다. 이 연구에 서는 Zhou and Chaovalit (2008)의 영화 리뷰 온 톨로지에 있는 총 32개의 영화에 대한 리뷰의 특 성을 TF-IDF와 유사한 개념인 FF-IRF를 활용하 여 도출하였다. 각 특성에 사용자의 감성 극성을 반영하여 사용자 간의 유사도 값을 산출하고, 이 를 기반으로 한 CF 기법을 제안하였다. 그리고 제안한 방법론을 Yahoo Movies 데이터에 적용한 결과, 전통적인 CF 기법보다 6.18∼8.24% 정도 예측 정확도가 향상됨을 확인하였다. 따라서 예 측 성능이 우수하고, 메모리 기반 협업 필터링 방식을 활용하여 구현이 쉽다는 장점이 있다. 그 러나 리뷰의 내용을 고려하지 않기 때문에 잘못

(6)

Amazon Book Dataset

User-Item Rating Matrix

Reviews

Helpful Review Filtering

Filtering Dataset-based

Mapping

Recommender System

Performance Evaluation

CHSC Model Construction

Feature Extraction Helpfulness Score

Classification Construct RS Model

Dataset Construct CHSC Model

Dataset Pre-Processing

Phase 1:

Problem Formulation

UBCF IBCF SVD

Phase 2:

Construct CHCS Model

Phase 3:

Helpful Profile-based Filtering

Phase 4:

Construct RS Model

Dataset Mapping

<Figure 1> Research Flow Chart

된 극성 파악이 이루어질 수 있다는 한계점이 있 다. Jeon and Ahn (2015)은 전통적인 CF 기법의 성능을 개선하기 위해, 사용자가 작성한 리뷰를 고려한 방법론을 제안하였다. 그리고 이를 스마

트폰 앱 추천시스템에 적용하여 제안한 방법론 의 효과성을 검증하였다. 정성적 정보인 사용자 의 리뷰는 텍스트 마이닝을 활용하여 정량화하 였으며, 이를 기반으로 사용자 간의 유사도를 산

(7)

출하였다. 이때, 유사도를 산출하는 방법으로 중 복으로 사용된 단어의 빈도로 도출하는 방법과 TF-IDF 가중치 합으로 도출하는 2가지 방법을 제안하고 성능을 비교하였다. 실험 결과, CF 기 법에 사용자 간의 리뷰 유사도를 추가로 반영한 경우가 평점만을 고려한 전통적인 CF 기법보다 더 우수한 예측 성능을 나타냈다. 또한 TF-IDF 가중치 합으로 도출하는 방법이 중복으로 사용 된 단어의 빈도만을 고려했을 때보다 더 우수한 예측 성능을 나타냈다. Hyun et al. (2019)은 사용 자가 작성한 리뷰와 평점을 결합하여 CF 기법에 반영한 추천 알고리즘을 제안하였다. 이를 위해 영화 리뷰 데이터를 활용하여 도메인 맞춤형 감 성 사전을 구축하고, 이를 활용하여 리뷰의 감성 수치를 도출하였다. 그리고 도출한 감성 수치를 평점과 결합하여 생성한 새로운 평점을 CF 기법 에 반영하였다. 연구 결과, 제안한 방법론이 평 점만을 고려하는 전통적인 CF 기법보다 더 우수 한 성능을 나타내는 것을 확인하였다. 따라서 기 존 연구와는 달리 리뷰와 평점을 결합한 새로운 방법론을 제안하였고, 기존 CF 기법보다 우수한 성능을 보였다는 점에서 의의가 있다. 그러나 기 존 연구와 마찬가지로 리뷰의 내용 및 품질은 고 려하지 않고 긍정과 부정에 대한 특성만을 반영 하였다.

따라서 기존 연구에서는 리뷰의 감성 특성을 정량화하는 데 초점을 두었다. 그러나 리뷰의 내 용 및 유용성을 고려하지 않은 리뷰가 추천 알고 리즘에 포함되면 예측 성능을 저하하는 문제점 이 있다(Cheng et al., 2018). 따라서 본 연구에서 는 리뷰의 유용성 반영 여부에 따른 알고리즘 예 측 성능 결과를 비교하고자 하며, 이를 통해 기 존의 사용자 리뷰를 반영한 추천 서비스의 성능 을 개선할 수 있을 것으로 기대한다.

3. 제안 방법론

본 연구에서는 기존 CF 기법의 성능을 개선하 기 위해 사용자가 작성한 리뷰에서 유용성 점수 예측을 통해 유용한 리뷰를 포함하는 사용자 프 로파일을 추천시스템에 반영하는 새로운 방법론 을 제안하고자 한다. 제안한 방법론의 추천 성능 을 검증하기 위해, 먼저 리뷰에 대한 유용성 점 수를 예측하는 CHSC 모델을 구축한다. 이를 기 반으로 사용자가 작성한 리뷰에서 유용성 점수 를 예측하고, 유용한 리뷰만을 포함하는 새로운 사용자 프로파일을 구축한다. 마지막으로 개인 화 추천 서비스 관련 연구에서 가장 우수한 성능 을 나타낸 CF 기법을 활용하여 본 연구에서 제 안한 추천 방법론의 추천 성능을 평가한다. 본 연구의 절차는 <Figure 1>과 같이 총 4단계로 구 성된다.

3.1. Phase 1: Problem Formulation

첫 번째 단계에서는 제안한 방법론의 추천 성 능을 평가하기 위해 리뷰 유용성 정보가 있는 데 이터는 CHSC 모델 구축에 사용하며, 유용성 정 보가 없는 데이터 세트는 추천 성능 평가에 사용 하였다(Baek et al., 2012). CHSC 모델을 학습하 고 성능을 평가하는 모델 구축용 데이터 세트에 서 리뷰를 _^ _⋯ _{  } _^{이라고 정} 의할 때, 각 리뷰 ri는 5개 특성 [P, U, C, M, H]을 포함하는 튜플(Tuple) 형태로 표현할 수 있다. 이 때 P는 제품 특성, U는 사용자 특성, C는 리뷰 원문(Textual), M은 메타 데이터 특성 그리고 H 는 총 투표수(Total Votes)에 대한 유용한 투표수 (Helpful Votes)의 비율로 계산되는 유용성 점수 를 의미하며, H는 0과 1 사이의 값으로 도출된다

(8)

<Figure 2> The Architecture of CHSC Model (Liu et al., 2008; Zhang and Varadarajan, 2006). F

를 CHSC 모델 구축에 사용되는 리뷰의 특성 행 렬(n × m)이라고 정의할 때 n은 리뷰의 개수, m 은 리뷰 특성의 개수를 의미한다. Z는 CHSC 모 델 구축에 사용되는 모든 리뷰에 대한 분류 값으 로 구성된 벡터이며, Zi는 리뷰 ri가 유용하거나 유용하지 않음을 의미한다. 따라서 유용한 리뷰 와 유용하지 않은 리뷰를 분류하는 임계값 (Threshold)을 각각 _과 _로 표현하며, 최종 적으로 Zi는 수식 (1)과 같이 정의된다.

_



^{ i f } i f ^^{ } ^_ (1) 다음으로 추천 성능을 평가하는 데이터 세트 에서 리뷰를 ___⋯_{  }_^이라 고 정의할 때, 각 리뷰 Ri는 4개 특성 [I, B, T, S ]을 포함하는 튜플(Tuple) 형태로 표현할 수 있

다. 이때 I는 제품 특성, B는 사용자 특성, T는 리 뷰 원문(Textual) 특성 그리고 S는 메타 데이터 특성을 의미한다. Q를 추천 성능 평가에 사용되 는 리뷰의 특성 행렬(v × u)이라고 정의할 때 v는 리뷰의 개수, u는 리뷰 특성의 개수를 의미한다.

또한, W는 추천 성능 평가에 사용된 모든 리뷰의 유용성에 대한 여부를 분류한 값으로 구성된 벡 터이며, Wi는 리뷰가 유용하거나 유용하지 않는 지를 나타내고 있다. 본 연구는 먼저 F가 주어지 면 Z의 예측 오류를 최소화하는 모델을 구축하 는 것이다. 그런 다음 학습된 모델을 사용하여 새로운 리뷰 Ri에 대한 유용한지를 나타내는 값 W를 정교하게 예측하고자 한다.

3.2. Phase 2: CHSC Model

최근 리뷰에서 감성 특성을 정교하게 추출하 기 위해 CNN, RNN 등 딥러닝 알고리즘을 적용 하는 연구가 활발히 수행되고 있다. 본 연구에서

(9)

는 자연어 처리 연구에서 우수한 분류 성능을 나 타내고 있는 CNN을 활용하여 CHSC 모델을 구 축하였다(Johnson and Zhang, 2014; Wu et al., 2020). CNN은 연산 속도가 RNN보다 빠르므로 리뷰에 포함되는 의미론적 특성을 정교하게 추 출하여 리뷰 유용성 여부를 분류한다. 또한, 집 계된 리뷰 대신 각 리뷰를 입력으로 사용하여 텍 스트의 길이를 줄이고 CNN의 연산 속도를 높일 수 있으며, 모델 학습에 필요한 연산 비용을 감 소시킬 수 있다(Cao et al., 2019). 본 연구에서 구 축하고자 하는 CHSC 모델은 <Figure 2>와 같이 Word Embedding Layer, Convolution Layer, Max Pooling Layer, Full Connected Layer로 구성된다.

3.2.1. Word Embedding Layer

딥러닝 알고리즘에서는 텍스트 데이터를 학습 시키기 위해 각 단어를 정형화된 벡터 형태로 변 환하는 작업이 필요하다. 예를 들어, 사용자 u가 특정 아이템 i에 남긴 리뷰 Ru,i를 {w1, w2, …, wn} 로 정의했을 때, n은 리뷰에 포함되는 단어를 개 수를 나타내고 있다. 기존 텍스트 마이닝 연구에 서는 주로 One-hot Encoding 기법을 적용하여 각 단어를 벡터로 변환하였다. 그러나 이와 같은 방 법은 행렬의 차원이 지나치게 커지고 벡터의 대 부분 값이 0으로 채워지는 데이터 희소성 문제 가 발생한다. 이와 같은 문제점을 보완하기 위해 본 연구에서는 Word Embedding Layer를 통해 리 뷰에 포함되어 있는 각 단어를 벡터 형태로 변환 하였다(Yoo et al., 2018). 이를 위해 리뷰의 각 단 어에 워드 임베딩 f: wn →R^D를 적용하면 각 단 어는 정형화된 밀집 벡터(Dense Vector) 형태로 변환한다. 따라서 리뷰는 행렬 E ^∈ R^V×D 형태로 표현되며, D는 벡터의 차원을 나타내고 V는 리

뷰에 포함되는 단어의 개수를 의미한다.

3.2.2. Convolution Layer

두 번째 단계에서 컨볼루션 레이어는 첫 번째 단계의 Word Embedding Layer를 통해 입력된 리 뷰에서 맥락 특성을 추출할 때 사용된다. 이때 특성을 추출하기 위해 다양한 크기의 필터 Kj를 통해 리뷰의 슬라이딩 원도우(Sliding Window)에 서 수식 (2)와 같이 컨볼루션 연산을 수행한다.

_  ∗ _ _ (2)

식(2)에서 ∗ 는 컨볼루션 연산자를 나타내고, Kj ∈ R^k×m는 필터 커널의 파라미터(Parameter)를 나타내며, k × m은 커널 크기를 의미한다. bj는 편향(Bias)을 나타내고 는 활성화 함수를 의미 하며 수식 (3)과 같이 정의할 수 있다.

relu x  max  (3)

3.2.3 Max Pooling Layer

세 번째 단계의 Max Pooling Layer는 앞서 컨 볼루션 연산을 통해 추출한 특성에서 중요한 특 성은 유지하고 노이즈(Noise) 특성을 제거하기 위해 사용되며, 수식 (4)와 같이 정의할 수 있다.

_ max_ _⋯       (4)

리뷰에 포함되는 다양한 특성을 추출하기 위 해 본 연구에서는 다양한 크기의 필터 커널을 적 용하였다. 마지막으로 Max Pooling Layer의 출력 은 수식 (5)와 같이 정의할 수 있다.

(10)

Users Items Reviews Helpfulness

Score Ratings

52481 0 book provide reflection apply life … short time plane 1 5

163431 367934 gift complimentary copy book … enjoyable read 1 3

101585 38 great hop disappoint book none … recommend book 1 2

36188 367803 tire nico disrepecting tania turn… get next one 0 2

255387 367972 omfg hell read good way serious … nut book know 1 5 551 0 spiritually mentally inspire book ... help discover really 0 5

230414 366809 book find love kind sordid … author book seem 1 1

<Table 2> Examples of Review Helpfulness Classification Results on Evaluation Performance Dataset

  _ _⋯ _ (5)

3.2.4. Full Connected Layer

마지막으로 Full Connected Layer는 리뷰에서 추출한 특성을 바탕으로 유용성 점수를 예측하 여 결과를 분류하며, 수식 (6)과 같이 정의할 수 있다.

   ∙  _ (6)

식 (6)에서  는 Sigmoid 활성화 함수, Ws는 가 중치 행렬 그리고 bs는 편향을 나타낸다. Full Connected Layer는 입력 데이터 특성을 0 또는 1 로 분류하여 출력한다. 출력된 값이 0이면 리뷰 ri는 유용하지 않음을 나타내며, 1이면 유용한 리 뷰를 의미한다.

3.3. Phase 3: Helpful Profile-based Filtering 세 번째 단계에서는 먼저, 앞서 구축한 CHSC 모델을 적용하여 추천 성능 평가용 데이터 세트

에서 유용성 정보가 없는 리뷰에 적용하여, 사용 자가 작성한 리뷰가 유용한지에 대한 여부를 분 류한다. <Table 2>는 사용자가 작성한 리뷰가 유 용한지에 대해 분류한 결과 예시이며 Users, Items, Reviews, Helpfulness Score 그리고 5점 척 도로 평가된 Ratings로 구성되어 있다. Helpfulness Score는 리뷰 유용성에 대해 분류한 결과를 나타 내며 유용성 여부에 따라 0과 1로 분류하였다. 0 은 해당 리뷰가 유용하지 않음을 의미하고 1은 해당 리뷰가 유용하다는 것을 의미한다. 그리고 앞서 분류한 결과를 바탕으로 <Table 3>과 같이 Helpfulness가 1인 유용한 리뷰만을 포함하는 새 로운 사용자 프로파일을 구축한다.

3.4. Phase 4: Recommender System Model 본 연구에서 제안한 방법론의 추천 성능을 검 증하기 위해 개인화 추천 서비스 관련 연구에서 대표적으로 사용되고 있는 UBCF, IBCF 그리고 SVD 모델을 적용하여 선호도 평점을 예측하였 다(Postmus and Bhulai, 2018). 이를 통해 리뷰의 유용성에 대한 여부를 고려하지 않고 추천 서비

(11)

Users Items Reviews Helpfulness

Score Ratings

52481 0 book provide reflection apply life … short time plane 1 5

163431 367934 gift complimentary copy book … enjoyable read 1 3

101585 38 great hop disappoint book none … recommend book 1 2

255387 367972 omfg hell read good way serious … nut book know 1 5

230414 366809 book find love kind sordid … author book seem 1 1

<Table 3> Examples of Filtering Helpful Review on Evaluation Performance Dataset

스를 제공할 때의 예측 성능과 유용한 리뷰를 별 도로 고려하여 추천 서비스를 제공할 때의 예측 성능을 비교하고자 한다.

UBCF 기법은 추천 대상 사용자에게 적합한 제품을 추천해주기 위해 먼저 선호도 평점 정보 를 기반으로 추천 대상 사용자와 유사한 이웃 사 용자를 선정한다. 다음으로 선정된 이웃 사용자 들이 공통으로 선호하는 제품을 추천 대상 사용 자에게 최종적으로 추천한다(Elahi et al., 2016).

UBCF 기법을 사용하여 사용자의 선호도 평점을 예측하기 위해서는 먼저 사용자 간의 유사도를 계산한다. 사용자 a와 사용자 b 간의 유사도는 수식 (7)과 같이 정의된다(Isinkaye et al., 2015;

Sarwar et al., 2001).

   

^^∈

_ _^^^∈

_ _^

∈

_ __ _

(7)

수식 (7)에서 I는 전체 제품의 집합을 나타내 며, Ra,i와 Rb,i는 사용자 a, 사용자 b가 각각 제품 i에 부여한 선호도 평점이다. _와 _는 사용자 a, 사용자 b가 각각 전체 제품에 부여한 선호도 평점의 평균값을 의미한다. 이처럼 먼저, 유사도 계산을 통해 유사한 이웃 사용자를 선정하고, 다

음으로 이웃 사용자들의 구매 내역을 기반으로 가중 합(Weighted Sum)을 산출하여 선호도 평점 을 예측한다(Choi et al., 2016; Polatidis and Georgiadis, 2016). 추천 대상 사용자 u가 특정 제 품 i에 대한 예측 선호도 평점은 수식 (8)과 같이 계산된다(Ar and Bostanci, 2016; Bobadilla et al., 2011).

^^ __{ }



∈

 

∣  ∣



∈

 

 ⋅_ _ (8)

수식 (8)에서 _는 추천 대상 사용자가 모든 제품에 부여한 선호도 평점의 평균값을 나타내 고, Rv,i는 다른 사용자 v가 특정 제품 i에 부여한 선호도 평점, _는 다른 사용자 v가 모든 제품 에 부여한 선호도 평점 평균값을 의미한다. 그리 고 sim(u, v)는 추천 대상 사용자 u와 다른 사용 자 v 간의 유사도 값을 나타낸다.

IBCF 기법은 먼저 특정 제품을 기준으로 선택 하고, 사용자가 선호도 평점을 부여한 제품과 유 사한 제품을 이웃 제품으로 선정한다. 다음으로 제품에 부여한 선호도 평점을 기반으로 추천 대 상 사용자가 특정 제품에 대한 선호도 평점을 예

(12)

측한다. 제품 i와 제품 j 간의 유사도 sim(i, j)는 아래 수식 (9)와 같이 계산된다(Chung et al., 2014; Wei et al., 2012).

  

^_{ ∈}^^^^{ }^{ }^^^^^_{ ∈}^^^^{ }^{ }^^^^

 ∈

_{ } __{ } _

(9)

수식 (9)에서 U는 제품 i와 j에 모두 선호도 평 점을 부여한 전체 사용자 집합을 의미한다. _{ }

와 _{ }는 사용자 u가 제품 i, 제품 j에 각각 부여 한 선호도 평점이며, ^_와 ^_는 전체 사용자가 각각 제품 i, 제품 j에 부여한 평점의 평균이다.

IBCF 기법은 가중 평균(Weighted Average)을 계 산해 선호도 등급을 수식(10)과 같이 계산할 수 있다.

^__{ }

∈

  

∈

_∙   

(10)

수식 (10)에서 각 선호도 평점은 제품 i와 제품 n 간의 유사도 sim(i, n)에 따라 가중치가 부여된 다. 이는 예측하려는 제품과 유사한 제품의 점수 를 크게 반영하여 선호도 평점을 계산하는 방식 이다.

모델 기반 SVD(Singular Value Decomposition) 는 고차원의 행렬을 저차원의 행렬로 축소하는 기법으로 행렬 인수분해(Matrix Factorization) 관 련 연구에서 널리 사용되고 있는 방법의 하나다 (Bokde et al., 2015; Koren and Bell, 2015). 모든 사용자와 제품에 대한 m × n 크기의 행렬 M = U

V^T을 분해하면 Um×m, m×n, V ×^ 3개의 행렬 로 나타낼 수 있다. Um×n는 사용자 행렬을 나타

내고, m×n은 대각 행렬을 나타내며 V_{ ×}^ 는 제품 행렬을 나타낸다. SVD 기법에서 사용자 선호도 평점은 수식 (11)과 같이 계산된다.

^   _ _ _^_ (11)

수식 (11)에서 는 선호도 평점 평균을 나타 내며, bu와 pu는 각각 사용자와 제품에 대한 편향 값이다. qi와 pu는 저차원의 공간에서 사용자와 제품에 대한 잠재적 요인을 의미하고 있다. 행렬 M = U  V^T은 사용자가 부여한 선호도 평점 정 보가 부족해 대부분 결측값(Missing Value)을 나 타내는 데이터 희소성 문제가 존재한다. 따라서 사용자가 기존에 부여한 선호도 평점 정보를 사 용하여 제곱 오차를 최소화하는 잠재적 요인을 찾기 위해 수식 (12)와 같이 정규화 과정을 수 행한다.

^ ^

min 

∈

_ _  ∥^∥^^∥^∥^^ (12)

_← _ _ _

_←   _ _

_← _ _∙ _ _ (13)

_← _ _∙ _ _

제곱 오차를 최소화하는 방법은 수식 (13)과 같 이 SGD(Stochastic Gradient Descent)를 활용하여 단계마다 가중치를 수정하면서 사용자의 선호도 평점 ^_을 예측한다. 여기서 _는 실제 선호도 평점 _와 예측 선호도 평점 ^_간의 차이로 계 산된다. 또 사용자 또는 제품의 잠재적 요인은 정규분포에 따라 무작위로 초기화되어 계산되

(13)

Users Items Ratings & Reviews Helpfulness

603,556 367,975 8,872,495 4,745,574

<Table 4> Statistics of Amazon Book Dataset

며, 이를 바탕으로 사용자와 제품의 특성을 표현 할 수 있는 최적의 요인 수를 설정한다.

4. 실험

4.1. 데이터 및 평가지표

본 연구에서 제안한 방법론의 추천 성능을 평가하 기 위해 세계적인 전자상거래 사이트 Amazon.com에 서 1996년 5월부터 2014년 7월까지 수집된 도서 관련 데이터¹⁾를 사용하였으며, 해당 데이터 세 트에는 리뷰를 5개 이상 작성한 사용자와 5개 이상의 리뷰가 작성된 제품만 포함되어 있다. 데 이터 세트에 대한 기초통계는 <Table 4>와 같다.

본 연구에서 제안한 방법론의 추천 성능을 평 가하기 위해 먼저 CHSC 모델 구축용 데이터 세 트와 추천시스템 구축용 데이터 세트로 분할한 다. 본 연구에서 제안한 모델을 효과적으로 학습 시키기 위해 기존 연구의 방법을 참고하여 유용 성 투표수가 최소 10개 이상의 리뷰만을 학습 데 이터 세트로 사용한다(Ge et al., 2019; Liu et al., 2008). 여기에서 리뷰 유용성 점수는 수식 (14)와 같이 총투표수에 대한 유용한 리뷰 투표수의 백 분율로 계산된다(Krishnamoorthy, 2015; Zhang and Varadarajan, 2006). CHSC 모델이 유용성 점 수를 정교하게 예측할 수 있도록 학습시키기 위 해 유용한 리뷰(1 > 0.9)와 유용하지 않은 리뷰

1) http://jmcauley.ucsd.edu/data/amazon/links.html

(2 < 0.2)를 각각 35,000개를 활용하여 모델을 학습시키고 성능을 평가했다(Ge et al., 2019).

    

 

(14)

다음으로 추천시스템을 구축하기 위해 수집한 데이터 세트에서 유용성 정보가 반영되지 않은 리뷰만을 활용하여 사용자 프로파일을 구축하고 실험에 사용했다. 해당 사용자 프로파일은 사용 자 정보, 제품 정보, 평점 및 리뷰 등 4가지 속성 으로 구성되어 있다. 또한, 추천시스템 구축 과 정에서 데이터 희소성 문제를 방지하기 위해 기 존 연구의 방법을 따라 최소 20개 이상의 평점을 부여한 사용자만을 선택하여 실험에 사용했다 (He et al., 2017; Moore, 2015). 따라서 최종적으 로 사용한 데이터 세트는 30,745명의 사용자, 40,405개의 제품 그리고 916,067개의 평점 및 리 뷰를 포함하고 있다.

CHSC 모델을 적용한 유용성 점수 분류 결과 의 성능은 <Table 5>와 같이 Confusion Matrix를 사용하여 평가하였다(Nassirtoussi et al., 2014;

Siering et al., 2018; Zafari et al., 2020). 이때 Accuracy는 분류 성능을 측정할 때 가장 일반적 으로 사용되는 평가지표이며, 수식 (15)와 같이 전체 분류 결과 중에서 유용한 리뷰와 유용하지 않은 리뷰를 정확하게 분류한 개수의 비율을 나 타내고 있다. Precision은 수식 (16)과 같이 모델 이 유용하다고 분류한 리뷰 중에서 실제 유용한

(14)

Predicted Class

Helpful Unhelpful

Actual Class

Helpful TP FN

Unhelpful FP TN

<Table 5> Confusion Matrix

리뷰에 속하는 비율을 나타내며, Recall은 수식 (17)과 같이 실제 유용한 리뷰 중에서 모델이 유 용하다고 분류한 리뷰 개수의 비율을 나타낸다.

F1-Score는 Precision과 Recall의 평가 결과를 조 화 평균하여 모델의 성능을 평가할 수 있으며 식 (18)과 같이 정의한다.

  



(15)   

 (16)

_{  }



 (17)

 _{  }

 

 × ×

(18)

개인화 추천 서비스의 추천 성능을 평가하기 위해 다양한 평가 방법이 제안되었다(Isinkaye et al., 2015). 본 연구에서는 사용자의 선호도 평점 을 예측할 때 널리 사용되는 MAE(Mean Average Error), RMSE(Root Mean Squared Error) 평가지 표를 적용하여 예측 성능을 측정하였다(Herlocker et al., 2004; Sarwar et al., 2001). 먼저, 예측 평점과 실제 평점 간의 차이를 비교할 때 가장 널리 사용 되는 MAE는 수식 (19)와 같이 정의한다(Hammou and Lahcen, 2017; Jeong et al., 2010).

_{ }





  



∣_ _∣ (19)

수식 (19)에서 N은 전체 실험 데이터 세트 개 수를 나타내며, _는 실제 평점, ^_는 예측 평점 을 나타내고 있다. 즉, 실제 선호도 평점과 예측 선호도 평점 간의 오차를 절대값 형태로 나타내 며, 최종적으로 이를 합치고 실험 데이터 세트 개수만큼 나누는 방식이다. MAE는 실제 평점과 예측 평점 간의 오차 크기와 관계없이 같은 가중 치를 부여한다(Chai and Draxler, 2014). 다음으 로, RMSE는 Netflix Prize에서 사용된 평가지표 로 수식 (20)과 같이 정의한다.





^^^^^  



∣_ _∣ (20)

수식 (20)에서, _는 실제 평점, ^_는 예측 평점 을 나타내며, N은 전체 실험 데이터 세트 개수를 나타내고 있다. RMSE는 실제 선호도 평점과 예 측 선호도 평점 간의 오차를 제곱한 형태로 나타 내며, 최종적으로 이를 합치고 실험 데이터 세트 개수만큼 나누고 제곱근을 계산하는 방식이다 (Ngo-Ye and Sinha, 2014; Sánchez-Moreno et al., 2016). 또한, 실제 평점과 예측 평점 간의 오차가 큰 값에 대해 상대적으로 높은 가중치를 부여한 다(Chai and Draxler, 2014).

(15)

4.2. 실험설계

본 연구의 CHSC 실험에서는 리뷰를 효과적으 로 분석하기 위해 NLTK 패키지를 적용하여 모 델 학습에 크게 중요하지 않은 불용어, 특수 문 자, 기호 및 숫자 등을 제거하였다(Moon et al., 2019; Song et al., 2020). 또한, 제안한 방법론의 성능을 평가하기 위해 데이터 세트를 8:2 비율의 학습과 검증 데이터로 분할하였다. 모델 학습을 위해 단어 임베딩 차원을 300으로 설정하고, 필 터 크기는 100으로 설정하였으며, 원도우 크기 (Window Size)는 각각 3, 4, 5로 설정하였다 (Khan and Niu, 2020). 리뷰의 길이는 최대 길이 로 고정하고, 단어 크기(Vocabulary Size)는 다양 하게 설정하고 분류 성능에 따라 파라미터를 설 정했다(Zhang and Wallace, 2015). 실험 과정에서 과적합 문제를 개선하기 위해 각 Convolutional Layer와 Dense Layer에 드롭아웃(Dropout) 방법 을 적용하였으며, 드롭아웃 비율은 0.5로 설정하 였다. 최적화 알고리즘은 기존 연구에서 널리 사 용되는 Adam을 적용하고 배치 크기(Batch Size) 는 50으로 설정하였으며, Epoch는 다양한 크기 로 설정하고 분류 성능에 따라 최적의 파라미터 를 설정했다(Janke et al., 2019; Ullah et al., 2018). 추천시스템 구축 실험에서 CF 기법은 피 어슨 상관계수(Pearson Correlation Coefficient)를 활용하여 유사도를 측정하고, UBCF 기법과 IBCF 기법은 각각 가중 합과 가중 평균을 계산하여 사 용자 선호도 평점을 예측하였다(Barragáns-Martínez et al., 2010; Moon et al., 2017). 또한, 이웃의 크 기를 1부터 100까지 다양하게 설정하고 예측 성 능을 확인하였다. SVD 기법은 잠재적 벡터 크기를 8, 16, 32, 64, 128로 설정하고, 학습률(Learning Rate)은 0.005로 설정하였다(Cui and Fearn, 2018;

Hu et al., 2017; Knees et al., 2014). 본 연구에서 는 TensorFlow, Keras 및 Surprise 패키지를 사용 하여 CPU Intel Core i9-9900KF, 64GB RAM, GeForce RTX 2080 Ti 환경에서 실험을 수행하 였다.

4.3. 실험결과

4.3.1. 리뷰 유용성 분류 성능 평가

본 연구에서 제안한 방법론의 성능을 평가하 기 위해 먼저, 리뷰의 유용성 여부를 분류하는 CHSC 모델을 구축하였다. 기존 리뷰 관련 연구 에서는 주로 평점 정보를 기반으로 리뷰의 감성 특성을 긍정 및 부정으로 분류하였으나, 본 연구 에서는 해당 리뷰가 사용자에게 실제로 유용한 지에 대한 여부를 정교하게 분류하였다. 또한, 모델의 분류 정확도를 높이기 위해 실험 데이터 에 따라 등장하는 단어 빈도가 다른 점을 고려하 여 다양한 단어 크기를 설정하고 실험을 수행하 였다(Yoo et al., 2018). <Figure 3>은 Epoch 크기 를 1에서 10까지 설정하였을 때 단어 크기에 따 른 정확도를 나타내고 있다. 실험 결과에서 단어 크기를 각각 10,000개, 20,000개, 30,000개로 설 정하였을 때는 Epoch 크기가 2일 때 분류 정확도 가 가장 높게 나타났고, 이후에는 정확도가 다소 낮아지고 있다. 반면, 단어 크기를 각각 40,000 개, 50,000개로 설정하였을 때는 Epoch 크기가 1 일 때 가장 높게 나타났다.

<Table 6>은 각 단어 크기에서 최적의 Epoch 를 설정하였을 때의 분류 성능을 나타내고 있다.

다양한 실험을 수행한 결과에 따라 Epoch가 2, 단어 크기가 30,000개일 때 최적의 분류 성능을 보여주고 있다. 따라서 본 연구에서는 앞서 언급 한 최적의 파라미터를 CHSC 모델에 적용하여