A Study on Detecting Fake Reviews Using Machine Learning: Focusing on User Behavior Analysis

1) 본 논문은 제1저자의 석사학위 논문을 수정 및 보완하여 작성하였음을 밝힙니다.

논문접수일 2020년 07월 30일 | 1차 수정 2020년 09월 07일 | 게재확정일 2020년 09월 17일

A Study on Detecting Fake Reviews Using Machine Learning: Focusing on User Behavior Analysis

이민철 (Min Cheol Lee)

윤현식 (Hyun Shik Yoon)

< 국문초록 >

2. 이론적 배경 및 선행연구

2.2. 블로그 및 포스트

3.3. 광고성 리뷰 판별

3.4. 데이터 전처리

3.5. 예측 모형 생성 및 선정

4. 예측 모형 평가 및 선택

4.1. 예측 모형 성과 검증 지표

4.2. 예측 모형의 검정력 평가

5.1. 광고성 리뷰 예측

5.2. 광고성 리뷰 예측에 영향을 미친 변수 평가

5.3. 가짜리뷰 탐지 방법

6. 결과 토의 및 시사점

6.2. 한계점과 향후 과제

이 민 철 (Min Cheol Lee)

윤 현 식 (Hyun Shik Yoon)

< Abstract >

Min Cheol Lee

, Hyun Shik Yoon

* Chonnam National University, College of Business Administration

** Chonnam National University, College of Business Administration

A Study on Detecting Fake Reviews Using Machine Learning: Focusing on User Behavior Analysis

머신러닝을 활용한 가짜리뷰 탐지 연구:

사용자 행동 분석을 중심으로 1)

A Study on Detecting Fake Reviews Using Machine Learning: Focusing on User Behavior Analysis

전남대학교 일반대학원 경영학과 2)

전남대학교 경영대학 경영학부 3)

주제어: 가짜리뷰, 머신러닝, 사용자 행동 분석, 온라인 구전, 웹 크롤링

본 연구에서는 블로그에 작성된 게시글을 통해 온

라인으로 전파되는 거짓 정보 중 가짜리뷰에 대한 효

과적인 탐지 방법을 탐색해 보고자 한다. 이를 위해

제품이나 서비스의 광고 및 판매를 위해 블로그에 상

업적 목적(일정 대가를 받고 작성한)으로 게시된 광고

성 리뷰와 아무런 대가 없이 순수한 목적으로 작성된

리뷰의 차이를 살펴보고, 게시글을 작성한 블로거의

행동 분석을 통해 어떠한 행동 특성들이 가짜리뷰(특

정 상품 및 서비스를 홍보하기 위해 대가를 받고 작성

했음에도 불구하고 이를 숨긴 채 작성한 리뷰 )를 판별 할 수 있는 요인이 될 수 있는가에 대해 고찰을 한다.

2015). 국내에서는 상품이나 서비스를 제공받아 리뷰 를 작성한 경우 이를 의무적으로 게시물에 표시하도 록 하고 있다. 국내에서는 추천·보증 등에 관한 표시·

<표 1> 경제적 이해관계를 명확하게 표시한 사례에 대한 권고문구

<권고문구>

1. 추천·보증 등의 대가로 현금, 물품 등을 지급받는 경우 ‘경제적 대가’ 또는 그에 상응하는 구체적 표현(현금, 수수료, 무 료제품 등)을 사용하여 다음과 같이 표기하여야 한다.

<권고문구1> 저는 위 ○○상품을 추천(보증, 소개, 홍보 등)하면서 ◇◇사로부터 경제적 대가(현금, 상품권, 수수료, 포인트, 무료제품 등)를 받았습니다.

<권고문구2> ‘유료광고’, ‘대가성 광고’ 등 경제적 이해관계가 명확히 드러나는 표현

가짜리뷰는 기업의 의뢰를 받은 대행업체 , 인플루 언서(influencer) 또는 개인을 통해 생산되고 배포된다.

본 연구에서는 상기 법률에서 명시한 기만적 표시·

광고 행위에 초점을 맞추어 , “리뷰 내용의 진실성 여 부와는 상관없이 특정 상품에 대해 리뷰를 해주는 조 건으로 특정한 혜택을 받았음에도 불구하고 이를 밝 히지 않은 리뷰”를 가짜리뷰로 정의한다.

포스트는 블로그에 등록된 글을 의미하며 하나의 게시물은 하나의 포스트에 해당한다. 좀 더 확장된 의 미로는 블로그에 등록된 글, 문서, 게시물, 자료 모두 가 포스트를 의미하는 용어이다(조진완·이종호 2008).

상업성 블로그라 할지라도 모든 포스트가 상업적 목 적을 갖지는 않는다 . 본 연구에서는 자신 또는 타인이 기업의 상품이나 서비스를 홍보 및 광고, 판매를 목적 으로 작성한 포스트를 광고성 리뷰로 정의한다.

무의식(unconsciousness)은 각성하지 않은 심적 상태

로 , 지각 또는 기억과 관련된 작용이 없고 의지를 갖

추지 아니한 의식장애 현상 또는 상태를 의미한다

(Watson 1913). 이러한 무의식은 스스로 자각하지 못

하는 행위 및 개인의 습관 또는 직관적인 행위 등을

포함하는 것으로 자신의 행위에 대하여 자각이 없는

상태, 즉 힘을 들이지 않고 신경을 쓰지 않아도 일어

나는 사고 과정을 의미한다 . 이러한 무의식은 노력이

필요하지 않으며 언제든 일어날 수 있다 (손민정·남택

진 2010). 무의식적 의사결정은 행위의 주체가 자신에

게 주어진 정보를 보고 어떤 과정을 통해 결정에 이르

게 되었는지를 인식(awareness)할 수 없는 의사결정을

하게 된 경우를 의미한다(Simester et al. 2020). 특히,

선행연구에 의하면 무의식의 의사결정 중 무의식적

구매 결정은 기억 기반 정보처리를 하는 것으로 과거 의 경험을 결정에 반영한다고 하였다(성영신 등 2007).

본 연구에서는 목적변수(target variable)와 관련된

다양한 변수를 획득하기 위해 웹 크롤러 (Web Crawler)

기법을 활용하였다 . 웹 크롤러는 웹 문서를 제공하는

웹 사이트의 내용에 대해 지정된 방식을 적용하여 자

동으로 수집하는 기술이다(강경수·박세민 2019; 윤상

혁 등 2019). 머신러닝을 활용한 데이터 분석 분야에

서는 최대한 많은 양의 데이터를 확보해야 하며, 이를

실행할 수 있는 역량에 따라 그 연구 결과의 차이도

크게 발생할 수밖에 없다 . 따라서 더 효율적으로 데이

터를 수집하기 위한 웹 크롤링 기술은 많은 기업들과

실무분야에서 활용도가 높아지고 있는 추세이다(이종

화 2018). 데이터의 전처리와 분석 과정의 중요도가

상승하는 만큼 웹 크롤러에 관한 관심 또한 커지면서

연구 분야에서도 데이터 수집과정에 대한 연구 또한

첫 번째 범주는 블로그 특징에 대한 변수들로 , 블로그

의 외형적 구조는 일반인 블로그와 상업적 목적을 갖

는 블로그에 따라 차이가 있을 것이라 판단하였다. 두 번째 범주는 블로거의 특징에 대한 변수들로 블로거 의 성향에 따라 자신의 실명이나 성별 , 프로필의 등록 이나 공개 여부에 차이가 있을 것으로 판단하였다. 세

번째 범주는 포스트의 특징에 대한 변수들로, 포스트 를 작성한 작성자의 행동에 따라 포스트의 작성 방법 에 차이가 발생하고 , 그로 인해 각각 다른 패턴을 남 길 것으로 판단하였다. 변수를 채택하는데 블로그 및

범주 변수명 구분명 변수설명

블로그 특징

블로그 상단 꾸미기 여부 door 블로그 꾸미기 기능 중 블로그 상단 이미지를 변경하는 기능의 사용 여부 블로그 메뉴 개수 menu 운영자의 성향, 운영 목적 등에 따라 메뉴 개수에 차이가 있을 것으로 추정

블로그 이웃수 follower 블로그와 친분을 맺은 이웃의 총수 결측치 비율이 높아 전처리 과정에서 제외 블로그 이웃수 공개 여부 fwon 블로그와 친분을 맺은 이웃의 총수 공개 여부

결측치 비율이 높아 전처리 과정에서 제외 블로그 방문 조회수 visit 블로그에 방문하여 게시물을 조회한 수

결측치 비율이 높아 전처리 과정에서 제외 블로그 방문 조회수 공개 여부 visiton 블로그에 방문하여 게시물을 조회한 수 공개 여부

결측치 비율이 높아 전처리 과정에서 제외 블로그 전체 게시 글 개수 totalpost 블로그에 등록된 포스트의 개수

상업성 블로그의 포스트의 개수가 더 많을 것으로 추정

블로거 특징

경우가 많을 것으로 추정

포스트 특징

포스트가 속한 메뉴의 게시

글 개수 catetotalpost 상업성 여부에 따라 포스트가 속한 메뉴의 게시글 개수에 차이가 있을 것으로 추정

포스트 작성 날짜 date

네이버 블로그 노출 정책으로 인해 데이터를 수집한 시점을 기준으로 가장 최근에 작성한 포스트는 과거 시점에 작성된 포스트 대비 노출 빈도가 높아짐.

이에 작성 날짜는 포스트의 노출과 밀접한 관련이 있기에 블로그 운영자의 목적에 따라 포스트 작성 횟수가 빈번한 경우 가장 최근 작성 날짜의 포스트가 수집될 것으로 추정

포스트 작성 요일 week 상업성 여부에 따른 작성 요일의 차이 발생 가능

검색에 사용한 단어가 있으면 우선적인 노출 판단의 기준이 됨.

포스트 본문 길이 content 블로거의 생각과 목적이 가장 뚜렷하게 드러나는 요인 포스트 본문에 사용된 이미지

사용자 행동 분석을 중심으로 ¹⁾

전남대학교 일반대학원 경영학과 ²⁾

전남대학교 경영대학 경영학부 ³⁾