A Design of Analysis System on TV Advertising Effect of Social Networking Using Hadoop

하둡을 이용한 소셜네트워킹의 TV광고효과 분석 시스템 설계

A Design of Analysis System on TV Advertising Effect of Social Networking Using Hadoop

빅데이터가 화두가 되면서

을 이용한 서비스 개발도 활기를 띠고 있다

는 기존 매체와는 다르게 실시 간으로 의견을주고받는 하나의 장으로 확장되었고

다양하고 많은 개인들의 의견을 분석하고자 하는 서비스들도 늘어나고 있다

광고계에서도 광고에 대한 의견의 확보와 분석에 새로운 접근방법이 필요해졌다

광고의 효과를 트위터 데이터를 기반으로 분석하며 특히 하둡을 이용하여 트위터 데이터와 같은 빅데이터를 저장 및 분석하도록

라는 시스템을 설계 및 구축하여

광고 분석을 빠르게 수행할 수 있음을 보여주었다

Dept. of Computer Science, Sookmyung Women’s Univ., Seoul, 140-742, Korea

[Received 1 August 2013, Reviewed 4 August 2013, Accepted 31 November 2013]

☆ 2013년도 정부(미래창조과학부)재원으로 한국과학창의재단 이공계우수연구(HCR) 지원과제로 수행하였음.

ISSN 2287-1136 (Online)

http://www.jksii.or.kr

(그림 1) 시스템 구조도 (Figure 1) System Architecture

(표 1) 광고 데이터의 분류

(Table 1) Classification of Advertisement Data

미디어 동영상 광고 동영상

광고 이름 광고 구분코드 광고 TV온에어 날짜 광고 상세

광고대행사, 브랜드회사, 상품명, 모델, 태그, 대, 관련 뉴스 기사

(표 2) 트위터 데이터의 분류

(Table 2) Classification of Twitter Data

사용자ID, Name, 위치, 언어 팔로워 수, 트윗 수 트윗

트윗 내용, 리트윗 및 공유 링크 리트윗 수, 댓글 ,관심글 수

3.2 광고 효과 분석

(그림 2) 광고 언급도 및 파급도의 변화율 계산 (Figure 2) The rate of change of ads’ reference and

spread effect

4.1 광고 및 SNS데이터 프로파일링

(그림 3) TVCF에서 제공하는 광고 (Figure 3) Ad information from TVCF

(그림 4) 트위터 계정 페이지 (Figure 4) Twitter Account Page

1. Store Seed Twitter Accounts into Account Table 2. For each Twitter Accounts{

3. Read HTML Code from the twitter account

5. For each Twit Data{

6. Save Parsed Twit Data into Twit Table }

8. Extract Twit Accounts that Commented 9. If (there aren`t the Twit Accounts in Twit Accounts Table)

Save the Twit Accounts into Twit Account Table}

4.2 광고 효과의 분석

4.3 사용자 인터페이스

(그림 5) 광고 효과 분석 화면

(Figure 5) Screenshot of analysis on a TV Advertising effect

(그림 6) 아워홈 광고의 언급도의 변화를 그래프로 표현한 화면 (Figure 6) Referring rate graph of the TV Ad, ‘Our Home’

(그림 7) 아워홈 광고의 파급력의 변화를 그래프로 표현한 화면 (Figure 7) Spread effect graph of the TV Ad, ‘Our Home’

참 고 문 헌(Reference)

2009년～현재 숙명여자대학 컴퓨터과학과 재학 관심분야 : 클라우드 컴퓨팅, 보안

1991년 숙명여자대학고 젼산학과 졸업(학사)

1996년 시라큐스대학교 대학원 컴퓨터과학과 졸업(석사) 2000년 시라큐스대학교 대학원 컴퓨터과학과 졸업(박사) 2001년 로체스터공대 컴퓨터공학과 조교수

2001년～현재 숙명여자대학교 컴퓨터과학과 교수

관심분야 : 문제 풀이 환경(PSE), 과학 워크플로우 관리, 클라우드 컴퓨팅 E-mail : [email protected]

A Design of Analysis System on TV Advertising Effect of Social Networking Using Hadoop

A Design of Analysis System on TV Advertising Effect of Social Networking Using Hadoop

허 서 연 1 김 윤 희 1*

Seoyeon Hur Yoonhee Kim 요 약

,

SNS

. SNS

,

.

,

, TV

.

TV

LiveAD

,

TV

.

:

,

, TV

,

,

ABSTRACT

keyword : Hadoop, Analysis on Advertising Effect, TV Advertisement, Social Network Service, Twitter

1

한편 트위터를 하둡을 이용하여 분석하는 시스템에 대 한 시도가 있었다. 그 연구에서 하둡을 이용하여 트위터 메시지를 분석하는 것을 제안하였으나 시스템의 설계에 그치고 활용효과를 언급하지 않았다 [8].

시스템은 크게 데이터 크롤러(Data Crawler), 하둡 클러

스터(Hadoop Cluster) 그리고 웹 서버(Web Server)로 구성

된다. 데이터 크롤러는 트위터와 TV광고 데이터를 수집

하며 자세한 내용은 3.1절에서 설명한다. 하둡 클러스터

는 데이터베이스와 트윗 분석기(Twit Analyzer)로 구성된

다. 데이터베이스에는 수집된 트위터와 TV광고 데이터가

저장되며, 트윗 분석기는 광고 효과를 맵과 리듀스를 통

해 분석한다. 자세한 분석 내용은 3.2절에서 소개한다.

본 시스템의 구조를 통해 분산 데이터베이스는 크롤러 와 분석기가 공유하도록 하여, 데이터를 수집하는 동안, 분석 서비스를 이용할 수 있도록 하였다.

한편 트위터 데이터는 트위터 계정과 트윗 데이터를 파싱하여 분산 데이터베이스에 저장한다. 표 2는 트위터 에서 수집하는 데이터를 계정과 트윗에 대한 데이터로 나누어 정리한 것이다. 트위터 데이터는 트위터 계정 데

TV광고의 효과는 광고 방송 전후의 언급도로 측정할 수 있다. 여기서의 언급은 상품의 이름뿐만이 아니라 모 델, 회사, 광고 카피 등 키워드를 포함하여 세도록 한다.

TV광고를 언급하는 트윗의 수를 고려하는 것 뿐만이 아

니라 리트윗을 이용하여 얼마나 광고에 대한 언급이 퍼

져가는지를 측정하도록 한다. 또한 이러한 변화를 시간별

로 나타내며 광고가 TV에 방영된 전후의 변화를 측정하

여, 정량적으로 그 수치를 알아내도 한다.즉, TV광고의 효과 분석은 TV광고 방영일을 기준으로 전후의 언급도 와 파급력의 변화를 분석하도록 한다.

언급도의 변화율(D

)은 아래 수식과 같이 광고 전후 언급 도의 차를 광고 전 언급도로 나눈 값을 백분율(%)로 표현 한 값이다. 파급력의 변화율(RS) 역시 위 방법과 동일하 게 계산한다.

사용자는 웹을 통해 시스템에 광고 분석 요청을 한다.

본 시스템의 구현은 광고 및 SNS데이터 프로파일링,

광고 효과의 분석 및 인터페이스 부분으로 나눠진다. 각 부분에 대하여 설명하면 아래와 같다.

본 시스템에서 수집할 데이터는 광고와 트위터 두 가 지가 있다. 두 가지 광고 모두 HTML Parsing을 통해 수집 한다. HTML Parser로는 Jericho HTML Parser를 이용한다.

Jericho HTML Parser는 open source로 제공되는 Java library로 웹에서 데이터를 추출한다 [10]. 광고와 트위터, 두 가지 데이터 수집의 구현은 아래와 같다.

4.1.1 광고 데이터 수집

HTML 코드에서 각 부분에 해당하는 데이터를 찾아서 파 싱하여 광고 데이터베이스에 저장한다.

4.1.2 트위터 데이터 수집

트위터 데이터베이스는 트위터 계정 데이터와 트윗 데 이터로 이루어진 트위터 데이터를 저장한다. 트위터 데이 터는 트위터 URL 뒤에 계정명을 붙인 트위터 계정 페이 지에서 HTML 파싱을 통해 수집한다.

CLASS:

content

클래스에 담겨 있다. 트윗 계정 페이지의 우측 하단에는 계정의 사용자가 올린 트윗들이 시간 순서대로 나타난다.

각 트윗은 content 클래스에 담겨있다.

트위터 계정 페이지에서 트윗의 내용과 추가적인 트위 터 계정을 추출하면서 트윗과 트위터 계정을 수집하는 방식은 아래와 같다.

// Collect Twits

Parse Twits from HTML Code

// Add new Twit Accounts

Parse Twit Comments from HTML Code

해당 페이지에서 HTML 코드를 가져와 분석할 준비를 한 다(3). 먼저 트윗 데이터베이스에 저장할 트윗을 모은다.

다음으로 트위터 계정 테이블에 새로이 추가될 새로운

트위터 계정들을 추가한다. 새로운 트위터 계정들은 트윗

에 댓글을 단 계정들이다. 이 계정들은 현재 트위터 계정

과 교류를 쌓고, 활동중인 계정으로 추정할 수 있다. 각

트윗 페이지는 댓글을 단 트위터 계정과 그 내용을 공개

하고 있다. HTML 코드를 파싱하여(7) 트위터 계정을 추

출한다(8). 이렇게 얻은 트위터 계정들이 기존의 데이터

베이스에 존재하지 않는 계정일 경우(9), 이러한 계정들

을 트위터 계정 테이블에 저장한다(10). 이렇게 새로운 계 정을 추가하고, 전 과정을 반복하여, 기존계정에서 추가된 트윗과 새로운 계정의 트윗 모두를 계속적으로 수집한다.

4.1.3 SNS데이터 저장소

사용자는 웹을 통해 분석을 요청하여, 분석하고자 하 는 광고에 대한 트위터에서의 언급도와파급력을 하둡의 맵리듀스(MapReduce)를 통해 빠르게 분석할 수 있다.

파급력을 계산하는 맵리듀스 프로그램은 아래와 같다.

맵(Map) 단계에서는 이러한 트윗들이 만들어진 시간대를 key로 하고, value를 해당 트윗의 리트윗 수로 하여, 리듀 스(Reduce) 단계에서 value를 합하여, 시간대별 파급력을 계산하게 된다.

위에서 계산한 자료는 4.2절에서 언급한 언급도(R)와

파급력(S)을 의미하며, 4.2절에서 언급한 수식에 따라 언 급도의 변화율(DR)과 파급력의 변화율(DS)을 계산한다

사용자는 웹을 통해 분석을 요청하고, 언급도와 파급 력 중심의 분석 결과를 확인한다. 웹 페이지는 광고 효과 분석을 요청하는 ‘Create Report’ 메뉴와 분석 결과를 확인 하는 ‘Browse Report’ 메뉴로 구성된다.

웹 페이지를 통해, 사용자는 분석하고자 하는 광고를

허 서 연 ¹ 김 윤 희 ^1*