• 검색 결과가 없습니다.

트위트 크롤러 시스템 구현

제3절 소셜 빅데이터 수집 및 분류기술 동향 10)

나. JSON

5. 트위트 크롤러 시스템 구현

본 장에서 제안하는 시스템을 구현하는 방법에 대해 자세히 설명하였 다. 〔그림 2-18〕은 제안된 시스템의 메인 GUI로 세 가지 버튼으로 구성 되어 있으며 각 버튼은 시스템 기능의 집합을 나타낸다.

〔그림 2-18〕 트위터 크롤링 응용 프로그램의 메인 GUI

Suicide risk factor Example Twitter posts

Gun ownership I need to get into da gun range I haven’t fi red my old gun in over 2 years now

Psychological disorders … what to say but yes, I’ve been diagnosed with anorexia since late 2009 and early 2010.

Family violence/discord

BIGGEST fi ght with dad EVER. Ended in a fi st fi ght. I’ve packed my bags & I’m leaving. I hold a grudge so

dunno how long b4 we talk again.

Impulsivity I’m so impulsive. I don’t think before I do things.

That’s why I make mistakes.

가. 트윗 크롤링

〔그림 2-19〕는 제안된 시스템의 트윗 크롤링 GUI를 보여준다. 본 GUI에서 사용자는 원하는 키워드에 따라 Twitter에서 트윗들을 추출(크 롤) 할 수 있다. 추출된 트윗들이 데이터베이스에 저장된다. 〔그림 2-20〕

에서는 사용자가 텍스트 필드에 원하는 키워드를 삽입하고 트위터 크롤 링 프로세스를 시작하기 위하여 GET 버튼을 클릭한다. 텍스트 영역에서 사용자는 한 세션 동안 추출된 모든 트윗들을 볼 수 있으며 이 과정을 크 롤링 관찰하기 위해 더 많은 시각화를 제공한다. 제안된 시스템은 중복된 트위터들을 크롤링하지 않으므로 다양한 트위터들을 크롤링할 수 있다.

그러나 트위터를 크롤링 하는데 제한이 있기 때문에, 제안된 시스템은 한 세션에서 15분 동안 최대 100 트윗을 추출할 수 있다. 이 문제를 해결하 기 위해 특정 시간 즉, 15분 내에 프로그램을 자동으로 실행할 수 있게 타 이머를 개발하였다. 이러한 방법은 수동으로 트윗 크롤링 프로세스를 관 리 할 필요가 없고 중복 트윗에 대한 낭비 요청을 피할 수 있다는 두 가지 이점을 제공한다.

〔그림 2-19〕 트위터 크롤링

〔그림 2-20〕 트윗 관리(키워드를 이용한 트윗 얻기)

나. 트윗 관리

〔그림 2-20〕은 제안된 시스템의 트윗 관리 GUI를 보여준다. 본 GUI 에서 키워드와 트윗 사용자의 이름으로 데이터베이스에서 트윗을 얻기, 키워드로 트윗을 삭제하기, 하나의 CSV 파일로 모든 트윗을 다운로드 하 기와 같은 3가지 기능을 보여준다.

〔그림 2-21〕 트윗 관리(사용자 이름을 이용한 트윗 얻기)

〔그림 2-21〕은 키워드와 사용자 이름으로 데이터베이스 검색에 저장 된 트윗을 검색하는 것을 보여준다. 사용자가 텍스트 필드에 원하는 키워 드와 사용자 이름을 삽입하고 데이터베이스에서 트윗을 얻기 위하여 GET 버튼을 클릭한다. 텍스트 영역에서 데이터베이스에서 추출된 트윗 들을 볼 수 있다. 보통 텍스트 영역보다 더 많은 공간을 차지할 만큼 많은 트윗들이 추출된다. 〔그림 2-20〕와 〔그림 2-21〕에서는 사용자에서 키워 드으로 “suicide”를 입력 받고 사용자 이름으로 “Audrey Connor”를 입 력 받는다.

〔그림 2-22〕 트윗 관리(키워드를 이용한 트윗 삭제)

〔그림 2-22〕는 키워드로 데이터베이스에서 저장된 트윗을 삭제하는 것을 보여준다. 사용자가 텍스트 필드에 삭제하고 싶은 트윗의 키워드를 삽입하고 데이터베이스에서 트윗을 삭제하기 위하여 DELETE 버튼을 클 릭한다. 트윗이 성공적으로 삭제되면, 시스템은 pop-up 윈도우를 사용 하여 사용자에게 알려준다. 오래된 트윗이 있을 때 효율적인 기능이다.

뿐만 아니라, 이러한 트윗들을 제거하므로 데이터베이스를 쉽게 관리 할 수 있고 용량을 절약 할 수 있다.

〔그림 2-23〕은 하나의 CSV 파일로 모든 트윗을 다운로드 하는 것을 보여준다. 사용자가 모든 트윗을 다운로드 하기 위하여 DELETE 버튼을 클릭한다. CSV 파일이 성공적으로 생성되면, 시스템은 pop-up 윈도우 를 사용하여 사용자에게 알려준다. 이 기능은 일반 사용자에게 콘텐츠를 제공하는데 유용한다.

〔그림 2-23〕 트윗 관리(CSV 파일로 모든 트윗 다운로드)

다. 트윗 분석 GUI

〔그림 2-24〕은 data mining 방법들을 이용하여 트윗을 분석하는 것 을 보여준다. 사용자가 본 버튼을 클릭하면 트윗 분석 GUI으로 넘어가며 데이터베이스에서 저장된 트윗들을 다양한 data mining 알고리즘들을 이용하여 text mining 및 pattern recognition 기능들을 실험해 볼 수 있다.

〔그림 2-24〕 Analyzing Window, 전반적인 그림

개발

제1절 비정형 빅데이터 분류체계 개발 제2절 정형 빅데이터 분류체계 개발

3

관련 문서