오피니언 마이닝 기법을 이용한 사회적 재난의 시민 감성도 분석 Citizen Sentiment Analysis of the Social Disaster by Using Opinion
Mining
*
서민송*ㆍ유환희**
Seo, Min SongㆍYoo, Hwan Hee
要 旨
최근 우리나라는 사회적 요인에 의한 재난이 빈번하게 발생하고 있다. 어떤 위기가 도시민들을 위협할지 예측하 기 어려워 우려가 높아지고 있다. 따라서 본 연구에서는 Python언어 기반 Tweepy 플러그인을 적용하여 트윗 데이 터를 취득하는 프로그램을 개발하고, 자연어 처리 후 R Studio프로그램에서 텍스트 클러스터링 분석과 오피니언 마이닝 분석을 통하여 시민들의 건강에 영향을 미치는 성분이 검출된 ‘옥시’와 시민들에게 많은 공포감을 주었던
‘묻지마 범죄’와 같은 사회적 재난에 대해 정신적 충격과 불안감을 평가하였다. 텍스트 클러스터링 분석에서 ‘옥 시’ 사건은 ‘정부의 대처능력이 세월호 사건과의 연관성’, ‘옥시제품의 철수지시에도 여전한 판매’ 등이 가장 높은 관심도를 보였다. 그리고 ‘묻지마 범죄’ 사건은 ‘스크린 도어 사건, 세월호 사건 등 예측 못하는 사건에 대한 정부 의 대응, 대책’, ‘강남역, 부산의 범죄가 여성혐오로 인한 것’ 등이 가장 높은 관심도를 보였다. 또한, 두 범죄를 비 교 분석 하였을 때 묻지마 범죄에 대해 시민 감성도 평균 지수가 11.61%p 더 부정적이라는 것을 알 수 있었다.
핵심용어 : 트윗 데이터, 텍스트 클러스터링, 오피니언 마이닝, 사회적 재난
Abstract
Recently, disaster caused by social factors is frequently occurring in Korea. Prediction about what crisis could happen is difficult, raising the citizen’s concern. In this study, we developed a program to acquire tweet data by applying Python language based Tweepy plug-in, regarding social disasters such as ‘Nonspecific motive crimes’ and
‘Oxy’ products. These data were used to evaluate psychological trauma and anxiety of citizens through the text clustering analysis and the opinion mining analysis of the R Studio program after natural language processing. In the analysis of the ‘Oxy’ case, the accident of Sewol ferry, the continual sale of Oxy products of the Oxy had the highest similarity and ‘Nonspecific motive crimes’, the coping measures of the government against unexpected incidents such as the ‘incident’ of the screen door, the accident of Sewol ferry and ‘Nonspecific motive crime’ due to misogyny in Busan, had the highest similarity. In addition, the average index of the Citizens sentiment score in Nonspecific motive crimes was more negative than that in the Oxy case by 11.61%p. Therefore, it is expected that the findings will be utilized to predict the mental health of citizens to prevent future accidents.
Keywords : Tweet Data, Text Clustering, Opinion Mining, Social Disasters
1. 서 론
최근 우리나라는 환경적 요인과 사회적 요인으로 재 난이 대형화와 복합화 되고 빈번하게 발생하고 있다. 한 가지 재난이 다른 재난으로 전이, 연쇄, 파급되는 복 합재난 발생 빈도가 빈번해지고 피해가 증가하고 있으 며 세월호사건, 묻지마 범죄, 생활환경 독성확산 등과
같이 어떤 위기가 도시민들의 생명과 재산을 위협할지 예측하기 어려운 복합재난으로 인해 시민들의 우려가 높아지고 있다(Lee, 2016). 재난이 발생하였을 때 시민 들의 의식이 중요하며 도시민들의 반응을 살핌으로서 시민들의 정신건강과 심리적 안정을 찾을 수 있는 방안 을 마련할 수 있다. 도시민들의 반응은 social network service(SNS)를 통해 확인할 수 있으며 사람들에게
Received: 2017.01.06, revised: 2017.02.26, accepted: 2017.03.02
* 정회원ㆍ경상대학교 도시공학과 석사과정(Member, Master student, BK21+, Dept. of Urban engineering, Gyeongsang National University, [email protected])
** 교신저자ㆍ정회원ㆍ경상대학교 도시공학과 교수(Corresponding author, Member, Professor, BK21+, ERI, Dept. of Urban engineering, Gyeongsang National University, [email protected])
37 Vol.25 No.1 March 2017 pp.37-46
연구논문
ISSN: 2287-6693(Online) http://dx.doi.org/10.7319/kogsis.2017.25.1.037
정보전달, 사적 기록 등의 활동 등이 데이터 형태로 저 장되고 있다(Lim, 2014). 또한, SNS사용자는 점점 증 가하고 있으며 SNS 데이터 자체만으로도 많은 정보와 의미를 가질 수 있다. 이를 통해 도시민들의 생각에 대 한 토픽과 감성을 분석하여 그에 따른 사회적 이슈 분 석이 가능하다. 최근에는 재난 SNS데이터를 통해 재난 전조 감지를 위한 위험도 분석과 SNS에 제보되는 재해 정보들을 추출하여 지도에 표시되는 매시업을 설계하는 연구, 그리고 SNS 이미지 분석을 통하여 메르스 질병과 프레임을 분석하는 연구 등(Kwon, 2016; Seo, 2013;
Park, 2016)이 진행되고 있으며, SNS를 통해 사회적 재 난에 의한 시민들의 감성 변화에 대한 분석도 필요하다.
따라서 본 연구에서는 시민들의 건강에 치명적인 영 향을 미치는 성분이 검출된 ‘옥시’와 시민들에게 정신 적으로 많은 불안감과 공포감을 주었던 ‘묻지마 범죄’
와 같은 사회적 재난들을 대상으로 트윗 데이터를 수집 하고 텍스트 클러스터링 분석 및 오피니언 마이닝에 의 한 감성도 분석을 통하여 사회적 재난이 발생함에 따른 도시민들의 생각을 분석하고 감성도로 수치화하여 평 가하는데 연구 목적을 두고 있다.
2. 텍스트 클러스터링과 오피니언 마이닝
2.1 텍스트 클러스터링(text clustering)
도시민들의 생각과 관심도를 알아보기 위해 텍스트 마이닝의 한 기법인 텍스트 클러스터링을 사용한다. 텍 스트 클러스터링이란 텍스트에 나오는 여러 단어에 대 해 유사한 속성을 몇 개의 집단으로 그룹화 한 다음 각 집단의 성격을 파악하고자 하는 경우 사용하는 통계적 방법이다(Yoo, 2015). 텍스트 클러스터링 분석은 개체 들 사이의 유사도를 정의하고 그 유사도에 따라 유사한 개체들로 이루어진 군집을 찾는 방법이다. 유사도를 측 정하는 방법은 코사인 유사도가 사용되었다. 코사인 유 사도는 두 벡터 간 각도의 코사인 값을 이용하여 벡터 간의 유사도를 측정하는 방법이다. 따라서 두 개의 문 장 간의 코사인 유사도는 Eq. (1)과 같다(Kim, 2014).
∙
×
(1)
where, = Vector1, = Vector2, = Each word of vector1, = Each word of vector2
나 하나는 각각의 차원을 구성하고 문서는 각 단어가 문 서에 나타나는 회수로 표현되는 벡터값을 가진다. 따라 서, 문장에서 벡터는 각각 이고,
,
이다. 은 단위가 1인 벡터 와사이의 각도(코사인)값에 해당된다. 벡터 와 가 유 사한 경우 각도가 작아지고 유사하지 않는 경우 각도가 커진다(Lim, 2016).
2.2 오피니언 마이닝(opinion mining)
도시민들의 사회적 재난의 현상에 따른 감성들을 시 각화하기 위해 텍스트 마이닝의 한 기법 인 오피니언 마이닝(opinion mining)을 사용하였다. 오피니언 마이 닝은 감성분석을 의미하며 감성분석은 텍스트를 작성 한 사람들의 태도, 의견, 성향과 같은 주관적인 데이터 를 가지고 특정 주제에 대해 긍정인지 또는 부정인지를 분류하는 기술이다. 감성점수는 감성사전에 의해 계산 되며 감성사전은 긍정단어 사전과 부정단어 사전으로 나뉘게 된다. 긍정과 부정을 나타내는 감성점수는 긍정 적 단어의 수에서 부정적 단어의 수를 빼는 것으로 계 산된다. 즉, 문서에서 감성점수는 긍정적 단어가 나타 나면 +1, 부정적 단어가 나타나면 –1을 한다. 감성점수 가 0을 초과 이면 문서는 대체로 긍정적 의견을 나타내 는 것으로 간주하며, 감성점수가 0미만이면 문서는 대 체로 부정적 의견을 나타내는 것으로 간주한다. 또한, 감성점수가 0이면 문서는 대체로 중립적 의견을 나타 내는 것으로 평가된다(Lim, 2016; Turney, 2002).
2.3 트윗 데이터 분석 프로그램 구축
본 연구에서는 사회적 재난에 대한 도시민들의 생각 을 분석하기 위해 SNS데이터 중 트윗 데이터를 수집할 수 있고 클러스터링과 오피니언 마이닝에 의한 감성분 석을 할 수 있는 자료처리 프로그램을 구축하였다. 먼 저 Python언어 기반 Tweepy 플러그인을 적용하여 트 윗 데이터를 취득하는 프로그램을 개발하고, SNS상의 비정형 데이터(csv. 파일)를 자연어 처리한 후 R Studio 프로그램을 통해 텍스트 클러스터링과 감성분석을 수 행할 수 있는 처리 절차를 제시하였다(Fig. 1). 트윗 데 이터를 취득하는 프로그램은 특정 키워드가 들어간 트 윗 데이터만 취득할 수 있도록 하였다. 또한, 우리나라 트윗 데이터만 취득하기 위하여 위도와 경도 값을 경계 필터로 사용하여 취득하였고 텍스트 클러스터링은 텍 스트들 사이에 가장 연관성이 높은 단어들로 5그룹이 군집되도록 하였다. 감성분석은 감성사전을 통해 긍정 과 부정으로 나뉘고 감성사전 생성은 다음 소프트웨어
Figure 1. Flowchart of Tweet data processing
의 소셜 메트릭스에서 제공하는 긍정·부정 연관어를 참 고하여 구성하였다. 또한, 본 연구에서 취득한 긍정 및 부정단어를 추가하여 감성사전을 구축하였다.
이와 같은 방법에 따라 각각의 트윗 문장들에 대해 감 성도 지수가 계산되고 그 결과가 그래프로 수치화된다.
3. 트윗 데이터 획득 및 분석
3.1 트윗 데이터 획득
트윗 데이터에서 생활환경 독성 살균제 확산 사건 이 있었던 2016.05.12~2016.05.26까지 ‘옥시’라는 키 워드로 총 21,910건(서울 10,593건, 부산 604건, 대구 365건, 경기 157건, 기타 지역 102건, 위치표시불가 10,089건)의 트윗 데이터를 취득하고, 묻지마 범죄 사 건이 있었던 2016.05.18~2016.06.01까지 ‘묻지마’, ‘묻 지마 범죄’, ‘묻지마 살인’ 키워드를 중심으로 총 53,748건(서울 23,290건, 부산 5,502건, 대구 813건, 경기 465건, 기타 지역 243건, 위치표시불가 22,435건) 의 트윗 데이터를 수집하였다.
3.2 ‘옥시’ 관련 트윗 데이터 분석
시민들의 건강에 치명적인 영향을 주었던 ‘옥시’ 사 건은 총 21,910건의 트윗 데이터로 시간이 지날수록 트 윗 데이터 개수가 대체로 줄어드는 것을 알 수 있으나 관련 보도나 정부 발표에 따라 다시 증감하는 것을 알 수 있다. 트윗 데이터 변화는 Fig. 2와 같다.
Figure 2. ‘Oxy’ number of Tweet data
Issue Details
05.12 Maximize 'Oxy' event at SNS 05.13 'Oxy' former representatives imprisonment 05.14 Super supermarket 'Oxy' withdraw 05.15 'Lotte mart', 'Homeplus mart' reinvestigation 05.16 Government knew 4years ago.
10billion won class action.
05.17 Former·Post executive summons.
05.18 Executive investigation 05.19 Executive investigation&summons
05.20 Spread boycott
05.21 'Oxy' body burden acknowledgment 05.22 Oxy representatives, in 5years console victim
family
05.23 'John Lee' oxy representatives disobey a summons
05.24 Life chemical product biocidal substances census
05.25 'Oxy' former representatives suspicion of swindle
05.26 Search for 'Oxy' alternative supplies Table 1. ‘Oxy’ events issue details
트윗 데이터 수가 증가와 감소에 밀접한 연관이 있는 것 을 알 수 있었다. 트윗 데이터 수가 증가한 날의 이슈를 확인해 보면 정부와 회사 측의 대응 및 발표와 관련되어 시민들의 격한 반응이 트윗 데이터 수로 연결되는 것을 확인할 수 있었다. 따라서, 데이터 개수가 전날대비 증가 한 특정한 날이 총 4번 있는 것을 확인할 수 있다.
본 연구는 트윗 데이터 수집 첫날과 트윗 데이터 개 수가 증가한 특정한 날, 그리고 트윗 데이터 수집 마지 막 날을 중심으로 분석 하였다.
트윗 데이터 수집 첫날인 2016.05.12에는 트윗 데이 터에 옥시 사건이 극대화 되던 날이며 독성 살균제 사 건에 대한 정부의 대처와 대응 능력에 대해 시민들의 분노가 커진 날이다. Fig. 3은 텍스트 클러스터링 분석 결과를 나타내며 그림 왼쪽에 있는 height는 유사도의 높이를 나타내며 서로 유사한 객체들은 하나의 군집을 이룬다. 총 다섯 개의 그룹 중 네 개에 그룹에 정부의 대처 능력에 대한 내용으로, ‘정부’, ‘세월호’, ‘물대포 진압’, ‘일관’ 등으로 구성되어 있다. 즉, 옥시 사건 역 시 세월호 사건과 같이 사고 대처 능력에 대한 정부의 무능함에 대해 시민들의 불만이 표출된 것으로 옥시 사 건과 세월호 사건을 서로 연관시켜 시민들이 생각하고 있는 것으로 분석된다. 또한, Fig. 4는 감성 분석 결과 로서 0인 경우는 중립, +값은 긍정, -값은 부정으로서
Figure 3. Text clustering analysis(May 12, 2016)
Figure 4. Opinion mining analysis(May 12, 2016)
지수는 –2.7이며 감성도 지수 값이 –1이하 이면 매우 부정적으로 평가할 수 있다.
2016.05.14은 전날대비 트윗 데이터 개수가 4.5%p 증가하였으며 대형마트에서 옥시 제품을 철수했다고 발표한 날이다. Fig. 5은 ‘불매운동’, ‘철수’, ‘판매’, ‘옥 시’, ‘인천’ 등으로 구성되어 있으며 도시민들은 다섯 가지의 그룹 중 철수 지시가 있었지만 인천 대형마트에 서 여전히 옥시 제품이 판매되고 있다는 내용에 가장 높은 관심도를 보였다. 또한 Fig. 6의 감성 분석 결과로 는 평균 감성도 지수가 -1.6으로 여전히 높은 부정 감
Figure 5. Text clustering analysis(May 14, 2016)
Figure 6. Opinion mining analysis(May 14, 2016)
Figure 7. Text clustering analysis(May 20, 2016)
Figure 8. Opinion mining analysis(May 20, 2016)
성도 지수를 보이는 것을 알 수 있다.
2016.05.20에는 전날대비 트윗 데이터 개수가 95.3%p로 급격히 증가하였으며 다른 날에 비해 가장 많은 개수 변화가 있는 것을 알 수 있다. 또한, SNS상 에 불매운동이 확대 되었던 날이다. Fig. 7을 통해 ‘옥 시불매’, ‘시위’, ‘기자회견’등의 단어로 구성되어 있으 며 옥시 판매에 대해 불매운동과 기자회견 그리고 일인 시위를 한다는 내용이 가장 높은 관심도를 보이는 것을 알 수 있다. 또한, Fig. 8를 통해 도시민들의 평균 감성 도 지수는 -0.6로 중립에 가까운 것을 알 수 있다.
2016.05.23은 트윗 데이터 개수가 10.6%p 증가하였 으며 옥시 대표가 검찰소환에 불응한 날이다. Fig. 9은
‘유해성’, ‘은폐’, ‘옥시’, ‘前대표’, ‘소환불응’등의 단 어들로 구성되어 있으며 옥시에 대해 유해성을 은폐한 전 옥시 대표가 소환에 불응했다는 내용이 가장 높은 관심도를 보이는 것을 알 수 있다. 또한, Fig. 10의 도 시민들의 평균 감성도 지수는 -3.1로 전체 트윗 데이터 중 가장 높은 부정 감성도를 보이는 것을 알 수 있다.
트윗 데이터 수집 마지막 날인 2016.05.26에는 사람 들이 옥시 대신 사용할 수 있는 대안 용품에 대한 글들 이 SNS에 극대화된 날이며 Fig. 11의 ‘옥시’, ‘대안용 품’, ‘불매운동’, ‘진행’등의 단어를 통해 불매운동을 하 는 것과 동시에 옥시 제품을 대신할 수 있는 대안용품 을 찾는 글들이 가장 높은 관심도룰 보이는 것을 알 수 있다. 또한, Fig. 12의 도시민들의 평균 감성도 지수는 -0.3으로 전체 트윗 데이터의 글 중 가장 중립에 가까 운 것을 알 수 있다.
Figure 9. Text clustering analysis(May 23, 2016)
Figure 10. Opinion mining analysis(May 23, 2016)
Figure 11. Text clustering analysis(May 26, 2016)
Figure 12. Opinion mining analysis(May 26, 2016)
3.3 ‘묻지마 범죄’ 관련 트윗 데이터 분석 사람들에게 새로운 범죄 수법에 대한 불안함과 공포 감을 주었던 ‘묻지마 범죄’사건은 총 53,748의 트윗 데 이터로 처음 일주일은 개수가 증가하고 감소하는 것을 반복하는 것을 알 수 있으며 일주일 후에는 데이터 개 수가 점차 줄어드는 것을 알 수 있다(Fig. 13).
Fig. 13와 Table 2를 연관하여 볼 때 묻지마 사건에 따른 트윗 데이터 수가 증가와 감소에 밀접한 연관이 있는 것을 알 수 있었다. 트윗 데이터 수가 증가한 날의 이슈를 확인해 보면 새로운 묻지마 범죄 사건 발생과 정부의 대응 및 발표와 관련되어 시민들의 격한 반응이 트윗 데이터 수로 연결되는 것을 확인할 수 있었다. 따 라서, 데이터 개수가 전날대비 증가한 특정한 날이 총 5번 있는 것을 확인할 수 있다.
트윗 데이터 수집 첫날과 트윗 데이터 개수가 증가한 특정한 날, 그리고 특정한 이벤트가 있는 날, 트윗 데이 터 수집 마지막 날을 중심으로 분석 하였다.
2016.05.18에 강남역 묻지마 살인사건이 발생하였으 며 이 날을 기준으로 트윗 데이터를 수집하였다. Fig.
Figure 13. ‘Nonspecific Motive Crime’ number of Tweet data
Issue Details
05.18 'Gangnam Station' muder occurrence 05.19 Profiler is in charge of deranged attacker 05.20 Memorial topic on the gangnam station case of
the SNS
05.21 Seoul, induce men and women separate toilet 05.22 Creimenal was mentall ill,
Nonspecific motive crime cerainty 05.23 Not a ‘Nonspecific motive crime',
'Misogyny murder’ protest 05.24 Opinion that because a public restroom 05.25 hate attack incidents in Busan 05.26 Increased interest in 'Nonspecific motive crime' 05.27 Opinions of men and women differ on the
incidents 'Gangnam Station' 05.28 Controversy about misogyny 05.29 Seoul Surak-mountain female 60 killed 05.30 Occur again in 12day
05.31 Discussed measure against 'Nonspecific motive crime'
06.01 'Gangnam Station' after the incidet, the government first announced measures details
14는 텍스트 클러스터링 분석 결과이다. Fig. 3과 마찬 가지로 지면상 다 표시할 수 없어서 유사성이 있어 군 집되고 관심도가 가장 높은 그룹만 확대하여 표시하였 다. ‘강남역’, ‘발생’, ‘살인사건’, ‘스크린도어사고’, ‘책 임자’ 등의 단어들로 구성되어 있으며 그중, 강남역 살 인사건 발생이 가장 높은 관심도를 보인다. 또한 강남
Figure 14. Text clustering analysis(May 18, 2016)
Figure 15. Opinion mining analysis(May 18, 2016)
건처럼 예측할 수 없는 사건이 반복되는 것에 대한 책 임자가 언급되며 예측하지 못하는 사건들에 대한 대응 과 대책에 대한 글들이 높은 관심도를 보이는 것을 알 수 있다. 또한, Fig. 15의 오피니언 마이닝에 의한 감성 분석의 평균 감성도 지수는 -2.2로 높은 부정 감성도 지수를 보이는 것을 알 수 있다.
2016.05.22에는 전날대비 51.5%p의 트윗 데이터 개 수가 증가하였으며 강남역 범죄의 범인이 여성에 대한 피해망상으로 밝혀짐에 따라 정신 질환자의 묻지마 범 죄가 확실해진 날이다. Fig. 16의 분석결과 ‘여성폭력 근절기본법’, ‘여성범죄통계’, ‘규정’, ‘조현병’, ‘정신질 환’등의 단어들로 구성되어 있으며 여성폭력과 여성범 죄에 대한 규정이 필요하다는 내용이 가장 높은 관심도 를 보였으며 조현병이라는 정실질환 명칭에 대해 높은 관심도를 보이는 것을 알 수 있다. 또한, Fig. 17의 평 균 감성도 지수는 -.3.5로 전체 트윗 데이터 중 가장 높 은 부정 감성도 지수를 보이는 것을 알 수 있다.
2016.05.25에는 43.7%p의 트윗 데이터 개수가 증가 하였으며 부산에서 묻지마 폭행이 발생한 날이다. Fig.
18를 통해 ‘공통점’, ‘소행’, ‘강남부산 묻지마 여성’,
‘공포심’등의 단어들로 구성되어 있는 것을 알 수 있으 며 강남역 범죄의 범인과 마찬가지로 부산 묻지마 폭행 의 범인도 공통점으로 조현병 환자 소행이 공포심이라 는 글이 가장 높은 관심도를 보인다. 또한, 부산 사건이 각목으로 폭행한 점과 이번 사건 또한 여성이 피해자인 것에 대한 글들에 대한 관심도가 높은 것을 알 수 있다.
Figure 16. Text clustering analysis(May 22, 2016)
Figure 17. Opinion mining analysis(May 22, 2016)
Figure 18. Text clustering analysis(May 25, 2016)
Figure 19. Opinion mining analysis(May 25, 2016)
Fig. 19의 평균 감성도 지수는 -2.3으로 여전히 높은 부 정 감성도 지수를 나타낸다.
2016.05.28에는 여성혐오에 대한 논란이 SNS상에 확산된 날이며 Fig. 20의 분석 결과 ‘강남’, ‘동래’, ‘묻 지마 사건’, ‘여혐’등의 단어들로 구성되어 있으며 강남 역과 부산 동래에서 벌어진 묻지마 사건이 여성혐오로 인한 것이라는 내용이 가장 높은 관심도를 보였다. 또 한, Fig. 21를 통해 평균 감성도 지수는 -1.2로 여전히 부정적인 것을 알 수 있다.
2016.05.29에는 서울 수락산에서 여성이 묻지마 살
Figure 20. Text clustering analysis(May 28, 2016)
Figure 21. Opinion mining analysis(May 28, 2016)
Figure 22. Text clustering analysis(May 29, 2016)
Figure 23. Opinion mining analysis(May 29, 2016)
인에 의해 피살당하는 사건이 일어난 날이다. 또한, 트 윗 데이터 개수가 150%p가 증가한 날이며 전체 트윗 데이터 중 전날대비 개수가 가장 많이 증가한 것을 알 수 있다. Fig. 22의 분석결과 ‘묻지마’, ‘수락산, ‘변사 체’, ‘뒷산’, ‘주민’ 등의 단어들로 구성되어 있으며 중 년의 여성이 동네 뒷산을 등산하다 등산로 초입에서 변 사체로 발견되었다는 내용이 가장 큰 관심도를 보이며 이번사건도 묻지마 범죄라는 내용이 하나의 군집을 이 룬다. 또한, Fig. 23의 평균 감성도 지수는 -3.4로 높은 부정 감성도 지수를 나타내는 것을 알 수 있다.
2016.06.01에는 강남역 묻지마 범죄 이후 이에 따른 대책에 대해 정부가 처음 발표한 날이다. Fig. 24의 분 석결과 ‘묻지마 범죄’, ‘특별안전대책추진’, ‘정신분열’,
‘가습기’, ‘세월호’, ‘무책임’ 등의 단어들로 구성되어
Figure 24. Text clustering analysis(June 01, 2016)
Figure 25. Opinion mining analysis(June 01, 2016)
있으며 묻지마 살인 사건에 대한 정부 대처능력이 옥시 사건, 세월호 사건들처럼 무책임하다는 내용이 가장 높 은 관심도를 보이며 경찰이 묻지마 범죄에 대해 특별치 안대책을 추진한다는 내용이 하나의 군집을 이루고 있 다. 또한, Fig. 25의 평균 감성도 지수는 -0.9로 다른 날 에 비해 비교적 중립에 가까운 것을 알 수 있다.
3.4 ‘옥시’사건과 ‘묻지마 범죄’의 감성도 비교 분석
‘옥시‘ 사건과 ’묻지마 범죄‘ 와 같은 사회적 재난이 일어났을 때 도시민들의 감성을 분석하고 어떤 사건이 더욱 큰 부정적 감성도를 주는지 알아보기 위해 날짜별 평균 감성도 지수와 지역별 평균 감성도 지수를 비교 평가하였다.
‘옥시’사건의 경우 날짜별 감성도 지수는 Table 3과 같으며 그래프로 나타내면 Fig. 26과 같다. –1 이하의 높은 부정 감성도 지수는 전체 날 중에 57.14%이며 – 0.9이상의 중립에 가까운 부정 감성도 지수는 전체 날 중에 42.85%인 것을 알 수 있다.
‘묻지마 범죄’ 사건의 경우 날짜별 감성도 지수는 Table 4와 같으며 그래프로 나타내면 Fig. 27과 같다.
–1 이하의 높은 부정 감성도 지수는 전체 날 중에 68.75%이며 –0.9이상의 중립에 가까운 부정 감성도 지 수는 전체 날 중에 31.25%인 것을 알 수 있다.
Day Average Sentiment Score
2016.05.12 -2.70
2016.05.13 -0.61
2016.05.14 -1.61
2016.05.15 -0.89
2016.05.16 -0.51
2016.05.17 -1.74
2016.05.18 -1.54
2016.05.19 -0.22
2016.05.20 -0.57
2016.05.21 -1.87
2016.05.22 -1.84
2016.05.23 -3.08
2016.05.24 -1.47
2016.05.25 -0.97
2016.05.26 -0.43
Table 3. ‘Oxy’ average sentiment score
Figure 26. ‘Oxy’ average sentiment score
Day Average Sentiment Score
2016.05.18 -2.17
2016.05.19 -1.60
2016.05.20 -0.84
2016.05.21 -0.36
2016.05.22 -3.51
2016.05.23 -2.13
2016.05.24 -1.26
2016.05.25 -2.36
2016.05.26 -1.67
2016.05.27 -0.86
2016.05.28 -1.25
2016.05.29 -3.46
2016.05.30 -1.63
2016.05.31 -1.15
2016.06.01 -0.98
2016.06.02 -0.65
Table 4. ‘Nonspecific Motive Crime’ Average Sentiment Score
Figure 27. ‘Nonspecific Motive Crime’ sentiment score
따라서, ‘옥시’ 사건과 ‘묻지마 범죄’를 비교하였을 때 묻지마 범죄에 대해 시민 감성도 평균 지수가 11.61%p 더 부정적이라는 것을 알 수 있었다. 묻지마 범죄의 경우 강남역 사건뿐만 아니라 부산 묻지마 폭행 사건, 서울 수락산 묻지마 살인 사건과 같이 다른 범죄 로 파생 되었던 날이 평균 감성도 지수가 매우 부정적 인 지수를 보이며 시민들은 충격과 불안감을 나타내는 것을 알 수 있다.
또한, ‘옥시’ 사건과 ‘묻지마 범죄’와 같은 사회적 재 난에 따른 감성을 지역별로 분석하기 위하여 트윗 데이 터의 위치정보를 확인하였다. 옥시 사건에 대한 트윗
데이터의 위치 태깅이 된 데이터는 24건, 묻지마 범죄 의 데이터인 경우는 49건으로 매우 극소수의 데이터만 위치를 확인할 수 있었다. 그래서 본 연구에서는 트윗 데이터에 표시된 프로필상 주소를 확인하여 지역별로 분류하였고 서울, 부산, 대구등 특정지역에 집중적으로 분포하고 있어서 이를 반영하여 서울, 부산, 대구, 경기, 기타 지역(대전, 울산, 인천, 경상, 전라, 충청, 제주도) 으로 분류하여 오피니언 마이닝에 의한 감성도를 분석 하였다.
‘옥시’ 사건의 경우 서울 10,593건, 부산 604건, 대구 365건, 경기 157건, 기타 지역 102건, 위치표시불가 10,089건이었으며 지역별 감성도 지수는 Table 5와 같 다.
서울과 부산은 평균 감성도 점수 –2이하로 높은 부정 감성도를 보였으며 대구, 경기, 기타 지역은 –0.5이하로 비교적 중립에 가까운 부정 감성도 점수를 보였다.
‘묻지마 범죄’ 사건의 경우 서울 23,290건, 부산 5,502건, 대구 813건, 경기 465건, 기타 지역 243건, 위 치표시불가 22,435건이었으며 지역별 감성도 지수는 Table 6와 같다.
Area Average Sentiment Score
Seoul -2.47
Busan -2.64
Daegu -0.73
Gyeonggi -0.75
Etc -0.98
Table 5. ‘Oxy’ average sentiment score by regional groups
Area Average Sentiment Score
Seoul -3.14
Busan -3.12
Daegu -0.96
Gyeonggi -2.59
Etc -1.74
Table 6. ‘Nonspecific Motive Crime’ average sentiment score by regional groups
Figure 28. Average sentiment score by regional groups
서울과 부산은 평균 –3이하로 매우 높은 부정 감성도 를 보였으며 대구는 –1이하에 가까운 부정 감성도를 보 였다. 또한 경기와 기타 지역은 –1.5이하로 높은 부정 감성도를 보였다.
평균 감성도 지수를 그래프로 나타내면 Fig. 28과 같 다. 그래프로 시각화할 때 ‘묻지마 범죄’사건의 지역별 감성도 지수가 ‘옥시’ 보다 더 낮은 것을 알 수 있으며 서울은 -0.68, 부산은 -0.48 대구는 -0.26 경기는 –1.8 기타 지역은 –0.76 만큼 ‘묻지마 범죄’사건에 대한 감 성도 지수가 ‘옥시’사건보다 더 낮은 것을 알 수 있다.
‘옥시’의 경우 서울, 부산이 평균 감성도 지수가 –2 이 하로 부정적인 지수를 보였으며 ‘묻지마 범죄’ 사건의 경우 서울, 부산이 –3이하로 매우 부정적인 지수를 보 였다. 이상과 같이 대도시일수록 사회적 재난에 대한 시민들의 감성도가 매우 부정적인 것으로 나타났다.
4. 결 론
본 연구에서는 Python언어 기반 Tweepy 플러그인을 적용하여 트윗 데이터를 취득하는 프로그램을 개발하 고, 자연어 처리 후 R Studio프로그램에서 텍스트 클러 스터링 분석과 오피니언 마이닝 분석을 통하여 도시민 들의 심리에 많은 영향을 주는 사회적 재난이었던 독성 살균제 ‘옥시’ 사건과 ‘묻지마 범죄’를 중심으로 시민 들의 생각과 감성을 분석하였다.
첫째, 생활환경 독성으로 건강 위해요인이 확산되었 던 ‘옥시’ 사건은 텍스트 클러스터링 분석 결과 정부의 대응과 대처능력이 세월호 사건과 연관된다는 내용이 있었으며, 대형마트에 옥시제품의 철수 지시가 있었지 만 여전히 판매하고 있다는 내용이 있었다. 또한, 옥시 판매에 대한 불매운동과 시위에 대한 내용 그리고 전 옥시대표가 소환에 불응했다는 내용이 있었다. 마지막 으로 옥시를 대신할 수 있는 대안용품을 찾는 내용 등 이 각각 유사성으로 인해 하나의 군집을 이루며 가장 높은 관심을 보였다. 감성 분석 결과 –1 이하의 높은 부 정 감성도 지수는 전체 날 중에 57.14%이며 –0.9이상 의 중립에 가까운 부정 감성도 지수는 전체 날 중에 42.85%인 것을 알 수 있었다.
둘째, 언제 발생할지 모르는 범죄가 일어나 시민들이 불안해했던 ‘묻지마 범죄’ 사건은 텍스트 클러스터링 분석 결과 지하철 스크린 도어 사건과 세월호 사건 등 예측하지 못하는 사건에 대해 정부의 대응과 대책에 대 한 내용과 여성폭력과 여성범죄에 대한 규정 필요라는 내용이 있었다. 또한, 범인의 정신질환인 조현병에 대 한 내용, 그리고 부산에서 묻지마 폭행 역시 조현병 환
산의 묻지마 범죄가 여성혐오로 인한 것이라는 내용, 서울 수락산 등산로 초입에서 발견된 중년 여성 역시 묻지마 범죄라는 내용이 있었다. 마지막으로 묻지마 범 죄에 대해 특별 치안 대책을 추진한다는 내용이 각각 유사성으로 인해 군집을 이루며 높은 관심도를 보였다.
감성 분석 결과 –1 이하의 높은 부정 감성도 지수는 전 체 날 중에 68.75%이며 –0.9이상의 중립에 가까운 부 정 감성도 지수는 전체 날 중에 31.25%인 것을 알 수 있었다.
셋째, ‘옥시’ 사건과 ‘묻지마 범죄’를 날짜별과 지역 별로 비교하였을 때 묻지마 범죄에 대해 시민 감성도 평균 지수가 11.61% 더 부정적이라는 것을 알 수 있으 며 묻지마 범죄의 경우 강남역 사건뿐만 아니라 부산과 서울에서 발생하였던 다른 범죄로 파생 되었던 날들이 다른 날 보다 평균 감성도 지수가 매우 부정적인 지수 를 보였다. 또한, 지역별 분석에서 ‘옥시’의 경우 서울, 부산이 평균 감성도 지수가 –2 이하로 부정적인 지수를 보였다. ‘묻지마 범죄’ 사건의 경우 서울, 부산이 –3이 하로 매우 부정적인 지수를 보였으며 기타 지역도 –1.5 이하로 부정적인 지수를 보였다. 평균 감성도 지수는 서울 -0.68, 부산 -0.48 대구 -0.26 경기 –1.8 기타 지역 은 –0.76 만큼 ‘묻지마 범죄’사건이 ‘옥시’사건 보다 더 낮은 것을 알 수 있었다. 따라서 대도시 일수록 시민들 의 충격과 불안감이 더 크다는 것을 알 수 있었다.
이상과 같이 ‘옥시’ 또는 ‘묻지마 범죄’와 같은 사회 적 재난이 발생한 경우 시민들의 정신적 충격을 본 연 구에서는 감성도로 수치화하여 평가하였다. 향후 보다 더 다양한 평가 지표 개발이 필요할 것으로 판단되며 이러한 평가 방법의 개발은 다양한 사회적 재난을 대비 하고 체계적인 대책을 수립하는데 활용될 것으로 기대 된다.
1. Kim, M. J. and Lee, S. J., 2014, Measures of abnormal user activities in online comments based on cosine similarity, Vol. 24, No. 2, pp. 335-343.
2. Kwon, H. Y., 2016, A study on the risk analysis &
applicability of SNS data for detecting signs of disaster, Master’s theses, Ewha Womans University, pp. 58-60.
3. Lee, S. H., 2016, Complex disasters and social conflict in south korea: the “Sacrificial System” and process of social cleavage, Discourse 201, Vol. 19 No. 2, pp. 37-61.
4. Lim, D. H., 2016, Big data analysis with R, Free academy, Korea, pp. 103-217.
5. Lim, S. Y., Lim, Y. M. and Lee, J. Y., 2014, Study on the trends of U-City and smart city researches using text mining technology, Journal of the Korean Society for Geospatial Information System, Vol. 22, No. 3, pp. 87-88.
6. Park, D. B., 2016, An analysis frame of MERS disease using text and photo images in instagram, Master’s thesis, Sungkyounkwan University, pp. 68- 74.
7. Seo, T. W., 2012, A Study of Real-time Disaster Information Extraction and Displayusing the Mash-up based on SNS : using the Twitter API and Google map API, Master's thesis, Pukyong National University, pp. 69-72.
8. Turney, P. D., 2002, Thumbs up or thumbs down?
semantic orientation applied to unsupervised classification of reviews, Proc. of the 40th Annual Meeting of the Association for Computational Linguistics, ACL, Philadelphia, USA, pp. 417-424.
9. Yoo, C. H. and Hong, S. H., 2015, R visualization, Kyobobook, Korea, p. 672.