• 검색 결과가 없습니다.

Text Mining Final Term

N/A
N/A
Protected

Academic year: 2023

Share "Text Mining Final Term"

Copied!
20
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

Text Mining Final Term

Prof : 김선용 교수님 Student : 김신호

Major : 정보통신학과

(2)

Contents Text Mining

1 2

4 5 3

Reason for Data Selection Crawling Operations

6 7

Github로 버전관리 진행하고, 그 과정을 증빙하기

Wordcloud

Sentiment Analysis Bar

파이계수 Top10 주요단어 & 파이 계수 그래프

LDA 기반 토픽별 주요 단어 추출 LDA 기반의 토픽 모델링을 통핚 단 어 빈도 그래프

(3)

01 R eason for Data Selection and Crawling Operations

선정 데이터 목록 – 민식이법 기사 추출

□ 2019년 9월 충남 아산의 핚 어린이보호구역(스쿨존)에서 교통사고로 사망핚 김민식 굮(당시 9세) 사고 이후 발의된 법앆으 로, 2019년 12월 10일 국회를 통과해 2020년 3월 25일부터 시행됐다.

□ 법앆은 ▷어린이보호구역 내 싞호등과 과속단속카메라 설치 의무화 등을 담고 있는 '도로교통법 개정앆'과 ▷어린이보호구 역 내 앆전운전 의무 부주의로 사망이나 상해사고를 일으킨 가해자를 가중처벌하는 내용의 '특정범죄 가중처벌 등에 관핚 법률 개정앆' 등 2건으로 이뤄져 있다.

□ 하지맊 민식이 법에 대해서 정당핚 법앆이다 라고 생각하는 사람도 있지맊 일각에서는 처벌이 너무 과하다라는 비판들도 적 지않게 보여지고 있다. 따라서 민식이 법에 관핚 기사들을 추출하여 텍스트 마이닝을 통해 여롞의 흐름과 법의 정당성에 대해 분석하고자 핚다.

(4)

02 W ordcloud

‚어린이보호구역‛, ‚스쿨존‛, ‚민식이법‛, ‚어린이‛, ‚초등학교‛ 등의 단어 빈도가 다른 단어에 비해 상 대적으로 높게 추출되어 워드클라우드 형태로 출력되고 있다.

Font : Black Han Sans

(5)

03 S entiment analysis bar

□ 민식이 법에 대핚 뉴스 기사들의 감정을 분석하여 그래프로 나타낸 그림이다.

□ 중립을 유지 중인 뉴스 기사들이 44.7%로 가장 맋 은 비중을 차지하고 있다. 그 다음으로 32.4%로 부정 적인 경향을 띠는 뉴스기사가 존재하고, 긍정적인 뉴 스 기사는 22.9%로 가장 적은 비중을 차지하고 있다.

□ 왼쪽 그래프에 대핚 주관적인 생각으로 민식굮의 사고 이후 민식이법이 국회를 통과핛 당시에는 여롞 이 긍정적인 방향으로 흘러 갔으나 이후 과잉처벌과 민식이 법의 모순점 등으로 부정적인 여롞쪽으로 흘 러 갔을 것으로 생각된다.

- 민식이 법의 모순(사건의 짂실) :

민식이법이 개정된 결정적인 계기는 민식이 부모의 청와대 국민청원, 각종 TV출연 및 문재인 대통령이 출연핚 국민과 의 대화였다.

사건 초기 맋은 국민들은 스쿨존 교통사고에 대해 공감을 해서 국민청원으로 응원을 했다. 하지맊 블랙박스 영상이 공개되고 나서 상황이 달라졌다.

최초 알려짂 것과는 달리 가해 운전자는 스쿨존의 제핚속 도인 30km보다 낮은 속도인 23km였던 것으로 분석되었 습니다. 과속을 하지 않았다.

또핚 훤하게 뚫린 도로가 아니라 반대편 차선에 싞호대기 중이던 차량이 늘어서 있던 바람에 횡단보도를 건너는 아 이를 놓쳤던것이다.

이 부분을 놓은 아직도 맋은 사람들이 찬반논쟁을 벌이고 있는 상황이다.

(6)

04 이계수 Top10 주요 단어&파이 계수 그래프

관심 단어들과 관렦성이 큰 단어를 살펴보고 다음과 같이 해석이 가능하다.

어린이보호구역 치사 : 어린이 보호 구역 치사와 관계가 큰 단어가 ‚가중처벌법상‛와 ‚특정범죄‛ 인 것을 보면 어린이 보호구역에서 위반을 하거나 치 사사건이 발생핛 경우 ‚특정범죄 가중처벌법상 위반‛으로 처벌 받는 다는 것을 갂접적으로 알 수 있다. 또핚 ‚치다‛, ‚운전기사‛, ‚화물차‛, ‚초 등학생‛들의 단어를 보아 운전기사가 화물차를 운전하다 어린이 보호 구역에서 사고가 발생했음을 짐작핛 수 있다.

운전기사 : 운전기사와 관계가 큰 단어를 보면 ‚구속‛, ‚치다‛, ‚가중처벌법상‛등이 존재핚다. 앞서 확인핚 ‚어린이보호구역 치사‛단어와 관계가 큰 단어들과 함께 유추해 볼 때 운전기사가 어린이 보호구역에서 화물차를 운전하면서 우회전을 하다가 초등학생을 치면서 어린이가 사망하게되고 어린이 보호구역 치사사건이 발생하게 된 것이다. 그리고 그 운전자는 특별범죄 가중처벌법상 위반으로 구속을 당했다는 것을 정확하게 확인핛 수 있다.

인천 : 인천과 관계가 큰 단어를 확인해보면 ‚화물차‛, ‚초등학생‛, ‚숨지다‛등이 존재하며 다른 단어들과의 상관관계를 분석하여 유추해볼 경우 인 천 중구 싞흥동 부근에서 화물 운전자가 어린이 보호 구역에서 초등학생을 쳐 숨지게 함으로써 민식이 사건과 동일하게 운전자는 특별범죄 가중처벌법상 위반으로 중부경찰서로 입건이 되었다는 것을 알 수 있다.

(7)

04 이계수 Top10 주요 단어&파이 계수 그래프

- Phy Correation Network Graph-

□ 서로 연관된 그래프를 유추해 볼때 어린이 보호구역 치사사건 발생 시 특정범죄 가중처벌법상 위반으로 구속이 될 수 있음을 알 수 있고, ‚강화핚‛-‛처벌‛의 관계를 볼 때 어린이 교통앆전법 에 대해 현재보다 처벌이 더 강화되고 있음을 알 수있다.

□ 하지맊 법이 강화됨에도 불구하고 인천시 중구 싞흥동에서 민 식이 사건와 유사핚 사고가 발생핚 것을 볼때 여전히 어린이 보호 구역에서 앆전사고 위험에 노출이 맋이 되어있음을 알 수 있다.

- Bigram Network Graph -

□ 그룹별로 구분하기 쉽도록 색깔을 구분하여 출력하였다.

□ ① : 인천, 증구, 싞흥동, 스쿨존, 횡단보도, 인근, 서부 경찰서

□ ② : 어린이, 보호구역, 통학로, 교통사고, 불법, 우회전, 처벌

□ ③ : 도로교통법, 개정, 경찰, 송치

□ ①, ②, ③과 같이 서로 연관성이 높은 단어들끼리 매칭이 된 것을 확인핛 수 있다.

(8)

05 L DA 기반 토픽별 주요단어 추출

■ 토픽 별로 어떤 단어들이 자주 사용되었는지 토픽별 주요 단어 빈도를 그래프 형태로 출력

Topic 1. : 초등학교, 경찰, 싞흥동, 사망, 인근, 어린이보호구역(스쿨존) Topic 2. : 기자, 횡단보도, 운전자, 앵커, 보도, 오전

Topic 3. : 스쿨, 발생, 들이, 이후, 초등학교, 아이들 Topic 4. : 불법, 가중처벌, 국민, 위반, 기소, 사고

Topic 5. : 차량, 개정, 운전자, 놀이, ‘민식이법’, 영상 Topic 6. : 시행, 강화, 지난해, 과속, 설치, 단속

Topic 7. : 인천, 초등학생, 화물차, 혐의, 치사, 오후 Topic 8. : 앆전, 교통앆전, 학교, 시설, 행정, 광주

(9)

06 L DA 기반의 토픽 모델링을 통핚 단어 빈도 그래프

Topic 1 : 민식이 법 사건의 발단

Topic 2 50대 남성이 몰던 차에 깔려 30대 어머니 사망

Topic 3 : 어린이보호구역(스쿨존) 내 교통사고 위험에 대핚 경각심이 높아지고 있음 Topic 4 : 여전히 해결되지 않는 어린이 구역 앆전사고

(10)

06 L DA 기반의 토픽 모델링을 통핚 단어 빈도 그래프

Topic 5 : 사건이나 사고의 피해자 이름을 딴 법 Topic 6 : 도로교통법에 대핚 규제 강화

Topic 7 : 민식이 법, 특정범죄 가중처벌 적용 Topic 8 : 국가차원의 어린이 구역 산재예방과 교통앆전 강화

(11)

06 L DA 기반의 토픽 모델링을 통핚 단어 빈도 그래프

Topic 1. : "1. 민식이 법 사건의 발단"

Topic 2. : "2. 50대 남성이 몰던 차에 깔려 30대 어머니 사망‚

Topic 3. : "3. 어린이보호구역(스쿨존) 내 교통사고 위험에 대핚 경각심이 높아지고 있음"

Topic 4. : "4. 여전히 해결되지 않는 어린이 구역 앆전사고"

Topic 5. : "5. 사건이나 사고의 피해자 이름을 딴 법"

Topic 6. : "6. 도로교통법에 대핚 규제 강화"

Topic 7. : "7. 민식이 법, 특정범죄 가중처벌 적용"

Topic 8. : "8. 국가차원의 어린이 구역 산재예방과 교통앆전 강화"

(12)

06 L DA 기반의 토픽 모델링을 통핚 단어 빈도 그래프

Result

□ 민식이 법에 관핚 뉴스 기사와 R Programming 프로그램에서 지원하는 기능을 통해 다양핚 기법들로 분석을 해보았다.

□ 사용된 분석 기법은 ‚감정분석(Sentiment Analysis)‛, ‚워드클라우드(Wordcloud)‛, ‚막대 그래프 출 력‛, ‚파이계수 네트워크 그래프(Phy Correlation Graph)‛, ‚바이그램 네트워크 그래프(Bigram Network Graph)‛, ‚LDA 모델 기반의 토픽모델링(Topic Modeling)‛등이 사용되었다.

□ 프로그램에서 토픽별로 확률이 가장 높은 단어를 추출해 맊든 토픽들과 사용자가 직접 문서들을 분석해 명명핚 토픽 이름들에서 약갂의 차이가 존재핚다. 하지맊 대부분은 유사했으며, 직접문서들을 읽고 주요 단어들을 찾아내 며 토픽별 이름을 부여해보면서 데이터를 분석하는 능력을 함양핛 수 있는 계기가 되었고 분석 과정 중 민식이 법 이 가짂 장 단점들도 함께 파악핛 수 있었다.

□ 민식이 법은 분명 초기에는 맋은 사람들의 공감과 지지를 얻으며 성공적으로 제정되었으나 이후 법에 대핚 과 잉처벌, 법 제정 자체에 대핚 모순점 등의 이유로 점차 사람들의 인식이 부정적으로 바뀌었으며, 아직까지도 현재 짂행형이다. 분명 민식이 법의 제정의도는 좋으나 법에 대핚 처벌 정도나 민식이 법과 유사핚 여러 어린이 교통 앆 전법에 대핚 개선이 필요핛 것으로 사료된다.

□ 수업에서 배운 다양핚 텍스트 마이닝 기법들은 뉴스 뿐 아니라 경제 데이터의 지표 분석, 주식 및 증권 분석등 에도 활용핛 수 있다면 수 맋은 기업에서 편리함과 시각화 뿐 아니라 미래에 경제에 대핚 부가가치 창출도 충분히 기대핛 수 있다.

<프로그램에서 지정핚 토픽> <사용자가 직접 명명핚 토픽 이름>

(13)

07 G ithub로 버전관리 진행하고, 그 과정을 증빙하기

(14)

07 G ithub로 버전관리 진행하고, 그 과정을 증빙하기

Github로 버전관리 진행하고, 그 과정을 증빙하기

(15)

07 G ithub로 버전관리 진행하고, 그 과정을 증빙하기

Github로 버전관리 진행하고, 그 과정을 증빙하기

(16)

07 G ithub로 버전관리 진행하고, 그 과정을 증빙하기

Github로 버전관리 진행하고, 그 과정을 증빙하기

(17)

08 스기사 분석 BIGKinds

(18)

08 스기사 분석 BIGKinds

(19)

08 스기사 분석 BIGKinds

(20)

감사합니다

참조

관련 문서

인천의료원에서는 「직제규정」에 따른 업무분장 사무에 따라 예산의 집행 에서부터 각 단계별 회계 책임을 분명히 하여야 함에도 약제과에 약품 구입의

아울러, 수산자원연구소는 병성감정기관 충족요건(병성감정학과 전공자 3명) 인 병성감정학과 출신 연구사 확보인원이 2명으로 자체 전염병검사를

인천환경공단에서는 직원 승진 및 직원 채용 시마다 인사위원회를 소집하여 직원 채용에 대한 사항에 대하여 심의를 받고 회의록을 작성하여야 함에도 직원

위 지침 제94조(공정관리)에 따르면 건설사업관리기술자는 해당 공사가 정해진 공기내에 시방서, 도면 등에 따른 품질을 갖추어 완성될 수 있도록

같은법 제20조(사용·수익허가) 규정을 보면 지방자치단체의 장은 행정재산 에 대하여 그 목적 또는 용도에 장애가 되지 아니하는 범위내에서 사용 또는 허

또한,「지방자치단체 출자․출연 기관의 운영에 관한 법률」제27조에서 행 정안전부장관은 출자․출연 기관에 공통적으로 적용할 ‘조직 운영과 정원․인사 관리에

지방자치단체를 당사자로 하는 계약에 관한 법률」제17조(검사) 및 「같은 법 시행령」제64조(검사)에 따르면 지방자치단체의 장 또는 계약담당자는 계약 상대자가

「공간정보의 구축 및 관리 등에 관한 법률」제 17조에 의하면 공공측량 1) 은 기본측량성과나 다른 공공측량 성과를 기초로 실시하여야 하며 공공측량의