환경 텍스트 감성분류기 구축 - 환경 빅데이터 분석 및 서비스 개발

가. 환경 텍스트 감성분류기 구축의 흐름

본 연구의 핵심은 환경 텍스트 감성분류기 구축의 흐름은 <그림 4-6>과 같다. 1) 감성분 류기 구축에 필요한 환경 네이버 뉴스 댓글, 트위터 등 환경 텍스트를 수집한다. 2) 텍스트에 레이블링(긍정·중립 vs 부정) 입력을 통해 학습 및 검증데이터의 구축을 수행한다. 3) 전년 도 연구에서 구축한 기후변화 감성 분석기를 활용하여 학습데이터를 통해 환경 감성분류기 모형을 재구축한다. 4) 검증 데이터를 통해 모델의 성능 측정 및 구조 및 인자 등의 조정을 수행한다. 5) 환경 주요 카테고리별 테스트 데이터를 구축한다. 6) 성능 테스트를 통해 환경 감성분류기의 활용 가능성을 판단한다. 본 연구에서는 위의 과정을 통해 환경 텍스트 감성 분류기를 구축하며, 구축된 환경 감성분류기 활용을 통해 주요 환경이슈 분석 사례를 기술 하였다.

자료: 저자 작성.

<그림 4-6> 환경 감성분류기 구축의 흐름

나. 환경 텍스트 데이터 수집

환경 텍스트 수집을 위해 네이버 ＞ 사회뉴스 ＞ 환경 카테고리 내 2010~2019년에 해당 하는 뉴스의 댓글을 웹 크롤링(web crawling)을 통해 수집하였다. 이를 위해 파이썬 웹크 롤링을 라이브러리인 ‘Request’와 수집된 데이터의 후처리를 위해 ‘Beautifulsoup’ 라이 브러리를 활용하였다. 다음으로는 트위터 데이터를 수집하였는데 이를 위해 파이썬 라이브 러리인 ‘GetOldTweet3’ 라이브러리를 활용하였다. 트위터 데이터는 환경 데이터에 대한 카테고리가 별도로 구성되어 있지는 않아 검색식 중심으로 데이터의 수집이 필요하다. 이를 위해 이미숙, 이창훈, 김지연(2014)을 참고 및 변형하여 170개의 텍스트 수집을 위한 키워 드를 정의하여 활용하였으며, ‘미세먼지’, ‘가습기’ ‘건강’ 등 등장횟수가 너무 많은 키워드 의 경우에는 텍스트 수집 중 요청 횟수 초과로 인한 접속 차단을 하고 있어 ‘미세먼지’ 키워 드에 대해 ‘고농도’, ‘심각’ 등의 키워드가 동시에 나타나는 경우 등 범위를 좁혀 제한적으로 수집하여 활용하였다. <표 4-1>은 수집된 키워드 검색식의 일부를 나타낸 것이며 전체 검색 식은 <부록 표 1-1>에서 확인할 수 있다.

<표 4-1> 트위터 데이터 검색식 예시

키워드 키워드 검색식

미세먼지 미세먼지 AND (배출 OR 에너지 OR 자동차 OR 청정기 OR 피해 OR 농도 OR 수치 OR 실내 OR 기후 OR 고농도) -(퀴즈 OR "서울교통공사" OR "대기오염정보")

건강 건강 AND (환경 OR 오염물질 OR 오염 OR 자연)

가습기 가습기 AND (환경 OR 보건 OR 건강 OR 사건 OR 특별법 OR 피해자 OR 사망 OR 인체 OR 유해)

자료: 저자 작성.

최종적으로 <그림 4-7>와 같이 네이버 환경뉴스 댓글 및 트위터 데이터 총 650만 건을 수집하였다.

제4장 환경 텍스트 감성분류기 구축 및 활용 ∣ 71

자료: 저자 작성.

<그림 4-7> 환경 텍스트 데이터 수집

다. 환경 감성분류기 모형 재구축

본 연구에서는 전년도 연구에서 구축한 기후변화 감성분류기를 활용하여 학습데이터의 확장을 시도하였다. <그림 4-8>은 감성분석기 모형의 구조를 ‘netron’ 프로그램¹⁵⁾을 활용 하여 구축한 딥러닝 모형을 시각화한 것이다. 감성분류기 모형은 텍스트 분류에서 가장 많 이 활용되는 CNN과 Bi-LSTM의 딥러닝 알고리즘이 결합된 모형이며 4가지 형태로 텍스트 를 변형 입력하여, 이들의 정보를 앙상블형태로 결합하여 활용하는 모형으로서 다음과 같이 동작한다. 1) 입력을 4 가지 형태로 전처리한다. 2가지의 형태소 분석기(트위터, 은전한닢) 를 활용하여 명사, 동사, 형용사 중심으로 토큰화를 수행하여 토큰화된 문장 2건을 활용한 다. 또한 음절단위로 토큰화, 자음 및 모음 단위로 토큰화를 수행한다. 2) 각 토큰화된 요소 들 사이의 문맥을 고려하여 벡터로 만드는 워드 임베딩(word embedding) 수행을 통해 특정 단어를 입력으로 받아 n차원의 벡터로 매핑(mapping)한다. 3) 각 모듈에 대해 CNN-BiLSTM 딥러닝 모형을 활용하여 분류를 수행한다. CNN을 통해 각 토큰화된 요소들

15) Github, “netron”, 검색일: 2021.1.19.

의 주변의 정보를 반영하여 특징을 추출하여 활용하고, 이를 다시 Bi-LSTM으로 입력을 통해 문장에서 토큰화된 요소들이 나타나는 순방향 및 역방향 순서들을 반영하여 감성을 분류한다.

자료: 저자 작성.

<그림 4-8> 감성분류기 모형의 구조

환경 감성분류기의 구축을 위해서는 학습데이터의 구축이 필수적이다. 이상적으로는 환 경 텍스트 데이터 수집 및 레이블링(labeling) 수행을 통해 학습데이터를 구축하는 것이 바람직하지만 이에는 많은 시간 및 노력이 필요하다. 본 연구에서는 2차 연도에서 구축한 기후변화 감성분류기 모형 활용 준지도학습을 활용하여 환경 감성분류기를 구축 및 활용하 여 레이블링 비용을 최소화 하였으며, 이를 위해 다음과 같은 과정을 거쳤다. 1) 2차 연도에

제4장 환경 텍스트 감성분류기 구축 및 활용 ∣ 73

구축한 페이스북(Facebook), 트위터(Twitter), 인스타그램(Instagram), 네이버 뉴스 댓글 등 기후변화 텍스트 5만 건 중 80%를 학습 데이터로 활용하여 구축한 기후변화 감성분석

라. 환경 감성분류기 예측 성능 테스트

<그림 4-9>는 환경 감성분류기를 활용한 예측과정을 나타낸 것이다. 예측단계에서는 ‘진 짜 너무 덥다 ㅠㅠ’와 같은 문장을 입력하면 구축된 감성분류기 모형은 전처리 및 예측 과정 을 거쳐 결과로서 부정(0.0)~긍정(1.0) 사이의 값을 확률로 출력한다.

자료: 저자 작성.

<그림 4-9> 환경 감성분류기를 활용한 예측

감성분류기의 향후 수집될 환경 텍스트에 대한 감성분류기의 성능 테스트 및 활용가능성 검토를 위해 환경 카테고리별 테스트 데이터를 구축하였다. 테스트 데이터는 기존 학습기에 서 활용한 2010~2019년도 데이터와 완전히 별개로 2020년도 데이터를 수집하여 활용하 였으며, 각 카테고리에 주요 키워드들을 중심으로 검색 및 관련 여부 등을 판단하여 총 1,200건을 수집 및 레이블링을 수행하여 구축하였다.

환경 카테고리별 구축한 테스트 데이터를 활용하여 예측 레이블과 실제 레이블 값의 비교 를 통해 식(4-1)~식(4-4)를 활용하여 정확도(Accuracy), 정밀도(Precision), 재현율 (Recall), F-score를 계산하여 성능을 측정하였다.

제4장 환경 텍스트 감성분류기 구축 및 활용 ∣ 75

테스트셋 구성 개수 Precision Recall F1-Score Accuracy

기후 300 80%(81%) 80% 79% 80%

<표 4-4> 환경 카테고리별 테스트 성능 분석: threshold가 0.7인 경우

테스트셋 구성 개수 Precision Recall F1-Score Accuracy

기후 300 80%(81%) 80% 79% 80%

제4장 환경 텍스트 감성분류기 구축 및 활용 ∣ 77

독 학습을 통한 언어의 패턴 습득 2) 전이학습(transfer-learning) 알고리즘을 적용을 통한 감성분류 크게 두 가지 과정으로 이루어진다.

자료: Medium, “Neural Information Retrieval — Google BERT”, 검색일: 2020.1.19.

<그림 4-10> BERT 모형의 두 가지 과정

본 연구에서는 LG CNS AI/Big Data Research Center에서 만든 한국어 데이터 셋인 KorQuad 1.0¹⁸⁾을 통해 사전학습 된 BERT 모델을 다운받아 앞서 활용한 5만 건의 기후변 화 텍스트를 통해 파라미터 튜닝을 수행하여 ‘기후변화 감성분류 BERT 모형’을 구축하고 성능을 테스트하였다. 준지도학습을 통해 확장된 코퍼스를 활용 및 환경감성분류기에 대한 테스트를 수행하고자 하였지만 학습 등에 걸리는 시간 등을 감안하여 기후변화 텍스트에 대해서만 테스트를 수행하고 활용가능성을 검토하였다.

성능 테스트는 앞의 방법과 동일하게 80%를 학습에 활용하고 20%는 테스트에 활용하여 총 3번을 테스트하였는데 1회 수행 시에는 81%, 2회 수행 시에는 74%, 3회 수행 시에는 77%의 정확도를 나타냈다. 결과적으로는 분할된 학습 및 테스트 데이터에 따라 많은 성능 차이를 나타내고 있었으며, 이는 크게 두 가지의 이유로 판단된다. 1) 본 연구에서 활용한

18) Github, “Korquad”, 검색일: 2021.1.19.

기후변화 감성분류기 구축에 활용한 텍스트는 주로 트위터 텍스트, 인스타그램 댓글, 네이 하여 간단한 웹페이지를 구축하여 http://data01.kei.re.kr:3838/sentiment에 공개한다.

현재는 네이버 환경 뉴스 댓글 및 트위터 텍스트에서 나타나는 감성 변화 트렌드의 변화를 탐지하고, 부정 감성의 원인 등을 파악할 수 있다. 본 연구에서는 2019년에 있었던 인천 붉은 수돗물 이슈를 중심으로 웹 앱의 활용 과정을 설명한다.

문서에서 환경 빅데이터 분석 및 서비스 개발 (페이지 93-102)