보건복지정책과 신기술의 소셜 빅데이터 분석 - 빅데이터 기반 보건복지정책과 기술 간 융합 체계 구축

<<

4

〔그림 4-1〕 소셜 데이터 분석 절차 개요

자료: 저자 작성.

2. 데이터 수집 방법

데이터 수집은 웹 크롤링 방법을 이용하였다. 웹 크롤링을 위해서는 데 이터 수집을 위한 조사 채널(뉴스, 블로그, 카페 등)과 조사 기간, 그리고 조사 목적에 부합하는 키워드가 설정되어야 한다.

데이터 수집 채널은 뉴스, 블로그, SNS(트위터, 페이스북, 인스타그램 등) 등을 고려할 수 있다. 데이터 수집 채널에서 조사 주제와 관련된 키워 드로 텍스트 데이터를 검색한다. 해당 키워드를 포함하여 검색된 데이터 중 설정된 조사 기간에 생성된 데이터를 수집한다. 수집한 텍스트 데이터 는 가공 및 분석을 위해 데이터베이스에 저장된다.

3. 데이터 가공 및 주요 분석 방법 가. 자연어 처리 기술을 이용한 데이터 가공

자연어 처리(natural language processing) 기술을 이용하여 수집한

텍스트 데이터를 딥러닝 분석 적용이 가능한 정형 데이터로 변환한 후 결 과를 해석한다.

자연어 처리 기술이란 컴퓨터를 이용해 사람의 자연어를 분석하고 처 리하는 기술이다. 소셜 데이터 내 텍스트 데이터를 처리하기 위해서는 형 태소를 분리하고 가변적 길이를 갖는 텍스트 데이터를 저차원의 고정된 벡터 차원으로 임베딩하는 정형화 작업이 수행된다.

나. 딥러닝 모델 기반의 텍스트 분석

딥러닝 모델은 분석하고자 하는 세부 목적에 따라 각각의 분석 모델이 필요하다. 각각의 분석 모델은 한국어 문서를 이용해 사전 학습(Pre- trained)이 이루어진 상태에서, 수집된 데이터를 이용해 분석을 수행한 다. 본 분석에 사용된 감성 분석 딥러닝 모델은 문장 속 문맥을 파악하기 위해 sequential data 처리에 적합한 LSTM(Long Short-Term Memory) 알고리즘을 기반으로 구축되었다. LSTM 기반의 신경망(Neural Network) 은 문법에 맞춰 배열된 문장 내 키워드 간 관계를 학습할 수 있기 때문에, 효율적으로 문장의 의미를 파악하고 그 속에 내포한 감성을 분석할 수 있 다. 수집한 텍스트가 포함하고 있는 주관적인 태도나 감성의 종류를 모델 에 학습시키기 위해, 사람이 텍스트를 읽고 감성 라벨(Label)을 붙인 학 습 데이터를 활용하였다. 학습과 추론을 위해 감성 라벨은 크게 3종의 긍·부정 분류(긍정, 부정, 중립)와 34종의 세부 감성 분류로 이루어진다 (<표 4-1〉 참조). 성별·연령대 분석 딥러닝 모델 또한 문장의 문맥을 파악 할 필요성이 있으므로, 역시 LSTM 기반의 신경망 모델로 구축되었다. 성 별·연령대 분석 딥러닝은 수집한 텍스트를 이용하여, 수집한 텍스트를 작 성한 사람의 성별(남성, 여성)과 연령대(10대, 20대, 30대, 40대 이상)를 분석한다.

〈표 4-1〉 긍정·부정 감성과 34종 세부 감성의 관계 표

currence) 빈도를 이용할 수 있다. 단어 동시 출현 빈도가 일반적인 단어 간 동시 출현 빈도보다 높을 경우 관계성이 있다고 정의하는 방식이다.

그래프로 구성한 단어 간의 연결 관계를 시각화하면, 단어 빈도 분석 방법으로는 확인할 수 없었던 단어 간의 연결 관계를 직관적으로 파악할 수 있다는 장점이 있다.

문서에서 빅데이터 기반 보건복지정책과 기술 간 융합 체계 구축 (페이지 121-125)