위한 방법론 연구 - 2020년 소셜 빅데이터 기반 보건복지 이슈 동향 분석

에 따라 수집되는 정보의 형태가 정해지게 되며 한정된 정보들 속에서 분 석을 진행할 수 있다.

이러한 방식은 데이터 구조화 정도가 높고 데이터 갱신 주기가 빠르지 않을 경우 관리 및 분석에 유용할 수 있다. 비정형 데이터와 비교한 정형 데이터의 특징들을 살펴보면 내부 시스템인 경우가 대부분이라 형식을 가지고 있어 수집 및 처리가 쉽다. 데이터의 스키마(database schema) 를 지원하기 때문에 데이터를 탐색하는 과정이 테이블 탐색, 열 구조 탐 색, 행 탐색 순으로 정형화되어 있다(Data on-air, 2020a).

스키마는 데이터베이스의 구조와 제약조건에 관해 전반적인 명세를 기 술한 것이다. 즉, 개체의 특성을 나타내는 속성(attribute)과 속성들의 집 합으로 이루어진 개체(entity), 개체 사이에 존재하는 관계(relation)에 대한 정의와 이들이 유지해야 할 제약조건들을 기술한 것이라고 볼 수 있 다. 정리하면 스키마는 데이터베이스 내에 데이터가 저장된 구조를 나타 낸다. 스키마는 데이터 사전에 저장되며, 현실 세계의 어떤 특정 부분을 표현하기 위하여 특정 데이터 모델을 이용하여 만들어진다. 따라서 스키 마는 시간에 따라 변하지 않는 특성을 가지고 특정 시점에 데이터베이스 에 들어있는 데이터인 인스턴스에 의해 규정된다. 스키마의 구조는 사용 자의 어플리케이션과 논리적인 데이터베이스의 기술, 물리적인 데이터베 이스 구조의 기술에 이르는 3단계로 구분하여 명명한다. 그 목적은 사용 자의 응용과 물리적 데이터베이스를 분리하는 것이며 외부 단계 (external level), 개념 단계(conceptual level), 내부 단계(internal level)로 나뉜다(인코돔, 2016).

나. 비정형데이터(unstructured data)

크롤링(web-crawling)과 같은 검색 기술을 필요로 한다. 또한 단순한 문장으로부터 형태소 분석(morphological analysis), 구문 분석(syntax analysis), 의미 분석(semantic analysis), 화용 분석(pragmatic analy-sis) 등을 여러 단계의 분석과정을 거치게 된다.

다. 반정형데이터(semi-structured data)

반정형 데이터는 데이터가 부분적으로 정형구조를 가진 데이터를 의미 한다. 대표적으로 HTML, JSON, XML등과 같은 포맷을 반정형 데이터 의 범위에 넣을 수 있다. 일반적으로 데이터베이스는 데이터를 저장하는 장소와 스키마가 분리되어 있어서 테이블을 생성하고, 저장하는 구조로 구성되어 있다. 그러나 JSON이나 XML와 같은 데이터의 구조를 가진 반 정형 데이터는 한 텍스트파일에 변수명과 값을 모두 가지고 있다. 다음의 예를 통해 살펴보기로 한다(Data on-air, 2020b).

XML(extensible markup language)은 HTML과 비슷한 태그 등의 문자로 기반된 마크업 언어(markup language)이다. 사람과 기계가 동 시에 읽기 편한 구조로 되어있고 데이터를 보여주는 목적이 아닌, 데이터 를 저장하고 전달할 목적으로만 만들어졌다. XML의 태그는 미리 정의되 어 있지 않고, 사용자가 직접 정의할 수 있다. 〔그림 4-1〕에서 식빵이라 는 이름을 가진 강아지의 품종(family)과 나이(age), 무게(weight)를 가 진 XML 문서의 예시이다.

〔그림 4-1〕 XML 자료 예시

자료: http://tcpschool.com/json/json_intro_xml 인출일: 2019. 9. 1.

한편, JSON(javascript object notation)은 쉽게 데이터를 교환하고 저장하기 위해 만들어진 텍스트 기반의 데이터 교환 표준이다. 자바스크 립트 기반으로 만들어졌으며 객체 표기법을 따른다. 프로그래밍 언어와 운영체제에 독립적이고 어떠한 프로그래밍 언어에서도 JSON 데이터를 읽고 사용할 수 있다. 〔그림 4-2〕는 JSON 형식에 대한 예제이다 (TCPschool, 2018).

〔그림 4-2〕 JSON 자료 예시

자료: http://tcpschool.com/json/json_intro_xml 인출일: 2019. 9. 1.

반정형 데이터는 정형 데이터, 비정형 데이터와 명확한 구분을 하기 어 렵다. 스키마가 잘 정의되어 있을수록 정형데이터화하기 쉽다고 볼 수 있 다. 예를 들어 ① JSON 형태로 되어 있는 글 내용 본문은 반정형 데이터 와 비정형 데이터가 합쳐진 구조라 할 수 있으며 ② 데이터베이스에 저장 되어 있는 성별 값은 정형데이터로 볼 수 있다. ③ 데이터베이스에 저장된 글의 제목은 비정형 데이터라 볼 수 있다.

2. 임베딩 방법론 관련 연구

대표적인 비정형 자료인 텍스트에 대한 분석기술의 발전은 정형자료 분석에 대한 활용성 확장에 대한 도움을 주고 있다. 그러나 기본적으로 단어는 고차원벡터이므로 활용상에 상당한 제약이 수반된다. 그러므로 비정형 텍스트 분석에서는 단어벡터가 정의된 고차원 공간이 아닌 문장 내에서 의미를 이용하여 정보를 추출하고 이를 저차원상에 매핑하는 방 법이 필요하다. 이러한 접근방법은 단어 임베딩(word embedding)과 같 은 단어 특성 추출방법의 연구결과를 이용할 수 있을 것이다. 본 연구에 서는 비정형빅데이터 확장을 위한 방법론을 위해서 임베딩 방법을 위주 로 연계방안 등에서 대해서 알아보고자 한다. 다음과 같은 순서에 따라 논의를 진행한다.

① 임베딩 방법론 소개: 본 연구에서는 비정형빅데이터 확장을 위한 방 법론을 위해서 임베딩 방법을 위주로 연계방안 등에서 대해서 알아 보고자 한다.

② 임베딩 방법론에 기반한 연계방법론 소개: 연계방법론에 활용되는 정준상관분석을 살펴보고, 표현학습(representation learning)의 개념 및 고도화 방법론을 살펴본다.

③ 임베딩 방법론의 고도화: 심층합성망(deep convolution neural net), 순환신경망(recurrent neural net), 어텐션(attention) 구조 등 최근 딥러닝 모형 학습방법을 살펴보고, 보건/복지 분야의 비정 형빅데이터 활용성 확장을 위해, 추천화시스템(recommendation system) 등을 포함한 딥러닝 방법 고도화에 대한 제언을 담고 있다.

문서에서 2020년 소셜 빅데이터 기반 보건복지 이슈 동향 분석 (페이지 71-78)