테크브릿지 - (19) 대한민국특허청(KR) (12) 공개특허공보(A)

(1)

(19) 대한민국특허청(KR) (12) 공개특허공보(A)

(11) 공개번호 10-2015-0049580 (43) 공개일자 2015년05월08일 (51) 국제특허분류(Int. Cl.)

G06F 17/20

(2006.01)

G06F 17/30

(2006.01) (21) 출원번호 10-2013-0130315

(22) 출원일자 2013년10월30일 심사청구일자 없음

(71) 출원인

한국전자통신연구원

대전광역시 유성구 가정로 218 (가정동) (72) 발명자

박원주

대전 유성구 지족로 343, 211동 601호 (지족동, 반석마을2단지아파트)

이경하

대전광역시 서구 도안북로 135 파렌하이트 아파트 106동 401호

조기성

대전광역시 유성구 은구비로 31 열매마을아파트 5단지 510-2002호

(74) 대리인 특허법인 신지 전체 청구항 수 : 총 1 항

(54) 발명의 명칭 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치 및 방법 (57) 요 약

본 발명은 정형화된 데이터에 연관된 비정형 데이터 연결 장치로, 정형화된 데이터를 자원 서술 체계 형태의 정 형데이터로 변환하고, 이를 분석하여 상기 정형 데이터로부터 키워드를 추출하는 정형화 데이터 키워드 추출부와, 상기 정형 데이터 키워드 추출부에 의해 추출된 키워드를 기반으로 정형 데이터와 연관성이 있는 비정 형 텍스트 데이터 집합을 수집하는 비정형 텍스트 데이터 수집부와, 상기 수집된 비정형 텍스트 데이터 집합에서 주제어 용어집을 기반으로 비정형 텍스트 데이터의 문맥을 추출하고, 추출된 문맥을 기반으로 역인덱스를 생성하 고, 정형 데이터와 비정형 데이터를 의미적으로 연결하는 데이터 연결부를 포함한다.

대 표 도 - 도1

(2)

이 발명을 지원한 국가연구개발사업 과제고유번호 12-911-05-004 부처명 미래창조과학부

연구관리전문기관 한국방송통신전파진흥원 연구사업명 방송통신원천기술개발사업

연구과제명 빅데이터 활용을 위한 지식 자산(Knowledge Base) 구축 및 실시간 Linked Data 응용기술 개발

기 여 율 1/1

주관기관 한국전자통신연구원 연구기간 2012.03.01 ~ 2015.02.28

(3)

명 세 서 청구범위 청구항 1

정형화된 데이터를 자원 서술 체계 형태의 정형데이터로 변환하고, 이를 분석하여 상기 정형 데이터로부터 키워 드를 추출하는 정형화 데이터 키워드 추출부와,

상기 정형 데이터 키워드 추출부에 의해 추출된 키워드를 기반으로 정형 데이터와 연관성이 있는 비정형 텍스트 데이터 집합을 수집하는 비정형 텍스트 데이터 수집부와,

상기 수집된 비정형 텍스트 데이터 집합에서 주제어 용어집을 기반으로 비정형 텍스트 데이터의 문맥을 추출하 고, 추출된 문맥을 기반으로 역인덱스를 생성하고, 정형 데이터와 비정형 데이터를 의미적으로 연결하는 비정형 텍스트 데이터 의미 연결부를 포함함을 특징으로 하는 정형화된 데이터에 연관된 비정형 데이터 연결 장치.

발명의 설명 기 술 분 야

본 발명은 데이터 처리 장치 및 방법에 관한 것으로, 비정형 텍스트 데이터의 문맥을 추출하여 정형 데이터와 [0001]

의미적으로 연결하는 장치 및 방법에 관한 것이다.

배 경 기 술

최근 정부 및 지방자치단체의 공공 데이터 개방 및 활용 방안에 대한 연구가 활발히 진행중이고, 범람하는 웹 [0002]

정보뿐만 아니라 실시간으로 급격히 누적되는 SNS 정보를 활용하고자 하는 연구도 활발히 진행중이다.

IT 측면으로는 클라우드 및 빅데이터 처리 기술의 발전, 데이터 저장 기술 발달 등으로 정형화된 데이터 및 비 [0003]

정형화된 데이터를 포함하는 신규 응용 서비스를 개발하고자 하는 노력이 지속적으로 이루어지고 있다. 또한, 이질적인 데이터들 간의 상호 의미 관계를 파악하고, 상호 운용성과 매시업을 가능하게 하는 플랫폼 기술 개발 이 한창이다.

특히, 실시간으로 업데이트되고 있는 비정형 텍스트 데이터는 기업체에게 제공되어 사용자의 구매 의사 분석 또 [0004]

는 고객 확보를 위한 목적으로 이용될 수 있고, 정부 기구 또는 지방 자치 단체에 제공되어 인구 유입/유출 분 석, 복지 서비스 제공을 위한 목적으로 이용될 수 있다.

그런데, 종래에는 응용 서비스 개발자가 정부, 지방 자치체, 기업체 등으로부터 공공 데이터와 같은 정형화된 [0005]

데이터를 제공받고, 이를 각 서비스 목적에 맞게 변환시킨 후 제공하였다. 그런데, 이러한 종래의 방법은 데이 터 이용자가 정형데이터 및 비정형 텍스트 데이터를 각각 수집 및 변환하여 저장하고, 저장된 문서를 각각 분석 하여 문서 간의 유사도, 상호 참조도 등을 분석하여 서비스를 제공하여야 하므로, 서비스 확장에 한계가 있다.

또한, 선행특허로서 “문서 간의 유사도 계산 시스템 및 방법”(한국 공개특허 10-2011-00122013)은 주로 학술 [0006]

정보 검색 서비스를 위한 기술로서 문서 간의 유사도를 계산하는 시스템 및 방법의 경우 논문 간의 참고문헌 관 계를 이용하여 논문 간의 유사도 계산 시스템 및 방법이다. 이는 주어진 논문에 대한 유사 학술 정보를 검색하 기 위한 시스템 및 방법으로서, 논문 등의 형식 등에서 문서의 하단에 주어진 참고문헌의 직/간접적인 링크를 기반으로 문서 간의 유사도를 측정한다. 이 방법은 논문들 간이 유사도 계산을 위하여서는 용이할지는 모르나, 참고문헌이 미비한 정형 데이터의 경우에는 접근하기 어려운 방법이다.

또한 다른 선행 특허로서, '문서간 유사도 산출 시스템 및 방법'(한국공개특허 10-2010-0064297)의 경우, 제 1 [0007]

문서의 데이터와 제 2문서의 데이터의 형태소를 분석하여 각각 2개 이상의 같은 수로 데이터 그룹을 분리한 후, 같은 종류의 그룹내에서 문서간 유사도를 그룹별로 비교한 후, 비교 결과를 종합하여 문서 간 유사도를 산출한 다. 그러나, 이는 데이터 그룹 간의 비교를 종합하여 유사도를 산출하는 방식으로, 특히 동일 문서의 종류(논문 vs 논문) 등의 경우가 아니면 동일 수의 데이터 그룹화, 데이터 그룹간의 비교 및 유사도 계산이 어렵다.

(4)

발명의 내용 해결하려는 과제

본 발명은 급증하는 정형 데이터의 활용 범위를 확장시키고, 최신 데이터와의 연관성을 제공하기 위해, 자원 서 [0008]

술 체계(RDF) 형태로 변환/공개된 정형데이터를 기반으로 비정형 텍스트 데이터를 수집하고, 비정형 텍스트 데 이터를 의미에 따라 연결하는 장치 및 방법을 제공한다.

과제의 해결 수단

본 발명은 정형화된 데이터에 연관된 비정형 데이터 연결 장치로, 정형화된 데이터를 자원 서술 체계 형태의 정 [0009]

형데이터로 변환하고, 이를 분석하여 상기 정형 데이터로부터 키워드를 추출하는 정형화 데이터 키워드 추출부 와, 상기 정형 데이터 키워드 추출부에 의해 추출된 키워드를 기반으로 정형 데이터와 연관성이 있는 비정형 텍 스트 데이터 집합을 수집하는 비정형 텍스트 데이터 수집부와, 상기 수집된 비정형 텍스트 데이터 집합에서 주 제어 용어집을 기반으로 비정형 텍스트 데이터의 문맥을 추출하고, 추출된 문맥을 기반으로 역인덱스를 생성하 고, 정형 데이터와 비정형 데이터를 의미적으로 연결하는 데이터 연결부를 포함한다.

발명의 효과

본 발명은 공공 링크드 데이터(LOD)와 같은 한정된 정형 데이터의 이용자가 웹, SNS, 뉴스, 논문, 이메일, 휴대 [0010]

전화 등의 비정형 데이터와 연관성 데이터를 제공받음으로써, 공공 링크드 데이터의 활용도를 증가시킬 수 있다. 또한, 웹, SNS, 뉴스 등의 최신의 데이터와 연결함으로써, 실시간으로 갱신할 수 없는 정형 데이터의 한 계를 극복할 수 있다.

본 발명은 일반적으로 공개되어있는 정형 데이터만 있을 경우, 원하는 응용 서비스에 관련된 방대한 비정형 텍 [0011]

스트 데이터를 기계 가독한 정보 형태로 손쉽게 생산하고 획득하여, 데이터 서비스 활성화를 통한 수익성 고취 등을 기대할 수 있다.

도면의 간단한 설명

도 1은 본 발명의 일 실시 예에 따른 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치의 구성도이다.

[0012]

도 2는 본 발명의 일 실시 예에 따른 정형 데이터 키워드 추출부의 구성도이다.

도 3은 본 발명의 일 실시 예에 따른 비정형 텍스트 데이터 의미 연결부의 구성도이다.

도 4는 키워드를 기반으로 수집된 비정형 텍스트 데이터(문서) 집합은 주제어 기반으로 문맥을 추출한 후, 주제 어를 중심의 역인덱스 형태로 저장한 형태의 개념도이다.

도 5는 본 발명에 따라 자원 서술 체계 형태의 정형 데이터에서 비정형 텍스트 데이터의 문맥을 추출하고, 추출 된 문맥을 기반으로 의미적으로 연결하기 위한 예시도이다.

도 6은 본 발명의 일 실시 예에 따른 정형 데이터와 연관된 비정형 텍스트 데이터 연결 방법을 설명하기 위한 순서도이다.

도 7은 본 발명의 일 실시 예에 따른 정형 데이터 키워드 추출 과정을 설명하기 위한 순서도이다.

도 8은 본 발명의 일 실시 예에 따른 비정형 텍스트 데이터 의미 연결 과정을 설명하기 위한 순서도이다.

발명을 실시하기 위한 구체적인 내용

이하, 첨부된 도면을 참조하여 기술되는 바람직한 실시 예를 통하여 본 발명을 당업자가 용이하게 이해하고 재 [0013]

(5)

현할 수 있도록 상세히 기술하기로 한다.

본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명 실시 예들의 요지를 불 [0014]

필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.

명세서 전반에 걸쳐 사용되는 용어들은 본 발명 실시 예에서의 기능을 고려하여 정의된 용어들로서, 사용자 또 [0015]

는 운용자의 의도, 관례 등에 따라 충분히 변형될 수 있는 사항이므로, 이 용어들의 정의는 본 발명의 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 본 발명의 일 실시 예에 따른 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치의 구성도이다.

[0016]

도 1을 참조하면, 정형 데이터와 연관된 비정형 텍스트 데이터 연결 장치는 정형 데이터 키워드 추출부(100), [0017]

비정형 텍스트 데이터 수집부(200) 및 비정형 텍스트 데이터 의미 연결부(300)를 포함한다.

정형 데이터 키워드 추출부(100)는 정형 데이터를 자원 서술 체계(Resource Description Framework : RDF)형 [0018]

정형 데이터로 변환한 후, 변환된 정형 데이터를 분석하여 주요 키워드를 추출한다. 예컨대, 대규모의 박물관의 경우, 정형화 데이터로서 박물관에 있는 물품, 지도, 행사 정보 등이 제공되는데, 이러한 박물관 정보를 자원 서술 체계(RDF)형 정형데이터로 변환한 후 분석하여 박물관 위치, 전시물 등의 주요 키워드로 추출한다. 이에 대해서는 하기의 도 2를 참조하여 상세히 살펴보기로 한다.

비정형 데이터 수집부(200)는 정형 데이터 키워드 추출부(100)에 의해 추출된 키워드를 기반으로 정형 데이터와 [0019]

연관성이 있어 의미상 연결할 수 있는 비정형 텍스트 데이터 집합을 수집한다. 예컨대, 비정형 텍스트 데이터로 박물관과 관련된 전시 물품에 대한 백과사전 정보, 최근 뉴스, 탐방자의 방문 후기 등이 있을 수 있는데, 비정 형 데이터 수집부(200)는 정형 데이터 키워드 추출부(100)에 의해 추출된 키워드를 기반으로 웹, 블로그, 뉴스 정보 등의 비정형 텍스트 데이터 또는 문서 데이터를 수집한다.

비정형 텍스트 데이터 의미 연결부(300)는 수집된 비정형 텍스트 데이터 집합에서 주제어 용어집을 기반으로 비 [0020]

정형 텍스트 데이터의 문맥을 추출하고, 이 추출된 결과를 문맥 중심으로 역인덱스를 생성하고, 정형 데이터와 비정형 데이터를 의미적으로 연결한다. 본 발명의 일 실시 예에 따라, 비정형 텍스트 데이터의 문맥을 추출하기 위하여 특정 주제어 용어집 활용함으로써, 방대한 비정형 텍스트 데이터에서 사용자나 서비스가 원하는 목적에 따라 특화된 문맥을 추출할 수 있다. 이에 대해서는 하기의 도 3을 참조하여 상세히 살펴보기로 한다.

도 2는 본 발명의 일 실시 예에 따른 정형 데이터 키워드 추출부의 구성도이다.

[0021]

도 2를 참조하면, 정형 데이터 키워드 추출부(100)는 텍스트 전처리부(110), 형태소 분석부(120), 불용어 제거 [0022]

부(130), 키워드 추출부(140)를 포함한다

텍스트 전처리부(110)는 정형 데이터에 포함된 문장의 끝을 표시하는 구두점을 뺀 나머지 구두점들을 제거한다.

[0023]

또한, 텍스트 전처리부(110)는 정형 데이터에서 웹, SNS, 블로그, 이메일 등의 비정형 데이터에서 빈번하게 나 타나는 이모티콘과 같은 특수 문자를 제거하고, 의미적 연결을 수행하는 언어(한국어)외의 외국어는 제거한다.

형태소 분석부(120)는 텍스트 전처리부(110)를 통하여 출력된 텍스트 데이터 형태의 정형 데이터를 형태소 단위 [0024]

로 분석한 후, 각 형태소의 품사와 함께 출력함으로써, 키워드 추출의 기초 과정을 수행한다.

키워드 추출부(140)는 문서의 의미를 나타낸다고 판단되는 키워드를 추출하는데, 형태소 분석된 데이터 문서 안 [0025]

에서 두 개 이상의 형태소를 붙여 하나의 키워드로 추출한다. 특히, 본 발명의 실시 예에 따라, 한국어의 특성 에 따라 하나의 형태소로 구성된 [일반명사], [고유명사] 및 두 개의 형태소로 구성된 “[일반명사, 일반명사], [일반명사, 고유명사], [고유명사, 일반명사], [형용사, 일반명사], [형용사, 고유명사], [동사, 일반명사], [동사, 고유명사]의 패턴에 해당하는 연속키워드를 추출하여 키워드로 추출한다. 이때, 명사들 사이에 나타나는 조사나 동사 또는 형용사와 명사들 사이에 나타나는 전성 어미를 제거한다.

부가적으로, 불용어 제거부(130)는 일반명사나 고유명사에서 문서의 도메인과 관계없는 불용어 리스트(135)를 [0026]

참고하여, 패턴에 의해 추출된 키워드 리스트(135)에서 불용어를 제거할 수도 있다. 여기서, 불용어 리스트 (135)는 문서의 도메인에 관계없이 문서의 의미가 관계없는 것으로 보이는 리스트을 생성하거나, 문서의 도메인 에 맞게 문서의 의미가 관계없는 것으로 보이는 불용어 리스트가 생성되어 적용될 수 있다.

도 3은 본 발명의 일 실시 예에 따른 비정형 텍스트 데이터 의미 연결부의 구성도이다.

[0027]

(6)

도 3을 참조하면, 비정형 텍스트 데이터 의미 연결부(300)는 텍스트 전처리부(310), 형태소 분석부(320), 불용 [0028]

어 제거부(330), 주제어 용어집(340), 주제어 빈도 가중치 계산부(350), 비정형 텍스트 데이터 문맥 추출부 (360), 역인덱스 생성부(370), 문맥 기반 의미 연결 생성 리스트 저장부(380) 및 랭킹 계산부(390)를 포함한다.

텍스트 전처리부(310), 형태소 분석부(320) 및 불용어 제거부(330)는 도 2에 도시된 텍스트 전처리부(210), 형 [0029]

태소 분석부(220) 및 불용어 제어부(230)과 그 기능이 동일하므로, 여기서는 상세한 설명을 생략하기로 한다.

그런데, 형태소 분석부(220)는 비정형 텍스트 데이터의 처리함에 있어, 웹 데이터에서 빈번하게 나타나는 신조 [0030]

어, 통신 용어 등의 사용자 사전을 추가하여 형태소 분석기의 성능을 향상시킨다. 특히, 통신 언어에서 글자 수 의 제약으로 흔히 일어나는 약어 사용의 증가는 형태소 분석에서 사용되는 단어 사전을 무력화시킬 수 있음으로 통신언어 말뭉치 분석을 통한 약어사전 구축, 단어 내 음운 생략 현상의 규칙들을 일반화환 규칙 기반 처리, 약 어 현상 등을 학습시킨 기계학습을 통한 알고리즘 접근 등의 방식을 이용한다.

주제어 용어집(340)은 특정 해당 분야의 사람들만이 주로 이용하는 전문 용어만을 모아놓은 사전의 형태를 말한 [0031]

다. 일반적인 어휘에 비하여 의미가 특화되는 경우가 많으므로, 사용자나 응용 서비스는 특정 주제어 용어집을 활용하면 비정형 텍스트 데이터의 문맥의 정확성을 향상시킬 수 있다. 기술적으로 주제어 용어집은 다양한 형태 로 제공될 수 있다. 따라서, 본 발명에서는 사용자나 서비스의 목적으로 용어집을 구축하여 활용할 수도 있고, 기존에 구축된 용어집의 형태를 제한하지 않으며, API를 제공하여 기존 용어집과 연동할 수 있다.

주제어 빈도 가중치 계산부(350)는 수집된 비정형 텍스트 데이터 집합을 주제어 용어집(Corpus)을 기초로 각 비 [0032]

정형 텍스트 문서의 문맥을 추출할 때, 주제어의 다음 빈도에 따라 가중치를 차별화하여 계산한다. 여기서, 주 제어의 빈도 가중치는 비정형 텍스트 문서에서 주제어가 출현된 빈도수, 비정형 텍스트 문서의 길이, 주제어가 출현한 비정형 텍스트 문서의 수, 비정형 텍스트 문서가 포함한 주제어의 수 등을 포함할 수 있으며, 본 발명은 가중치 계산부에 필요한 계수를 제한하지 않는다.

비정형 텍스트 데이터 문맥 추출부(360)는 주제어 용어집(340) 및 주제어 빈도 가중치 계산부(350)의 연산 결과 [0033]

에 따라 수집된 비정형 텍스트 데이터의 문맥을 추출한다. 이미 주제어 용어집을 기반으로 비정형 텍스트 데이 터(문서)의 주제어 출현 등에 따라 문서의 주제가 추출되고, 더 나아가 주제어의 빈도 가중치에 따라 문맥이 추 출된 후, 각 비정형 텍스트 데이터를 주제어로 대표하는 과정이다. 예컨대, 역사, 유물 등 박물관과 관련된 용 어집 또는 지역 정보, 활동 정보 등 박물관과 관련되지 않은 용어집을 참고하여 비정형 텍스트 데이터의 문맥을 추출한다.

역인덱스 생성부(370)는 정형 데이터와 비정형 텍스트 데이터를 정형 데이터의 키워드를 중심으로 비정형 텍스 [0034]

트 데이터 문맥 역인덱스를 생성하고 저장한다.

도 4는 키워드를 기반으로 수집된 비정형 텍스트 데이터(문서) 집합은 주제어 기반으로 문맥을 추출한 후, 주제 [0035]

어를 중심의 역인덱스 형태로 저장한 형태의 개념도인데, 역인덱스 생성부(370)는 도 4와 같이 키워드를 기반으 로 수집된 비정형 텍스트 데이터(문서) 집합은 주제어 기반으로 문맥을 추출하고, 주제어 중심의 역인덱스 형태 로 저장한다.

문맥 기반 의미 연결 생성부(380)는 자원 서술 체계(RDF)로 저장된 정형 데이터를 문맥이 추출된 비정형 텍스트 [0036]

와 주제어(의미적)로 연결한다. 이와 같은 지식은 응용 서비스의 개발자의 목적에 따라 순위화하여 응용 서비스 에 제공함으로써 기본 박물관 정보 외에 다양한 부가가치가 향상된 데이터가 서비스될 수 있다.

이를 위해, 응용 서비스 제공 랭킹 계산부(390)는 주제어를 중심으로 역인덱스 파일이 생성된 비정형 텍스트 데 [0037]

이터를 응용 서비스 목적에 따라 랭킹을 계산하여 순위화 결과를 제공한다. 예컨대, 키워드 A를 기반으로 수집 된 비정형 텍스트 데이터를 주제어 n개로 역인덱스 파일로 생성되어 있다. 이는 응용 서비스의 목적에 따라 날 짜, 관련된 키워드의 수, 연결된 주제어의 수 또는 제한되지 않은 그 외의 변수(환경, 성능, 서비스 대상)에 따 라 순위를 연산하여 응용서비스에 제공한다.

도 5는 본 발명에 따라 자원 서술 체계 형태의 정형 데이터에서 비정형 텍스트 데이터의 문맥을 추출하고, 추출 [0038]

된 문맥을 기반으로 의미적으로 연결하기 위한 예시도이다.

도 5를 참조하면, 비정형 텍스트 데이터에서 추출된 문맥은 직접적으로 자원 서술 체계 형태의 속성(Property) [0039]

일 수 있다. 또한, 주제어 용어집을 참고함으로써 주제어, 주제어의 상위 주제어가 이 인스턴스의 속성으로 적 용될 수도 있다. 속성이 정의된 비정형 텍스트 데이터의 URI는 새로운 객체 인스턴스로 연결함으로써, 정형 데 이터와 의미적으로 연결된다.

(7)

도 6은 본 발명의 일 실시 예에 따른 정형 데이터와 연관된 비정형 텍스트 데이터 연결 방법을 설명하기 위한 [0040]

순서도이다.

도 6을 참조하면, S610에서 정형 데이터 키워드 추출부(100)는 정형화된 데이터를 자원 서술 체계(RDF)형 정형 [0041]

데이터로 변환한 후, 분석하여 주요 키워드를 추출한다. 예컨대, 대규모의 박물관의 경우, 정형화 데이터로서 박물관에 있는 물품, 지도, 행사 정보 등이 제공되는데, 이러한 박물관 정보를 자원 서술 체계(RDF)형 정형데이 터로 변환한 후 분석하여 박물관 위치, 전시물 등의 주요 키워드로 추출한다. 이에 대해서는 하기의 도 7를 참 조하여 상세히 살펴보기로 한다.

S620에서 비정형 데이터 수집부(200)는 정형 데이터에서 추출된 키워드를 기반으로 정형 데이터와 연관성이 있 [0042]

어 의미적으로 연결할 수 있는 비정형 텍스트 데이터 집합을 수집한다. 예컨대, 비정형 텍스트 데이터로 박물 관과 관련된 전시 물품에 대한 백과사전 정보, 최근 뉴스, 탐방자의 방문 후기 등이 있을 수 있는데, 비정형 데 이터 수집부(200)는 정형 데이터 키워드 추출부(100)에 의해 추출된 키워드를 기반으로 웹, 블로그, 뉴스 정보 등의 비정형 텍스트 데이터 또는 문서 데이터를 수집한다.

S630에서 비정형 텍스트 데이터 의미 연결부(300)는 수집된 비정형 텍스트 데이터 집합에서 주제어 용어집을 기 [0043]

반으로 비정형 텍스트 데이터의 문맥을 추출하고, 이 추출된 결과를 문맥 중심으로 역인덱스를 생성하고, 정형 데이터와 비정형 데이터를 의미적으로 연결한다. 본 발명의 일 실시 예에 따라, 비정형 텍스트 데이터의 문맥을 추출하기 위하여 특정 주제어 용어집 활용함으로써, 방대한 비정형 텍스트 데이터에서 사용자나 서비스가 원하 는 목적에 따라 특화된 문맥을 추출할 수 있다. 이에 대해서는 하기의 도 8을 참조하여 상세히 살펴보기로 한다.

도 7은 본 발명의 일 실시 예에 따른 정형 데이터 키워드 추출 과정의 순서도이다.

[0044]

도 7을 참조하면, S710에서, 텍스트 전처리부(110)는 정형 데이터에 포함된 문장의 끝을 표시하는 구두점을 뺀 [0045]

나머지 구두점들을 제거한다. 또한, 텍스트 전처리부(110)는 정형 데이터에서 웹, SNS, 블로그, 이메일 등의 비 정형 데이터에서 빈번하게 나타나는 이모티콘과 같은 특수 문자를 제거하고, 의미적 연결을 수행하는 언어(한국 어)외의 외국어는 제거한다.

S720에서, 형태소 분석부(120)는 텍스트 전처리부(110)를 통하여 출력된 텍스트 데이터 형태의 정형 데이터를 [0046]

형태소 단위로 분석한 후, 각 형태소의 품사와 함께 출력함으로써, 키워드 추출의 기초 과정을 수행한다.

S730에서, 불용어 제거부(130)는 일반명사나 고유명사에서 문서의 도메인과 관계없는 불용어 리스트를 [0047]

참고하여, 패턴에 의해 추출된 키워드 리스트(135)에서 불용어를 제거할 수도 있다. 여기서, 불용어 리스트 (135)는 문서의 도메인에 관계없이 문서의 의미가 관계없는 것으로 보이는 리스트을 생성하거나, 문서의 도메인 에 맞게 문서의 의미가 관계없는 것으로 보이는 불용어 리스트가 생성되어 적용될 수 있다.

S740에서, 키워드 추출부(140)는 문서의 의미를 나타낸다고 판단되는 키워드를 추출하는데, 형태소 분석된 데이 [0048]

터 문서 안에서 두 개 이상의 형태소를 붙여 하나의 키워드로 추출한다. 특히, 본 발명의 실시 예에 따라, 한국 어의 특성에 따라 하나의 형태소로 구성된 [일반명사], [고유명사] 및 두 개의 형태소로 구성된 “[일반명사, 일반명사], [일반명사, 고유명사], [고유명사, 일반명사], [형용사, 일반명사], [형용사, 고유명사], [동사, 일 반명사], [동사, 고유명사]의 패턴에 해당하는 연속키워드를 추출하여 키워드로 추출한다. 이때, 명사들 사이에 나타나는 조사나 동사 또는 형용사와 명사들 사이에 나타나는 전성 어미를 제거한다.

도 8은 본 발명의 일 실시 예에 따른 비정형 텍스트 데이터 의미 연결 과정을 설명하기 위한 순서도이다.

[0049]

도 8을 참조하면, S810, S820 및 S830은 도 7에 도시된 S710, S720 및 S730과 각각 동일하므로, 여기서는 상세 [0050]

한 설명을 생략하기로 한다.

S840에서, 주제어 빈도 가중치 계산부(350)는 수집된 비정형 텍스트 데이터 집합을 주제어 용어집(Corpus)을 기 [0051]

초로 각 비정형 텍스트 문서의 문맥을 추출할 때, 주제어의 다음 빈도에 따라 가중치를 차별화하여 계산한다.

여기서, 주제어의 빈도 가중치는 비정형 텍스트 문서에서 주제어가 출현된 빈도수, 비정형 텍스트 문서의 길이, 주제어가 출현한 비정형 텍스트 문서의 수, 비정형 텍스트 문서가 포함한 주제어의 수 등을 포함할 수 있으며, 본 발명은 가중치 계산부에 필요한 계수를 제한하지 않는다.

S850에서, 비정형 텍스트 데이터 문맥 추출부(360)는 주제어 용어집(340) 및 주제어 빈도 가중치 계산부(350)의 [0052]

연산 결과에 따라 수집된 비정형 텍스트 데이터의 문맥을 추출한다. 이미 주제어 용어집을 기반으로 비정형 텍 스트 데이터(문서)의 주제어 출현 등에 따라 문서의 주제가 추출되고, 더 나아가 주제어의 빈도 가중치에 따라

(8)

문맥이 추출된 후, 각 비정형 텍스트 데이터를 주제어로 대표하는 과정이다. 예컨대, 역사, 유물 등 박물관과 관련된 용어집 또는 지역 정보, 활동 정보 등 박물관과 관련되지 않은 용어집을 참고하여 비정형 텍스트 데이터 의 문맥을 추출한다.

S860에서, 역인덱스 생성부(370)는 정형 데이터와 비정형 텍스트 데이터를 정형 데이터의 키워드를 중심으로 비 [0053]

정형 텍스트 데이터 문맥 역인덱스를 생성하고 저장한다.

S870에서, 문맥 기반 의미 연결 생성부(380)는 자원 서술 체계(RDF)로 저장된 정형 데이터를 문맥이 추출된 비 [0054]

정형 텍스트와 주제어(의미적)로 연결한다.

이와 같은 지식은 응용 서비스의 개발자의 목적에 따라 순위화하여 응용 서비스에 제공함으로써 기본 박물관 정 [0055]

보 외에 다양한 부가가치가 향상된 데이터가 서비스될 수 있다.

S880에서, 응용 서비스 제공 랭킹 계산부(390)는 주제어를 중심으로 역인덱스 파일이 생성된 비정형 텍스트 데 [0056]

이터를 응용 서비스 목적에 따라 랭킹을 계산하여 순위화 결과를 제공한다.

도면 도면1

도면2

(9)

도면3

(10)

도면4

(11)

도면5

(12)

도면6

도면7

(13)

도면8