제2절 검색기술의 진화 - 2013년 보건복지통계정보 시스템 구축 및 운영

일반적으로 정보를 검색하는 과정은 정보에 대한 주제어나 검색이 용 이한 용어로 인덱스를 만드는 과정을 거쳐, 분석된 자료를 색인과 함께 검색이 용이한 형태의 파일로 구축한 후, 탐색어와 탐색논리를 추출해내 는 질의처리과정을 거친다. 그 다음 적합한 정보를 찾아내어 해당 사용자 에게 전달하는 이 모든 과정을 말한다.

정보 검색에서 가장 중요한 것은 사용자의 질의 의도를 정확하게 파악 하고, 관련 정보를 검색하여 사용자가 쉽게 이해할 수 있는 형식으로 시 각화하고, 결과를 효율적으로 접근할 수 있게 하는 것이다. 정보를 검색 하는 방식에는 데이터 검색, 참조(서지)정보 검색, 전문(Full-text) 검색, 질문응답(Question-Answering) 검색, 비디오텍스(Videotex) 등이 있 다. 데이터 검색이나 참조정보 검색, 전문 검색 등은 일반적인 텍스트 기 반의 검색이라 할 수 있으며, 비디오텍스 같은 경우는 내용이나 의미 기 반의 정보 검색에 해당한다.

1. 텍스트(키워드) 기반 검색

텍스트 기반의 검색은 정보검색에서 일반적인 기법이다. 텍스트 기반 검색의 질의 형태는 키워드 즉, 단어 특히 명사 위주의 자연어를 검색 정 보로 입력하여 찾고자 하는 정보를 획득하는 것이다. 질의할 때는 키보드 로 직접 키워드를 입력하거나 미리 선정된 키워드 목록에서 선택하는 방 법, 또는 음성으로 입력하는 방법이 있을 수 있다.

텍스트 위주의 정보검색은 통계적인 방식을 따르지만 의미를 이해하려 고 하지 않고, 이형 동의어나 다의어, 복합명사, 명칭 등에 대한 문제가 항상 발생하지만 무시하고 검색한다(조영환, 2007).

텍스트 기반 검색에서 질의 한 결과를 보여주는 방법은 키워드를 포함 한 문서를 보여주되, 키워드를 포함한 횟수가 가장 많은 문서를 우선적으 로 앞에 보여주게 된다.

〔그림 2-1〕은 정보 검색과정을 도식화한 것으로써, 문서나 이미지와 같은 비정형 데이터로부터 색인어를 추출해 놓은 데이터베이스에서 질의 한 텍스트를 검색하여 일치하거나 유사한 결과를 보여주는 과정이다. 텍 스트 색인은 주로 단어 혹은 구(phrase)를 사용하며, 과거에는 명사만을 추출하였지만 최근에는 다른 품사의 단어를 추출하거나 2글자씩을 추출 하는 등 사용자의 질의 표현과 맞추는 형태로 변하고 있다.

텍스트 기반의 정보검색에서 사용되는 주요 질의 모델은 불리언 모델, 벡터공간 모델, 자연의 질의 모델 등이 있다. 불리언 모델은 질의 용어를 포함하고 있는 문서의 집합을 구성한 후, 불리언 연산자(AND, OR, NOT)를 사용하여 다수의 집합을 통합한 후, 최종 검색 결과를 결정하는 모델이다. 벡터공간 모델은 색인어로 이루어진 좌표 공간에서 문서와 질 의를 벡터로 표현한 후, 그 벡터 간의 유사도에 의해 검색 결과를 결정하

고 순위를 매긴다(맹성현, 2004).

〔그림 2-1〕 텍스트 기반 정보검색 흐름도

자료: 데이터베이스연구회, 2000년도 춘계 튜토리얼, 맹성현

2. 내용기반 정보검색

내용기반 검색은 이미지 데이터에서 내용 구성 요소들을 자동으로 분 리하고, 분리된 구성요소들의 특징 데이터를 자동 추출하여 데이터베이 스화하여 검색을 실시하는 방법이다. 이 방법은 키워드와 관계없이 이미 지가 가지고 있는 시각적 특징만을 이용하여 검색을 실행한다. 즉, 이미 지 내에 포함된 구성요소가 가지고 있는 색상, 모양, 질감 등의 이질적 특 징 값을 사용하여 질의 이미지와 목표 이미지간의 유사도를 계산하는 방 식으로 유사 이미지를 찾게 된다. 내용기반 검색은 멀티미디어 데이터로 부터 내용 특징을 자동으로 추출하는 하위시스템을 따로 둠으로써 사람 의 주석 작업을 생략할 수 있는 장점이 있으나, 특징 데이터를 이용하여

사용자가 질의를 하고 정보를 획득하는 일이 그리 수월하지만은 않다는 단점을 동시에 가지고 있다. 특징 추출의 자동화는 대용량 멀티미디어 데 이터 처리에 부합하는 방식이지만, 의미가 아닌 시각적 특징에 의존하기 때문에 자연 현상을 그대로 옮겨놓은 이미지의 경우 의미적 모호성을 구 분하기가 어렵다는 단점을 지니고 있다.

일반적으로 내용기반 검색은 완전일치가 아닌 어느 정도의 오차를 가 질 수도 있는 유사일치(Approximate Matching) 검색을 주로 사용한다.

또한 이미지를 어떠한 특징을 가지고 표현할 것인가와 추출된 특징들을 어떠한 방법으로 비교할 것인가 인데, 이미지가 가지는 특징인 이미지의 색상, 형태 및 질감 정보를 기본적인 검색정보로 사용한다. 또한 포함되 어 있는 물체의 식별과 같은 정보, 이미지의 느낌, 감정, 장면의 중요도 와 같은 추상적인 표현 등의 특징을 가지고 이미지를 검색하는 기술이 있다.

색상 정보는 영상 데이터를 분석하는 있어 광범위하게 사용되는 특징 들 중의 하나이다. 색상은 색상 히스토그램, 컬러 모멘트 및 색상 집합 등 이 주로 사용된다. 색상 히스토그램은 주로 색상 특징을 나타내기 위해 사용한다. 컬러 모멘트 방식은 컬러 정보의 분포가 모멘트로 특징지어질 수 있다는 근거에서 나온 방식이다.

질감은 한 개의 색상이나 밝기 값이 아닌 것으로 동질성을 갖는 시각 패턴을 뜻한다.

형태는 변형, 회전, 확대, 축소 등의 변환에 대해 불변하여야 한다. 형 태표현 방식에는 경계기반 방식과 영역기반 방식으로 나눌 수 있다. 경계 기반 방식은 형태의 외부 경계를 이용하는 것이고, 영역기반 방식은 형태 전체의 영역을 이용하는 것이다.

내용기반 검색 중에서 영역 질의 기반 검색방법은 사용자에 의해 질의

된 선택 영역으로부터 특징 벡터를 추출하고, DB에 있는 영상 특징과의 유사도 비교를 통해 사용자가 원하는 관련 영상을 찾아 그 검색 결과를 내보인다. 초기 영역 기반의 검색은 질의 영상과 DB내 영상간의 영역 대 영역의 비교가 주를 이루었으나, 최근에는 사용자에 의해 질의된 특징 영 역뿐 아니라 그 배경에 대한 내용까지 수집할 수 있는 특징 기술에 대한 요구가 증대되고 있다.

내용기반 검색시 고려해야 할 사항은 질의 데이터와 실제로 찾으려는 데이터가 많이 다를 수 있다는 사실이다.

3. 의미(Semantic)기반 검색

정보검색의 발전은 인간이 생각하고 있는 정보를 컴퓨터가 얼마나 이 해했고, 이에 맞는 정보를 얼마나 정확히 찾아 제시 하느냐 이다. 예컨대, 인간이 일상에서 사용하는 문장을 가지고 정보를 검색할 때, 컴퓨터는 문 장 속에 내포하고 있는 의미까지 파악하여 관련 정보를 찾아 줄 것을 원 한다.

의미의 사전적 뜻은 말이나 글의 뜻, 행위나 현상이 지닌 뜻, 사물이나 현상의 가치로 해석한다(네이버 국어사전). 결국, 의미기반 검색은 문서 에 포함된 내용의 의미를 기준으로 검색함으로써 정보의 정확도를 높이 려는 기술이다.

일반적인 자연어처리 기술은 형태소분석 방식의 키워드에 기반하여 색 인하고 검색하기 때문에 문장의 내용적인 의미를 제대로 색인에 반영하 지 못하여 정확도가 떨어지는 경향이 있다. 최근에는 자연어처리기술을 이용한 의미기반 정보검색이 발전하고 있다.

의미기반 정보검색의 기술적 특성은 자연어처리기술을 이용한 의미기

반 색인방법에서 형태소분석 및 태깅 기술뿐 아니라 구문/의미 분석의 자 연어처리 기술을 이용하여 어휘/구절/문장 의미 중의성을 해소함으로써 텍스트와 질의의 의미적인 내용을 색인에 반영하여 검색 효과를 높이는 것이다(장명길 외, 2001). 의미기반 색인에서 텍스트와 질의의 의미적인 내용을 색인에 반영하기 위해서는 같은 의미를 가지는 문장들을 동일한 의미색인단위로 정규화하는 과정이 요구된다. 아직까지 대부분의 상용시 스템은 의미기반 색인이 이루어지지 않고 있다.

그러나 일부 의미기반 검색기술을 이용한 사례가 있기는 하지만 완전 한 의미기반의 검색이라고 할 수는 없다. 예를 들어, 구글의 PageRank 방식과 같이 검색어와 문서의 유사도를 계산할 때 언어의 의미적 정보를 사용하여 검색하는 방식은 의미기반의 검색의 일종으로 다른 표현으로 하면 시맨틱 검색이라고도 한다. 또한 구글의 Squared는 시맨틱 검색을 가능하게 하는 툴이다. 사용자가 입력한 키워드와 같은 단어를 포함한 문 서를 주로 제공하기 때문에 사용자가 의도했던 것과 다른 의미인 동음이 의어를 포함한 문서를 보여 줄 때가 있는데, 이 툴을 이용하면 사용자는 추출된 정보와 함께 표 형식으로 결과를 얻을 수 있다.

시맨틱 검색은 시맨틱 웹과 온톨로지(Ontology) 개념이 등장하면서 시맨틱 기술을 이용한 검색기술이다. 시맨틱 웹은 기계가 이해 가능한 표 준화된 언어로 표현된 정보에서 온톨로지를 이용해 정보의 의미를 이해 하여 새로운 정보를 추론하게 된다. 여기서 온톨로지란 실세계에 존재하 는 모든 개념들과 개념들의 속성, 그리고 개념들이 상호간 의미적으로 어 떻게 연결되어 있는가에 대한 정보를 가진 지식베이스이다.

기존 검색과 시맨틱 검색의 차이점에 대해 정리를 하면, 첫째 기존 검 색은 검색어에 전적으로 의존하였으나, 시맨틱 검색은 사용자가 검색어 만을 제시한다고 전제하지 않는다. 다만 사용자가 자신의 의도를 표현하

문서에서 2013년 보건복지통계정보 시스템 구축 및 운영 (페이지 36-44)