제1절 검색엔진 - 2013년 보건복지통계정보 시스템 구축 및 운영

1. 검색엔진의 기능

검색엔진은 크게 데이터 수집 기능, 데이터 축적 기능, 검색 기능, 질의 관리기능으로 구분할 수 있다.

데이터 수집 기능은 사용자로부터 검색요구를 받아들이기 전에 미리 웹서버에 엑세스하여 각 서버가 축적하고 있는 데이터를 수집하는 기능 이다. 데이터를 수집하는 방법에는 자동수집 형태와 수동수집 형태가 있 다. 자동수집 형태는 로봇 프로그램이라고 하는 자동 데이터 수집 소프트 웨어를 사용하는 방법이다. 수동수집 형태는 검색 서비스 관리자가 웹 서 버 액세스를 반복하여 데이터를 찾아내거나 웹서버의 관리자에게 제공을 의뢰하는 방법이다.

데이터 축적 기능은 수집한 데이터를 검색 엔진이 검색시 사용하는 데 이터베이스에 등록하는 기능이다. 데이터를 축적할 때 정보를 추출하는 방법에는 제목만 추출하는 형태와 요약문 추출형태가 있다. 제목 추출형 태는 HTML 파일의 앞머리에 기술된 타이틀만을 골라내는 방법이고, 요 약문 추출형태는 제목에 부가하여 HTML 파일의 내용도 몇 줄의 요약문 을 추가하여 정리하는 방법이다.

검색 기능은 검색엔진의 핵심이 되는 기능이다. 사용자가 키워드를 입 력하면 그 키워드를 포함하는 데이터가 있는지 유무를 데이터베이스에서 조회한다. 검색방법에는 키워드 검색형태와 전문 검색형태가 있다. 키워 드 검색은 각 데이터에 키워드를 설정하여 그 키워드에 대하여 검색을 실 행하는 방법이다. 한편 전문 검색은 데이터베이스에 축적된 데이터를 모 두 검색하는 방법으로써 검색결과를 표시하는데 키워드 검색보다 느리다.

질의 처리 기능은 웹 서버를 통해 들어온 질의어를 검색기가 처리할 수 있는 형태로 전달하고, 검색결과를 브라우저 상에서 보기 쉬운 형식으로 정형화하여 HTML 파일로 전환하는 기능이다.

2. 색인기술

인터넷상에 존재하는 수많은 정보 중 정보 이용자의 요구에 합당한 정 보만을 신속하고 보다 효과적으로 제공하기 위해 색인 기법이 반드시 필 요하다. 성능 좋은 색인 기법이 되기 위해서는 문서의 내용을 명확히 표 현하는 표현력과 대량의 문서집합 속에서 특정 문서를 정확히 구분할 수 있는 식별력을 동시에 갖추고 있어야 한다.

정보검색시스템의 정보추출 효율을 평가 분석하는 기준으로는 재현율 (recall)과 정확도(precision) 두 가지를 주로 이용한다. 재현율은 실제로 관련된 문헌 중 검색시스템에 의하여 검출된 비율을 의미한다. 정확도는 검색시스템의 검출 결과 중 실제로 관련된 문헌의 비율을 의미한다. 이상 적인 검색시스템에서는 높은 재현율과 높은 정확도를 동시에 유지하는 것이 바람직하지만, 현실은 대부분 재현율과 정확도에서 반비례하는 현 상을 보인다.

색인방법은 크게 색인작업을 하는 주체에 따른 방식과 용어통제여부에 따른 방식, 색인단어 구성특성에 따른 방식이 있다. 색인작업주체를 기준 으로 했을 때는 수동색인, 통계적 자동색인, 언어학적 자동색인 등의 색 인방법이 있다.

수동색인 방법은 색인작업에 소요되는 시간이나 전문인력 확보의 어려 움 때문에 증가하는 정보자료를 감당할 수 없다는 현실적 한계가 있다.

통계적 자동색인 방법은 문헌에서 각 단어가 나타난 빈도를 구한 후 빈도

수가 너무 적거나 많은 경우와 같이 현실적으로 색인어가 되기 어려운 데 이터는 버리고 나머지 남은 단어들로만 색인어로 구성하여 통계적 데이 터를 중심으로 색인하는 방법이다. 그에 반해 언어학적 자동색인은 언어 학적인 접근방법을 도입하여 문서를 파싱하고 파싱된 결과를 바탕으로 색인하는 방법으로 크게 형태소분석법, 구문분석법, 의미분석법이 있다.

용어통제여부에 따라 구분하는 색인방법에는 용어색인 방법과 통제어 색인 방법이 있다. 용어색인 방법은 문서에 나타난 용어를 다른 단어로 교체하지 않고 바로 색인어로 활용하는 방법으로 불용어 리스트에 의해 서만 일부 통제가 가해지는 색인추출방법이다. 반면에 통제어색인은 문 서에 나타난 용어가 단수형, 복수형, 동의어, 어휘변형 등 형태적으로 다 른 형태를 띄더라도 같은 의미를 나타내는 용어들이라면 하나의 기본형 으로 교체하여 색인하는 방법이다.

색인단어구성특성에 따른 기준의 색인방법은 단일어색인과 복합어색 인 방식이 있다. 단일어색인은 색인어가 모두 단일어로 구성되기 때문에 한 어절을 절단하여 각각의 단일어로 분리하는 기법이 필요하다. 그에 비 해 복합어색인은 복합어를 색인어로 허용하는 방법으로 분리된 각 어절 을 하나로 묶어 색인어로 조합하는 기법이 필요하다.

3. 질의 처리 기술

질의처리 기술은 논리연산검색과 확장검색, 자연어검색으로 구분한다.

논리연산검색에는 단순검색, 이전 참조검색, 와일드카드 검색, 구문검 색, 근접검색 기술이 있다. 단순검색 처리기술은 Boolean logic에 의해 검색하는 방법으로 논리곱, 논리합, 부정 등의 연산자 조합으로 검색을 지원한다. 이전 참조검색은 한번 참조한 검색에 대해 검색결과를 저장하

였다가 다음 검색에 이전 검색결과 내에서 다시 검색할 수 있도록 지원하 는 검색방법이다. 와일드카드 검색은 이름을 정확히 모르거나 여러 개를 동시에 찾을 경우, 와일드카드(?, *)를 이용하여 검색하는 방법이다. 구문 검색은 몇 개의 단어를 조합하여 검색하는 기법이고, 근접검색은 2개 이 상의 단어를 함께 검색할 경우, 문서 내 이들 검색어간의 거리관계를 이 용하여 검색한다.

확장검색에는 유의어 확장 및 발음 확장 검색기술과 디렉토리 서비스 방식, 클러스터링 서비스방식이 있다. 먼저 유의어 확장 및 발음 확장 검 색기술은 사용자가 색인DB에 대한 전문지식이 없더라도 시스템 측에서 적당히 유사단어나 발음상 가능한 단어들을 모두 검색할 수 있도록 도와 주는 검색이다. 디렉토리서비스 방식은 시소러스 사전 등의 분류체계를 작성하여 새롭게 특정분야를 접하는 초보자에게 질의어를 직접 입력해야 하는 부담감을 제거하고 해당분야 정보를 손쉽게 획득할 수 있도록 분야 별 정보를 제공하는 방식이다. 클러스터링 서비스 방식은 정보 이용자가 던진 질의에 대해 연관성이 높은 질의 및 문서들을 클러스터링하여 이용 자 질의검색 결과와 함께 제공한다. 클러스터링 엔진에서 제공하는 부가 적인 검색결과는 새로운 지식에 처음 접하는 이용자일 경우, 관련어 및 유의어 인식이 가능하며 이를 통해 초기개념 인식부담이 감소한다.

자연어검색에는 초기 자연어검색기법과 형태소분석을 이용한 자연어 검색기법, 구문분석을 이용한 자연어검색기법, 그리고 의미, 화용²⁾분석 을 이용한 자연어검색기법이 있다. 초기 자연언검색은 자연어 문장에서 접속어나 조사를 AND, OR, NOT 등의 연산자로 치환하는 기본적인 연 산자 치환 방법이다. 형태소분석을 이용한 자연어검색은 가능한 모든 분

2) 화용론은 문장의 의미를 체계적으로 분석하려는 의미론의 한 분야이며, 실제 상활적 맥락 에서 화자와 상대방에 의해 쓰이는 말의 기능과 관계되는 영역임.

석 후보를 생성하는 후보생성(candidate generation) 단계와 분석후보 들로부터 옳은 것을 선택하는 후보선택(candidate select) 단계로 이루 어진다. 구문분석을 이용한 자연어검색은 형태소분석의 결과로 나온 형 태소들이 올바른 문장구조를 갖추었는지를 파악하여 결과를 보여주는 방 법이다. 의미, 화용분석을 이용한 자연어검색은 구문분석 결과에 해석을 가하여 문장이 가질 수 있는 여러 가지 의미 중 해당 문장이 가진 의미를 찾아냄으로써 의미적 애매성을 해결하는 검색방법이다.

문서에서 2013년 보건복지통계정보 시스템 구축 및 운영 (페이지 32-36)