Gyeonggi21Search 2.0: A Geographic and Regional Information Retrieval System based on Correlated Keywords

(1)

*****한국항공대학교 정보통신공학과 대학원 박사과정([email protected])

*****일본 효고대학교 인문과학 및 환경학부 조교수([email protected])

*****한국항공대학교 차세대방송미디어기술연구센터 연구교수([email protected])

*****한국항공대학교 정보통신공학과 대학원 박사과정([email protected])

*****한국항공대학교 항공전자 및 정보통신공학부 교수([email protected])

연관 키워드 기반의 지리 및 지역정보 검색시스템 : “경기21서치 2.0”

윤 성 관* ･ 이 용** ･ 장 용 희*** ･ 성 동 현**** ･ 권 용 진*****

Gyeonggi21Search 2.0: A Geographic and Regional Information Retrieval System based on Correlated Keywords

Seong-Kwan Yun*, Ryong Lee**, Yong-Hee Jang***, Dong-Hyeon Seong****, Yong-Jin Kwon*****

요 약

웹에서 다양한 웹 지리･지역정보를 검색할 수 있는 시스템에 대한 요구가 증가하고 있다.

그러나 현재의 웹 검색 시스템은 사용자가 키워드로 지역 웹 문서를 검색하고 해당 웹 문서 를 지도와 비교하여 공간정보를 취득하며, 다른 관련 정보를 얻기 위해서는 검색과 비교를 반복해야 하는 어려움이 있다. 본 논문에서는 이러한 검색 과정을 단순화하기 위해 웹 지 리･지역정보에 포함된 지리공간단어를 활용하고 웹 정보와 공간정보가 유기적으로 통합된 검색시스템을 제안하였다. 이를 위해 현재의 웹 공간으로부터 “현실･지식･응용”이라는 3-계 층 공간 모델을 제안하였다. 이 구조에서는 계층 간 정보가 관련성이 높도록 연결되어 있고, 사용자는 연결 구조를 탐험하는 것만으로 웹 지리･지역정보 및 지리적인 특성에 대한 다양 한 관계 정보, 그리고 공간정보를 효율적으로 얻을 수 있었다.

주요어 : 지리공간정보, 웹 정보, 융합 공간 모델, 연관 키워드

ABSTRACT : Demands for a system which enable users to retrieve any kind of geographic and

regional information over the Web have been increasing. However, in order to obtain geographic

or regional information over the web, users still need to search web pages related to region by

inputting keywords and to arrange the searched results with map. We can solve that problem by

using the fact that most of geographic and regional information contain geographic keywords

related to location. In this paper, we propose a system to retrieve geographic and regional

(2)

information efficiently. For the purpose, we present a conceptual model based on three layers of

“Real-World”, “Knowledge”, and “Applications”, from the web space and construct the above link process. These layers are connected to each other and enable users to navigation information over the linkage. Especially, users can obtain various correlated information about geographic information and properties.

Keywords : geospatial data, GIS, web geographic information, correlated keyword

1. 서 론

웹의 폭발적인 성장과 인터넷 기술 발달로 웹에는 다양한 형태의 지리･지역정보가 사 용자에 의해 발신, 생성, 공유되고 있다. 이 정보는 문화예술, 여행, 역사, 지역공동체 등 의 다양한 범주에 포함되고 여행계획, 지역 현황 분석 과 같은 현실 공간에서 사람들의 의사결정에 도움을 준다 . 사용자는 웹에서 지 속적으로 지역정보 축적과 결합 과정을 통해 새로운 지식을 창출하고 있다 (Y. Kambayashi, 2002).

웹에서 지리･지역정보를 검색하는 수단으 로 GIS와 정보검색시스템을 동시에 이용하 고 있다. GIS에서 사용되는 데이터는 지형공 간에 관한 모든 정보, 즉, 지리정보가 정형화 된 데이터인 반면, 정보검색시스템에서는 텍 스트, 이미지, 동영상과 같은 다양한 종류의 데이터를 이용하고, 지리정보뿐만 아니라 지 역에 관한 문화, 예술, 경제, 사회현상과 같 은 복잡한 지식정보도 함께 제공하고 있다.

이종의 시스템을 이용한 정보 검색은 사 용자에게 결과 비교, 추가적인 키워드 입력 등의 번거로움을 준다. 사용자가 웹에서 지 역정보를 수집하고, GIS를 이용해 공간정보

를 검색한 후에 이종의 정보를 비교･분석하 고 , 이를 통합하여 취득하는 문제와 이미 검 색한 웹 지리･지역 정보와 관련된 추가 정보 를 얻기 위해 위 과정을 반복해야 한다.

본 논문에서는 이러한 이종의 시스템을 통 한 검색 과정을 단순화하기 위해 웹 지리･지 역정보에 포함된 지리공간단어를 활용하여

“현실･지식･응용”의 3-계층 공간 모델을 정 의하고 , 이 모델을 기반으로 웹 정보와 공간 정보가 유기적으로 통합된 검색시스템을 제 안하였다 .

지리공간단어는 웹 지리･지역정보에 다수 포함되어 있으므로, 본 논문에서는 이를 활 용하여 GIS의 공간정보와 웹 정보를 지리공 간단어의 위치 속성을 기반으로 서로 링크 할 수 있었다. 3-계층 공간 모델은 다음과 같 이 정의하였다. “현실계층”은 실제 사용자가 생활하는 실제 공간을 의미하고, 지도와 지 리공간단어와 같은 GIS 데이터로 표현된다.

“지식계층”은 웹 지리･지역정보가 유기적으

로 연결되어 있고, 현실 공간의 특정 위치와

대응된 정보가 존재하는 공간이다. “응용계

층 ”은 사용자가 현실과 지식계층을 접근하

는 인터페이스로 정보검색에 이용되는 시스

템 영역이다. 3-계층 공간에서는 모든 정보

가 서로 유기적으로 링크되어 있기 때문에

(3)

[그림 1] Google Maps 서비스

사용자는 링크 구조를 탐험하는 것만으로 웹

지리･지역정보 및 지리적인 특성에 대한 다 양한 관계 정보, 그리고 공간정보를 효율적 으로 얻을 수 있었다.

3-계층 구조에 필요한 지리공간단어는 경 기도 지역 수치지도에 포함된 지명단어, 그 리고 웹 지리･지역정보에서 지명단어와 특 정 빈도 이상으로 동시에 나타나는 단어들 로 구성하였다. 웹 지리･지역정보는 지명단 어를 활용해 경기도 지역에 대한 웹 문서만 을 수집하였다. 계층 공간의 링크구조는 데 이터마이닝 기법인 연관규칙과 연관클러스 터 알고리즘을 적용해 구성하였다(고수정외 2001).

본 논문의 구성은 다음과 같다. 2장에서는 관련연구에 대해 기술하고, 3장에서는 시스 템의 구성과 특징을, 4장에서는 현실과 지식 계층의 링크구조를 나타내는 연관단어 네비 게이터를 구축하는 방법을 논한다. 마지막 장에서는 연구 결과 및 향후 연구되어야 할 부분에 대해 기술한다.

2. 관련 연구

웹을 위치 기반의 지리정보공간으로 바라 보는 GeoWeb으로 접근하는 연구가 진행되 고 있다(김은형, 2008). GeoWeb은 웹 정보에 서 지리적인 속성을 추출하여 현실 공간의 특정한 위치로 정보를 축적하고, 사용자에게 위치를 기반으로 정보를 쉽고 편하게 활용 할 수 있도록 구조화된 공간이다(양단희외, 2008).

GeoWeb의 대표적인 예로, Google의 Google Maps나 Microsoft의 Virtual Earth 등이 있다.

이러한 서비스는 웹 지리정보 컨텐츠를 위 치 기반으로 저장, 검색 및 공유가 가능하고, 웹 상에서 사용되고 있다는 특징을 이용하 여 기존의 웹에 있는 지역정보도 같이 활용 하고 있다. 예를 들어, [그림 1]과 같이 지도 상에 나타나는 지명을 클릭하면 사진, 동영 상 , 지명과 관련된 정보 검색 결과를 제공한 다 . 또한, 검색 단어 주변에 위치한 지리정보 도 함께 제공하고 있다 .

그러나 Google Maps는 웹에 존재하는 정 보를 단순히 링크만 시켰을 뿐이다. 서로 연 결된 정보들 사이의 흥미로운 상관관계도 없이 , 단지 위치나 거리에 근거하여 서로 연 결되어 있다. 사용자는 “행주대첩비”와 “권 율 장군 동상”이 동시에 검색될 경우, 정확 한 정보는 확인할 수 없지만 두 정보가 지도 에 표시되는 거리가 가깝기 때문에 서로 관 련이 있음을 추측만 할 수 있다 (안재성외, 2006). [그림 2]와 같이 지도상의 거리를 근 거로 “서오릉”은 “경릉, 창릉, 익릉, 명릉, 홍 릉 ”을 의미함을 사용자는 직관적으로 확인 할 수 있다.

하지만, 단순히 위치에 근거한 관련 정보 제공은 다음과 같은 문제점을 가지고 있다.

첫째 , “행주산성-남한산성”과 같이 거리가

(4)

[그림 2] 공간 거리를 기반으로 정보 추측 (서오릉: 창릉, 홍릉, 경릉, 익릉, 명릉)

많이 떨어져있지만 “산성”이라는 유사성을 가 진 정보를 제공하지 못한다. 둘째, “경기문화 유산”, “행주대첩제”와 같은 지도상에 위치 를 기반으로 표시할 수 없지만, 다양한 지리 정보를 제공할 수 있는 키워드에 대한 검색 이 불가능하다.

위 시스템은 웹 정보에 포함된 지역성을 고려해서 웹을 위치 기반으로 구조화, 조직 화하여 지리정보검색 방법을 제안하고 있지 만, 대부분의 연구는 아직까지 웹 정보를 얼 마나 효율적으로 현실 공간의 특정 위치에 매핑 할 것인가와 같이 지리정보시스템적인 발상에서 현실공간거리를 고려한 웹 정보 검 색에만 집중되고 있을 뿐이다 (Einat Amitay et al., 2004; Wenbo Zong et al., 2005; Chuang Wang et al., 2005; Karla A.V et al., 2007)

본 논문에서는 [그림 2]와 같은 지도의 직 관성을 최대한 활용하고, 기존 서비스의 문 제점을 해결하기 위해서 웹 정보가 가지는 지리정보를 분석하여 현실 공간에 대한 의 미론적인 공간관계를 파악하였다. 의미론적

인 공간관계는 현실･지식･응용의 3-계층의 새로운 공간 모델로 표현하였다. 이 공간에 서는 단순히 웹 정보와 현실 공간 사이의 매 핑만을 고려하지 않는다. 웹 공간에 존재하 는 지리정보, 지역정보, 지리･지역정보 사이 의 복합적인 상호관련성을 고려한 링크 구 조를 이루고 있다.

3. 시스템 구성과 특징

3.1 시스템 구성과 특징

본 논문에서 제안하는 “경기21서치 2.0”은 웹 지리･지역정보를 효율적으로 검색할 수 있도록 GIS와 정보검색시스템을 통합하고, [그림 3]과 같은 계층화된 새로운 공간 모델 로 현실과 웹을 재구성하여 시스템에 적용 하였다 .

웹과 현실공간에 대한 3-계층 공간 구조는

“1계층: 현실”, “2계층: 지식”, 그리고 “3계 층 : 응용”으로 정의였다. “현실”은 인간이 활 동하는 실생활 공간을 의미하고 , “지식”은 웹 지리･지역정보로부터 지리공간단어를 추 출하여 현실 계층의 특정한 위치와 링크되 어 있는 공간이다. 이 계층 내에서는 데이터 마이닝 기법을 통해 지리공간단어 간 관련 도를 계산하여 [그림 4]와 같은 밀접한 단어 끼리 유기적으로 연결한 상호링크구조를 구 성하고 있다. 마지막으로, “응용”은 실제 사 용자가 정보검색에 이용하는 시스템으로,

“경기21서치 2.0” 시스템이 이에 해당한다.

각 계층의 특징을 살펴보면, “현실”은 지

도와 지리공간단어와 같은 GIS 데이터로 표

현되고 , 사용자에게 직관적인 공간정보 제공

(5)

[그림 3] 웹과 현실공간에 대한 3계층 구조

[그림 4] 지식계층에 대한 세부구조: 지명단어, 비지명단어, 웹 지리･지역정보

수단으로 활용된다. 제2계층 “지식”은 지리

공간단어 사이의 밀접한 관련성을 직관적으 로 이해할 수 있는 상호링크 기반의 “연관단 어 네비게이터”와 “웹 정보 인터페이스”로 구성되어 있다. [그림 4]와 같이 웹 문서에 포함된 지리공간단어 중에서 현실 공간의 특 정한 위치 속성을 가지는 지명단어(Geoword)

와 위치 속성은 없지만 지명단어에 대한 속 성이나 특징을 설명할 수 있는 비지명단어 (Non-Geoword)로 분할하였다. 그 다음 지명 및 비지명단어를 기반으로 웹 정보가 축적 되어 있도록 지식계층을 세분화하였다.

세분화된 계층들은 상호관련성을 가지도

록 정보가 서로 링크되어 있다. 이 링크구조

(6)

[그림 5] 응용계층: “경기21서치 2.0” 시스템 인터페이스 구성

[그림 6] GIS와 웹을 활용한 여행정보 수집 과정

를 생성하기 위해서는 다음과 같은 정보처 리과정이 필요하다. 특정 지역에 대한 웹 문 서를 수집하고, 수집한 문서에서 지식관계를 생성하는데 필요한 지명단어 및 비지명단어 를 정보검색시스템에 의미론적인 지역성 판 단 방법을 적용해 분류한다. 그리고 지명･비 지명단어 간 상호링크구조는 데이터마이닝 기법인 연관 규칙과 연관 클러스터를 적용 하여 생성한다(이정원외, 2001).

제3계층은 사용자가 실제로 지리･지역정 보를 검색하는데 이용하는 응용시스템으로, 현실과 지식계층에 접근할 수 있도록 구성 하였다 [그림 5]. 현실 공간에 대한 지도정보 제공 인터페이스와 지식계층의 상호링크구 조를 연관 단어 네비게이터 인터페이스를 통해 지식관계로 표현한 부분과 지리공간단 어와 관련 있는 웹 정보를 제공해주는 인터 페이스로 구성되어 있다.

3.2 가상 여행 시나리오

여행자는 기존의 지리정보시스템을 이용 하여 여행지를 살펴보고 관련 정보를 얻기

위해서 일반적으로 [그림 6]과 같은 계획을 세울 것이다. 우선 여행자는 경기도 문화재 에는 어떤 것들이 있는지 웹을 이용, 경기도 와 관련된 여행정보를 검색한다. 행주산성이 있다는 것을 알게 된 사용자는 행주산성과 관련된 웹 문서를 검색하고 , 행주산성을 찾 아가기 위해 GIS를 이용해 위치를 검색한다.

그리고 행주산성과 관련된 “권율”, “충장사”

등에 대한 추가적인 정보를 웹에서 다시 검 색한다 .

사용자는 정보검색시스템에서 여행을 위 한 지역정보를 검색하고, GIS를 이용해 해당 지역에 대한 공간정보를 검색하는데, 각각의 정보를 관련시켜 통합하는 번거로움이 발생 한다 . 또한, 검색한 정보와 관련성이 있는 추 가적인 정보를 얻기 위해서는 [그림 6]과 같 은 과정을 반복해야 하는 문제점이 있다.

본 논문에서 제안한 시스템은 이와 같은

일련의 과정을 쉽고 빠르게 검색할 수 있으

며 , 사용자는 통합된 GIS정보와 웹 정보를

직관적으로 얻을 수 있었다. 예를 들어, “경

기 21서치 2.0” 시스템에 “행주산성”을 검색

단어로 입력하면, 검색 단어를 중심으로 지

(7)

[그림 7] 연관 단어 네비게이터에서 제공하는 관련 단어 선택 과정 (경기도 → 경기문화유산 → 행주산성 → 행주대첩제)

[그림 8] “경기21서치 2.0” 검색 흐름

도 인터페이스, 연관 단어 네비게이터, 웹 정 보 인터페이스는 동시에 “행주산성”에 관한 정보를 검색한다. 특히, 연관 단어 네비게이 터는 검색 단어와 관련성이 가장 높은 지명 단어 및 비지명단어를 보여주고, 사용자는 단어 선택을 통해 지속적인 관련 정보검색 을 진행한다. [그림 7]은 “경기도”로부터 연 관 단어 네비게이터를 통해 “행주산성” 및 이와 관련된 다양한 정보를 검색할 때 단어 를 선택하는 과정이다.

여행자는 단어들 중에서 “경기문화유산”

을 선택하고, 연관 단어 네비게이터는 다시

“경기문화유산”이 검색 단어가 되어 관련성 이 높은 단어들을 보여준다. 그 중 “행주산 성”을 선택하면, 지도 인터페이스는 “행주산

성 ”에 대한 지리공간정보를 여행자에게 제 공하고 , “행주산성”과 관련된 비지명단어를 통해 “행주대첩제”라는 것이 있다는 것을 확 인하게 된다 . “행주대첩제”에 대한 자세한 정보는 웹 정보 인터페이스에서 확인할 수 있다 . [그림 8]은 단어 선택 과정이 “지식계 층 ”의 세부 구조에서 어떻게 진행되는지 보 여주고 있다.

4. 연관 단어 네비게이터 구축 방법

본 논문에서 제안하는 “지식계층”은 지명 단어 , 비지명단어, 웹 지리･지역정보가 상호 링크구조로 구축되어 있다. 사용자에게 지속 적인 정보검색이 가능하도록 해주는 계층으 로 , “응용계층”에서 연관 단어 네비게이터로 나타내어진다.

이번 장에서는 “지식계층”의 상호링크구

조를 구축하기 위해 다수의 지명 및 비지명

단어 사이의 관계를 찾아내는 알고리즘을

설명한다 . 본 논문에서는 “경기도”라는 특정

지역과 관련된 지리공간단어들로 구성된 연

관 단어 네비게이터를 구성했다. 이를 위해

(8)

[그림 9] 특정지역 관련 웹 문서 수집 과정

웹에서 경기도 지역과 관련된 문서를 수집

하였고 , 검색시스템을 이용해 지명 및 비지 명단어를 분류하였다. 또한, 단어 간 연관도 를 계산하는 방법으로 연관규칙과 유사도행 렬을 이용하였다. 이어지는 절에서 이들 각 각에 대해 구체적으로 설명한다.

4.1 특정지역 관련 웹 문서 수집

특정지역 관련 웹 문서 수집 방법으로 일 반적인 방법은 특정 지역과 관련된 문서 수 집에 기계학습을 이용하여 미리 학습하여 둔 카테고리 중 하나로 문서를 분류해 주는 자 동 분류를 이용하는 방법이다(은희주외, 2001).

각 문서에 나타나는 단어들의 특성과 미리 학습된 문서의 단어들 특성을 비교하여 유 사한 집합을 분류하던지, 시소러스를 이용하 여 특정 지역과 관련된 색인어 사전을 만들

어 각 문서에 색인어가 얼마나 분포하는가 를 통해 문서를 분류할 수 있다 . 하지만 이 런 방법들은 사전에 특정 지역과 관련 있는 문서를 어떻게 생성하는가 하는 문제와, 특 정지역에 대한 “시소러스”를 어떻게 구축하 느냐 하는 문제가 있다 .

본 논문에서는 사람이 특정지역과 관련 있다고 판단하는 의미론적인 방법을 고려하 여 , 다음과 같이 어떤 페이지가 “경기도”와 관련 있는 페이지인가를 판단하였다.

예를 들어, 웹 문서 내에 “경기도”라는 단 어가 존재한다면 적어도 그 문서는 “경기도”

와 관련 있다고 생각할 수 있다는 가정하에, 단어의 포함여부를 조사하였다. 그러나 어떤 문서에 “경기도”라는 단어는 존재하지 않지만,

“수원시”와 같은 행정명이나, “행주산성”, “수

원성 ”등의 문화재명, 그리고 “권율”, “경기문

화유산 ” 등의 특별한 단어가 존재한다면, 이

(9)

[그림 10] “경기도” 관련 단어 분류

문서도 “경기도”와 관련이 있다고 볼 수 있

다. 이처럼 경기도 행정명이나 그 외 문화적, 역사적인 건물명, 인물명 등을 포함하고 있 는 문서를 “경기도”와 관련된 문서로 본다 면, 우선 “경기도”와 관련된 단어 집합을 구 성해야 한다.

본 논문에서는 이러한 단어를 1:1,000 축 척의 경기도 수치지도에서 추출하였다. 수치 지도는 표준코드로 데이터가 분류되어 있어 정보 추출이 용이하고, 특정 영역에 대한 다 양한 정보를 자세히 포함하고 있기 때문에, 특정 지역을 대표하는 단어집합을 쉽게 구 축할 수 있었다. 그리고 구축된 단어집합을 이용해 웹 문서의 지역성을 판단하기 이전 에, 초기 URL이 특정지역과 관련성이 높은 경우 일정한 범위 내에서 수집되는 URL들 은 특정지역과 관련성이 높은 URL이 수집 된다(T. Tezuka, 2003). [그림 9]와 같이 정보 검색시스템에서 제공해주는 상위랭킹의 URL 을 수집하였고, 웹 로봇의 초기 URL로 시작 해서 반복적으로 웹 문서를 수집하였고, 웹 문서를 저장하는 과정에서 “경기도”와 관련 된 지명단어의 빈도수를 고려하여 웹 문서 의 관련성을 판단하였다.

4.2 특정 지역관련 지명 및 비지명단어 분류

“경기21서치 2.0” 시스템의 연관 단어 네 비게이터는 특정 지역과 관련된 단어 집합 을 지명 및 비지명단어로 분류하여 사용자 에게 제공하고 있다. 비지명단어는 실제로 지도상에 표시할 수 있는 지역명, 행정명, 문 화재명이고 , 지명단어는 지도에 표시되지 못 하는 단어들이다.

연관 단어 네비게이터를 구성하기 위해서 는 특정지역과 관련된 단어를 찾아야 하는 문제가 있는데, 이것도 앞의 특정지역과 관 련된 웹 문서를 찾는 문제와 마찬가지로 사 전에 학습된 단어집합이나, 시소러스를 이용 하는 등 한계가 있다 .

본 논문에서는 특정 지역과 관련된 단어 집합을 지명 및 비지명단어로 분류하는 방 법으로 정보검색시스템을 이용하여 자동으 로 분류하는 방법을 고려한다 [그림 10]. 정보 검색시스템은 사용자가 입력한 단어와 관련 있는 웹 문서를 찾아주는데 , 대부분의 시스 템들은 결과페이지에 단어와 관련된 웹 문 서에 대한 요약을 보여준다 . 따라서 요약 정 보에 “경기”, “경기도”에 대한 특정지역명이 일정 빈도수 이상 나타나면 , 그 단어는 지역 과 관련이 있다고 판단할 수 있다.

4.3 단어 연관도 분석

연관 단어 네비게이터는 4.2절에서 분류한

단어를 기반으로 [그림 4]와 같은 계층구조

(10)

[그림 11] 연관 규칙 표현 및 공간 구조

중에서 , 지명과 비지명단어에 대한 상호링크

구조를 표현한 인터페이스로 , 다음과 같은 관계를 생각해 볼 수 있다.

• 지명단어 → 지명단어

• 지명단어 → 비지명단어

• 지명단어 → 웹 지리･지역정보

“지명단어→지명단어” 관계는 두 단어가 동시에 출현한 문서의 수와 빈도수가 많은 경우에 생성되는 것으로, 본 논문에서는 이 를 “지역관계”라 한다. “지명단어→비지명단 어” 관계는 특정 지명의 특징을 설명할 수 있는 일종의 메타데이터이고, “지역특징”이 라 정의하였다.

사용자는 이러한 관계들로부터 새로운 지 식을 확인할 수 있다. 예를 들어, 지역관계로

“경기도→남한산성”을 살펴보면, 지명단어는 위치 정보를 가지고 있기 때문에 “남한산성”

은 경기도에 위치한 문화재임을 확인할 수 있다. 또한, 지역특징으로 “경기도→경기문 화유산”, “경기도→경기도 유례”와 같은 관계 가 있을 때, 이 관계로부터 지역에 관한 역사, 문화 등에 관한 정보를 유추할 수 있다 .

지명단어 (G)와 비지명단어(N), 그리고 웹 지리･지역정보들을 웹 정보공간(P-domain)이 라 하고, 지명단어를 현실공간(G-domain)으로 생각하면 , [그림 11]과 같은 관계도로 표현할 수 있다.

본 논문에서는 지식관계를 구축하기 위해 서 연관규칙과 유사도 행렬을 이용하여 단 어 간 연관도 분석을 실험하였다 . 결과적으로,

“경기21서치 2.0”시스템과 같이 특정지역에 특화된 시스템에서는 연관규칙보다 유사도 행 렬을 이용하는 경우가 더 성능이 높음을 확 인하였다 .

1) 연관규칙을 이용한 색인어간 연관도 분석

연관규칙은 백화점이나 슈퍼마켓에서 한 번에 함께 산 물건들에 관한 연관성을 찾아 내는 데이터마이닝 기술이다. 여기서 “한 번 에 함께 샀다”를 트랜잭션이라고 한다. 본 논문에서 다루는 지명 및 비지명단어가 한 번에 사는 장바구니에 들어있는 항목들이라 할 수 있고, 이 때 장바구니 하나에 들어가 는 단어들의 집합을 트랜잭션이라 한다.

연관규칙은 두 색인어 집합을 동시에 포 함하는 문서의 수를 전체 문서의 수로 나누 어준 지지도 (Support)와, 두 색인어 집합을 동 시에 포함하는 문서의 수를 한 색인어 집합 을 포함하는 문서의 수로 나누어준 신뢰도 (Confidence)라는 두 척도를 이용하여 찾아낸 다 . 본 논문에서는 연관규칙을 찾는 대표적 인 알고리즘인 apriori 알고리즘을 적용하여 단어 간 연관 관계를 추출하였다 .

본 논문에서는 apriori 알고리즘에 최소지

지도와 최소신뢰도를 변경하면서 실험한 결

과 다음과 같은 문제점을 발견하였다. 최소

지지도 0.04, 최소신뢰도 7에 대해 “행주산

성 ”과 연관된 단어를 추출하면, {고양시, 일

산구 , 덕양구, ..., 부근, ..., 행주대첩비, 행주

대첩제 , 행주문화제, 열린마당}과 같이 73개

(11)

<표 1> “행주대첩비”와 “행주산성”을 동시에 포함하는 문서의 정보

색인어

문서 ID 행주대첩비 행주산성

2310 1 회 15 회

3048 2 회 2 회

5825 4 회 11 회

<표 2> “부근”과 “행주산성”을 동시에 포함하 는 문서의 정보

색인어

문서 ID 부근 행주산성

2225 1 회 1 회

2993 1 회 4 회

4116 4 회 3 회

5823 4 회 3 회

5825 2 회 11 회

<표 3> 고양시 관련 문서에 출현하는 단어의 정보

색인어 출현 문서 수

부근 32 개

행주대첩비 3 개

행주산성 42 개

의 단어가 추출된다. 좀 더 연관이 높은 단 어만 추출하기 위해 최소지지도와 최소신뢰 도를 각각 0.05, 8로 높여주면, {고양시, 일산 구, 덕양구, ..., 부근, ...}과 같이 28개의 단어 가 추출된다.

전자의 경우에는 “행주산성”과 연관성이 있는 단어로 “행주대첩비”, “행주대첩제”, “행 주문화제 ”, “부근” 등의 단어가 추출되었으 나, 후자의 경우에는 “부근”만 추출되었다.

“부근”이 “행주대첩제”, “행주문화제”보다 연 관도가 더 높게 계산되었기 때문인데, <표 1>

과 <표 2>에서 보면 “행주산성”과 “행주대첩 비 ”는 전체 문서집합 중에서 총 3개, “행주 산성 ”과 “부근”은 5개만큼 같은 문서에 출현 했음을 볼 수 있다 . 즉, apriori 알고리즘에서 는 “행주산성”에 대해서 “행주대첩비”보다

“부근”의 신뢰도와 지지도가 더 높고, 연관 도가 더 높게 계산 될 수밖에 없다. 그런데

“부근”이라는 단어는 경기도 관련 웹 문서에 일반적으로 나타나는 단어일 뿐 “행주대첩 비 ”보다 “경기도”와 관련성이 적다고 볼 수 있다 . 이러한 결과는 <표 3>과 같이 “행주대 첩비 ”는 단지 3개의 특정 문서에만 나타나는 단어로서, 일반적으로 많은 문서에 나타나는

“부근”등의 단어보다 “행주산성”과 트랜잭션 이 발생할 확률이 낮을 수밖에 없다 . 따라서 연관 규칙을 이용한 단어 간 연관도 계산은 본 시스템에는 정확하다고 보기가 어렵다.

2) 유사도 행렬을 이용한 색인어간 연관도 분석

앞에서 연관 규칙을 구하는 apriori 알고리 즘을 이용하여 단어 간 연관도를 계산하는 방법은 적절하지 않다는 것을 보았다 . 이제, 연관도를 계산하는데 각 문서에 출현하는 단어들의 빈도를 고려하기 위해 단어-문서 행 렬을 만들고 그 것의 전치행렬과 곱을 하여 단어 -색인어 행렬, 즉, 유사도 행렬을 만든 다 . 이 행렬의 요소는 “같은 문서에 단어가 어느 정도의 빈도수만큼 나왔는가”하는 척 도가 된다.

유사도 행렬은 “두 용어가 공기(共起)하는

문헌의 수 ”와 같은 용어 간 관련도를 나타낼

수 있다 . 기본적인 착안은 문헌 내에 자주

공기하는 용어들이 동의어 관계를 갖는다는

(12)

가정에 근거한다. 우선 ① 문서 D

j

에 색인어 W

i

가 출현하는지 빈도를 측정하여 행렬 M

ij

를 만들고, ② M

ij

의 전치행렬 M

^tij

를 만든다.

③ 두 행렬의 곱 S=M

ij

×M

^tij

를 만들면, 행렬 S 의 각 요소는 두 단어가 같은 문서에 얼마나 많이 출현했는가를 나타내는 척도가 된다.

③과정의 결과 행렬로부터 W

i

와 연관이 높 은 명사는 i열에서 가장 값이 큰 순서대로 추출하면 된다.

유사도 행렬에서는 두 단어가 동시에 많 은 문서에 나타날수록 두 단어 간 연관도가 높아진다 . 각 문서에 나타나는 횟수도 연관 성에 기여하므로, 여러 문서에 나타나지 않 더라도 한 문서에 많이 나타나면 강한 연관 성을 갖게 된다. “행주산성”과 “부근”, “행주 대첩비 ”에 관한 유사도 행렬을 만들고, <표 1>과 <표 2>로부터 연관도를 계산하면 다음 과 같이 구할 수 있다.

• “행주산성-행주대첩비” :

 ×    ×    ×   

• “행주산성-부근” :

 ×    ×    ×    ×    ×   

이와 같이 유사도 행렬에서는 동시에 출 현하는 문서가 적다고 해도 , 동일 문서에서 출현 빈도가 높게 나타난다면 연관도가 높 게 계산 될 수 있음을 확인할 수 있다.

3) 비교

위의 두 가지 방법을 통해서, “행주산성”

이라는 단어에 대해 “부근” 보다는 “행주대 첩비”라는 단어가 더 연관도가 높게 계산되 는 유사도 행렬을 이용한 방법이 본 시스템

에 더욱 적합하다고 볼 수 있다. “행주산성”

이라는 단어는 문화적, 지리적, 역사적으로 특수한 단어로서 “경기21서치 2.0”에서는 특 별히 의미 있는 단어 중에 하나이다. 이런 단어가 높은 빈도로 나타나는 문서에는 “행 주산성 ”과 같이 문화적, 지리적으로 특수한 단어가 많이 나타날 확률이 높다. “행주대첩 비 ”는 특수한 단어들 중 하나라 볼 수 있다.

하지만, 단순히 “행주산성”이라는 단어가 출현한 문서라고 해서 나타날 확률이 높은 것은 아니다. “행주산성”이라는 단어가 1～2 회의 빈도로 밖에 출현하지 않는 문서들은

“행주산성”이 그 문서에서 차지하는 비중이 낮기 때문에 “행주산성”과 관련된 문화적, 지리적 단어들이 나올 확률이 적게 된다. 하 지만 , “행주산성”이 비교적 높은 빈도로 나 타나는 문서에서는 “행주산성”을 비중 있게 다루고 있기 때문에 관련 있는 특수한 단어 들이 많이 포함되어 있을 확률이 높다. 이것 은 어디까지나 “행주산성”이라는 단어가 갖 는 특수함 때문이라고 할 수 있으며, 그 특 수함이란 문화적, 지리적, 역사적으로 의미 가 있다는 것을 말하고, 본 시스템에서는 이 런 단어들을 더욱 중요하게 취급하므로, 키 워드 간의 연관도를 계산하는데 유사도 행 렬을 만드는 방법이 더욱 정확하다고 할 수 있다 .

5. 결론 및 향후과제

본 논문에서는 웹 지리･지역정보로부터 “현

실 ”, “지식”, “응용”의 3-계층 공간 모델을 제

안하였다 . 각각의 공간은 상호 연관성을 가

지고 유기적으로 연결되어 있고, 이를 기반

(13)

으로 GIS와 정보검색시스템을 통합하여 지 도 검색을 통해 얻을 수 있는 공간정보와 이 와 관련된 웹 정보를 동시에 검색하는 “경기 21서치 2.0” 시스템을 제안하였다.

이 시스템은 지도, 연관 단어 네비게이터, 웹 정보 인터페이스로 구성되어 있으며, 각 각의 인터페이스가 상호연동하면서 사용자 에게 지역정보를 제공하는 특징을 가지고 있다. 특히, 연관 단어 네비게이터의 경우 사 용자가 검색하고자 하는 지역을 중심으로 지 명단어와 비지명단어로 분류하여 제공함으 로써, 사용자는 지리정보뿐만 아니라 지역과 관련된 문화, 예술, 역사에 관한 추가적인 정 보도 함께 얻을 수 있다는 장점을 가지고 있 다. 또한, 검색하는 과정에서 의도하지 않은 지역정보도 획득이 가능한 시스템이다. 연관 단어 네비게이터를 구축하기 위해서 지역 관계 분석과 지역 특징을 대표하는 단어들을 추출하고, 연관규칙을 생성하기 위해서 apriori 알고리즘과 유사도 행렬을 이용한 방법을 적 용하였고 , “행주산성”, “행주대첩비”와 같이 문화적 , 역사적으로 중요한 단어들에 더욱 높은 연관도를 부여 할 수 있는 유사도 행렬 을 이용한 방법이 결과가 더 좋다는 것을 보 였다.

이상으로 “경기21서치 2.0”은 기존의 GIS 와 웹을 통합하여 보다 효율적인 지역정보 를 검색 할 수 있었고, 다양한 인터페이스와 검색 방법을 제공함으로써 앞으로 검색 인 터페이스와 검색 방법을 크게 발전시킬 수 있을 것이다.

향후과제로는 새로운 검색 인터페이스로 써 지도상에 영역지정으로 쿼리를 입력하는 방법인 MBR을 이용한 지도검색에 대한 연 구를 할 예정이고, 이와 함께 웹 문서가 구

체적으로 어떤 지역과 가장 밀접하게 관계 된 것인지를 판단하는 연구도 진행할 예정 이다 . 또한, 키워드 인터페이스에서 단어 간 의 연관도를 계산하는데 지명단어간의 거리 를 새로운 인자로 고려하여 좀 더 다양한 연 관도 계산 방법을 찾는 것도 연구과제이다.

사 사 (謝辭)

본 논문은 2005년도 한국항공대학교 교비 지원 연구비에 의하여 지원된 연구의 결과 입니다 .

참고문헌

김은형, 2008, “맞춤형 지리정보 제공서비스 모 델연구”, 한국GIS학회, pp.150-158.

고수정･최준혁･이정현, 2001, “연역적 유전자 알고리즘을 이용한 연관 단어 지식베이스 의 최적화”, 정보과학회논문지, 제28권 제 8호, pp.560-569.

안재성･이양원･박기호, 2006, “지역분석을 위 한 시계열 공간연관성 탐색도구”, 한국GIS 학회지, 제14권 제1호, pp.163-176.

양단희･김연수, 2008, “GIS의 진화: Geospatial Web

& u-GIS”, 인터넷정보학회지 제9권 제1호, pp.44-55.

은희주･하얀･김용성, 2001, “퍼지함수에 의한 질의어 확장과 문서 분류 알고리즘”, 한국 정보과학회 논문지 제28권 제3호, pp.272-284.

이정원･김호숙･최지영･김현희･용환승･이상 호･박승수, 2001, “데이타마이닝 알고리즘 의 분류 및 분석”, 정보과학회논문지 제28 권 제3호, pp.279-300.

Chuang Wang, Xing Xie, Lee Wang, Yansheng Lu,

(14)

Wei-Ying Ma, 2005, “Detecting Geographic Locations from Web Resources”, Proceedings of the 2005 workshop on Geographic information retrieval . pp.17-24.

Einat Amitay, Nadav Har’El, Ron Sivan, Aya So- ffer, 2004, “Web-a-Where: Geotagging Web Content”, 27th International ACM SIGIR Con- ference on Research and Development in In- formation Retrieval, pp.273-280.

Karla A.V. Borges, Alberto H.F. Laender, Claudia B. Medeiros, Clodoveu A. Davis Jr, 2007, “Dis- covering Geographic Location in Web Pages Using Urban Addresses”, Proceedings of the 2007 workshop on Geographic information retrieval, pp.31-36.

T. Tezuka, R. Lee, H.Takakura, and Y. Kam- bayashi, 2003, “Integrated Model and Impl- ementation of a Region Specific Search Systems

and It’s Implementation,” 3th IRC Interna- tional Conference on Internet Information Re- trieval, pp. 243-248.

Wenbo Zong, Dan Wu, Aixin Sun, Ee-Peng Lim, 2005, “On Assigning Place Names to Geo- graphy Related Web Pages” JCDL’05, pp.354 -362.

Y. Kambayashi, R. Lee and T. Tezuka, 2002, “Ge- neration of Location-Related Knowledge from Web Contents”, The NSF-OntoWeb Invitational Workshop on DB-IS Research for Semantic Web and Enterprises.

접수일 (2009년 2월 2일) 최종수정일 (2009년 4월 15일) 게재확정일 (2009년 4월 20일)