PageRank Ontology property change frequency Authority Query(predicate) history

(표 3-4) 기존의 Web Crawler와 본 연구에서 개발한 crawler와의 비교 (나) 설계

(그림 3-5)는 본 과제의 전체 설계를 나타내는 블록 다이어그램이다. Publication Layer에 서 Resource List Manager는 시스템에서 요구하는 데이터들의 redirect 주소를 관리한다.

Data Monitoring Layer에서 Change Detection Manager는 개별 데이터의 change frequency 를 측정하고, 또한 Ontology Manager로부터 전달받은 domain 레벨과 Ontology property 레

벨의 change frequency를 관리한다. Integration Layer에서 Adaptive Crawling Manager는 주 기적으로 데이터를 크롤링하는데 Data Monitoring Layer에서 관리하는 document table를 근 거로 효율적이고 선택적인 크롤링을 하여 out-of-update 문제를 해결한다.

(그림 3-5) RDF 크롤러 설계 다이어그램

① RDF Storage Manager

(그림 3-6) LOD Cloud에서 Freebase와 DBpedia의 관계

본 과제에서 데이터를 구축하기 위하여 DBpedia²⁾와 Freebase³⁾(그림 3-6)의 데이터를 위주로 구축하였다. 그리고 사용자의 상황정보 모델로서 시멘틱 저장 및 질의처리를 할 수 있는 온톨로지(Ontology) 언어를 활용하여 상황정보 모델을 설계하여 사용자 프로필을

사진 관련 도메인의 데이터들도 추가적으로 구축할 계획이다.

우선 change detection 메커니즘에 필요한 데이터 분석을 위해 Ldspider crawler와 Jena API를 이용하여 소규모의 DBPedia와 Freebase 위주의 데이터를 주기적으로 2시간 간격으 로 데이터를 수집하여 데이터들 각각의 change frequency를 측정하고 그 외적인 요소들 을 살펴보았다.

RDF Storage Manager는 Crawling된 Document들을 SPARQL 질의를 위하여 RDF Storage에 저장하고 관리하는 역할을 담당한다. 중앙집중식 기반의 저장기술 방식인 Sesame API를 사용하여 SPARQL 질의처리가 가능한 중앙집중식 저장소를 구축하고 OWL DLP 레벨까지의 리즈닝이 가능하게 한다. Adaptive Crawling Manager에서 크롤링 된 데 이터는 Ontology Manager와 Chagne Dectection Manager를 거쳐 RDF Storage Manager에 전달이 되고 Document 레벨로 크롤링 된 데이터를 entity 레벨의 데이터로 저장하여 SPARQL 질의를 가능하게 한다.

② Resource List Manager

Resource List Manger는 주기적으로 Crawling 해야하는 Document들의 접근주소를 관리 하는 역할을 담당한다. LDspider crawler⁴⁾(그림 3-7)와 각각의 도메인이 제공하는 RDF Dumps(Jena API)를 이용하여 각각의 시스템마다 필요한 Resource List를 발견하고 주기적 으로 업데이트 해준다.(크롤링할 LOD의 URI를 관리)

(그림 3-7) LDspider의 크롤링 예제

③ Ontology Manager

Ontology Manager는 2가지의 역할을 담당한다(온톨로지 예제: 그림 3-8). 첫째, 현재 전 세계에 분산되어 있는 200여개의 LOD 도메인들은 각각의 데이터의 종류와 목적이 다르 기 때문에, 위(2.2)의 데이터 분석대로 도메인마다 평균 Change frequency의 값이 현저히 차이가 난다. Ontology Manager는 Change Detection Manager에서 최종적으로 Adaptive Crawling Manager에 필요한 도메인 변수를 제공하기 위해 평균 도메인 change frequency

4) R. Isele, J. Umbrich, C. Bizer, and A. Harth. Ldspider: An open-source crawling framework for the web of linked data. In 9th International Semantic Web Conference (ISWC2010)

를 관리한다. 둘째, 각각의 도메인의 Onotology를 관리하고 각각의 Ontology의 Property에 해당하는 인스턴스별로 Change frequency를 측정하여 Ontology의 property 레벨의 중요 성을 판단하여 더 효율적이고 선택적으로 document를 crawling할 수 있도록 각각의 property레벨의 change frequency를 관리한다.

(그림 3-8) Freebase: Video Game Ontology 예제

④ Change Detection Manager

Change Detection Manager는 각각의 Document의 Change frequency를 분석하여 Adaptive Crawling Manager에 각각의 Document를 선택적으로 crawling하는데 필요한 변 수를 최종적으로 제공하는 역할을 담당한다.

⑤ Adaptive Crawling Manager

Adaptive crawling Manager는 Change Detection Manager에서 관리하는 Document change frequency Table을 참고하여 효율적이고 선택적으로 Resource List에 명시된 데이 터를 크롤링하는 역할을 한다. 또한 지속적인 데이터 축적을 위해 Ontology Manager와 Change Detection Manager에 크롤링한 데이터를 전송하여 실시간으로 데이터들의 change frequency 값을 조정한다.

즉 데이터의 변화 빈도(change frequency)와 중요도를 이용하여 fr_max를 계산하고 LOD를 선택적으로 크롤링 한다.

(다) 구현 평가

① 평가 방법

를 비교하였다.

또한 기가바이트의 데이터에 효율적으로 크롤링 하기 위하여 본 과제의 change detection 메카니즘의 3가지 변수를 채택하였다. 첫째, 데이터 개별의 change frequency, 둘째, LOD 도메인의 평균 change frequency, 셋째, Ontology 각각의 property에 대한 인 스턴스들의 change frequency. 이 3가지 변수설정의 타당성을 설명하기 위하여 데이터를 분석하였다.

•

datasets

•

http://rdf.freebase.com/:1100documents

•

http://dbpedia.org:1800documents

•

http://www4.wiwiss.fu-berlin.de:108documents

•

Others : 100 document

② 평가 결과

(그림 3-9) 선택적 크롤링 vs 실시간 크롤링 오버헤드 및 Freshness 비교

(그림 3-10) 3000여개의 Linked Data의 change frequency(54 주기)

(그림 3-11) Freebase vs DBpedia change frequency 비교

데이터 분석결과, (그림 3-9)에서와 같이 본 과제가 제안한 방안이 기존방안의 약 32%

정도의 데이터 오버헤드로 약 93%의 Freshness를 보장하였다. 이는 데이터의 다이나믹 정도에 따라서 다르게 나타날 수 있다. 데이터의 change frequency의 평균값이 높고 다이나믹 할수록 선택적 크롤링 기술이 더 좋은 결과를 낳을 수 있다.

또한 (그림 3-10, 그림 3-11)에서 알 수 있듯이 약 21%의 데이터가 변화하였고 약 12%

데이터는 실시간으로 변화하는 것을 볼 수 있었고 5∼6% 데이터의 change frequency가 다이나믹하게 변화하였고 특히 다른 도메인마다 평균 change property값이 현저히 차이가 났다.

(2) 2차년도 : OWL DL 온톨로지 기반 기가바이트 데이터 질의처리의 고도화를 위한 로드밸런싱 기술 개발

(가) 기술 개요

미래 인터넷 환경에서는 가상세계의 지식정보, 다양한 스마트 IoT가 생성하는 데이터, 다 양한 어플리케이션/서비스들이 제공하는 데이터, 기존의 knowledge based로부터 얻을수 있 는 데이터 등등이 현실세계의 상황정보를 인지하는데 중요한 단서가 된다.

이러한 정보들간의 효과적이고 유기적인 관계를 표현하고 시맨틱한 데이터 검색과 질의 처리를 하기 위하여 데이터들을 Linked Data화(그림 3-12)하여 사용자들에게 제공하는 것이 미래 인터넷에서의 중요한 트렌드중에 하나이다. 그리하여 이러한 데이터의 이식성, 이질적

현재 Linked Data들을 효과적으로 저장하고 보다 시맨틱한 질의처리를 위한 연구들이 활 발히 진행중이다. Linked Data는 일반적으로 RDF형식으로 저장을 하는데 RDBMS와 같은 중앙집중식의 저장방식과 DHT, Hadoop과 같은 분산 저장방식이 있다. 또한 이러한 저장소 에 질의처리를 하기 위한 연구중에는 warhousing과 같은 중앙집중식 질의처리와 Virtual Integration과 같은 분산통합식의 질의처리기술이 있으며 각각의 장단점이 있다.

(그림 3-12) Linked Open Data Cloud 개념도

Warehousing방식 크롤링 기술은 스마트 IoT 데이터와 같이 잦은 데이터 변화에 대한 높 은 Freshness 요구 급증하고 있는 가운데 주기적인 crawling에 의존하여 데이터를 업데이트 하고 있다. 또한 Document와 Entity의 change Frequency 차이를 두지 않아 Linked Data의 시맨틱한 특성을 활용하여 데이터를 크롤링하는 기술이 전무하다. 따라서 Linked Data의 정확한 change frequency 측정을 위한 가변적 Linked Data 업데이트 모니터링 기술이 필요 하고 Document레벨과 Entity레벨의 change frequency를 동시에 고려하여 선택적으로 re-crawling하는 기술이 필요하다. 본 연구에서는 가상세계 데이터 및 스마트 IoT 데이터 질의를 위한 Warehousing 방식의 질의 처리기술의 out-of-update 문제를 해결하기 위한 선 택적 크롤링 기술 개발을 목표로 연구를 진행하였다. 기존의 Web Crawler는 PageRank를 위주로 중요도를 측정하여 웹페이지를 선택적으로 크롤링 하였지만 제안하는 LOD crawler 는 Linked Data의 시맨틱한 특성을 활용하여 Ontolog property change frequency와 query history를 이용하여 중요도를 측정하여 Linked Data의 Entity Level의 선택적 크롤링이 가능 하게 하였다.

구체적인 요구사항으로는, 첫째, 위에서 제시한 현황에 비추어 볼 때 Virtual Integration과 같은 분산통합식의 질의처리기술은 질의처리의 속도가 너무 느리다는 점이 가장 큰 단점이 다. 분산통합식의 질의처리기술은 네트워크상에서 캐싱 혹은 멀티캐스트 같은 네트워크레 벨 차원의 지원이 없이 현재 기술로는 속도의 향상이 함든 상황이다. 그렇기에 본 과제는 warehousing의 중앙집중식 질의처리 기술에 초점을 맞추었다. 중앙집중식질의처리 기술의 가장 큰 문제점 두가지는 데이터의 확장성과 ou-of-update 문제이다. 중앙집중식 질의처리 기술은 현 시점의 시맨틱 데이터 규모를 지원 할 수 있기 때문에 데이터 확장성보다는

out-of-update 문제를 풀어나갈 수 있다.

둘째, 대규모의 스마트 IoT가 생성하는 동적인 데이터를 Linked Data화하여 확장성 있게 분 산 저장하고 기존의 Linked Data 저장소 간의 이질성 문제를 해결하는 효율적인 질의처리 가 가능한 저장소 기술이 고안되어야 한다.

또한 특정장소의 기본정보, 주변의 Smart Object 상태정보와 Placeness를 Linked Data화하 여 저장, 시맨틱 질의를 가능케 하여 새로운 장소에서 장소성을 추론하기 위한 context provider 역할을 담당해야 한다. 장소성을 추론하기 위해 질의시 질의에 맞는 데이터가 존 재가 하지 않을 경우, 혹은 predicate의 이질성 문제가 발생한다. 관련된 링크드 데이터를 즉시적으로 크롤링 하거나, 유사한 질의 응답을 해주는 것이 필요하다.

결론적으로 2차년도 연구에서는 특정장소의 기본정보 및 주변의 Smart Object 상태정보를 통해 Placeness정보를 Linked Data화하여 저장하고, 사용자가 새로운 장소에 왔을 때 주변 상황을 인지하여 시맨틱 질의를 통해 현재 Placeness에 맞는 activity리스트를 추출하는 기 술을 제안하고 있다. Placeness정보를 구축하기 위해서는 Activity정보, 사용자 정보, 장소 정보, Smart Object의 상태정보, 관련 LOD정보 등등이 필요한데 그 중 Smart Sensor에서 실시간으로 생성되는 Stream Data의 데이터량이 매우 크기 때문에 모든 Stream Data를 저 장할 경우, 확장성 문제 및 시맨틱 질의 속도에 악영향을 준다. 2차년도 연구는 1차년도의 out-of-update문제를 해결하는 문제를 기반으로 Event-based Adaptive Crawling 기법을 활 용하여, 우선 Ontology 모델을 통해 Smart Object간의 관계성을 모델링하였고, Event-based Data의 특성을 활용하여 Placeness 정보에 필요한 Stream Data 를 선택적으로 크롤링하여

문서에서 R&D연구결과보고서 (페이지 80-125)