다가오는 지식경제사회에서는 디지털 정보가 필수적인 자원이며, 정보의 효율적인 유통과 재활용을 통한 지식의 재생산 구조의 확립이 미래의 국가 경쟁력을 결정짓는 중요한 밑거름이 될 것이다.
온톨로지 기술 언어의 특징과 최근 표준화가 진행되고 있는 OWL2 의 특징을 살펴보고, 다양한 온톨로지 표현 언어와 표현력, 추론 능력에 대해서 살펴보았다.
Linked Data 는 정보의 표준화를 통해 다양한 유관 기관의 정보 연계 및 활용을 확산함으로써 국가 경쟁력 확보에 도움을 중 수 있다. 이를 위해서는 각 기관이 보유하고 있는 가치있는 자원을 서로 공동 활용하고자 하는 노력이 요구된다. 이를 위해서 Linked Data 의 출판 원칙과 해당 프로젝트에 참여하고 있는 데이터 셋을 확보하고 이를 보유하고 있는 트리플 스토어에
저장하였다. 또한 서비스와 LOD 데이터의 연계를 통해 보유 자원의 활용성을 극대화하는 것은 물론 개체 식별 과정에서도 DBpedia 의 정보를 활용하기 위한 연구도 수행하였다.
정확한 정보 서비스를 제공하기 위해서는 다양한 전거 데이터, 어휘 자원, 그리고 개체를 식별하기 위한 기술이 필요하다. 특히 시맨틱 웹 기반의 다양한 정보 서비스를 제공하기 위해서는 중요한 개체들은 URI 기반으로 정확하게 관리되고 연계되어야 한다. 본 연구에서는 전거데이터를 구축하고 개체자원 중 저자식별의 객관성을 확보하고 기술의 정확한 평가를 위해서, 대용량성과 출현 저자명의 다양성이 보강된 새로운 저자식별 평가셋을 구축하였다. 새롭게 구축된
평가셋은 DBLP 데이터에 출현한 고빈도 저자명들에 대해 웹 검색을 통한 수작업 식별 과정을 거쳐 만들어졌으며, 저자식별
평가셋의 구축 절차, 특성 및 저자식별 성능을 기술하였다.
[참고 문헌]
[1] T. Berners-Lee, J. Hendler, and O. Lassila, “The Semantic
Web”, Scientific American Magazine May, 2001.
[2] Y. Song, J. Huang, I. Councill, J. Li and C. L. Giles, "Efficient top
ic-based unsupervised name disambiguation", In Proceedings of the
ACM IEEE Joint Conference on Digital Libraries(JCDL), 2007(6).
[3] H. Han, H. Zha and C. L. Giles, "Name disambiguation in author citations using a k-way spectral clustering method", In Proceedings of the ACM/IEEE Joint Conference on Digital Libraries(JCDL), pp.334 -343, 2005(6).
[4] D. W. Lee, B. W. On, J. W. Kang and S. H. Park, " Effective and scalable solutions for mixed and split citation problems in digital
libraries", In Proceedings of the International Workshop on
Information Quality in Information Systems(IQIS), pp.69-76, 2005(6).
[5] P. Kanani and A. McCallum, "Efficient strategies for improving
partitioning-based author coreference by incorporatingWeb pages as graph nodes", In Proceedings of the 6th InternationalWorkshop on Information Integration on the Web(IIWeb-07), 2007(7).
[6] D. M. McRae-Spencer and N. R. Shadbolt, "Also by the same author:
AKTiveAuthor, a citation graph approach to name disambiguation", In Proceedings of ACM/IEEE Joint Conference on Digital Libraries (JCDL), pp.53-54, 2006(6).
[7] D. A. Pereira, B. Ribeiro-Neto, N. Ziviani, A. H. F. Laender, M. A.
Goncalves and A. A. Ferreira, "Using web information for author name disambiguation", In Proceedings of ACM/IEEE-CS Joint
Conference on Digital Libraries(JCDL), pp.49-58, 2009(6).
[8] J. Huang, S. Ertekin and C. L. Giles, "Efficient name disambiguation for large scale databases", In Proceedings of the 10th European
Conference on Principles and Practice of Knowledge Discovery in Databases(PKDD), pp.536-544. 2006(9).
[9] Y. F. Tan, M. Y. Kan and D. W. Lee, "Search engine driven author disambiguation", In Proceedings of ACM/IEEE Joint Conference on Digital Libraries(JCDL), pp.314-315, 2006(6).
[10]M. Ley, "DBLP - some lessons learned", In Proceedings of InternationalConference on Very Large Data Bases(VLDB), 2009(8).
[11] V. Petricek, I. J. Cox, H. Han, I. G. Councill and C. L. Giles, "A comparison of on-line computer science citation databases", In Proceedings of the 9th European Conference on Research and
Advanced Technology for Digital Libraries(ECDL), 2005.
[12]O. Fatemieh, K. Manzoor, A. Jain and A. Ramani, "Home Page
Finder. University of Illinois at Urbana-Champaign", 2005.
[13]강인수, "한글 저자명 군집화를 위한 계층적 기법 비교", 정보관리 연구, 제40권, 제2호, pp.95-115, 2009.
[14]I. S. Kang, S. H. Na, S. W. Lee, H. M. Jung, P. Kim, W. K. Sung, J. H. Lee, "On co-authorship for author disambiguation", Information Processing and Management, Vol.45, No.1, pp.84-97, 2009.
[부록]
Airport Data SPARQL Airport Data
BAMS BAMS
during Hackday, 2007 Music Related
BBOP All OBO ontologies Open Biomedical
Ontologies
Challenge various dumps building billion triple challenge datasets for
Dataset online end-user applications
Bio2RDF various bio- and gene- related datasets
bioinformatics integrated data by applying the
Semantic Web
Bitzi collaborative file
describing service digital media encyclopedia
Chef Moz
290344 restaurants - 104856 reviews - 59243 links to reviews - 2402 editors
abstracts in 14 different languages
DMOZ RDF
Dump DMOZ Open Directory Project
DOAP Store
Entrez Gene Select fields from Entrez
Gene records database of genes
Entrez Gene
more... (tab delimited file)
the Drosophila Testis Gene Expression
European Bioinformatics Institute (EBI)
GovTrack.us about the U.S. congress US Congress' activities
HCLSIG LODD
group various dumps Linking Open Drug Data
Homologene
LinkedCT Linked Clinical Trials clinical
LinkedMDB Linked Data about
papers indexed by Medicine
Medline extracted from applied to 7% of Medline
records (SC)
neuroscience-related PubMed
NLM 2007
MeSH NLM 2007 MeSH Medicine
OpenCyc
OpenCyc is the open source version of the Cyc
technology, the world's Project is the largest,
most comprehensive human-edited directory
human-edited directory of the Web
of the Web. It is
previous blog entries due to a hard drive crash
RKB Explorer Data
25 different domains, each with a separate data set. The data sets are focused on
scientific research; these include DBLP, Citeseer, CORDIS, NSF, EPSRC,
how to download??
RAE2001, KISTI, UNLOCODE, Wordnet, voiD, OS.
Rpm Find data exposed? generates Web pages
describing a set of RPM packages contents, as well as few items referred to by
events.
Texai Lexicon OpenCyc if the entry is has been mapped to
UniProt a large life sciences
data set protein sequence
U.S. Census data
population statistics at various geographic levels, from the U.S. as
a whole, down through states, counties, sub-counties (roughly, cities and incorporated towns)
U.S. SEC data corporate ownership
stock ownership of
from Wikipedia conversion of the English Wikipedia into RDF
Yale Senselab Yale Senselab data from NeuronDB, ModelDB BrainPharm
Airport Data SPARQL Airport Data
Billion Triples Challenge Dataset
various dumps building billion triple challenge datasets for
online end-user
applications
Bio2RDF various bio- and gene- related datasets
bioinformatics integrated data by applying the
Semantic Web
Bitzi collaborative file
describing service digital media encyclopedia
the Drosophila Testis Gene Expression
European Bioinformatics Institute (EBI) HCLSIG LODD
group various dumps Linking Open Drug Data
Homologene
Open Directory
The Open Directory Project is the largest,
most comprehensive
previous blog entries due to a hard drive crash
RKB Explorer Data
25 different domains, each with a separate data set. The data sets are focused on
Rpm Find data exposed? generates Web pages
describing a set of RPM packages
sub-counties (roughly, cities and incorporated towns)
[ISBN 978-89-6211-563-5]