평가셋 구축 - 개체 식별 - Linked Data를 위한 인프라 구축 및 개체식별 활용 방법

4. 개체 식별

4.2. 평가셋 구축

이 ^장에서는 ^신규 저자식별 ^평가^셋 구축의 관^련 연구로 기존 저자식별 연구에서 사용된 ^평가^셋들의 특성을 기술한다. ^새로^운 저자식별 ^평가^셋 구축 과정은 다음과 같다.

단계-1^: 논문서지^집합 결정

단계-2^: 저자명^집합 결정

단계-3^: 저자명개체^집합 생성

단계-^4: 저자식별 정보 수^집

단계-5^: 저자식별자 부^착

단계-6^: 검증 및 단계-5 반^복

[단계-1]은 ^평가^셋 구축의 대상이 될 저자명이 출현한 논문의 서지^레코드 ^집합을 결정하는 단계이다. 이를 위해 ^Ar^Xi^V, ^CiteSeer,

CS BiBTe^X, DBLP, N^CSTRL 등의 기존 서지데이터^베이스를 비^교 검^토하^였으며, 정확성, 공용성, 대용^량성, 획^득용이성, 대중성 등을

동시에 고^려하여 DBLP 데이터를 논문서지^집합의 ^모집단으로

선정하^였다. DBLP 는 2009 년 현재 ^백이^십만 편 이상의 전산학 분야 논문의 서지^레코드를 수작업 구축하여 온라인 서비스하는 사이^트이다. 2007 년 ^후반 원^천 서지^집합인 DBLP 로부터 논문서지^레코드를 다^운로^드 ^받아 87 만여편에 달하는 논문서지^집합(DBLP-Bi^b)을 확보하^였다.

[단계-2]는 DBLP-Bi^b 에 출현한 저자명 중 ^평가^셋에 ^포함시^킬 저자명^집합을 ^선정하는 과정이다. 저자식별문제를 ^탐구하는 관점에서 다양한 저자중의성을 ^갖는 저자명이 ^평가^셋에

포함되어야 할 것이다. ^또한 같은 수준의 저자중의성을 ^갖는 다양한 ^크기의 ^동명저자명개체^집합들이 ^평가^셋에 ^포함되어야 할 것이다. 그 이유는, 예를 들어 저자명 ^J. Smit^h 의 저자중의성이 2 라 하더라도 ^J. Smit^h 가 출현한 논문(^동명저자명개체^집합)의 수가 2 인 경우와 200 인 경우의 저자식별문제의 어^려움은 ^큰

차이가 있을 것이기 때문이다.

그러나 저자명에 대한 실^세계 저자로의 대^응이 확인되기 전에는 저자중의성을 ^알 수 ^없으^므로 [단계-2]에서 전술한 두 가지 인자를 고^려하기에는 어^려움이 따^른다. 이 문제를 다루기 위해, ^“저자명 출현 ^회수와 저자중의성은 비^례할 가^능성이

크다^”는 가정에 기^초하여 DBLP-Bi^b 내 저자명 출현 고^빈도

순으로 상위 1000 개 저자명을 추출하여 식별 대상 저자명^집합(DBLP-NameSet)으로 ^선정하^였다. 예를 들어 논문서지^집합이 아^래 3 편의 논문으로 구성된 경우 저자명 출현

빈도^순으로 상위 2 개의 저자명을 추출하면 ^J. Mitc^he^ll(3 ^회)과 P.

Linco^ln(2^회)이 저자명^집합으로 ^선정될 것이다.

[논문서지^집합 예]

J. Mitc^he^ll. 1983. ^Fi^le Ser^vers. ^AC, 221-259.

P. Linco^ln, ^J. Mitc^he^ll. 1991. ^Algorit^hmic ^As^pects of T^ype Inference wit^h Su^bt^ypes. POPL, 293-30⁴.

P. Linco^ln, ^J. Mitc^he^ll, ^A. Scedro^v. 1996. Linear ^lo^gic ^proof

games and o^ptimi^zation. BSL, 322-338.

[단계-3]은 이전 단계에서 결정된 DBLP-NameSet 를 구성하는 1000 개 각 저자명의 출현 개체들을 DBLP-Bi^b 로부터 수^집하여 저자명개체^집합(DBLP-NameEntit^ySet)을 생성하는 것이다. 예를 들어 전술한 예인 [논문서지^집합 예]를 논문서지^집합으로 보고 여기서 ^얻어진 저자명^집합이 ^{J. Mitc^he^ll, P. Linco^ln, ^A. Scedro^v}라고 하면, 이에 대^응하는 저자명개체^집합은 다음과 같다.

[저자명개체^집합 예]

<J. Mitc^he^ll>^J. Mitc^he^ll. 1983. ^Fi^le Ser^vers. ^AC, 221-259.

<J. Mitc^he^ll> P. Linco^ln, ^J. Mitc^he^ll. 1991. ^Algorit^hmic ^As^pects of T^ype Inference wit^h Su^bt^ypes. POPL, 293-30⁴.

<J. Mitc^he^ll> P. Linco^ln, ^J. Mitc^he^ll, ^A. Scedro^v. 1996. Linear

lo^gic ^proof ^games and o^ptimi^zation. BSL, 322-338.

<P. Linco^ln^> P. Linco^ln, ^J. Mitc^he^ll. 1991. ^Algorit^hmic ^As^pects of T^ype Inference wit^h Su^bt^ypes. POPL, 293-30⁴.

<P. Linco^ln^> P. Linco^ln, ^J. Mitc^he^ll, ^A. Scedro^v. 1996. Linear

lo^gic ^proof ^games and o^ptimi^zation. BSL, 322-338.

<A. Scedro^v> P. Linco^ln, ^J. Mitc^he^ll, ^A. Scedro^v. 1996. Linear

lo^gic ^proof ^games and o^ptimi^zation. BSL, 322-338.

실제로 저자명개체^집합은 ^동명저자명개체^집합(들)의 ^모음으로 이루어진다. 위 예의 저자명개체^집합은 저자명^집합을 구성하는 3 개 저자명 각각에 대한 ^동명저자명개체^집합들의 ^모음인 것이다.

예를 들어 위에서 저자명 ^<P. Linco^ln^>에 해^당하는

동명저자명개체^집합은 P. Linco^ln 이 출현한 논문 두 편의

모음이다.

즉 [단계-3]은 DBLP-NameSet 를 구성하는 1000 개 저자명에 대^응하는 1000 개 ^동명저자명개체^집합들로 이루어진 DBLP-NameEntit^ySet 를 생성하는 것이다.

[단계-⁴]는 DBLP-NameEntit^ySet 내의 각 저자명개체에 대해 실^세계 저자를 대^응시^키기 위한 정보를 수^집하는 단계이다. 기존

평가^셋 구축의 경우 각 저자명개체의 ^홈페이지 내 출판논문리스^트페이지(Persona^l Pu^blication List ^pa^ge, PPL^pa^ge)를 참조하^거나 저자명개체가 출현한 논문의 원문에 기재된 전자메일^주소로 확인 메일을 발^송하는 방식 등을 통해 실^세계 저자의 ^신원을 확인했다. 그러나, 이 연구에서 사용하는 DBLP 데이터의 경우 전자메일 획^득을 위한 원문 확보가 쉽지 않고, 1000 개 저자명의 실^세계 저자들의 ^홈페이지를 수작업으로

검색하는 것 ^또한 시간/인력 ^집약적 작업이 되는 것을 ^피할 수

없다.

이 문제를 다루기 위해 저자의 출판논문정보가 기재된 웹^페이지를 구^글 웹 검색을 통해 자^동 획^득하고자 시도하^였다.

먼저 기존 ^홈페이지 ^탐색 기^법[11]에서 활용된 단서 용어들(curricu^lum ^vitae, c^v, resume, ^home^pa^ge, ^pu^blication)과 특정 저자명개체가 출현한 논문의 제목을 저자명과 함^께 구^글검색엔진의 다양한 검색 ^옵션(intit^le^:, a^llintit^le^:, site^: 등)과 조^합하여 웹검색을 시도하^였다. 그러나 이 방^법이 만들어 ^낼 수 있는 검색식의 조^합이 적지 않아, 저자명개체^집합으로부터

무작위 추출된 100 개 저자명개체에 대해 정^답셋을 만들고 이를 이용해 ^최적 검색식의 조^합을 찾는 과정을 ^거쳤다. 그 결과 웹^페이지의 제목 문자열에 저자명의 성(^lastname)이 출현하면서 웹^페이지의 본문에 저자개체의 논문제목이 같이 출현하는 웹^페이지를 검색하는 구^글검색식이 가^장 ^좋은 성^능을 보^였다.

다음은 ^J. Mitc^he^ll 에 대한 특정 저자명개체와 그 개체에 대한 PPL^pa^ge 를 웹검색하기 위한 ^최적 구^글검색식의 예를 보인 것이다.

저자명개체^: ^<J. Mitc^he^ll> P. Linco^ln, ^J. Mitc^he^ll. 1991.

Algorit^hmic ^As^pects of T^ype Inference wit^h Su^bt^ypes. POPL, 293-30⁴.

구^글검색식^: intit^le^:Mitc^he^ll ^Algorit^hmic ^As^pects of T^ype Inference wit^h Su^bt^ypes

전술한 구^글검색식을 사용하여 [단계-3]에서 ^얻어진 DBLP-NameEntit^ySet 내의 각 저자명개체에 대해 구^글웹검색을 수행하여 상위 20 개의 검색결과를 자^동 수^집하^였다.

[단계-5]는 이전 단계에서 수^집된 저자명개체의 식별 정보를

바탕으로 각 저자명개체에 식별자를 부여하는 단계이다. 이를

위해 ^먼저 DBLP-NameEntit^ySet 내의 ^동명저자명개체^집합 단위로, 각 저자명개체에 대해 [단계-⁴]에서 수^집된 20 개 웹^페이지 중 정^답 PPL^pa^ge 의 URL 을 수작업으로 찾아 할^당하고, ^동일 URL 이 부여된 저자명개체들에 ^동일 고유식별자(자연수)를 부^착하는

절차를 ^거쳤다.

이 과정에서 구^글검색결과에서 정^답 PPL^pa^ge URL 을 찾을 수 ^없는 저자명개체의 수가 적지 않^았고 [단계-⁴]의 검색결과를 생성하지 못한 저자명개체도 다수 발^견되었다. 그 결과 ^최초 1000 개 DBLP-NameSet 은 867 로 ^줄어들었고, DBLP-NameEntit^ySet 은 ^총 ⁴1,673 개의 저자명개체를 ^포함하게 되었다.

[단계-6]에서는 [단계-5]의 식별자 부^착 결과를 재확인하여 수정하고 필요할 경우 [단계-5]의 작업을 재수행하는 과정을

거친다. 이 단계의 ^주요 작업 사^례로, 서로 다^른 PPL^pa^ge URL 이 할^당되어 서로 다^른 저자식별자가 부^착된 저자명개체들이 재확인을 통해 ^동일 저자식별자로 ^병합되는 예가 있다. 구체적인

예로는 서로 다^른 두 PPL^pa^ge URL 들이 웹 서^버의 부^모-자식 디^렉토리 위^치에 존재하^거나, 연구자의 소속 ^변경으로 인해 이전 소속기관과 현재 소속기관의 웹사이^트에서 유사한 논문출판리스^트들이 유지되고 있는 경우 등이 해^당된다.

문서에서 Linked Data를 위한 인프라 구축 및 개체식별 활용 방법 (페이지 49-59)