4. 개체 식별
4.2. 평가셋 구축
이 장에서는 신규 저자식별 평가셋 구축의 관련 연구로 기존 저자식별 연구에서 사용된 평가셋들의 특성을 기술한다. 새로운 저자식별 평가셋 구축 과정은 다음과 같다.
단계-1: 논문서지집합 결정
단계-2: 저자명집합 결정
단계-3: 저자명개체집합 생성
단계-4: 저자식별 정보 수집
단계-5: 저자식별자 부착
단계-6: 검증 및 단계-5 반복
[단계-1]은 평가셋 구축의 대상이 될 저자명이 출현한 논문의 서지레코드 집합을 결정하는 단계이다. 이를 위해 ArXiV, CiteSeer,
CS BiBTeX, DBLP, NCSTRL 등의 기존 서지데이터베이스를 비교 검토하였으며, 정확성, 공용성, 대용량성, 획득용이성, 대중성 등을
동시에 고려하여 DBLP 데이터를 논문서지집합의 모집단으로
선정하였다. DBLP 는 2009 년 현재 백이십만 편 이상의 전산학 분야 논문의 서지레코드를 수작업 구축하여 온라인 서비스하는 사이트이다. 2007 년 후반 원천 서지집합인 DBLP 로부터 논문서지레코드를 다운로드 받아 87 만여편에 달하는 논문서지집합(DBLP-Bib)을 확보하였다.
[단계-2]는 DBLP-Bib 에 출현한 저자명 중 평가셋에 포함시킬 저자명집합을 선정하는 과정이다. 저자식별문제를 탐구하는 관점에서 다양한 저자중의성을 갖는 저자명이 평가셋에
포함되어야 할 것이다. 또한 같은 수준의 저자중의성을 갖는 다양한 크기의 동명저자명개체집합들이 평가셋에 포함되어야 할 것이다. 그 이유는, 예를 들어 저자명 J. Smith 의 저자중의성이 2 라 하더라도 J. Smith 가 출현한 논문(동명저자명개체집합)의 수가 2 인 경우와 200 인 경우의 저자식별문제의 어려움은 큰
차이가 있을 것이기 때문이다.
그러나 저자명에 대한 실세계 저자로의 대응이 확인되기 전에는 저자중의성을 알 수 없으므로 [단계-2]에서 전술한 두 가지 인자를 고려하기에는 어려움이 따른다. 이 문제를 다루기 위해, “저자명 출현 회수와 저자중의성은 비례할 가능성이
크다”는 가정에 기초하여 DBLP-Bib 내 저자명 출현 고빈도
순으로 상위 1000 개 저자명을 추출하여 식별 대상 저자명집합(DBLP-NameSet)으로 선정하였다. 예를 들어 논문서지집합이 아래 3 편의 논문으로 구성된 경우 저자명 출현
빈도순으로 상위 2 개의 저자명을 추출하면 J. Mitchell(3 회)과 P.
Lincoln(2회)이 저자명집합으로 선정될 것이다.
[논문서지집합 예]
J. Mitchell. 1983. File Servers. AC, 221-259.
P. Lincoln, J. Mitchell. 1991. Algorithmic Aspects of Type Inference with Subtypes. POPL, 293-304.
P. Lincoln, J. Mitchell, A. Scedrov. 1996. Linear logic proof
games and optimization. BSL, 322-338.
[단계-3]은 이전 단계에서 결정된 DBLP-NameSet 를 구성하는 1000 개 각 저자명의 출현 개체들을 DBLP-Bib 로부터 수집하여 저자명개체집합(DBLP-NameEntitySet)을 생성하는 것이다. 예를 들어 전술한 예인 [논문서지집합 예]를 논문서지집합으로 보고 여기서 얻어진 저자명집합이 {J. Mitchell, P. Lincoln, A. Scedrov}라고 하면, 이에 대응하는 저자명개체집합은 다음과 같다.
[저자명개체집합 예]
<J. Mitchell>J. Mitchell. 1983. File Servers. AC, 221-259.
<J. Mitchell> P. Lincoln, J. Mitchell. 1991. Algorithmic Aspects of Type Inference with Subtypes. POPL, 293-304.
<J. Mitchell> P. Lincoln, J. Mitchell, A. Scedrov. 1996. Linear
logic proof games and optimization. BSL, 322-338.
<P. Lincoln> P. Lincoln, J. Mitchell. 1991. Algorithmic Aspects of Type Inference with Subtypes. POPL, 293-304.
<P. Lincoln> P. Lincoln, J. Mitchell, A. Scedrov. 1996. Linear
logic proof games and optimization. BSL, 322-338.
<A. Scedrov> P. Lincoln, J. Mitchell, A. Scedrov. 1996. Linear
logic proof games and optimization. BSL, 322-338.
실제로 저자명개체집합은 동명저자명개체집합(들)의 모음으로 이루어진다. 위 예의 저자명개체집합은 저자명집합을 구성하는 3 개 저자명 각각에 대한 동명저자명개체집합들의 모음인 것이다.
예를 들어 위에서 저자명 <P. Lincoln>에 해당하는
동명저자명개체집합은 P. Lincoln 이 출현한 논문 두 편의
모음이다.
즉 [단계-3]은 DBLP-NameSet 를 구성하는 1000 개 저자명에 대응하는 1000 개 동명저자명개체집합들로 이루어진 DBLP-NameEntitySet 를 생성하는 것이다.
[단계-4]는 DBLP-NameEntitySet 내의 각 저자명개체에 대해 실세계 저자를 대응시키기 위한 정보를 수집하는 단계이다. 기존
평가셋 구축의 경우 각 저자명개체의 홈페이지 내 출판논문리스트페이지(Personal Publication List page, PPLpage)를 참조하거나 저자명개체가 출현한 논문의 원문에 기재된 전자메일주소로 확인 메일을 발송하는 방식 등을 통해 실세계 저자의 신원을 확인했다. 그러나, 이 연구에서 사용하는 DBLP 데이터의 경우 전자메일 획득을 위한 원문 확보가 쉽지 않고, 1000 개 저자명의 실세계 저자들의 홈페이지를 수작업으로
검색하는 것 또한 시간/인력 집약적 작업이 되는 것을 피할 수
없다.
이 문제를 다루기 위해 저자의 출판논문정보가 기재된 웹페이지를 구글 웹 검색을 통해 자동 획득하고자 시도하였다.
먼저 기존 홈페이지 탐색 기법[11]에서 활용된 단서 용어들(curriculum vitae, cv, resume, homepage, publication)과 특정 저자명개체가 출현한 논문의 제목을 저자명과 함께 구글검색엔진의 다양한 검색 옵션(intitle:, allintitle:, site: 등)과 조합하여 웹검색을 시도하였다. 그러나 이 방법이 만들어 낼 수 있는 검색식의 조합이 적지 않아, 저자명개체집합으로부터
무작위 추출된 100 개 저자명개체에 대해 정답셋을 만들고 이를 이용해 최적 검색식의 조합을 찾는 과정을 거쳤다. 그 결과 웹페이지의 제목 문자열에 저자명의 성(lastname)이 출현하면서 웹페이지의 본문에 저자개체의 논문제목이 같이 출현하는 웹페이지를 검색하는 구글검색식이 가장 좋은 성능을 보였다.
다음은 J. Mitchell 에 대한 특정 저자명개체와 그 개체에 대한 PPLpage 를 웹검색하기 위한 최적 구글검색식의 예를 보인 것이다.
저자명개체: <J. Mitchell> P. Lincoln, J. Mitchell. 1991.
Algorithmic Aspects of Type Inference with Subtypes. POPL, 293-304.
구글검색식: intitle:Mitchell Algorithmic Aspects of Type Inference with Subtypes
전술한 구글검색식을 사용하여 [단계-3]에서 얻어진 DBLP-NameEntitySet 내의 각 저자명개체에 대해 구글웹검색을 수행하여 상위 20 개의 검색결과를 자동 수집하였다.
[단계-5]는 이전 단계에서 수집된 저자명개체의 식별 정보를
바탕으로 각 저자명개체에 식별자를 부여하는 단계이다. 이를
위해 먼저 DBLP-NameEntitySet 내의 동명저자명개체집합 단위로, 각 저자명개체에 대해 [단계-4]에서 수집된 20 개 웹페이지 중 정답 PPLpage 의 URL 을 수작업으로 찾아 할당하고, 동일 URL 이 부여된 저자명개체들에 동일 고유식별자(자연수)를 부착하는
절차를 거쳤다.
이 과정에서 구글검색결과에서 정답 PPLpage URL 을 찾을 수 없는 저자명개체의 수가 적지 않았고 [단계-4]의 검색결과를 생성하지 못한 저자명개체도 다수 발견되었다. 그 결과 최초 1000 개 DBLP-NameSet 은 867 로 줄어들었고, DBLP-NameEntitySet 은 총 41,673 개의 저자명개체를 포함하게 되었다.
[단계-6]에서는 [단계-5]의 식별자 부착 결과를 재확인하여 수정하고 필요할 경우 [단계-5]의 작업을 재수행하는 과정을
거친다. 이 단계의 주요 작업 사례로, 서로 다른 PPLpage URL 이 할당되어 서로 다른 저자식별자가 부착된 저자명개체들이 재확인을 통해 동일 저자식별자로 병합되는 예가 있다. 구체적인
예로는 서로 다른 두 PPLpage URL 들이 웹 서버의 부모-자식 디렉토리 위치에 존재하거나, 연구자의 소속 변경으로 인해 이전 소속기관과 현재 소속기관의 웹사이트에서 유사한 논문출판리스트들이 유지되고 있는 경우 등이 해당된다.