• 검색 결과가 없습니다.

4. 개체 식별

4.2. 평가셋 구축

에서는 규 저자식별 구축의 관 연구로 기존 저자식별 연구에서 사용된 들의 특성을 기술한다. 저자식별 구축 과정은 다음과 같다.

 단계-1: 논문서지집합 결정

 단계-2: 저자명집합 결정

 단계-3: 저자명개체집합 생성

 단계-4: 저자식별 정보 수

 단계-5: 저자식별자 부

 단계-6: 검증 및 단계-5 반

[단계-1]은 구축의 대상이 될 저자명이 출현한 논문의 서지레코드 집합을 결정하는 단계이다. 이를 위해 ArXiV, CiteSeer,

CS BiBTeX, DBLP, NCSTRL 등의 기존 서지데이터이스를 비으며, 정확성, 공용성, 대용성, 획용이성, 대중성 등을

시에 고하여 DBLP 데이터를 논문서지집합모집단으로

정하다. DBLP 는 2009 년 현재 만 편 이상의 전산학 분야 논문의 서지레코드를 수작업 구축하여 온라인 서비스하는 사이이다. 2007 년 반 원 서지집합인 DBLP 로부터 논문서지레코드를 다 아 87 만여편에 달하는 논문서지집합(DBLP-Bib)을 확보하다.

[단계-2]는 DBLP-Bib 에 출현한 저자명 중 함시 저자명집합정하는 과정이다. 저자식별문제를 구하는 관점에서 다양한 저자중의성을 는 저자명이

함되어야 할 것이다. 한 같은 수준의 저자중의성을 는 다양한 기의 명저자명개체집합들이 함되어야 할 것이다. 그 이유는, 예를 들어 저자명 J. Smith 의 저자중의성이 2 라 하더라도 J. Smith 가 출현한 논문(명저자명개체집합)의 수가 2 인 경우와 200 인 경우의 저자식별문제의 어려움

이가 있을 것이기 때문이다.

그러나 저자명에 대한 실계 저자로의 대이 확인되기 전에는 저자중의성을 로 [단계-2]에서 전술한 두 가지 인자를 고하기에는 어려움이 따다. 이 문제를 다루기 위해, 저자명 출현 수와 저자중의성은 비할 가성이

는 가정에 기하여 DBLP-Bib 내 저자명 출현 고

으로 상위 1000 개 저자명을 추출하여 식별 대상 저자명집합(DBLP-NameSet)으로 정하다. 예를 들어 논문서지집합이 아 3 편의 논문으로 구성된 경우 저자명 출현

으로 상위 2 개의 저자명을 추출하면 J. Mitchell(3 )과 P.

Lincoln(2)이 저자명집합으로 정될 것이다.

[논문서지집합 예]

 J. Mitchell. 1983. File Servers. AC, 221-259.

 P. Lincoln, J. Mitchell. 1991. Algorithmic Aspects of Type Inference with Subtypes. POPL, 293-304.

 P. Lincoln, J. Mitchell, A. Scedrov. 1996. Linear logic proof

games and optimization. BSL, 322-338.

[단계-3]은 이전 단계에서 결정된 DBLP-NameSet 를 구성하는 1000 개 각 저자명의 출현 개체들을 DBLP-Bib 로부터 수하여 저자명개체집합(DBLP-NameEntitySet)을 생성하는 것이다. 예를 들어 전술한 예인 [논문서지집합 예]를 논문서지집합으로 보고 여기서 어진 저자명집합{J. Mitchell, P. Lincoln, A. Scedrov}라고 하면, 이에 대하는 저자명개체집합은 다음과 같다.

[저자명개체집합 예]

 <J. Mitchell>J. Mitchell. 1983. File Servers. AC, 221-259.

 <J. Mitchell> P. Lincoln, J. Mitchell. 1991. Algorithmic Aspects of Type Inference with Subtypes. POPL, 293-304.

 <J. Mitchell> P. Lincoln, J. Mitchell, A. Scedrov. 1996. Linear

logic proof games and optimization. BSL, 322-338.

 <P. Lincoln> P. Lincoln, J. Mitchell. 1991. Algorithmic Aspects of Type Inference with Subtypes. POPL, 293-304.

 <P. Lincoln> P. Lincoln, J. Mitchell, A. Scedrov. 1996. Linear

logic proof games and optimization. BSL, 322-338.

 <A. Scedrov> P. Lincoln, J. Mitchell, A. Scedrov. 1996. Linear

logic proof games and optimization. BSL, 322-338.

실제로 저자명개체집합명저자명개체집합(들)의 음으로 이루어진다. 위 예의 저자명개체집합은 저자명집합을 구성하는 3 개 저자명 각각에 대한 명저자명개체집합들의 음인 것이다.

예를 들어 위에서 저자명 <P. Lincoln>에 해하는

명저자명개체집합은 P. Lincoln 이 출현한 논문 두 편의

음이다.

[단계-3]은 DBLP-NameSet 를 구성하는 1000 개 저자명에 대하는 1000 개 명저자명개체집합들로 이루어진 DBLP-NameEntitySet 를 생성하는 것이다.

[단계-4]는 DBLP-NameEntitySet 내의 각 저자명개체에 대해 실계 저자를 대기 위한 정보를 수하는 단계이다. 기존

구축의 경우 각 저자명개체의 홈페이지 내 출판논문리스트페이지(Personal Publication List page, PPLpage)를 참조하나 저자명개체가 출현한 논문의 원문에 기재된 전자메일소로 확인 메일을 발하는 방식 등을 통해 실계 저자의 원을 확인했다. 그러나, 이 연구에서 사용하는 DBLP 데이터의 경우 전자메일 획을 위한 원문 확보가 쉽지 않고, 1000 개 저자명의 실계 저자들의 홈페이지를 수작업으로

검색하는 것 한 시간/인력 집약적 작업이 되는 것을 할 수

다.

이 문제를 다루기 위해 저자의 출판논문정보가 기재된 웹이지를 구 웹 검색을 통해 자하고자 시도하다.

저 기존 홈페이지 색 기[11]에서 활용된 단서 용어들(curriculum vitae, cv, resume, homepage, publication)과 특정 저자명개체가 출현한 논문의 제목을 저자명과 함검색엔진의 다양한 검색 옵션(intitle:, allintitle:, site: 등)과 조하여 웹검색을 시도하다. 그러나 이 방이 만들어 수 있는 검색식의 조이 적지 않아, 저자명개체집합으로부터

작위 추출된 100 개 저자명개체에 대해 정답셋을 만들고 이를 이용해 적 검색식의 조을 찾는 과정을 거쳤다. 그 결과 웹이지의 제목 문자열에 저자명의 성(lastname)이 출현하면서 웹이지의 본문에 저자개체의 논문제목이 같이 출현하는 웹이지를 검색하는 구검색식이 가 은 성을 보다.

다음은 J. Mitchell 에 대한 특정 저자명개체와 그 개체에 대한 PPLpage 를 웹검색하기 위한 적 구검색식의 예를 보인 것이다.

 저자명개체: <J. Mitchell> P. Lincoln, J. Mitchell. 1991.

Algorithmic Aspects of Type Inference with Subtypes. POPL, 293-304.

 검색식: intitle:Mitchell Algorithmic Aspects of Type Inference with Subtypes

전술한 구검색식을 사용하여 [단계-3]에서 어진 DBLP-NameEntitySet 내의 각 저자명개체에 대해 구웹검색을 수행하여 상위 20 개의 검색결과를 자다.

[단계-5]는 이전 단계에서 수된 저자명개체의 식별 정보를

바탕으로 각 저자명개체에 식별자를 부여하는 단계이다. 이를

위해 저 DBLP-NameEntitySet 내의 명저자명개체집합 단위로, 각 저자명개체에 대해 [단계-4]에서 수된 20 개 웹이지 중 정 PPLpage 의 URL 을 수작업으로 찾아 할하고, 일 URL 이 부여된 저자명개체들에 일 고유식별자(자연수)를 부하는

절차거쳤다.

이 과정에서 구검색결과에서 정 PPLpage URL 을 찾을 수 는 저자명개체의 수가 적지 않고 [단계-4]의 검색결과를 생성하지 못한 저자명개체도 다수 발되었다. 그 결과 최초 1000 개 DBLP-NameSet 은 867 로 어들었고, DBLP-NameEntitySet 은 41,673 개의 저자명개체를 함하게 되었다.

[단계-6]에서는 [단계-5]의 식별자 부 결과를 재확인하여 수정하고 필요할 경우 [단계-5]의 작업을 재수행하는 과정을

거친다. 이 단계의 요 작업 사로, 서로 다 PPLpage URL 이 할되어 서로 다 저자식별자가 부된 저자명개체들이 재확인을 통해 일 저자식별자로 병합되는 예가 있다. 구체적인

예로는 서로 다 두 PPLpage URL 들이 웹 서의 부-자식 디렉토리 위에 존재하나, 연구자의 소속 경으로 인해 이전 소속기관과 현재 소속기관의 웹사이에서 유사한 논문출판리스들이 유지되고 있는 경우 등이 해된다.

관련 문서