• 검색 결과가 없습니다.

4. 개체 식별

4.3. 평가셋 특징

이 연구에서 구축한 저자식별 어(English) 저자명을 대상으로 하는 저자식별(Author Disambiguation)을 위해 한과학기술정보연구원(KISTI)에서 구축한 번째(01)

(TestSet)이라는 의미에서 KISTI-AD-E-01-TestSet 으로 명명하으며 그 통계는 표 2 와 같다.

[표 3] KISTI-AD-E-01-TestSet 평가셋 통계

항목 값

논문수 37,613

명저자명개체그수 881

계 저자수 6,921

저자명개체수 116,56441,673 저자중의성 12.7 (=6,921/881) 논문 평균 저자수 3.1 (=116,564/37,613)

표에 제시된 와 같이 은 서로 다 881 개

어저자명이 출현한 41,673 개

저자명개체레코드(논문서지레코드)들로 이루어져 있다.

저자명개체레코드 41,673 개를 서로 다 논문의 수로

카운트하면 37,613 편이고, 37,613 편 내에 출현한 저자명개체의 수는 116,564 이다. 다시 하면 전체 37,613 편의 논문집합에 출현한 116,564 개의 저자명개체 중 41,673 개의 저자명개체 각각에 대해 실계 저자 6,921 명 중 한 사람의 식별자를 부여한 것이며 평균 저자중의성은 12.7 이다.

[그림 12] 동명저자명 개체그룹의 크기 분포

은 특정 기의 명저자명개체그의 수가 내에서 분하는 모습과, 881 개 그 중 특정 기 이하 그들이 지하는 비(점)을 나타 것이다. 기 1 에서

기 325 까지의 881 개 그들이, 그 기가 증가할수 같은 기 그들의 개수는 점 소하는 양상을 보인다.

기 10, 30, 50, 100, 150, 200 이하 그들이 각각 전체의

21%, 49%, 67%, 87%, 96%, 99%지하여 적은 기 그들(기 30 이하 의 50%)이 상대적으로 많으나 기 그들(기 100 이상 13%, 117 개 그)도 적지 않다. 이는 저자식별의 단위가 되는 명저자명 개체 단의 기 분가 획일적이지 않음을 보여준다.

[그림 13] 동명저자명 저자의 수 분포

은 특정 개수의 실계 저자수를

명저자명개체그의 개수를 나타 것이며, 점 881 개 중 특정 수 이하 저자를 명저자명개체그의 비이다.

에서 X 축인 저자수는 소 1 에서 대 71 까지이며 저자수가 적을수 명저자명개체그의 수는 가파르게 증가하다. 구체적으로 저자수 1, 3, 5, 10, 20, 30, 50 이하 그들이 각각 전체의 12%, 33%, 51%, 80%, 93%, 97%, 99%

지하다. 저자중의성이 은 그이 대부분이지만, 20 인 이상의 다수 저자들 중 하나로 저자명개체들을 매핑해야 하는 그들도 69 개(전체의 7.8%)로 적지 않은 개수 수 있다.

[그림 14] 공동저자수 분포

은 특정 수의 공저자를 는 저자명개체의 수를 보인 것으로 점 41,673 개 중 특정 수의 공저자를 는 저자명개체의 비이다. 저자식별에서 공저자명은 전자메일소, 소속 등과 함 개인 저자 개별성이 자질이로 공저자수의 분살피는 것은 의미가 있다.

구체적으로 내에서 공저자수 0, 1, 2, 3, 4는 저자명개체들이 각각 전체의 8%, 30%, 30%, 18%, 8%

지하다. 저자수 24 인 개체들이 전체의 80%정도를

지한다. 공저자수가 0 인 저자명개체 3,349 개(8%)에 대해서는 저자식별과정에서 공저자명 자질을 활용할 수 음을 의미한다.

[그림 15] 저자명개수-저자수 분포

은 전체 881 개 명저자명개체그에 대해 그 내 저자명개체의 수와 실계 저자의 수(저자중의성)를 2 표 상의 점(표식 x)으로 보인 것으로, 하단 그은 상단 그밀집

영역을 확대한 것이다. 예를 들어 명저자명개체그 G={a, b, c}에서 저자명개체집합 {a, b}, {c}가 실계 저자 P1, P2 에 각각 대될 경우 G 는 그 4 에서 표 (3,2)에 하나의 점으로 표시된다. 그에서 실은 저자명개체수와 저자수가 같은 점들을 연결한 참고용 기준(Y=X)이다. 기준에 가까 점일수 저자군집의 수가 저자명개체수에 가까 개체그룹임을 의미한다. 단적으로 기준에 위군집들은 개별군집법(singleton clustering)으로 상의 성 수 있고,

Y=1 에 대하는 에 위군집들은 단일군집법(single clustering)으로 상의 성을 만들 수 있다. 따라서 군집문제에 해하는 저자식별의 경우 Y=XY=1 사이의 영역에 고게 분하도 이 구성되는 것이 을 것이다. 그게 함으로써 기 그들 내에서 저자수 분가 다양할 것이고

일 저자수를 는 그들 내에서 그 기의 분 한 다양할 것이기 때문이다.

이러한 관점에서 상기 그을 고하면 현재의 은 적은 기 그들의 경우 저자중의성의 고를 보인다.

그러나 기 50 에서 150 이상 그들의 경우 그 기의 1/3 이상(예: 기 150 인 그의 경우 1/3 기인 50 이상의 저자중의성을 찾기 들다)의 저자중의성 분의 발되지 않는다. 기 150 이상 그들의 경우 그 기의 중간

위에 해하는 일부 저자중의성 분만이 발된다. 이는

명저자명개체그기가 증가할수 저자중의성의 분

위가 분한 수의 개체그들이 함되어야 하지만 현재의 은 개체그 기 분에서 수 있이 개체그기가 증가할수 개체그의 개수는 소하기 때문이다.

관련 문서