평가셋 특징 - 개체 식별 - Linked Data를 위한 인프라 구축 및 개체식별 활용 방법

4. 개체 식별

4.3. 평가셋 특징

이 연구에서 구축한 저자식별 ^평가^셋은 ^영어(En^glis^h) 저자명을 대상으로 하는 저자식별(^Aut^hor Disam^bi^guation)을 위해 한^국과학기술정보연구원(^KISTI)에서 구축한 ^첫 ^번째(01)

평가^셋(TestSet)이라는 의미에서 ^KISTI-^AD-E-01-TestSet 으로 명명하^였으며 그 통계는 표 2 와 같다.

[표 3] KISTI-AD-E-01-TestSet 평가셋 통계

항목 값

논문수 37,613

동명저자명개체그^룹수 881

실^세계 저자수 6,921

저자명개체수 ^총 116,56⁴ 중 ⁴1,673 저자중의성 12.7 (⁼6,921/881) 논문 ^당 ^평균 저자수 3.1 (⁼116,56⁴/37,613)

표에 제시된 ^바와 같이 ^평가^셋은 서로 다^른 881 개

영어저자명이 출현한 ⁴1,673 개

저자명개체^레코드(논문서지^레코드)들로 이루어져 있다.

저자명개체^레코드 ⁴1,673 개를 서로 다^른 논문의 수로

카운트하면 37,613 편이고, 37,613 편 내에 출현한 저자명개체의 수는 ^총 116,56⁴ 이다. 다시 ^말하면 전체 37,613 편의 논문^집합에 출현한 ^총 116,56⁴ 개의 저자명개체 중 ⁴1,673 개의 저자명개체 각각에 대해 실^세계 저자 6,921 명 중 한 사람의 식별자를 부여한 것이며 ^평균 저자중의성은 12.7 이다.

[그림 12] 동명저자명 개체그룹의 크기 분포

그^림은 특정 ^크기의 ^동명저자명개체그^룹의 수가 ^평가^셋 내에서 분^포하는 ^모습과, ^총 881 개 그^룹 중 특정 ^크기 이하 그^룹들이 ^차지하는 비^율(점^선)을 나타^낸 것이다. ^최소 ^크기 1 에서

최대 ^크기 325 까지의 881 개 그^룹들이, 그^룹 ^크기가 증가할수^록 같은 ^크기 그^룹들의 개수는 점^차 ^감소하는 양상을 보인다. ^또한

크기 10, 30, 50, 100, 150, 200 이하 그^룹들이 각각 전체의 ^약

21^%, ⁴9^%, 67^%, 87^%, 96^%, 99^%를 ^차지하여 적은 ^크기 그^룹들(^크기 30 이하 ^거의 50^%)이 상대적으로 많으나 ^큰 ^크기 그^룹들(^크기 100 이상 13^%, 117 개 그^룹)도 적지 않^았다. 이는 저자식별의 단위가 되는 ^동명저자명 개체 ^집단의 ^크기 분^포가 획일적이지 않음을 보여준다.

[그림 13] 동명저자명 저자의 수 분포

그^림은 특정 개수의 실^세계 저자수를 ^갖는

동명저자명개체그^룹의 개수를 나타^낸 것이며, 점^선은 ^총 881 개 중 특정 수 이하 저자를 ^갖는 ^동명저자명개체그^룹의 비^율이다.

그^림에서 ^X 축인 저자수는 ^최소 1 에서 ^최대 71 까지이며 저자수가 적을수^록 해^당 ^동명저자명개체그^룹의 수는 가^파르게 증가하^였다. 구체적으로 저자수 1, 3, 5, 10, 20, 30, 50 이하 그^룹들이 각각 전체의 ^약 12^%, 33^%, 51^%, 80^%, 93^%, 97^%, 99^%를

차지하^였다. ^즉 저자중의성이 ^낮은 그^룹이 대부분이지만, 20 인 이상의 다수 저자들 중 하나로 저자명개체들을 ^매핑해야 하는 그^룹들도 69 개(전체의 7.8^%)로 적지 않은 개수^임을 ^알 수 있다.

[그림 14] 공동저자수 분포

그^림은 특정 수의 공^동저자를 ^갖는 저자명개체의 수를 보인 것으로 점^선은 ^총 ⁴1,673 개 중 특정 수의 공^동저자를 ^갖는 저자명개체의 비^율이다. 저자식별에서 공^동저자명은 전자메일^주소, 소속 등과 함^께 개인 저자 개별성이 ^큰 자질이^므로 공^동저자수의 분^포를 ^살피는 것은 의미가 있다.

구체적으로 ^평가^셋 내에서 공^동저자수 0, 1, 2, 3, ⁴ 를 ^갖는 저자명개체들이 각각 전체의 8^%, 30^%, 30^%, 18^%, 8^%를

차지하^였다. ^즉 공^동저자수 2⁴ 인 개체들이 전체의 80^%정도를

차지한다. 공^동저자수가 0 인 저자명개체 3,3⁴9 개(8^%)에 대해서는 저자식별과정에서 공^동저자명 자질을 활용할 수 ^없음을 의미한다.

[그림 15] 저자명개수-저자수 분포

그^림은 전체 881 개 ^동명저자명개체그^룹에 대해 그^룹 내 저자명개체의 수와 실^세계 저자의 수(저자중의성)를 2 ^차원 ^좌표 상의 점(표식 ^x)으로 보인 것으로, 하단 그^림은 상단 그^림의 ^밀집

영역을 확대한 것이다. 예를 들어 ^동명저자명개체그^룹 ^G={a, ^b, c^}에서 저자명개체^집합 ^{a, ^b}, ^{c^}가 실^세계 저자 P1, P2 에 각각 대^응될 경우 ^G 는 그^림 ⁴ 에서 ^좌표 (3,2)에 하나의 점으로 표시된다. 그^림에서 실^선은 저자명개체수와 저자수가 같은 점들을 연결한 참고용 기준^선(^Y=X)이다. 기준^선에 가까^운 점일수^록 저자^군집의 수가 저자명개체수에 가까^운 개체그^룹임을 의미한다. ^극단적으로 기준^선에 위^치한 ^군집들은 개별^군집법(sin^gleton c^lusterin^g)으로 ^최상의 성^능을 ^낼 수 있고,

Y=1 에 대^응하는 ^선에 위^치한 ^군집들은 단일^군집법(sin^gle c^lusterin^g)으로 ^최상의 성^능을 만들 수 있다. 따라서 ^군집문제에 해^당하는 저자식별의 경우 ^Y=X 와 ^Y=1 사이의 ^영역에 고^르게 분^포하도^록 ^평가^셋이 구성되는 것이 ^좋을 것이다. 그^렇게 함으로써 ^동일 ^크기 그^룹들 내에서 저자수 분^포가 다양할 것이고

동일 저자수를 ^갖는 그^룹들 내에서 그^룹 ^크기의 분^포 ^또한 다양할 것이기 때문이다.

이러한 관점에서 상기 그^림을 고^찰하면 현재의 ^평가^셋은 적은 ^크기 그^룹들의 경우 저자중의성의 고^른 분^포를 보인다.

그러나 ^크기 50 에서 150 이상 그^룹들의 경우 그^룹 ^크기의 ^약 1/3 이상(예^: ^크기 150 인 그^룹의 경우 1/3 ^크기인 50 이상의 저자중의성을 찾기 ^힘들다)의 저자중의성 분^포는 ^거의 발^견되지 않는다. ^또한 ^크기 150 이상 그^룹들의 경우 그^룹 ^크기의 중간

범위에 해^당하는 일부 저자중의성 분^포만이 발^견된다. 이는

동명저자명개체그^룹의 ^크기가 증가할수^록 저자중의성의 분^포

범위가 ^커지^므로 ^충분한 수의 개체그^룹들이 ^평가^셋에 ^포함되어야 하지만 현재의 ^평가^셋은 개체그^룹 ^크기 분^포에서 ^알 수 있^듯이 개체그^룹의 ^크기가 증가할수^록 개체그^룹의 개수는 ^감소하기 때문이다.

문서에서 Linked Data를 위한 인프라 구축 및 개체식별 활용 방법 (페이지 59-68)