– 문헌 식별 값

(1)

• 용어의 문헌 식별 값

– 색인용어는 문헌을 두 개의 집합으로 분리하는 수단

• 검색될 문헌집합, 검색되지 않을 문헌집합

– 문헌 식별 값

• 하나의 용어가 서로 유사한 문헌들을 다른 문헌집단으로부 터 분리해 낼 수 있는 측도

• 특정한 단어가 한 문헌집단 속에서 상호 관련 없는 문헌들을 분리시키는 능력을 측정한 것

• 두 문헌 사이의 유사성(

^

)을 측정하기 위한 방법 적용

(D₁, D₂) = 1에 가까우면 : 문헌집단이 분리될 확률이 적음

(D₁, D₂) = 0에 가까우면 : 문헌집단이 분리될 확률이 높음

4.4 어휘 척도 – 용어의 문헌 식별 값

(2)

• 용어의 문헌 식별

특정한 단어의 문헌 분리

– 단어가 색인어로 부여되기 이전과 부여된 이후의 문헌간의 평균유사도의 차이를 측정 – 좋은 색인어는 이 색인어를 문헌집단에서 제거했을 때 문헌간의 평균 유사도를 증가 시

킴.

색인어 부여 전의 문헌집단

4.4 어휘 척도 – 용어의 문헌 식별 값

좋은 색인어는

문헌집단을 구성하는 문헌들 가운데 서로 주제가 다른 문헌들을 가능한 한 분리시키며 나쁜 색인어는

반대로 이러한 문헌들을 무리 짓는다.

색인어 부여 후의 문헌집단

비 관련문헌 C

(3)

• 단어들간의 관계 : 구(Phrase)를 통해 파악

• 구의 출현 빈도 및 가중치

– 구의 출현빈도(phrase frequency)나 가중치 계산

• 개별 단어 산출 방법과 동일

– 구(phrase)의 고유 출현빈도

• 구성 단어의 출현 빈도보다 낮기 때문에 다른 방식 사용

• 예제

: information 172번, retrieval 67번 출현 : freq (information retrieval)  67번

– 구의 가중치 부여

• 문헌에서 information 만 나오는 경우 : 가중치 1

• 문헌에서 retrieval만 나오는 경우 : 가중치 2

• 문헌에서 information retrieval이 나오는 경우 : 가중치 3

4.4 어휘 척도 – 구와 근접도

(4)

• 구와 근접도

– 구를 구성하는 단어간의 근접도

• 근접도가 높은 경우 구를 색인어로 선정 가능

– 예제 : 두 단어간의 근접도가 2이하인 경우

3가지 경우가 모두 선택 가능

4.4 어휘 척도 – 구와 근접도

Information retrieval

Information storage and retrieval

Retrieval of information

(5)

• 프래그매틱 인자(Pragmatic factors)

– 데이터베이스 검색이나 정보검색 과정에서 나타나는 특징으로 부터 추출된 실용적인 요소들을 도입

– 프래그매틱 인자의 예

• 문헌이 포함하고 있는 정보의 명확한 특징을 나타내 주는 트리거 구를 식별

ex) ‘결론’이나 ‘발견’과 같은 단어는 해당 문헌의 중심 내용과 아이디어를 제시한 다는 특성

• 검색 결과를 평가하기 위해 부분적으로 문헌의 ‘소스’를 활 용

ex) 어떤 저자들이 특정 분야의 리더로 알려져 있을 경우 그들의 작품에 특별한 가 중치를 부여

• 사용자들과 관련된 실용 요소를 도입

ex) 사용자가 고등학생인가 아니면 박사학위 소지자인가?

4.4 어휘 척도 – 그 밖의 방법들

(6)

• 유사도(similarity) 측정 목적

– 질의를 통해 표출된 정보요구에 유사한 내용을 가진 문헌을 검 색

• 유사문헌 검색 지원

– 목록이나 색인의 작성자들은 문헌집단을 조직할 때

– 유사 문헌들을 한데 묶어줌으로써 최소한의노력으로 문헌그룹 검색

• 유사도 측정법

– 어휘 중심의 측정

• 특정 용어의 존재 유무만을 기본으로 하는 측정법

• 출현빈도를 기본으로 하는 측정법

– 기타 측정법

• 용어에 대한 중요성을 고려한 측정

• 구(phrase) 및 단어 근접도를 고려한 유사도 측정

• 어간법, 시소러스 등을 이용한 두 문헌간의 유사성 파악

4.5 문헌 유사도

(7)

• 문헌의 기본적인 벡터 표현

– D = <t₁,t₂, … , t_N> if ti=0 : i번째 용어 t가 문헌에 나타나지 않는 경우 – 두 문헌 벡터 D1과 D2에 대하여

D₁ = <t₁₁, t₁₂, .., t_1n>, D₂ = <t₂₁, t₂₂, …, t_2n>

• w = t_1i = t_2i = 1인 용어의 수

• x = t_1i = 1, t_2i = 0인 용어의 수

• y = t_1i = 0, t_2i = 1인 용어의 수

• z = t_1i = t_2i = 0인 용어의 수

• n₁ = w + x

• n₂ = w + y

• N = w + x + y + z

– 두 문헌이 유사한 경우 : w는 비교적 큰 수

– 두 문헌에 유사도가 거의 없는 경우 : x와 y의 수가 큼. t_1i = 0

t_1i = 1

t_2i = 1 t_2i = 0

w x

y z

n₁ n₂

N-n₁ N-n₂ N D₁

D₂

4.5 문헌 유사도

(8)

• 문헌 유사도의 측정식

– 기본적인 문헌의 비교단위의 정의

– 두 문헌의 연관도

– 두 문헌 D1과 D2의 분리 정도

(α : 연관계수)

N z w N

w n

n N

y

x        2 1

2 1

N D D N

w n

n N

N n n n

n 2 2 ( , )

2

2 1 2

1 2 1 2

1

     _ 

4.5 문헌 유사도

x w y N z

D1 D2



 ( , )

) ,

(

¹ ²

D

¹

D

²

D

C 

) , ( ) ,

( D

1

D

2

 D

2

D

1

 

(9)

• 문헌 분리 계수

– 분리 계수 : 두 문헌이 상호 분리될 상관 관계 ^α(S)

= 1 인 경우, α(S) = N/2

– 다양한 문헌 비교 계수, α

• 기타 비교 계수 들

+n

₂

) / 2

N D D , ) (

2 

¹ ²

4.5 문헌 유사도

(10)

• 문헌 계수의 관계

S R

E G W

I P

U

L V Y Q

α(R)  α(E)  α(G)  α(W)  α(I)

연결성이 없는 경우 : 매개변수의 값에 따라 관계 변경 가

4.5 문헌 유사도

유사성 측도 간의 순위 관계

 문헌 분리 α(S)

 직각거리 α(R)

 조건부 확률 α(W)

 벡터 각 α(G)

 산술 평균 α(E)

 중복계수 α(P)

 확률차분 α(U), α(V)

 선형상관 α(L)

 율(Yule) 결합계수 α(Y)

 율(Yule) 보조량 α(Q)

 독립색인 α(I)

10

(11)

• 또 다른 계수들 (w를 고려하는)

– 다이스 계수 (Dice’s Coefficient) : 산술 평균과 관련

– 코싸인 계수 : 벡터 각과 관련

– 조건부 중복 계수 : 조건부 확률 관련

– 자카드 계수(Jaccard’s Coefficient)

2 1

2 n n

w

•거리 측도를 이용한 유사성 측도

– 문헌들 간의 거리가 멀면 멀수록 유사성은 떨어진다

– 질의어와 질의 조건을 모두 만족시키는 문헌 : 거리가 0인 문헌

– 문헌 텍스트와 질의 텍스트간의 차이가 존재하나 가장 높은 유사도를 갖는다면 거리 = 0

– 선형 관계에서의 거리 측도 L_ (d: 거리)

  = 1인 경우

  = 인 경우

Where,  = {1 | 2 |  }

 측도에 따라 거리가 다양하게 변화 가능 (측도 선정의 주의 성)

4.5 문헌 유사도 - 예제

₂

6.71 3.87 6.71 4.45 2.45 3.74

L

₃

4 3 5 3 2 3

(14)

• 통제되지 않는 어휘

– 일상적인 단어, 단어의 변형, 동의어의 사용

– the, of, and, to, a, in : 인쇄된 텍스트의 20 ~ 30%

• 출현빈도가 아주 높은 단어들의 부정적 영향

– 단어 빈도에 의한 측정법 : 단어 출현빈도의 차이에 대한 비교 의미 감 소

– 단어 자체의 의미가 없기 때문에 비생산적인 처리과정을 유발

• 해결 방안

– 불용어 목록(stop list) 또는 부정어 사전(negative dictionary) 개발 – 일반적인 불용어 목록의 크기 : 250 ~ 300 단어

– 문헌 비교 및 검색 과정의 단순화 및 효율성 증대

4.6 어휘 통제 분석 – 불용어 목록

(15)

• 구에 대한 불용어 처리 방법

– “To be, or not to be”

– 불용어로 구성된 구를 고려하기 위한 특별한 기법 적용해 야 함.

• 불용어 식별을 위한 자료 구조

– 이진트리

• 불용어 목록의 크기가 작고 일반적으로 알려져 있는 경우

– 해싱기법

• 각 불용어에 상호 구별될 수 있는 해쉬 함수 값 할당

– 트라이(Trie) 구조

• 불용어에 대한 문자 단위 확인

• Ex) the, then, to 와 technology

4.6 어휘 통제 분석 – 불용어 목록

(16)

• 하나의 단어가 다양한 형태로 파생될 때, 스테밍 알고리즘 이용

ex) computer, computers, computing, compute, computes, computed,

• computational, computationally, computable

• 스테밍 알고리즘

– 단어의 핵심이 되는 어근에 도달하기 위해 단어 끝 부분을 반복적으로 제거

• Ex) Computationally의 경우

: computational →computation → computa → comput

– 접두사의 제거의 어려움

• 접두사인지, 단어의 일부인지 구분 모호

• Ex) impossible v.s. immediately

4.6 어휘 통제 분석 – 어간법

(17)

• 스테밍 알고리즘의 문제점

– 단어의 끝부분에 대한 잘못된 제거

ex) ‘bed’에서 끝부분 ‘ed’를 제거할 수 없음

→ 최소 어근 길이 정의 또는 예외 단어 리스트 정의로 해결

– 단어의 어근(stem) 자체가 변하는 경우

ex) knife  knives

→ 일반화된 패턴 구조 : 복수형 변환

→ 예외 규칙으로 정의하여 알고리즘에 적용

• 문헌 전체에 대한 스테밍 작업의 부하

– 단어의 파생 및 변화 : 전체 문헌 두성 단어의 5~10%

– 스테밍을 위한 과도한 처리 부하 발생 가능성 – 해결 방안

• 사용자 질의 자체를 스테밍 한 후 와일드 문자(*)로 대체 검색

4.6 어휘 통제 분석 – 어간법

(18)

• 개발 배경

– 초기 작업은 영어로 된 문헌 대상

– 인터넷과 웹의 보급으로 인해 다른 언어들도 처리할 수 있는 검색 시스템들이 개발

• 각 언어만의 특성이 검색시스템에 반영되어야 함

예) 중국어 : 단어들 사이에 공간이 없이 연속된 문자열로 작성됨 영국영어와 미국영어에 있어서 철자 및 단어 의미의 차이 존재

• 다언어 검색 시스템의 활용성

– 사용자 그룹의 성격과 규모에 좌우

– 외교 업무, 연구활동에 종사하는 등의 특정집단에서 유용한 도구로서 사용

4.6 어휘 통제 분석 – 다언어 검색 시스템

하나의 언어로 작성된 질의어를 통해 다른 언어로 된 문헌도 검색 가능한 시스템 개발 노력

(19)

• 동일한 의미를 갖는 관련 용어가 서로 다른 형태로 구성된 경우

예: post a letter 와 mail a letter → 용어 유의어 사전 (시소러스) 사용

• 시소러스의 정의

– 용어들의 동의어와 유사어를 분류하고 용어 상호간의 관계와 계통을 구분 하여 생성한 용 어사전

– 광의어, 협의어, 관련어, 유사어, 반의어

• 시소러스 사용 목적

– 유사 혹은 관련 용어의 사용으로 인한 단어의 변형을 처리 – 문헌의 조직 및 축적 단계에서 어휘를 통제하기 위해 사용 – 질의 과정에서 질의의 범위를 확대하기 위해 사용

– 문헌 식별 값

• 용어의 문헌 식별 값

– 색인용어는 문헌을 두 개의 집합으로 분리하는 수단

• 검색될 문헌집합, 검색되지 않을 문헌집합

– 문헌 식별 값

• 하나의 용어가 서로 유사한 문헌들을 다른 문헌집단으로부 터 분리해 낼 수 있는 측도

• 특정한 단어가 한 문헌집단 속에서 상호 관련 없는 문헌들을 분리시키는 능력을 측정한 것

• 두 문헌 사이의 유사성(

)을 측정하기 위한 방법 적용

4.4 어휘 척도 – 용어의 문헌 식별 값

• 용어의 문헌 식별

특정한 단어의 문헌 분리

색인어 부여 전의 문헌집단

4.4 어휘 척도 – 용어의 문헌 식별 값

색인어 부여 후의 문헌집단

• 단어들간의 관계 : 구(Phrase)를 통해 파악

• 구의 출현 빈도 및 가중치

– 구의 출현빈도(phrase frequency)나 가중치 계산

• 개별 단어 산출 방법과 동일

– 구(phrase)의 고유 출현빈도

• 구성 단어의 출현 빈도보다 낮기 때문에 다른 방식 사용

• 예제

: information 172번, retrieval 67번 출현 : freq (information retrieval)  67번

– 구의 가중치 부여

• 문헌에서 information 만 나오는 경우 : 가중치 1

• 문헌에서 retrieval만 나오는 경우 : 가중치 2

• 문헌에서 information retrieval이 나오는 경우 : 가중치 3

4.4 어휘 척도 – 구와 근접도

• 구와 근접도

– 구를 구성하는 단어간의 근접도

• 근접도가 높은 경우 구를 색인어로 선정 가능

– 예제 : 두 단어간의 근접도가 2이하인 경우

3가지 경우가 모두 선택 가능

4.4 어휘 척도 – 구와 근접도

• 프래그매틱 인자(Pragmatic factors)

– 데이터베이스 검색이나 정보검색 과정에서 나타나는 특징으로 부터 추출된 실용적인 요소들을 도입

– 프래그매틱 인자의 예

• 문헌이 포함하고 있는 정보의 명확한 특징을 나타내 주는 트리거 구를 식별

• 검색 결과를 평가하기 위해 부분적으로 문헌의 ‘소스’를 활 용

• 사용자들과 관련된 실용 요소를 도입

4.4 어휘 척도 – 그 밖의 방법들

• 유사도(similarity) 측정 목적

– 질의를 통해 표출된 정보요구에 유사한 내용을 가진 문헌을 검 색

• 유사문헌 검색 지원

– 목록이나 색인의 작성자들은 문헌집단을 조직할 때

– 유사 문헌들을 한데 묶어줌으로써 최소한의노력으로 문헌그룹 검색

• 유사도 측정법

– 어휘 중심의 측정

• 특정 용어의 존재 유무만을 기본으로 하는 측정법

• 출현빈도를 기본으로 하는 측정법

– 기타 측정법

• 용어에 대한 중요성을 고려한 측정

• 구(phrase) 및 단어 근접도를 고려한 유사도 측정

• 어간법, 시소러스 등을 이용한 두 문헌간의 유사성 파악

4.5 문헌 유사도

• 문헌의 기본적인 벡터 표현

w x

y z

4.5 문헌 유사도

• 문헌 유사도의 측정식

N z w N

w n

n N

y

x        2 1

N D D N

w n

n N

N n n n

n 2 2 ( , )

2

      

4.5 문헌 유사도

x w y N z

D1 D2



 ( , )

) ,

(

D

     _ 

– 분리 계수 : 두 문헌이 상호 분리될 상관 관계 ^α(S)