• 용어의 문헌 식별 값
– 색인용어는 문헌을 두 개의 집합으로 분리하는 수단
• 검색될 문헌집합, 검색되지 않을 문헌집합
– 문헌 식별 값
• 하나의 용어가 서로 유사한 문헌들을 다른 문헌집단으로부 터 분리해 낼 수 있는 측도
• 특정한 단어가 한 문헌집단 속에서 상호 관련 없는 문헌들을 분리시키는 능력을 측정한 것
• 두 문헌 사이의 유사성(
)을 측정하기 위한 방법 적용
(D1, D2) = 1에 가까우면 : 문헌집단이 분리될 확률이 적음
(D1, D2) = 0에 가까우면 : 문헌집단이 분리될 확률이 높음
4.4 어휘 척도 – 용어의 문헌 식별 값
• 용어의 문헌 식별
특정한 단어의 문헌 분리
– 단어가 색인어로 부여되기 이전과 부여된 이후의 문헌간의 평균유사도의 차이를 측정 – 좋은 색인어는 이 색인어를 문헌집단에서 제거했을 때 문헌간의 평균 유사도를 증가 시
킴.
색인어 부여 전의 문헌집단
관련문헌 비 관련문헌 A
4.4 어휘 척도 – 용어의 문헌 식별 값
좋은 색인어는
문헌집단을 구성하는 문헌들 가운데 서로 주제가 다른 문헌들을 가능한 한 분리시키며 나쁜 색인어는
반대로 이러한 문헌들을 무리 짓는다.
색인어 부여 후의 문헌집단
비 관련문헌 C
• 단어들간의 관계 : 구(Phrase)를 통해 파악
• 구의 출현 빈도 및 가중치
– 구의 출현빈도(phrase frequency)나 가중치 계산
• 개별 단어 산출 방법과 동일
– 구(phrase)의 고유 출현빈도
• 구성 단어의 출현 빈도보다 낮기 때문에 다른 방식 사용
• 예제
: information 172번, retrieval 67번 출현 : freq (information retrieval) 67번
– 구의 가중치 부여
• 문헌에서 information 만 나오는 경우 : 가중치 1
• 문헌에서 retrieval만 나오는 경우 : 가중치 2
• 문헌에서 information retrieval이 나오는 경우 : 가중치 3
4.4 어휘 척도 – 구와 근접도
• 구와 근접도
– 구를 구성하는 단어간의 근접도
• 근접도가 높은 경우 구를 색인어로 선정 가능
– 예제 : 두 단어간의 근접도가 2이하인 경우
3가지 경우가 모두 선택 가능
4.4 어휘 척도 – 구와 근접도
Information retrieval
Information storage and retrieval
Retrieval of information
• 프래그매틱 인자(Pragmatic factors)
– 데이터베이스 검색이나 정보검색 과정에서 나타나는 특징으로 부터 추출된 실용적인 요소들을 도입
– 프래그매틱 인자의 예
• 문헌이 포함하고 있는 정보의 명확한 특징을 나타내 주는 트리거 구를 식별
ex) ‘결론’이나 ‘발견’과 같은 단어는 해당 문헌의 중심 내용과 아이디어를 제시한 다는 특성
• 검색 결과를 평가하기 위해 부분적으로 문헌의 ‘소스’를 활 용
ex) 어떤 저자들이 특정 분야의 리더로 알려져 있을 경우 그들의 작품에 특별한 가 중치를 부여
• 사용자들과 관련된 실용 요소를 도입
ex) 사용자가 고등학생인가 아니면 박사학위 소지자인가?
4.4 어휘 척도 – 그 밖의 방법들
• 유사도(similarity) 측정 목적
– 질의를 통해 표출된 정보요구에 유사한 내용을 가진 문헌을 검 색
• 유사문헌 검색 지원
– 목록이나 색인의 작성자들은 문헌집단을 조직할 때
– 유사 문헌들을 한데 묶어줌으로써 최소한의노력으로 문헌그룹 검색
• 유사도 측정법
– 어휘 중심의 측정
• 특정 용어의 존재 유무만을 기본으로 하는 측정법
• 출현빈도를 기본으로 하는 측정법
– 기타 측정법
• 용어에 대한 중요성을 고려한 측정
• 구(phrase) 및 단어 근접도를 고려한 유사도 측정
• 어간법, 시소러스 등을 이용한 두 문헌간의 유사성 파악
4.5 문헌 유사도
• 문헌의 기본적인 벡터 표현
– D = <t1,t2, … , tN> if ti=0 : i번째 용어 t가 문헌에 나타나지 않는 경우 – 두 문헌 벡터 D1과 D2에 대하여
D1 = <t11, t12, .., t1n>, D2 = <t21, t22, …, t2n>
• w = t1i = t2i = 1인 용어의 수
• x = t1i = 1, t2i = 0인 용어의 수
• y = t1i = 0, t2i = 1인 용어의 수
• z = t1i = t2i = 0인 용어의 수
• n1 = w + x
• n2 = w + y
• N = w + x + y + z
– 두 문헌이 유사한 경우 : w는 비교적 큰 수
– 두 문헌에 유사도가 거의 없는 경우 : x와 y의 수가 큼. t1i = 0
t1i = 1
t2i = 1 t2i = 0
w x
y z
n1 n2
N-n1 N-n2 N D1
D2
4.5 문헌 유사도
• 문헌 유사도의 측정식
– 기본적인 문헌의 비교단위의 정의
– 두 문헌의 연관도
– 두 문헌 D1과 D2의 분리 정도
(α : 연관계수)
N z w N
w n
n N
y
x 2 1
2 1
N D D N
w n
n N
N n n n
n 2 2 ( , )
2
2 1 2
1 2 1 2
1
4.5 문헌 유사도
x w y N z
D1 D2
( , )
) ,
(
1 2D
1D
2D
D
C
) , ( ) ,
( D
1D
2 D2 D
1
• 문헌 분리 계수
– 분리 계수 : 두 문헌이 상호 분리될 상관 관계 α(S)
= 1 인 경우, α(S) = N/2
– 다양한 문헌 비교 계수, α
• 기타 비교 계수 들
: 중복 계수( α(P)) , 확률 차분 I( α(U)) , 확률 차분 II( α(V)) , 선형 상관( α(L)) , 율(Yule) 결합 계수( α(Y)) , 율 보조량( α(Q)) , 독립 색인( α(I)) 등
계수 특성식 계 수 특성식
직각거리 , α(R) Max(n
1, n
2) 조건부 확률 , α(W) Min(n
1, n
2) 벡터 각 , α(G) (n
1n
2)
1/2산술평균 , α(E) (n
1+n
2) / 2
N D D , ) (
2 1 2
4.5 문헌 유사도
• 문헌 계수의 관계
S R
E G W
I P
U
L V Y Q
α(R) α(E) α(G) α(W) α(I)
연결성이 없는 경우 : 매개변수의 값에 따라 관계 변경 가
4.5 문헌 유사도
유사성 측도 간의 순위 관계
문헌 분리 α(S)
직각거리 α(R)
조건부 확률 α(W)
벡터 각 α(G)
산술 평균 α(E)
중복계수 α(P)
확률차분 α(U), α(V)
선형상관 α(L)
율(Yule) 결합계수 α(Y)
율(Yule) 보조량 α(Q)
독립색인 α(I)
10
• 또 다른 계수들 (w를 고려하는)
– 다이스 계수 (Dice’s Coefficient) : 산술 평균과 관련
– 코싸인 계수 : 벡터 각과 관련
– 조건부 중복 계수 : 조건부 확률 관련
– 자카드 계수(Jaccard’s Coefficient)
2 1
2 n n
w
2 1
n n
w
) , min( n
1n
2w
z N
w
4.5 문헌 유사도
문헌의 형태나 유사성을
설명하기 위해 사용하나
최고의 측정 방법(계수)은
존재 하지 않음
•거리 측도를 이용한 유사성 측도
– 문헌들 간의 거리가 멀면 멀수록 유사성은 떨어진다
– 질의어와 질의 조건을 모두 만족시키는 문헌 : 거리가 0인 문헌
– 문헌 텍스트와 질의 텍스트간의 차이가 존재하나 가장 높은 유사도를 갖는다면 거리 = 0
– 선형 관계에서의 거리 측도 L (d: 거리)
= 1인 경우
= 인 경우
Where, = {1 | 2 | }
= 2인 경우는 일반적인 Euclidean distance를 의미하는 직선 거리 관계
4.5 문헌 유사도
• 4개의 문헌에 각기 다른 4개의 주요 용어 및 이의 가중치
– D
1=<2, 0, 3, 5>
– D
2=<0, 4, 0, 1>
– D
3=<3, 1, 1, 2>
– D
4=<2, 4, 1, 0>
문헌쌍 (D1, D4) 사이의 거리
: 어떠한 거리 측도를 사용했는가에 따라 값의 형태가 달라짐
측도에 따라 거리가 다양하게 변화 가능 (측도 선정의 주의 성)
4.5 문헌 유사도 - 예제
D
1,D
2D
1,D
3D
1,D
4D
2,D
3D
2,D
4D
3,D
4L
113 7 11 8 4 6
L
26.71 3.87 6.71 4.45 2.45 3.74
L
34 3 5 3 2 3
• 통제되지 않는 어휘
– 일상적인 단어, 단어의 변형, 동의어의 사용
– the, of, and, to, a, in : 인쇄된 텍스트의 20 ~ 30%
• 출현빈도가 아주 높은 단어들의 부정적 영향
– 단어 빈도에 의한 측정법 : 단어 출현빈도의 차이에 대한 비교 의미 감 소
– 단어 자체의 의미가 없기 때문에 비생산적인 처리과정을 유발
• 해결 방안
– 불용어 목록(stop list) 또는 부정어 사전(negative dictionary) 개발 – 일반적인 불용어 목록의 크기 : 250 ~ 300 단어
– 문헌 비교 및 검색 과정의 단순화 및 효율성 증대
4.6 어휘 통제 분석 – 불용어 목록
• 구에 대한 불용어 처리 방법
– “To be, or not to be”
– 불용어로 구성된 구를 고려하기 위한 특별한 기법 적용해 야 함.
• 불용어 식별을 위한 자료 구조
– 이진트리
• 불용어 목록의 크기가 작고 일반적으로 알려져 있는 경우
– 해싱기법
• 각 불용어에 상호 구별될 수 있는 해쉬 함수 값 할당
– 트라이(Trie) 구조
• 불용어에 대한 문자 단위 확인
• Ex) the, then, to 와 technology
4.6 어휘 통제 분석 – 불용어 목록
• 하나의 단어가 다양한 형태로 파생될 때, 스테밍 알고리즘 이용
ex) computer, computers, computing, compute, computes, computed,
• computational, computationally, computable
• 스테밍 알고리즘
– 단어의 핵심이 되는 어근에 도달하기 위해 단어 끝 부분을 반복적으로 제거
• Ex) Computationally의 경우
: computational →computation → computa → comput
– 접두사의 제거의 어려움
• 접두사인지, 단어의 일부인지 구분 모호
• Ex) impossible v.s. immediately
4.6 어휘 통제 분석 – 어간법
• 스테밍 알고리즘의 문제점
– 단어의 끝부분에 대한 잘못된 제거
ex) ‘bed’에서 끝부분 ‘ed’를 제거할 수 없음
→ 최소 어근 길이 정의 또는 예외 단어 리스트 정의로 해결
– 단어의 어근(stem) 자체가 변하는 경우
ex) knife knives
→ 일반화된 패턴 구조 : 복수형 변환
→ 예외 규칙으로 정의하여 알고리즘에 적용
• 문헌 전체에 대한 스테밍 작업의 부하
– 단어의 파생 및 변화 : 전체 문헌 두성 단어의 5~10%
– 스테밍을 위한 과도한 처리 부하 발생 가능성 – 해결 방안
• 사용자 질의 자체를 스테밍 한 후 와일드 문자(*)로 대체 검색
4.6 어휘 통제 분석 – 어간법
• 개발 배경
– 초기 작업은 영어로 된 문헌 대상
– 인터넷과 웹의 보급으로 인해 다른 언어들도 처리할 수 있는 검색 시스템들이 개발
• 각 언어만의 특성이 검색시스템에 반영되어야 함
예) 중국어 : 단어들 사이에 공간이 없이 연속된 문자열로 작성됨 영국영어와 미국영어에 있어서 철자 및 단어 의미의 차이 존재
• 다언어 검색 시스템의 활용성
– 사용자 그룹의 성격과 규모에 좌우
– 외교 업무, 연구활동에 종사하는 등의 특정집단에서 유용한 도구로서 사용
4.6 어휘 통제 분석 – 다언어 검색 시스템
하나의 언어로 작성된 질의어를 통해 다른 언어로 된 문헌도 검색 가능한 시스템 개발 노력
• 동일한 의미를 갖는 관련 용어가 서로 다른 형태로 구성된 경우
예: post a letter 와 mail a letter → 용어 유의어 사전 (시소러스) 사용
• 시소러스의 정의
– 용어들의 동의어와 유사어를 분류하고 용어 상호간의 관계와 계통을 구분 하여 생성한 용 어사전
– 광의어, 협의어, 관련어, 유사어, 반의어
• 시소러스 사용 목적
– 유사 혹은 관련 용어의 사용으로 인한 단어의 변형을 처리 – 문헌의 조직 및 축적 단계에서 어휘를 통제하기 위해 사용 – 질의 과정에서 질의의 범위를 확대하기 위해 사용