• 검색의 양과 관련된 척도들
– 낮은 양의 문헌 검색 : “관련있음”의 수치 값이 급변 – 많은 양의 문헌 검색 : “관련없음”의 수치 값이 급변
: 검색됨(n2 값) 증가, 검색되지 않음 감소
• 문헌 검색의 양에 따른 검색 시스템의 성능
– 개개인의 인식에 따라 달라짐
– 검색시스템 성능을 하나의 척도 및 단일 값으로 표현하기 어려움
• 정확률과 재현율
– 검색 문헌의 양에 따라 변하는 척도 – “0”과 “1”사이의 값을 가짐
– 정확률과 재현율에 대한 평균치 : 검색 시스템 평가 척도로 사용
5.3 검색 효과 척도들 – 평균 정확률과 평균 재현율
검색됨 검색되지 않음 관련 있음
관련 없음
w x
y z
n1 = w + x
n2 = w + y N = w + x + y + z 검색 평가를 위한 유관표
•일반적인 평균 정확률/재현율 척도
– 3지점 평균
• 정의된 3지점의 재현율 수준에서 주어진 질의에 대한 검색 시스템의 정확률을 평균
• 재현율 수준 : 0.25 , 0.5 , 0.75 / 0.2, 0.5, 0.8
– 11지점 평균
• 재현율 수준 : 0.0, 0.1, 0.2, …., 0.9, 1.0
• 계산 노력이 요구되나 정확도 높음
5.3 검색 효과 척도들 – 평균 정확률과 평균 재현율
문헌 수준에서의 정확률
5개 질의가 10, 20, 30, 40, 그리고 50개의 관련 문헌에 대한 측정된 정 확률10 : 관련 문헌수, 13 : 검색 문헌수, 0.77 : 정확률(10/13) 20개의 관련 문헌을 얻기 위해 28개의 문헌을 검색함
5.3 검색 효과 척도들 – 평균 정확률과 평균 재현율
수준 10 20 30 40 50
Q1 13, 0.77 28, 0.74 42, 0.71 57, 0.70 71, 0.70 Q2 12, 0.67 30, 0.67 51, 0.59 65, 0.62 92, 0.54 Q3 17, 0.83 25, 0.80 43, 0.70 59, 0.68 84, 0.60 Q4 15, 0.59 29, 0.69 39, 0.77 51, 0.78 84, 0.49 Q5 14.4, 0.67 26, 0.77 47, 0.64 62, 0.65 87, 0.57 평균 14.4, 0.69 27.6, 0.72 44.4,
0.68
58.8, 0.68
87.4, 0.57
• 주어진 정확률/재현율 수준에서의 질의
– 1400권의 문헌, 225개의 관련 질의, 16번 수행, 3600개의 질의 예제 산출 – <0.2,0.4>=16에 대하여 정확률: 0.3~0.4, 재현율: 0.1~0.2
– 각 재현율 수준에 대한 평균 정확률과 각 정확도 수준에서의 평균 재현율이 계산될 수 있음
5.3 검색 효과 척도들 – 평균 정확률과 평균 재현율 만 들기 혹은 삭제
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 합 평균
0.0 394 0 0 0 0 0 0 0 0 0 0 394 0.00
0.1 0 3 11 3 5 3 2 7 4 1 5 44 0.47
0.2 0 0 12 2 4 1 0 0 1 2 0 22 0.30
0.3 0 1 2 2 0 2 1 1 0 0 2 11 0.46
0.4 0 7 16 6 8 4 2 5 0 3 2 53 0.35
0.5 0 27 76 43 54 36 11 23 20 5 6 301 0.36
0.6 0 0 15 32 18 63 19 15 19 10 28 219 0.54
0.7 0 0 35 48 90 38 31 67 23 21 43 396 0.53
0.8 0 0 17 58 40 80 41 28 41 58 47 410 0.59
0.9 0 0 0 1 9 8 15 7 20 39 20 119 0.74
1.0 0 102 505 142 382 208 31 73 53 2 133 1631 0.37
합 394 140 389 337 610 443 153 226 181 141 286 3600
평균 0.00 0.85 0.87 0.77 0.85 0.80 0.74 0.74 0.76 0.73 0.82
정확률
재현율
• 정확률과 재현율 계산 방식
– 3지점/11지점 평균에 의한 방법
• 각 질의에 대한 평균들을 각 질의가 점점 많은 문헌들을 검색하는 것으로 결정하고 , 이들 수를 평균한다
– 사전 정의된 관련 척도 이용 방법
• 사전에 정의된 척도를 시스템 수행 단계에서 고정시키고, 그 과정의 정의된 지점들에서 질의 집합에 대한 효율성 척도들을 평균하고, 이들 수에 대해서 평균을 낸다.
5.3 검색 효과 척도들 – 평균 정확률과 평균 재현율
• 문헌집단과 구별
– P1 : 적합 문헌들로 구성되는 모집단 – P2 : 비적합 문헌들로 구성되는 모집단 – C : 각 문헌과 연관되는 측정 가능한 특성
• 문헌 집단에서 용어의 출현 수
• 적합성 개념으로 사용 : 2개의 모집단을 구별
• C 값과 대응하는 점 < %P1, %P2 >들은 주어진 정보검색 시스템에 대한 운영 곡 선을 유도하는데 사용 `
5.4 운영 곡선과 단일 척도
• 검색 시스템 운영 곡선
– 특정 정보검색 시스템이 문헌 집단을 어떻게 구별하여 사용하는가 ? – 최초 검색(<0,0>)부터 전체 문헌(<100,100>) 검색까지의 검색 진행
상황을 포함
– 그래프 곡선 형태
• C가 적합성과 강한 관련성
: %P1을 향해서 솟구치는 형태
• C가 비적합성과 강한 관련성
: 완만한 형태
• C가 P
1과 P
2에 대하여 정규 분포
: 직선 형태
5.4 운영 곡선과 단일 척도
• J.A. Swets 의 시스템 효율 척도, E
– <0,100>과 <75,34>의 연결선과 교차하는 운영곡선과의 거리 – 운영곡선의 기울기가 “1”인 검색 시스템들의 경우
» 척도가 E의 값이 유용한 정보로 사용됨 – 운영 곡선 기울기가 “1”이 아닌 시스템들
» 전체적인 차원에서의 척도가 항상 참이지 못함.
0 1
1
%P1
%P2
•
• A
B
<75,34>
5.4 운영 곡선과 단일 척도
• Category Ranking System
– Precision
– Recall Total Categories correct
correct and
system by the
assigned Categories
system by the
assigned Categories
correct and
system by the
assigned Categories
– 11-point average precision
•
전체 테스트 문서 집합에 대한 global 한 evaluation을 하기 위해 각 문서별로 재현율에 따른 정확률을 측정한 뒤 전체 문서 집합 에 대해 평균을 내어 산출5.5 시스템 관련 척도 – 문서 범주화 시스템
• Binary Classifier
► Macro Averaging Precision/Recall
•
모든 범주들에 대해 동일한 weight 를 부여하는 결과► Micro Averaging Precision/Recall
•
모든 문서들에 대해 동일한 weight 를 부여하는 결과 범주들의 분포에 엄연히 차이가 존재하므로 Micro Averaging 기법이 Reasonable 하며 대부분 이를 사용
5.5 시스템 관련 척도 – 문서 범주화 시스템
• F-measure and BEP
► Break Even Point
– Precision과 recall이 같게 된다면 그때의 같은 값이 BEP
– 같게 할 수 없다면 Precision 과 recall이 가장 가까워 질 때, 두 값을 평균한 값이 BEP
► F-measure( by C.J. van Rijsbergen ) – Precision과 Recall의 조화평균(F
1)
p r
rp + 2
5.5 시스템 관련 척도 – 문서 범주화 시스템
• Adhoc Task
– 지시적(indicative), 사용자주도(user-driven) 요약에 초점
– 평가자에게 문서와 사용자질의를 주고, 주어진 문서가 질의에 적합한 지의 여부를 결정하도록 한다.
• 문서는 full-text source일 수도 있고 요약일 수도 있다. 평가자에게는 둘중 어느것인지 알려주지 않는다.
• Categorization Task
– 포괄적 요약(generic summary)에 초점
– 평가자에게 문서를 주고 그 문서와 관련있는 하나의 범주를 선택하도 록 한다.
• 문서는 full-text source일 수도 있고 요약일 수도 있다. 평가자에게는 둘중 어느것인지 알려주지 않는다.
• 범주와 범주에 대한 설명 제공.
Full-text source를 보고 미리 구해둔 적합성에 대해, 요약을 보고 내린 적합성 판단의 정확도를 평가한다.
5.5 시스템 관련 척도 – 문서 요약 시스템
• Question-answering Task
– 정보적 요약(informative summary)에 초점
• 각 문서에 관련된 주제를 이해하고,
• 그 주제의 모든 필수적인 관점들을 가능한 한 짧은 요 약에 포함할 수 있어야 한다.
– 어떤 한 주제에 대해 리포트를 작성하려는 정보 분석가를 지원하기 위해 고안됨.
• Acceptability Task
– Full-text에 비해 요약이 얼마나 받아들일만한지 에 대해 전반적으로 측정한다.
– 평가자는 full-text 문서와 요약을 모두 읽어보고, 요약이 만족할만한지 결정하도록 한다.
• 만족도의 기준?
5.5 시스템 관련 척도 – 문서 요약 시스템
• TREC에서의 question
– fact_based question – short-answer question
• 평가
: assessor들이 답으로 제출된 각각의 string 을 읽고 binary decision을 한다.
– 매우 제약을 가한 question임에도 불구하고,
answer은 context에 의존했으며, assessor들은 특 정한 answer string이 옳은지에 대해 서로 다른 견 해를 보였다.
5.5 시스템 관련 척도 – 질의 응답 시스템
• Creating the question set
– Goal : to have the test set represent a wide spectrum of subjects and question types
• Assessor training
– The rational for using human assessors
: to incorporate the perceptions of the end-users of the technology into the evaluation to the greatest extent possible.