• 검색 결과가 없습니다.

5.3 검색 효과 척도들 – 평균 정확률과 평균 재현율

N/A
N/A
Protected

Academic year: 2022

Share "5.3 검색 효과 척도들 – 평균 정확률과 평균 재현율"

Copied!
16
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

검색의 양과 관련된 척도들

낮은 양의 문헌 검색 : “관련있음”의 수치 값이 급변 많은 양의 문헌 검색 : “관련없음”의 수치 값이 급변

: 검색됨(n2 값) 증가, 검색되지 않음 감소

문헌 검색의 양에 따른 검색 시스템의 성능

개개인의 인식에 따라 달라짐

검색시스템 성능을 하나의 척도 및 단일 값으로 표현하기 어려움

정확률과 재현율

검색 문헌의 양에 따라 변하는 척도 “0”과 “1”사이의 값을 가짐

정확률과 재현율에 대한 평균치 : 검색 시스템 평가 척도로 사용

5.3 검색 효과 척도들 – 평균 정확률과 평균 재현율

검색됨 검색되지 않음 관련 있음

관련 없음

w x

y z

n1 = w + x

n2 = w + y N = w + x + y + z 검색 평가를 위한 유관표

(2)

•일반적인 평균 정확률/재현율 척도

3지점 평균

• 정의된 3지점의 재현율 수준에서 주어진 질의에 대한 검색 시스템의 정확률을 평균

• 재현율 수준 : 0.25 , 0.5 , 0.75 / 0.2, 0.5, 0.8

11지점 평균

• 재현율 수준 : 0.0, 0.1, 0.2, …., 0.9, 1.0

• 계산 노력이 요구되나 정확도 높음

5.3 검색 효과 척도들 – 평균 정확률과 평균 재현율

(3)

문헌 수준에서의 정확률

5개 질의가 10, 20, 30, 40, 그리고 50개의 관련 문헌에 대한 측정된 정 확률

10 : 관련 문헌수, 13 : 검색 문헌수, 0.77 : 정확률(10/13) 20개의 관련 문헌을 얻기 위해 28개의 문헌을 검색함

5.3 검색 효과 척도들 – 평균 정확률과 평균 재현율

수준 10 20 30 40 50

Q1 13, 0.77 28, 0.74 42, 0.71 57, 0.70 71, 0.70 Q2 12, 0.67 30, 0.67 51, 0.59 65, 0.62 92, 0.54 Q3 17, 0.83 25, 0.80 43, 0.70 59, 0.68 84, 0.60 Q4 15, 0.59 29, 0.69 39, 0.77 51, 0.78 84, 0.49 Q5 14.4, 0.67 26, 0.77 47, 0.64 62, 0.65 87, 0.57 평균 14.4, 0.69 27.6, 0.72 44.4,

0.68

58.8, 0.68

87.4, 0.57

(4)

• 주어진 정확률/재현율 수준에서의 질의

– 1400권의 문헌, 225개의 관련 질의, 16번 수행, 3600개의 질의 예제 산출 – <0.2,0.4>=16에 대하여 정확률: 0.3~0.4, 재현율: 0.1~0.2

– 각 재현율 수준에 대한 평균 정확률과 각 정확도 수준에서의 평균 재현율이 계산될 수 있음

5.3 검색 효과 척도들 – 평균 정확률과 평균 재현율 만 들기 혹은 삭제

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 평균

0.0 394 0 0 0 0 0 0 0 0 0 0 394 0.00

0.1 0 3 11 3 5 3 2 7 4 1 5 44 0.47

0.2 0 0 12 2 4 1 0 0 1 2 0 22 0.30

0.3 0 1 2 2 0 2 1 1 0 0 2 11 0.46

0.4 0 7 16 6 8 4 2 5 0 3 2 53 0.35

0.5 0 27 76 43 54 36 11 23 20 5 6 301 0.36

0.6 0 0 15 32 18 63 19 15 19 10 28 219 0.54

0.7 0 0 35 48 90 38 31 67 23 21 43 396 0.53

0.8 0 0 17 58 40 80 41 28 41 58 47 410 0.59

0.9 0 0 0 1 9 8 15 7 20 39 20 119 0.74

1.0 0 102 505 142 382 208 31 73 53 2 133 1631 0.37

394 140 389 337 610 443 153 226 181 141 286 3600

평균 0.00 0.85 0.87 0.77 0.85 0.80 0.74 0.74 0.76 0.73 0.82

재현율

(5)

• 정확률과 재현율 계산 방식

– 3지점/11지점 평균에 의한 방법

• 각 질의에 대한 평균들을 각 질의가 점점 많은 문헌들을 검색하는 것으로 결정하고 , 이들 수를 평균한다

– 사전 정의된 관련 척도 이용 방법

• 사전에 정의된 척도를 시스템 수행 단계에서 고정시키고, 그 과정의 정의된 지점들에서 질의 집합에 대한 효율성 척도들을 평균하고, 이들 수에 대해서 평균을 낸다.

5.3 검색 효과 척도들 – 평균 정확률과 평균 재현율

(6)

• 문헌집단과 구별

– P1 : 적합 문헌들로 구성되는 모집단 – P2 : 비적합 문헌들로 구성되는 모집단 – C : 각 문헌과 연관되는 측정 가능한 특성

문헌 집단에서 용어의 출현 수

적합성 개념으로 사용 : 2개의 모집단을 구별

C 값과 대응하는 점 < %P1, %P2 >들은 주어진 정보검색 시스템에 대한 운영 곡 선을 유도하는데 사용 `

5.4 운영 곡선과 단일 척도

(7)

• 검색 시스템 운영 곡선

특정 정보검색 시스템이 문헌 집단을 어떻게 구별하여 사용하는가 ? 최초 검색(<0,0>)부터 전체 문헌(<100,100>) 검색까지의 검색 진행

상황을 포함

그래프 곡선 형태

• C가 적합성과 강한 관련성

: %P1을 향해서 솟구치는 형태

• C가 비적합성과 강한 관련성

: 완만한 형태

• C가 P

1

과 P

2

에 대하여 정규 분포

: 직선 형태

5.4 운영 곡선과 단일 척도

(8)

• J.A. Swets 의 시스템 효율 척도, E

– <0,100>과 <75,34>의 연결선과 교차하는 운영곡선과의 거리 – 운영곡선의 기울기가 “1”인 검색 시스템들의 경우

» 척도가 E의 값이 유용한 정보로 사용됨 – 운영 곡선 기울기가 “1”이 아닌 시스템들

» 전체적인 차원에서의 척도가 항상 참이지 못함.

0 1

1

%P1

%P2

• A

B

<75,34>

5.4 운영 곡선과 단일 척도

(9)

• Category Ranking System

– Precision

– Recall Total Categories correct

correct and

system by the

assigned Categories

system by the

assigned Categories

correct and

system by the

assigned Categories

– 11-point average precision

전체 테스트 문서 집합에 대한 global 한 evaluation을 하기 위해 각 문서별로 재현율에 따른 정확률을 측정한 뒤 전체 문서 집합 에 대해 평균을 내어 산출

5.5 시스템 관련 척도 – 문서 범주화 시스템

(10)

• Binary Classifier

Macro Averaging Precision/Recall

모든 범주들에 대해 동일한 weight 를 부여하는 결과

Micro Averaging Precision/Recall

모든 문서들에 대해 동일한 weight 를 부여하는 결과

 범주들의 분포에 엄연히 차이가 존재하므로 Micro Averaging 기법이 Reasonable 하며 대부분 이를 사용

5.5 시스템 관련 척도 – 문서 범주화 시스템

(11)

• F-measure and BEP

Break Even Point

– Precision과 recall이 같게 된다면 그때의 같은 값이 BEP

– 같게 할 수 없다면 Precision 과 recall이 가장 가까워 질 때, 두 값을 평균한 값이 BEP

F-measure( by C.J. van Rijsbergen ) – Precision과 Recall의 조화평균(F

1

)

p r

rp + 2

5.5 시스템 관련 척도 – 문서 범주화 시스템

(12)

• Adhoc Task

– 지시적(indicative), 사용자주도(user-driven) 요약에 초점

– 평가자에게 문서와 사용자질의를 주고, 주어진 문서가 질의에 적합한 지의 여부를 결정하도록 한다.

• 문서는 full-text source일 수도 있고 요약일 수도 있다. 평가자에게는 둘중 어느것인지 알려주지 않는다.

• Categorization Task

– 포괄적 요약(generic summary)에 초점

– 평가자에게 문서를 주고 그 문서와 관련있는 하나의 범주를 선택하도 록 한다.

• 문서는 full-text source일 수도 있고 요약일 수도 있다. 평가자에게는 둘중 어느것인지 알려주지 않는다.

• 범주와 범주에 대한 설명 제공.

Full-text source를 보고 미리 구해둔 적합성에 대해, 요약을 보고 내린 적합성 판단의 정확도를 평가한다.

5.5 시스템 관련 척도 – 문서 요약 시스템

(13)

• Question-answering Task

– 정보적 요약(informative summary)에 초점

• 각 문서에 관련된 주제를 이해하고,

• 그 주제의 모든 필수적인 관점들을 가능한 한 짧은 요 약에 포함할 수 있어야 한다.

– 어떤 한 주제에 대해 리포트를 작성하려는 정보 분석가를 지원하기 위해 고안됨.

• Acceptability Task

– Full-text에 비해 요약이 얼마나 받아들일만한지 에 대해 전반적으로 측정한다.

– 평가자는 full-text 문서와 요약을 모두 읽어보고, 요약이 만족할만한지 결정하도록 한다.

• 만족도의 기준?

5.5 시스템 관련 척도 – 문서 요약 시스템

(14)

• TREC에서의 question

– fact_based question – short-answer question

• 평가

: assessor들이 답으로 제출된 각각의 string 을 읽고 binary decision을 한다.

– 매우 제약을 가한 question임에도 불구하고,

answer은 context에 의존했으며, assessor들은 특 정한 answer string이 옳은지에 대해 서로 다른 견 해를 보였다.

5.5 시스템 관련 척도 – 질의 응답 시스템

(15)

• Creating the question set

– Goal : to have the test set represent a wide spectrum of subjects and question types

• Assessor training

– The rational for using human assessors

: to incorporate the perceptions of the end-users of the technology into the evaluation to the greatest extent possible.

• Judging the test set

– 하나의 답에 대해 서로 다른 세 명의 assessor가 judge를 하였다.

• Scoring the result

5.5 시스템 관련 척도 – 질의 응답 시스템

(16)

• Assessor들간의 견해 차이

– 예) When did NIXON die? -> April 22

• Assessor둘은 정답으로 판단했지만, 한 사람은 연도가 명시 되지 않아 틀린 것으로 판단하였다.

• 정답에 대한 일관된 기준을 만드는 것은 의미가 없 다.

– 정답 기준은 question에 따라 다르다.

• 예) When으로 시작하는 의문문이라 하더라도, 연도를 명시 해야 하는 경우, 날짜만 명시해도 되는 경우, 세기만 명시해 도 되는 경우 등 question마다 정답에 대한 기준이 다르다.

– 정답 기준은 answer을 받아들이는 사람에 따라 다르 다.

5.5 시스템 관련 척도 – 질의 응답 시스템

참조

관련 문서

대응변의 길이와 대응각의 크기를 구하시오..

점수당 금액 지역 표준보수월액 연말평균

통계자료의 정리 평균 , 표준편차 다섯숫자요약 빈도수. 평균 ,

설문지 항목에 대하여 어떤 척도로 응답을 표시하는가에 따라서 연구 결과가 달라질 수도 있으며 , 원하는 결과가 나오지 않을 수도 있다.. 태도 , 인식에 대한 응답을

각 집단의 평균을 집단 내의 관측치수에 따라서 가중하여 구한 평균이 가중평균임 [예] 물가지수 (470개의 품목을 선정하여, 월별로 3회에 걸쳐 가격을 조사).. 기하평균(geometric

확률변수 확률분포

※ 학사일정은 사정에 따라

․겹침이음은 두 철근의 겹침길이를 충분히 하여 원래 철근의 힘이 콘크리트의 부착 응력에 의하여 이어지는 철근으로 전달되도록 하는 이음방법이다.