• 검색 결과가 없습니다.

무자질 군집화와 시소러스를 이용한 단어 추천 시스템

N/A
N/A
Protected

Academic year: 2023

Share "무자질 군집화와 시소러스를 이용한 단어 추천 시스템"

Copied!
54
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

공학석사 학위논문

무자질 군집화와 시소러스를 이용한 단어 추천 시스템

Word Recommendation System

Using Featureless Clustering and Thesaurus

지도교수 김 재 훈

2011년 2월

한국해양대학교 대학원

컴퓨터공학과 김 형 철

(2)
(3)

목 차

(4)

그림 목차

(5)

표 목차

(6)

Word Recommendation System

Using Featureless Clustering and Thesaurus

Hyung-Chul Kim

Department of Computer Engineering Graduate School of

Korea Maritime University

Advised by Jae-Hoon Kim

Abstract

This thesis proposes a word recommendation system using information retrieval techniques. The concept of the proposed system is the opposite of the dictionary system which looks up a word with its meaning. That is, the input of the proposed system is the definition or the meaning of a word and the output of the system is the ranked words which are most proper for the meaning (input: meaning, output:

word).

(7)

document expansion: glossary expansion, synonym expansion, thesaurus expansion are used. The proposed system computes the similarity between expanded documents and user queries (the meanings of words) and recommends words using the several methods for document expansion.

The performance (r-inclusion rate) amounts to almost 100% when the queries are meanings of words in the dictionary, and to 72.1% when the queries are meanings which users write in person. Through the several experiments, we have observed that the document expansion is very useful for the word recommendation system.

In the future, new measures including the r-inclusion rate of our proposed measure are required for performance evaluation of word recommendation systems and new evaluation sets for objective assessment. Furthermore, antonyms as well as synonyms are needed for document expansion.

(8)

제 1 장 서 론

(9)
(10)
(11)

제 2장 관 련 연 구

2.1 정보검색

(1) 벡터 공간 모델

(12)
(13)



cos    

∙ 

 

  

  

  

(2.1)



(3) 용어-문헌 가중치 행렬

(14)

2.2 질의 확장

(15)

2.3 단어 군집화

(1) 일반 군집화

(16)

(2) 일반 군집화의 문제점

(17)

(3) 무자질 군집화를 위한 유사도 측정

noW no

NGD

  

logminloglog maxlogloglog

(2.2)

    

    

noW(no of Wikipedia) noW

2) http://kr.wikipedia.org 3) http://www.google.com

(18)

  

  



를 설명하는 문서이고  를 설명하는 문서이다.

는 그래프 상에서 와  

 

(4) 무자질 군집화 알고리즘: TTA(Tree-Traversing Ants)

(19)







(20)



2.4 시소러스

(21)

제 3 장 단어 추천 시스템의 설계 및 구현

4) 여기서 문서란 웹 페이지를 말하며, 보통 웹 페이지를 모으기 위하여 문서수집기(crawler)라 는 프로그램을 이용한다.

(22)
(23)

3.1 단어 수집

(24)

3.2 사전을 이용한 뜻풀이 확장

(25)
(26)

3.3 단어 군집화를 이용한 유의어 확장

δ

(27)

      

(28)

   

(29)

   

  

     

 

  

    

∈

∈

   

 

 

∈

∈

    

  

(30)

δ

 

δ

    

∈

∈

 

   

(31)

3.4 시소러스를 이용한 확장

3.5 단어 추천 시스템

(32)
(33)
(34)

제 4 장 분석 및 성능 평가



 

 

4.1 사전 뜻풀이를 이용한 시스템 성능 평가

(35)

   

 

 

4.2 사용자 뜻풀이에 대한 성능 평가

(1) 실험 대상 단어 선정 및 사용자 뜻풀이 구축

9) http://www.korean.go.kr/

(36)

(2) 사용자 뜻풀이를 이용한 시스템 성능 평가

   

(37)
(38)

 

(39)
(40)

(41)
(42)
(43)
(44)

제 5 장 결 론

(45)
(46)

참 고 문 헌

(47)
(48)

부 록 #1 : 가장 낮은 성능을 보이는 사용자 뜻풀이

(49)
(50)
(51)
(52)

부 록 #2 : 가장 높은 성능을 보이는 사용자 뜻풀이

(53)
(54)

수치

표 목차

참조

관련 문서

1 Department of Physics, Loyola University Chicago, Chicago, IL, USA 2The Graduate School of Science and Engineering, Saitama University, Saitama, Saitama, Japan 3 High Energy