• 검색 결과가 없습니다.

웰빙 식품 정보검색 시스템

N/A
N/A
Protected

Academic year: 2022

Share "웰빙 식품 정보검색 시스템"

Copied!
27
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

웰빙 식품 정보검색 시스템

(2)

8.1 웰빙 식품 정보검색 시스템의 필요성

8.2 웰빙 식품 정보검색 시스템의 구조

8.3 웰빙 식품 정보검색 시스템의 사용 기법

8.4 웰빙 페이지 선별 방법

8.5 알고리즘

8.6 정규화 실험

Contents

2

(3)

실제로 구현된 정보검색 시스템의 이해

실제로 적용된 정보검색 알고리즘의 이해

웰빙 식품 정보검색 시스템의 이해

Objectives

(4)

• 소비자의 웰빙식품에 대한 관심이 높아짐

• 식품정보를 얻기 위한 수단은 다양하나 전 문적이지 못함

• 대중매체의 불신과 관련정보 부재

8.1 웰빙 식품 정보검색 시스템의 필요성

4 4

(5)

웹 로봇으로부터 수집된 웹 페이지 → 데이터 큐

데이터 큐 는 웹 페이지 저장

인덱서에서 웹 페이지 분석

– 형태소 분석

– zipf’s law의 중요단어 추출 – 웰빙 식품단어 비교

– 최종 랭킹점수 계산 – 역파일 저장

해시 방식으로 역파일 보관

역파일을 이용하여 서비스

8.2 웰빙 식품 정보검색 시스템의 구조

5

(6)

인터넷에서 웹사이트의 링크를 돌아다니면서 웹 페이지를 수

• 시작

페이지(seed page)를 지정하면 그곳부터 시작

웹 페이지를 파싱(parsing)하여 링크를 얻어와 큐에 저장

페이지 주소와 수집 날

와 함께 이진 데이터 형태로 인덱 서(indexer)로 전송

8.2 웰빙 식품 정보검색 시스템의 구조 – 웹 로봇

웰빙 식품 정보검색 시스템의 웹 로봇은 html 태그 제거 모듈이 추가되어

text 정보만 인덱서로 전송

6 6

(7)

8.2 웰빙 식품 정보검색 시스템의 구조 – 수집된 문서

7

(8)

• 텍스트 문서에서 단어를 추출

• 영어와 한국어 단어를 사전을 이용하여 인 식

• 문서를 토큰으로 나누어(띄어쓰기나 특수문 자) 어휘분석

• 특수기능으로 불용어, 시소러스

– 불용어 : 사용되지 않는 단어들을 사용자가 직 접 입력

8.2 웰빙 식품 정보검색 시스템의 구조 – 형태소 분석

8 8

(9)

• 웹 로봇으로부터 전송 받은 텍스트 문서를 분석

형태소분석

웰빙 페이지 선별

Zipf’s law

역파일 생성

8.2 웰빙 식품 정보검색 시스템의 구조 – 인덱서

9

(10)

• 역파일 구조

– 페이지 주소와 단어의 빈도수 웰빙 페이지 점수 등을 저장

– 단어 : 눈물

– 빈도수 : 1

– 페이지 주소 :

htt //bl / d8099

8.2 웰빙 식품 정보검색 시스템의 구조 – 역파일

10 10

(11)

• 해시 값

– Hashcode : 해시 값

– Ascii code : 각 각 문자의 아스키 코드 값 – Location : 문자의 위치

• Hashcode = hashcode + (ascii code

* location)

8.2 웰빙 식품 정보검색 시스템의 구조 – 역파일

11

(12)

• 비 주제어를 필터링

• 순위(주제)와 빈도수의 곱에는 일정한 상수가 존재

• 순위 * 빈도수 = 상수

8.3 웰빙 식품 정보검색 시스템의 사용 기법 – Zipf’s law

12 12

(13)

• 너무 많거나 너무 적은 단어는 비 주제어

• 한국어 문헌 선정실험에서 30%가 비 주제 어

– Zipf’s law를 이용하여 비 주제어 제거

빈도수가 많은 15%

빈도수가 적은 15%

예) ~을 ~과 등 조사 (빈도수가 너무 많은경우)

예) 완전히 분리되지 않은 형태소 분석 결과 (너무 적은경우)

8.3 웰빙 식품 정보검색 시스템의 사용 기법 – Zipf’s law

13 13

(14)

• 수집된 문헌 전체에 대한 빈도 고려

• 전체를 대상으로 빈도수가 많은 단어 는 식별성이 떨어짐

• Zipf’s law에 의해 걸러지지 않은 비 주 제어를 제거

8.3 웰빙 식품 정보검색 시스템의 사용 기법 – IDF

14 14

(15)

• 이 페이지가 웰빙식품과 관련이 있는 지 선별

– 웰빙 페이지인경우 가중치 추가

– W : 이 페이지의 웰빙 가충치 – I : 아이템(형태소 분석된 단어) – If : 아이템의 빈도수

– Weight : 웰빙 사전에서 얻은 가중치 값 – N : 아이템 종류

8.4 웰빙 페이지 선별 방법

15 15

(16)

• 소비자가 선호하는 식품에 더 많은 가 중치부여

– 설문 자료를 이용하여 소비형태 조사 – 자료는 논문지를 조사 순위 카테고리 추가 비율

1 잡곡, 생선류 39%

2 유제품, 음료, 과자와빵 36%

3 채소, 과일류 33%

4 육류 25%

5 나머지 식재료 20%

- 일반 키워드 0%

8.4 웰빙 페이지 선별 방법

16 16

(17)

• 페이지 예시

– 페이지 내부 웰빙식품단어 : 사과 10, 우 유 7, 고등어 3

– 사과 : 10 * 0.33 = 3.3 – 우유 : 7 * 0.36 = 2.52 – 고등어 : 3 * 0.39 = 1.17

– 최종점수 : 3.3+2.52+1.17 / 3 = 2.33

• 역파일에는 100을 곱하여 233으로 저 장

8.4 웰빙 페이지 선별 방법

17

(18)

• 인덱서 알고리즘

– 수집된 웹 페이지를 zip’s law로 중요단어를 얻는다

procedure indexer(page)

words morpheme_analysis(page) zipf's_law(words)

make_wellbeing_weight(words) make_inverse_file()

end procedure

8.5 알고리즘 – 인덱서

18 18

(19)

• zipf’s law 알고리즘

//키워드 리스트중에서 가장 큰 빈도수를 갖는 값을 찾는다 average_frequency = find_average(word_list);

for(i=0;i<all_word_num;i++)

{//평균 빈도수보다 크거나 같으면 높을수록 점수가 감소한다 if(word_list[i].frequency >= average_frequency)

{// 랭킹점수를 구한다 비율로 점수를 구한다 word_list[i].zip_score = 1000 -

(word_list[i].frequency /

(average_frequency*2)*1000);

}

if(word_list[i].frequency < average_frequency)

{ //빈도수가 평균 빈도수의 작으면 높을수록 점수가 증가한다 word_list[i].zip_score = (word_list[i].frequency

/ (average_frequency*2)*1000);

}

// 300점 이하로 받은 키워드를 cutoff 시킨다 if(word_list[i].zip_score < 300)

8.5 알고리즘 – Zipf’s Law

19

(20)

• 웰빙 페이지 식별 알고리즘

– 월빙 식품사전의 단어가 웹 페이지에 얼마나 존재하는가에 대한 수

int make_page_add_score

(page *word_list, int all_word_num){

int score=0;

for(i=0;i<all_word_num;i++) {

score = score+wellbeing_dic(word_list.[i].word);

} return score / all_word_num;

}

8.5 알고리즘 – 페이지 식별

20 20

(21)

• 웰빙 식품 가중치 계산 알고리즘

– 중요단어를 이용하여 식품 단어사전과 비교한 점수를 웹 페이지의 점수로 부여

procedure make_wellbeing_weight(words) score ← make_page_add_score(words) page.wellbeing_score ← score

end procedure

8.5 알고리즘 – 가중치 계산

21

(22)

• R : 최종으로 계산되는 랭킹점수

• F : 단어의 빈도수

• idf : IDF(inverse document frequency)

• W : 웰빙 페이지 가중치 (W ≥ 1) 8.5 알고리즘 – 최종 랭킹 계산

22 22

(23)

• 최종 랭킹점수 알고리즘

– 수집된 웹 페이지 전체 수를 이용하여 idf 계 산

for(i=0;i<all_word_num;i++){

//idf 적용 idf = log2N-log2Dk+1

word_list[i].idf_score = log2(all_page_num) - log2(count_word_page_num(word_list[i].word))+1;

//최종 랭킹점수 적용 R = F * idf * W word_list[i].score = word_list[i].frequency

* word_list[i].idf_score * word_list[i].wellbeing_score;

}

8.5 알고리즘 – 최종 랭킹점수 계산

23 23

(24)

• 실험 환경 변수

– 페이지 수 3만개

– 분석 페이지 상위 100개

• 설문조사결과대로 정규화 하여 실험한 결 과

8.6 정규화 실험

24 24

(25)

• 종류별로 가중치 편차를 증가하여 실험

생선 곡류

유제 음료

야채

과일 육류 나머 범위

1 0.6 0.6 0.6 0.6 0.6 범위

2 0.78 0.72 0.66 0.5 0.4 범위

3 0.94 0.82 0.7 0.38 0.18

8.6 정규화 실험

25

(26)

• 임의로 종류별 가중치 조정

생선 곡류

유제 음료

야채

과일 육류 나머 63% 0.63 0.13 0.12 0.09 0.03 53% 0.53 0.155 0.145 0.115 0.055 43% 0.43 0.18 0.17 0.14 0.08 33% 0.33 0.205 0.195 0.165 0.105

8.6 정규화 실험

26 26

(27)

• 페이지수 증가

– 1~3만 페이지로 늘어나면서 나타나는 현 상 비교

8.6 정규화 실험

27

참조

관련 문서

D Choose the correct words and rewrite the sentences...

Ÿ 고령친화제품 중 ‘건강기능식품 및 급식서비스’를 ‘노인을 위한 식품 및 급식서비스’로 확대하는 고령친화산업 진흥법 시행령을 개정하여, 주로 환자용 식품

최근 미국 농무 부 소속 키토 무역관(FAS Quito)은 에콰도르 식품 제조업체의 판매 전략으로 생산품목 라인 다양화 전략을 제시하였다. 에콰도르 국내 식품

식품 및 영양 안보는 생산과 무역에 달려 있으며 소비자에게 식품 가용성을 제고하려면 제대로 기능하는 공급망과 사회 안전망이 필요. 코로나 조치로 인해 식량

말더듬아동 집단과 일반아동 집단 간 학교적응 총 점수 평균을 비교한 결과, 말더듬 아동 집단이 일반아동 집단보다 낮은 학교적응 점수를 보이는

화학조미료에는 맛을 내는 식품 첨가물인

따라서 본 연구에서는 미역과 다시마 열수추출물을 이용하여 항암 , 혈당강하 , 항산화 및 간 기능보호와 숙취해소 등이 용이한 기능성 식품 제조 기술을 개발하기 위해

The reason why I choose HAPPEN group and EXPERIENCE group to do research is that in English HAPPEN-words and EXPERIENCE-words show diversity in