중 간 고 사
과 목 명: MIS3030-01 e-비즈니스 2017/10/26
* 앞 화면의 주의사항을 확인하시오. 주의사항을 지키지 못한 경우 0 점으로 처리되거나 불이익을 받을 수 있습니다.
1. Google 이 검색 결과의 품질을 높이기 위해 사용하는 방법을 다음 웹 페이지 정보를 바 탕으로 다음 단계에 따라 구현해 보시오.
* 웹 페이지 정보
Web Page Key words Hyperlink-To W1 Yonsei, First W1, W2, W3 W2 Korea, Best, Justice W1, W3, W4 W3 First, Love, Justice W1, W4
W4 Korea, First W1, W3
(1) 위 웹 페이지 정보를 바탕으로 PageRank 를 계산하여, 다음 표의 3 번째 행의 빈칸 을 채우시오.
Web Page Key word PageRank
W1 Yonsei
W1 First
W2 Korea
W2 Best
W2 Justice
W3 First
W3 Love
W3 Justice
W4 Korea
W4 First
(2) 검색엔진 사용자가 “First”라는 키워드를 입력하였을 때, 어떤 순서로 웹 페이지를 보여 주겠는가?
2. 다음 웹 페이지 정보를 바탕으로 다음 단계에 따라 연관검색어 표를 구축해 보시오.
* 웹 페이지 정보
Web Page Key words W1 Yonsei, First W2 Korea, Best, Justice W3 First, Justice W4 Yonsei, Korea, First
(1) 웹 페이지에 나타난 모든 키워드들을 중복되지 않게 나열하시오.
(2) 위 키워드들을 두 개씩 짝을 지은 후 연관값을 계산하시오.
단어 집합 (키워드 짝) 연관값
(3) 검색엔진 사용자가 “First”라는 키워드를 입력하였을 때, 어떤 순서로 연관검색어를 보여 주겠는가?
3. 다음 자료의 고객들을 두 개의 클러스터로 나누시오.
* 고객 정보
고객번호 학력 성별
C001 2 0
C002 3 0
C003 3 1
C004 4 1
4. 내용기반 필터링을 다음 블로그 정보를 바탕으로 다음 단계에 따라 구현해 보시오.
* 블로그 정보
Blog Page 출현 단어 단어 출현 횟수
W1 연세
원주 환경
2 2 2
W2 연세
경영학부
2 2
W3 연세
원주 정경대학
2 1 1
(1) 위 블로그 정보를 바탕으로 다음 표의 각 값들을 모두 계산하시오.
W1 W2 W3
단어출현
횟수
연세 원주 환경
연세
경영학부
연세 원주 정경대학
TF
연세
원주
환경
연세 경영학부
연세
원주
정경대학
IDF
연세
원주
환경
연세 경영학부
연세
원주
정경대학
TF*IDF
연세 원주 환경
연세
경영학부
연세 원주 정경대학
중 간 고 사
과 목 명: MIS3030-01 e-비즈니스 2017/10/26
* 앞 화면의 주의사항을 확인하시오. 주의사항을 지키지 못한 경우 0 점으로 처리되거나 불이익을 받을 수 있습니다.
1. Google 이 검색 결과의 품질을 높이기 위해 사용하는 방법을 다음 웹 페이지 정보를 바 탕으로 다음 단계에 따라 구현해 보시오.
* 웹 페이지 정보
Web Page Key words Hyperlink-To W1 Yonsei, First W1, W2, W3 W2 Korea, Best, Justice W1, W3, W4 W3 First, Love, Justice W1, W4
W4 Korea, First W1, W3
(1) 위 웹 페이지 정보를 바탕으로 PageRank 를 계산하여, 다음 표의 3 번째 행의 빈칸 을 채우시오.
Web Page Key word PageRank
W1 Yonsei 4
W1 First 4
W2 Korea 1
W2 Best 1
W2 Justice 1
W3 First 3
W3 Love 3
W3 Justice 3
W4 Korea 2
W4 First 2
(2) 검색엔진 사용자가 “First”라는 키워드를 입력하였을 때, 어떤 순서로 웹 페이지를 보여 주겠는가?
W1 – W3 – W4
2. 다음 웹 페이지 정보를 바탕으로 다음 단계에 따라 연관검색어 표를 구축해 보시오.
* 웹 페이지 정보
Web Page Key words W1 Yonsei, First W2 Korea, Best, Justice W3 First, Justice W4 Yonsei, Korea, First
(1) 웹 페이지에 나타난 모든 키워드들을 중복되지 않게 나열하시오.
Yonsei, First, Korea, Best, Justice
(2) 위 키워드들을 두 개씩 짝을 지은 후 연관값을 계산하시오.
단어 집합 (키워드 짝) 연관값
Yonsei, First 2/4
Yonsei, Korea 1/4
Yonsei, Best 0/4
Yonsei, Justice 0/4
First, Korea 1/4
First, Best 0/4
First, Justice 1/4
Korea, Best 1/4
Korea, Justice 1/4
Best, Justice 1/4
(3) 검색엔진 사용자가 “First”라는 키워드를 입력하였을 때, 어떤 순서로 연관검색어를 보여 주겠는가?
Yonsei – Korea – Justice 또는
Yonsei – Justice – Korea
3. 다음 자료의 고객들을 두 개의 클러스터로 나누시오.
* 고객 정보
고객번호 학력 성별
C001 2 0
C002 3 0
C003 3 1
C004 4 1
Cluster 1 Distance among
elements Cluster 2 Distance among
elements Total Distance
{ C001 }
0
{ C002, C003,C004 }
1
,2
,1 1
+2
+1
{ C002 }
0
{ C001, C003,C004 }
2
,5
,1 2
+5
+1
{ C003 }
0
{ C001, C002,C004 }
1
,5
,2 1
+5
+2
{ C004 }
0
{ C001, C002,C003 }
1
,2
,1 1
+2
+1
{ C001, C002 }
1
{ C003, C004 }1 1
+1
{ C001, C003 }
2
{ C002, C004 }2 2
+2
{ C001, C004 }
5
{ C002, C003 }1 5
+1
{ C001, C002 }과 { C003, C004 }로 나눈다.
4. 내용기반 필터링을 다음 블로그 정보를 바탕으로 다음 단계에 따라 구현해 보시오.
* 블로그 정보
Blog Page 출현 단어 단어 출현 횟수
W1 연세
원주 환경
2 2 2
W2 연세
경영학부
2 2
W3 연세
원주 정경대학
2 1 1
(1) 위 블로그 정보를 바탕으로 다음 표의 각 값들을 모두 계산하시오.
W1 W2 W3
단어출현
횟수
연세 2 원주 2 환경 2
연세 2 경영학부 2
연세 2 원주 1 정경대학 1
TF
연세 2/6 원주 2/6 환경 2/6
연세 2/4 경영학부 2/4
연세 2/4 원주 1/4 정경대학 1/4
IDF
연세 log((3+1) / 3) 원주 log((3+1) / 2) 환경 log((3+1) / 1)
연세 log((3+1) / 3) 경영학부 log((3+1) / 1)
연세 log((3+1) / 3) 원주 log((3+1) / 2) 정경대학 log((3+1) / 1)
TF*IDF
연세 0.096 원주 0.231 환경 0.462
연세 0.144 경영학부 0.693
연세 0.144 원주 0.173 정경대학 0.347