중 간 고 사

(1)

중 간 고 사

과 목 명: MIS3030-01 e-비즈니스 2017/10/26

* 앞 화면의 주의사항을 확인하시오. 주의사항을 지키지 못한 경우 0 점으로 처리되거나 불이익을 받을 수 있습니다.

1. Google 이 검색 결과의 품질을 높이기 위해 사용하는 방법을 다음 웹 페이지 정보를 바 탕으로 다음 단계에 따라 구현해 보시오.

* 웹 페이지 정보

Web Page Key words Hyperlink-To W1 Yonsei, First W1, W2, W3 W2 Korea, Best, Justice W1, W3, W4 W3 First, Love, Justice W1, W4

W4 Korea, First W1, W3

(1) 위 웹 페이지 정보를 바탕으로 PageRank 를 계산하여, 다음 표의 3 번째 행의 빈칸 을 채우시오.

Web Page Key word PageRank

W1 Yonsei

W1 First

W2 Korea

W2 Best

W2 Justice

W3 First

W3 Love

W3 Justice

W4 Korea

W4 First

(2) 검색엔진 사용자가 “First”라는 키워드를 입력하였을 때, 어떤 순서로 웹 페이지를 보여 주겠는가?

(2)

2. 다음 웹 페이지 정보를 바탕으로 다음 단계에 따라 연관검색어 표를 구축해 보시오.

Web Page Key words W1 Yonsei, First W2 Korea, Best, Justice W3 First, Justice W4 Yonsei, Korea, First

(1) 웹 페이지에 나타난 모든 키워드들을 중복되지 않게 나열하시오.

(2) 위 키워드들을 두 개씩 짝을 지은 후 연관값을 계산하시오.

단어 집합 (키워드 짝) 연관값

(3) 검색엔진 사용자가 “First”라는 키워드를 입력하였을 때, 어떤 순서로 연관검색어를 보여 주겠는가?

(3)

3. 다음 자료의 고객들을 두 개의 클러스터로 나누시오.

* 고객 정보

고객번호 학력 성별

C001 2 0

C002 3 0

C003 3 1

C004 4 1

(4)

4. 내용기반 필터링을 다음 블로그 정보를 바탕으로 다음 단계에 따라 구현해 보시오.

* 블로그 정보

Blog Page 출현 단어 단어 출현 횟수

W1 연세

원주 환경

2 2 2

W2 연세

경영학부

2 2

W3 연세

원주 정경대학

2 1 1

(1) 위 블로그 정보를 바탕으로 다음 표의 각 값들을 모두 계산하시오.

W1 W2 W3

단어출현

횟수

연세 원주 환경

연세

경영학부

연세 원주 정경대학

TF

연세

원주

환경

연세 경영학부

연세

원주

정경대학

IDF

연세

원주

환경

연세 경영학부

연세

원주

정경대학

TF*IDF

연세 원주 환경

연세

경영학부

연세 원주 정경대학

(5)

중 간 고 사

과 목 명: MIS3030-01 e-비즈니스 2017/10/26

* 앞 화면의 주의사항을 확인하시오. 주의사항을 지키지 못한 경우 0 점으로 처리되거나 불이익을 받을 수 있습니다.

1. Google 이 검색 결과의 품질을 높이기 위해 사용하는 방법을 다음 웹 페이지 정보를 바 탕으로 다음 단계에 따라 구현해 보시오.

Web Page Key words Hyperlink-To W1 Yonsei, First W1, W2, W3 W2 Korea, Best, Justice W1, W3, W4 W3 First, Love, Justice W1, W4

W4 Korea, First W1, W3

(1) 위 웹 페이지 정보를 바탕으로 PageRank 를 계산하여, 다음 표의 3 번째 행의 빈칸 을 채우시오.

Web Page Key word PageRank

W1 Yonsei 4

W1 First 4

W2 Korea 1

W2 Best 1

W2 Justice 1

W3 First 3

W3 Love 3

W3 Justice 3

W4 Korea 2

W4 First 2

(2) 검색엔진 사용자가 “First”라는 키워드를 입력하였을 때, 어떤 순서로 웹 페이지를 보여 주겠는가?

W1 – W3 – W4

(6)

2. 다음 웹 페이지 정보를 바탕으로 다음 단계에 따라 연관검색어 표를 구축해 보시오.

Web Page Key words W1 Yonsei, First W2 Korea, Best, Justice W3 First, Justice W4 Yonsei, Korea, First

(1) 웹 페이지에 나타난 모든 키워드들을 중복되지 않게 나열하시오.

Yonsei, First, Korea, Best, Justice

(2) 위 키워드들을 두 개씩 짝을 지은 후 연관값을 계산하시오.

단어 집합 (키워드 짝) 연관값

Yonsei, First 2/4

Yonsei, Korea 1/4

Yonsei, Best 0/4

Yonsei, Justice 0/4

First, Korea 1/4

First, Best 0/4

First, Justice 1/4

Korea, Best 1/4

Korea, Justice 1/4

Best, Justice 1/4

(3) 검색엔진 사용자가 “First”라는 키워드를 입력하였을 때, 어떤 순서로 연관검색어를 보여 주겠는가?

Yonsei – Korea – Justice 또는

Yonsei – Justice – Korea

(7)

3. 다음 자료의 고객들을 두 개의 클러스터로 나누시오.

* 고객 정보

고객번호 학력 성별

C001 2 0

C002 3 0

C003 3 1

C004 4 1

Cluster 1 Distance among

(8)

4. 내용기반 필터링을 다음 블로그 정보를 바탕으로 다음 단계에 따라 구현해 보시오.

* 블로그 정보

Blog Page 출현 단어 단어 출현 횟수

W1 연세

원주 환경

2 2 2

W2 연세

경영학부

2 2

W3 연세

원주 정경대학

2 1 1

(1) 위 블로그 정보를 바탕으로 다음 표의 각 값들을 모두 계산하시오.

W1 W2 W3

단어출현

횟수

연세 2 원주 2 환경 2

연세 2 경영학부 2

연세 2 원주 1 정경대학 1

TF

연세 2/6 원주 2/6 환경 2/6

연세 2/4 경영학부 2/4

연세 2/4 원주 1/4 정경대학 1/4

IDF

연세 log((3+1) / 3) 원주 log((3+1) / 2) 환경 log((3+1) / 1)

연세 log((3+1) / 3) 경영학부 log((3+1) / 1)

연세 log((3+1) / 3) 원주 log((3+1) / 2) 정경대학 log((3+1) / 1)

TF*IDF

연세 0.096 원주 0.231 환경 0.462

연세 0.144 경영학부 0.693

연세 0.144 원주 0.173 정경대학 0.347