2006, Vol. 17, No. 1, pp. 77 ∼ 86
An Exploratory Study for Decreasing Error of Prediction Value of Recommended System
on User Based 1)
Hee Choon Lee 2)
Abstract
This study is to investigate the error of prediction value with related variables from the recommended system and to examine the error of prediction value with related variables. To decrease the error on the collaborative recommended system on user based, this research explored the effects on the prediction related response pair between raters' demographic variables and Pearson's coefficient and sparsity. The result shows comparative analysis between existing error of prediction value and conditioned one.
Keywords : 추천시스템, Correlation, MAE
1. 서론
정보시스템의 발전과 웹의 비약적인 발전으로 전자상거래가 주요한 거래수단으로 대두되고 있으며 정보기술의 발전으로 미래의 사회 환경에도 전자상거래는 더욱 발전 하며 그 활용성은 증대되리라고 예상된다. 이에 따라 전자상거래 시스템에서 사용되 는 추천시스템 또한 적용분야와 활용성은 또한 증대되리라고 생각된다. 이미 추천시 스템은 Amazon.com, CDnow.com등의 유명한 상거래 사이트에서 성공적인 결과를 보 이고 있다. 이 논문에서는 추천시스템에서 예측의 오차가 어떤 요인과 관련이 있는지 를 탐색하고 오차와 관련이 있는 요인에 대해 예측 오차의 증감에 대해 조사 분석 한 다. 또한 이 논문에서는 사용자 기반(user based collaborative) 추천시스템에서 오차 를 감소시키기 위해 사용자가 가지고 있는 정보와 사용자 기반 추천시스템에서 사용 되는 피어슨 상관계수와 응답 쌍은 예측에 어느 정도의 영향을 가지고 있는지를 탐색 하였다. 피어슨 상관계수를 근간으로 하는 방식은 여러 분야에서 좋은 결과를 나타냈
1) 이 논문은 2003년도 상지대학교 교내 연구비 지원에 의한 것임
2) 강원도 원주시 우산동 660번지 상지대학교 컴퓨터데이터정보학과 교수
E-mail : [email protected]
으나, 가장 큰 문제점은 희소성(sparsity)으로 인해서 발생하는 예측의 정확도 저하이 다. 협동적 필터링(collaborative Filtering) 기법은 초기 평가의 문제점, 희소성 (sparsity), 모호 집단(gray sheep) 등과 같은 문제점 등이 있다. 초기 평가의 문제점 은 시스템 구축 초기에서 사용자로부터 충분한 평가 정보를 받지 못한 경우 정확한 추천이 어려운 문제이며 희소성(sparsity)의 문제는 초기 시스템에서 발생하는 문제와 유사하다. 상품에 대해서 충분한 평가 결과를 구성하기 어려워 사용자와 평가 정보로 구성된 행렬이 희소성(sparsity)을 가지는 문제이다. 모호 집단의 문제는 좋은 것과 싫 은 것이 분명하지 않거나 평가 결과가 일정하지 않은 특이한 사용자들은 추천 예측에 서 오차를 증가시키므로 추천이 어려운 문제이다. 본 논문에서 Grouplens의 movielens dataset에 대해 탐색적인 분석을 하고 예측오차의 요인에 대해 조사 분석 하고자 한다.
2. 추천시스템의 분류
김영설(2002)은 일반적으로 추천시스템의 추천방법을 다음과 같이 분류하였다.
① 단순검색(Raw retrieval)은 고객이 찾고자 하는 내용에 대한 검색 결과를 제공한다.
② 수동선택(Manual selection)은 고객이 추천을 요구하면 해당 분야의 전문가가 고객 이 좋아할 제품을 예측하여 제공한다.
③ 통계적 요약(Statistical summaries)은 고객이 추천을 요구하면 고객이 속하는 공 동체에서 가장 인기있는 제품을 추천한다.
④ 속성기반(Attributed-based)은 아이템의 속성에 대한 고객의 선호도에 따라 추천을 수행한다.
⑤ 아이템간 관계(Item-to-item correlation)는 상품을 작은 집합으로 구분하여 고객이 특정 집합에 포함된 상품을 구입하면 같은 집합에 포함된 상품들을 고객에게 추천하 는 방식이다.
⑥ 사용자간 관계(User-to-user correlation)는 추천을 요구하는 고객과 제품을 구매한 다른 고객과의 관계에 기초하여 고객에게 제품을 추천한다. 이 기술은 개인화된 추천 을 제공하기 위하여 유사 사용자(그룹)의 의견을 사용하므로 협동적 필터링의 한 유 형으로 볼 수 있다.
3. 관련연구
3.1 협력적 필터링
협력적 필터링은 사용자 집단의 정보에 기반 하여 사용자의 선호도를 예측하는데 널리 사용되는 정보 필터링 기술이다. 예를 들어, 사용자에 의해 평가된 상품에 대한 점수를 알고 있을 때, 이 기법을 통하여 그 사용자가 평가하지 않은 어떤 상품이 어 떤 선호도 점수를 가질 수 있는지를 예측할 수 있다. 사용자는 그와 비슷한 선호도를 가지는 사람들이 좋아하는 것을 좋아할 것이라고 가정하는 것이 이 기법의 생각이다.
이 기법의 적용은 Amazon.com 등의 상거래 사이트에서 적용되고 있는 사례이다. 대
부분의 협력적 필터링 시스템은 일정 범위의 수치 점수(평가점수)로 표현된 사용자의 의견을 수집한다. 수집된 점수들은 행렬 형태로 저장되고, 협력적 필터링 시스템은 이 점수 행렬을 사용하여 예측한다. 대개의 협력적 필터링 시스템이 수행하는 작업은 사 용자 u
i의 상품(항목) i 에 대한 점수를 예측하는 것이다. 시스템은 사용자 u
i의 점수 들을 기존의 상품(항목) i 에 선호도(평가점수)가 있는 다른 사용자들의 선호도(평가점 수)와 비교한다. 그런 다음 다른 사용자들의 점수에 대한 가중치를 고려한 평균을 사 용하여 예측이 이루어진다. 가중치는 사용자 u
i와 다른 사용자들 사이의 유사성을 수치로 표현한 것이며, 가중치가 고려된, 여러 사용자들의 상품(항목) i 에 대한 점수 평균이 사용자 u
i가 상품(항목) i 에 대한 점수 평균이 사용자 u
i가 상품(항목) i 에 대 해 평가할 것이고 예측하는 선호도(평가점수)이다.
3.2 내용기반 필터링
상품(항목)들은 각각의 여러 속성을 가진다. 한 사용자에게 있어, 이전에 구매된 상 품과 비슷한 속성을 가지는 상품은 그의 취향에 맞을 가능성이 높다. 상품들의 속성 에 있어 비슷한 정도를 사용하여 상품 유사도를 계산하는 것이 내용 기반 필터링이 다. (곽미라(2002))
3.3. 선행연구
이용준(2003)은 협업여과방법(협력적여과방법,협동적필터링,collaborative filtering)의 문제점으로 지적되고있는 희소성(sparsity)으로 인한 유사도의 부정확한 문제를 개선 하기 위하여 인구통계정보를 이용한 기법을 제안하였으며, 박지선(2001)은 협동적 필 터링 기술에서 적용하고있는 피어슨 상관계수를 이용하는 방법에서 비슷한 선호도 패 턴을 가지는 고객들을 적절히 군집화하여 이 군집에 속하는 고객들의 평가를 기반으 로 하여 협동적 필터링 기술을 수행하는 방법을 제안하였으며, 김병만(2004)은 추천 시스템의 예측방법으로 내용기반 필터링(content based filtering)과 협력필터링 (collaborative filtering)의 결합기법을 사용하였다.김택헌(2004)는 ordered clustering 방법을 이용하여 each movie dataset에 대해 예측정확도를 실험하였다. 또한 박지선 (2002)은 예측능력을 향상시키기 위해 유사한 선호도를 가지는 고객들의 평가에 근거 하여 상품들간의 유사도를 구하여 특정상품에 대한 고객의 선호도를 예측하는 추천기 법을 제안하였으며 김영설(2002 a)은 grouplens의 movielens dataset에 대해 영화 장 르를 이용하여 예측의 오차를 줄이는 방법에 대해 연구하였으며 곽미라(2001)는 협력 적 필터링 방법에 내용기반 필터링 방법을 적용하고 고객의 상품에 대한 선호도를 계 산하는 방법을 제안하였다. 김종수(2001)는 신경망을 이용한 협력적 추천시스템의 정 확도를 향상시키는 방법을 제안하였다.
(1) 사용자 기반 협동적 필터링
사용자 기반 협동적 필터링은 특정 고객의 상품에 대한 선호도를 예측하기 위하여
대부분의 경우 식 (2)에 나타나 있는 피어슨 상관 계수를 이용하여 선호도(유사도) 계
산하고 식 (1)에 의해 예측 선호도 값을 계산한다.
U
x= U +
J∈Raters
∑ (J
x- J )r
ujJ∈Raters
∑ |r
uj| , (1) 여기서
r
uj= ∑ ( U - U)( J - J)
∑ ( U - U)
2∑ ( J - J)
2, - 1 ≤r
uj≤1 (2) U
x는 상품 에 대한 고객 의 예측된 선호도이고, r
uj는 고객 U 와 J 의 상관관계를 나타내며 두 고객 모두 선호도를 표시한 상품에 대해서만 계산된다. 여기서 J
x는 상 품 에 대한 고객 의 선호도를 나타내며 J 는 고객 의 평균 선호도를 의미한다.
r
uj가 1에 가까울수록 두 고객의 선호도 경향이 매우 유사함을 나타내고 -1에 가까울 수록 반대의 선호 경향을 나타낸다. Raters는 테스트 상품에 대해 선호도를 표시한 고 객들을 의미한다.(박지선(2002))
(2) 예측의 정확성에 대한 평가 기준
본 논문에서는 예측 값의 정확성을 평가하기 위해 MAE(Mean Absolute Error)를 사용하였으며 식 (3)에 나타낸 것과 같이 구할 수 있다.
MAE =
∑
ni = 1