八,论文研读
- 论文名称:邢春晓,高凤荣,战思男,周立柱.适应用户兴趣变化的协同过滤推荐算法.
- 研究对象
通过研究不同的用户兴趣,主动为用户推荐最需要的资源,进行个性化推荐。 - 研究动机
为及时反应用户兴趣变化,提出两种改进(基于时间的数据权重,和基于资源相似度的数据权重) - 文献综述
- 协同过滤算法
典型的协同过滤算法是基于用户的,利用用户访问行为的相似性互相推荐用户可能感兴趣的资源。推荐系统中输入的数据可以表述为mxn的用户--资源访问矩阵R,m是用户数,n是资源数。矩阵值(0,1)表示用户访问资源与否。
通过对用户(u)历史访问记录及特定相似度函数,计算出与其访问行为最相近的k个用户作为该用户的最近邻居集,统计出近邻用户访问过,而u未访问过的资源生成推荐集,计算每个资源对u的推荐度,取前N个作为推荐集。 -
基于资源的协同过滤算法
由当前用户已访问的资源集合推荐未访问的资源,资源的相似性要比用户的相似性稳定,解决算法的可扩展性问题。
相似度计算是影响推荐算法性能的重要因素。
相似度计算方法有:余弦相似度,Pearson相关系数,条件概率等。
该论文采用的是条件概率计算资源之间的相似性,对于资源i,j用P(i|j)表示他们被同一用户访问的条件概率可以衡量资源间的相似性,计算i和j之间相似性公式:
\(sim(i,j)=\frac{P(i|j)}{Freq(i)^{\alpha }}=\frac{Freq(i,j)}{Freq(j)\times Freq(i)^{\alpha }}\)
Freq是访问资源的用户数,α是一个 0 ~ 1 之间的数, 称为缩放系数,引入 α的目的是削弱被访问过很多次的资源在相似度计算中的影响。 - 基于时间的数据权重函数
$ WT(u,i)=(1-\alpha )+\alpha \frac{D_{ui}}{L_{u}}$
WT(u,i)表示资源i对用户的权重,D_{ui}是用户访问资源i的时间与用户u最早访问某资源的时间间隔,L_{u}是使用推荐系统的时间跨度, a ∈(0, 1)权重增长指数,可动态调整。
- 基于资源相似度权重函数
\(WS(u,i)=\overline{sim(i,I_{uT})}=\frac{\sum_{j\in I_{uT}}^{}sim(i,j)}{size(I_{uT})}\)
size(I_{uT})表示I_{uT}中资源数目,计算WS(u,i)需要计算i和I_{uT}中每个资源相似度
- 两种权重结合
\(WTS(u,i)=\beta \times WT(u,i)+(1-\beta )\times WS(u,i)\)
比例因子β∈[ 0,1] , β 和(1 -β)分别代表两种权重值所占得比例。
- 协同过滤算法
- 研究方案设计
设计3组实验,进行对比试验。 - 使用数据集
KDD2000 的网上交易数据集 - 研究结论
- 学习心得
参数要根据不同推荐系统不同方案进行选取,文中最后提到对权重函数中参数的自动确定,也是一个很好的研究切入点。