推荐系统上线后需要有指标来评估系统建设的成效,同时根据指标结果分析推荐系统优化方向。
一、用户满意度
可通过问卷调查、用户行为统计等手段衡量用户满意度,其中用户行为包括转化率、反馈按钮等等。
二、预测准确度
主要通过离线数据集进行测评,不同的推荐方式有不同的指标值进行评分。
- 评分预测
- 均方根误差RMSE
- 平均绝对误差MAE
- TopN推荐
- 一般通过准确率precision/召回率recall
三、覆盖率Coverage
覆盖率代表了长尾挖掘能力,即商品都出现在推荐中,并且次数相似。
- 信息熵:其中使用的p(i)等于物品i的流行度除以所有物品流行度之和
- 基尼系数Gini index:可用来评测推荐是否具有马太效应
四、多样性
物品俩俩之间的不相似性。diversity
五、新颖性
推荐用户没见过的物品,推荐结果的平均流行度,越冷门越新颖。
六、惊喜度
与用户历史兴趣不相似,但却让用户觉得满意
七、信任度
一般通过问卷调查的方式评测,提高信任度一般使用以下两个方法:
- 增加推荐系统的透明度transparency,提供推荐解释
- 利用社交网络信息,并用好友进行推荐解释
八、实时性
部分类型的物料具有强时效性,比如新闻微博等等,因此需要推荐系统具有实效性能。
- 需要实时更新推荐列表来满足环境或用户行为的变化,可通过推荐列表的变化速率来评测。
- 能够将新加入系统的物料推荐给用户,即物品冷启动的能力,可通过推荐列表中当日新品的比例来评测。
九、健壮性robust
衡量推荐系统抗击作弊的能力。测量健壮性,一般要注入噪声数据,观察推荐列表的变化程度,变化越小证明噪声的影响越小。提高推荐系统健壮性一般通过如下方法:
- 系统设计时使用代价比较高的用户行为作为推荐依据,比如购买。
- 使用数据前,进行攻击检测,清理作弊数据。
十、商业目标
根据企业的盈利模式设计不同的商业目标。
总结:
- 应在多重维度(用户、物料、日期等等)下来审视算法的优劣,扬长补短。
- 指标计算最重要的问题是,如何通过优化离线计算来提高在线计算。评测指标的途径如下:
- 推荐系统应在指定的覆盖率、多样性、新颖性的限制条件下,尽量优化预测准确度。