问题描述
- 尾部用户/cold-start用户,行为稀疏,还存在问题:有噪声,间隔大;目的是得到这部分用户的个性化表示
- 头部用户相对于长尾用户,具有大量交互
- 行为: 点击、加购、收藏、购买、(不点击)等
- 推荐系统--用户行为建模(依赖于行为的规模和质量)--用户活跃度低、行为少(尾部用户,用户行为稀疏且噪音大/频次少、间隔大、带噪声)--CTR预估(用户是否点击目标item,用户兴趣预估)
- 解决思路主要从两个角度出发: 一是数据水平,二是模型水平;前者利用辅助信息/数据(数据增强,如包括用户或item的side信息),后者
数据层面
基于内容的推荐
组推荐/聚类
- HIM(混合兴趣建模):用户交互序列间隔大,分session,session内按频次排序(信息时序依赖少,交互展现基于session的特征)
- 行为的置信度: 频次加权嵌入(更频繁的交互有更高的置信度来表明用户的兴趣);利用负反馈建模正反馈的置信度(负反馈减轻正反馈的稀疏问题;负反馈需要池化,减少单个负反馈内的噪声;计算每个正反馈和池化后的负反馈的欧式距离,与基于内积的注意力机制不同,基于距离的能为与负反馈更不相似的正反馈赋予更大的权重)。将一系列正反馈输入GRU,捕获高频和低频之间的关系。将正反馈输出和负反馈连接得到个性化表示。使用自注意力可得到聚合个性化表示(高阶表示保持某种递进关系)
- 个性化行为的稀疏: 引入组推荐的思想(隐含用户组)做半个性化建模
- AE(无监督):encoder为线性层+softmax得到用户对应于各个组的概率,decoder也为线性层,重建损失与聚合个性化表示做比较
- 输入为item嵌入,包括目标item和用户历史交互item,后者需要分时间窗口组织,且需要统计频次信息,最后可得到每个session的个性化表示。使用AE得到半个性化表示(启发式重建loss提升聚类的鲁棒性,使用hinge loss,同时随机选择P个用户作为负用户)。各个session的个性化表示和半个性化表示都各自连接。目标item的特征包括 ID、价格、品牌、商户、类型,均连接。使用目标注意力(目标item嵌入和个性化表示以及半个性化表示的点积)。最后连接个性化表示、半个性化表示、目标item表示以及其他特征,进入MLP进行二分类
基于图的推荐
基于迁移学习的推荐
- 将知识从头部迁移到尾部
- 交叉域
模型层面
元学习/元优化
- 只以一些过去的交互item来预测用户的偏好(解决数据稀疏性)
- 大部分方法采用基于优化的算法,如model-agnostic元学习MAML