一些推荐算法的面试题

2024-02-11 19:55:22

1）youtubenet里面如何加item特征，以及youtube和dssm相比有啥优缺点？
答：论文没有加，但可以人工加，youtubenet最后一层softmax层就是物品的embedding，所以在初始化的时候用sideinformation的embedding合并后跟最后一层做预测。
双塔分为user item塔，youtubenet其实只有user塔，上层的item塔是softmax出来的，加入其它的sideinformation不好加，不过也能加。

2）i2i实时性更强，因为可以直接在线上拿用户的最近点击来做，所以实时性更强。关于u2i，以lfm来说，一般物品矩阵是天更，用户矩阵会按小时更，所以u2i相比i2i这种，也是有一定的滞后性，出发点不一样。i2i最开始是基于物品的相似，这种是以用户点击行为为相似，但是容易推荐热门商品，所以需要做一个指数衰减，像word2vec这种，它是一种共线关系的捕捉，类似购物篮的那种。且i2i推荐也得分场景，比如做相似推荐，那么就是基于属性做相似，如果是用户历史点击推荐，那就是序列相似。

3）针对视频做召回，是针对完播率以及是否播放建模，比如使用pinsage图采样算法生成embedding，针对该模型训练时准备两份数据（user特征一份，item特征一份），建图训练完毕之后就会得到每个item的embedding，然后通过faiss在线上做相似推荐。

4）场景：在做youtebenet时，统计7天的数据，播放序列有一个最长窗口为5的vid截断，然后下一个vid就是label，高频负采样的时候统计的是7天所有的vid频次做编码，面试官问：如果label vid是第4天上报的，如果用全局vid频次做付采样，那是否会出现数据穿越问题？
答：如果是做召回，使用全局数据召回的就是全部底池的负采样，就不存在穿越问题。但如果是排序的话，就得做第4天那些曝光未点击的物品为负采样。w2v不是考虑的序列性，而是考虑的共线性，所以w2v不存在穿越问题。youtubenet摒弃了时序性，但是在排序的时候需要注意，在召回中因为最终采样优化的是softmax，所以跟穿越没啥关系。

5）某大厂一面：youtubenet项目，数据怎么来的，怎么训练，线上服务怎么配，如果说做的i2i，问为啥不做u2i，做u2i如何做？召回的指标是什么？你做的几路召回效果怎么样，为什么好？讲讲你做的精排流程，模型使用的什么指标（auc以及改进版gauc）？线上线下指标相差较大原因是什么？

6）n2v、w2v、deepwalk区别？冷启动怎么办？（eges）讲讲原理？w2v损失函数是什么？交叉熵如何写？为什么mse不能用于分类？w2v对softmax改进是什么？详细讲讲负采样？了解attention吗？讲讲它的原理？

7）算法：推的构成，判断链表有环。

8）用机器学习模型做项目，如何选择模型？
答：lr fm gbdt wide&deep deepfm din依次迭代最简单的。然后做特征工程，就是怎么做字段。

码农公寓

相关文章