2021年6月，CVTE NLP算法岗4道面试题分享

2023-08-08 15:45:46

文末彩蛋：七月在线干货组最新升级的《2021大厂最新AI面试题 [含答案和解析, 更新到前121题]》免费送！

1、讲一下改进的tf-idf

TF-IDF中的IDF是一种试图抑制噪声的加权，单纯的以为文本频率小的单词就越重要，文本频率越大的单词就越无用，这一方式会在同类语料库中存在巨大弊端，一些同类文本的关键词容易被掩盖。例如：语料库 D 中教育类文章偏多，而文本 j 是一篇属于教育类的文化在那个，那么教育类相关词语的IDF值就会较小，使提取本文关键词的召回率更低。

改进方法：TF−IWF (Term Frequency-Inverse Word Frequency)

2、讲一下k-means与谱聚类

聚类算法属于无监督的机器学习算法，即没有类别标签y，需要根据数据特征将相似的数据分为一组。K-means聚类算法即随机选取k个点作为聚类中心，计算其他点与中心点的距离，选择距离最近的中心并归类，归类完成后计算每类的新中心点，重新计算每个点与中心点的聚类并选择距离最近的归类，重复此过程，直到中心点不再变化。

谱聚类的思想是将样本看作顶点，样本间的相似度看作带权的边，从而将聚类问题转为图分割问题：找到一种图分割的方法使得连接不同组的边的权重尽可能低（这意味着组间相似度要尽可能低），组内的边的权重尽可能高（这意味着组内相似度要尽可能高），从而达到聚类的目的。

3、蒸馏的思想，为什么要蒸馏？

知识蒸馏就是将已经训练好的模型包含的知识，蒸馏到另一个模型中去。具体来说，知识蒸馏，可以将一个网络的知识转移到另一个网络，两个网络可以是同构或者异构。做法是先训练一个teacher网络，然后使用这个teacher网络的输出和数据的真实标签去训练student网络。

在训练过程中，我们需要使用复杂的模型，大量的计算资源，以便从非常大、高度冗余的数据集中提取出信息。在实验中，效果最好的模型往往规模很大，甚至由多个模型集成得到。而大模型不方便部署到服务中去，常见的瓶颈如下:

推断速度慢
对部署资源要求高(内存，显存等)，在部署时，我们对延迟以及计算资源都有着严格的限制。
因此，模型压缩（在保证性能的前提下减少模型的参数量）成为了一个重要的问题。而”模型蒸馏“属于模型压缩的一种方法。

4、有哪些蒸馏方式? 蒸馏中的学生模型是？

以Bert模型举例：

Logit Distillation

Beyond Logit Distillation：TinyBert

Curriculum Distillation：

Dynamic Early Exit：FastBert。

**评论区回复 “121”，七月在线干货组最新升级的《2021大厂最新AI面试题 [含答案和解析, 更新到前121题]》，免费送！

持续无限期更新大厂最新面试题，AI干货资料，目前干货组汇总了今年3月-6月份，各大厂面试题。**

除此之外，小编还给大家带来一个福利！现在扫描下方二维码，即可限时免费试听第十四期「机器学习集训营」课程！

迄今为止，专为就业或转行AI量身定做的「机器学习集训营」已经举办了十四期。
每一期都涌现出了很多offer，或应届研究生高薪就业，或从Java等传统IT行业成功转型AI…

第十五期在前十四期的基础上，继续维持着：

第一：直播教学面试辅导就业推荐并重，且提供CPU和GPU双云平台并布置作业考试竞赛”为代表的十二位一体的教学模式;

第二：以及六大企业项目:大规模行人重识别(RelD)、人体姿态识别、智能问答系统、聊天机器人、商品推荐系统、电影推荐系统

且为再次提升大家的Al项目经验和工程能力，本期新增部分实训项目，具体见下图。

本期集训营拥有超豪华讲师团队，讲师大多数为国内外知名互联网公司技术骨干或者顶尖院校的专业大牛，学员将在这些*讲师的手把手指导下完成学习。

且完成项目进入就业阶段后，BAT等大厂技术专家会一对一进行简历优化（比如将集训营项目整理到简历中）、面试辅导（比如面试常见考点/模型/算法），且和就业老师一起进行就业推荐等等就业服务。

机会永远留给提前做好准备的人！如果你想从事机器学习相关的工作，想在最短时间内成长为行业中高级人才，进入知名互联网公司，立即扫描二维码，参与课程试听吧！

码农公寓

1、讲一下改进的tf-idf

2、讲一下k-means与谱聚类

3、蒸馏的思想，为什么要蒸馏？

4、有哪些蒸馏方式? 蒸馏中的学生模型是？

相关文章