大家好,这里是面经酱~
今天来帮大家梳理网上公开面经中提到的阿里NLP算法岗相关面试题,欢迎在 面经酱(www.mjj666.cn) 搜索最新面经,有其他公司、岗位的面经梳理需求请留言哦~
今天来帮大家梳理网上公开面经中提到的阿里NLP算法岗相关面试题,欢迎在 面经酱(www.mjj666.cn) 搜索最新面经,有其他公司、岗位的面经梳理需求请留言哦~
编程&数学基础
- 【高频】Topk
- 三叉树遍历
- 求一个大于等于输入的正整数的最小降序序列
- 快排
- 提取有效的ip地址
- 【高频】贪心和DP的区别
- 给定x种硬币,凑齐y元
- 给100亿个数据,找到中位数
- 有序含重复值数组找某个值第一次出现的位置
- 最长重复子序列
- DP的一般做法流程
- 海量商家和海量语料,语料不平衡,语料对商家 group by 后按照时间排序
- 全排列
- 概率题:甲乙扔骰子,获胜概率相同,投 10 次,已经 5 次了,甲已经赢了 3 次,问甲获胜概率
- 概率题,三个硬币,一个硬币两面人头,一个硬币一面人头一面数字,一个硬币两面数字,问随机拿去一个硬币,其中人头向上,问另一面人头也向上概率
- 智力题:倒水问题
- Python 垃圾回收
- Python 列表合并
- Linux 多个进程如何通信
- 进程和线程区别
- Linux debug
项目深度
- 文本生成评估指标,BLUE的缺点
- 为什么使用lightGBM,比起xgboost的优点是什么
- 【高频】样本不均衡
- 长文本的处理
- 引入词向量的相似性对于结果有什么不好的影响
- 如何引入知识图谱
- 词向量中很稀疏和出现未登录词,如何处理
- 解码策略
- 为什么要用深度学习,不用传统方法
- kmeans的k怎么选择
- 新词发现怎么做
基础知识
- HMM
- FM
- Wide&Deep
- 【高频】预训练模型:Transformer、BERT、UniLM 等模型细节(时间复杂度)、优缺点
- 语言模型的公式
- Self-attention和attention的区别
- transformer为什么用+不用concat
- Attention、Mask的使用
- 位置编码
- Seq2seq结构
- BN、LN区别,在inference时如何处理
- 手撕LSTM
- Word Piece
- 线性和非线性之间的关系
- DSSM以及改进
- 树模型和深度学习的区别
- 【高频】梯度爆炸怎么解决
- 最小二乘法的推导、本质,和极大似然的关系
- 对epcho做shuffle,类似于一种优化器
- 优化器,什么情况下不适用动量优化器
- 【高频】防止过拟合的方法
- 【高频】决策树和 GBDT 区别
- 交叉熵的损失函数
- GDBT如何抑制树的不断增长
- xgboost如何做分类
- mse和交叉熵的区别
- lr模型:如何做特征交叉、缓解过拟合、和svm的区别
- Sigmoid、Tanh 函数与导数
- Sigmoid和ReLU的区别
- 【高频】Dropout作用、原理、实现
- PCA原理及涉及的公式
- L1,L2正则化
- LSTM和RNN的结构、解决的问题
- sigmoid当数据太大的时候不敏感怎么办
- bagging、boosting
- 熵的定义、公式
- cnn的卷积计算,参数计算
开放题
- 若有个电子病历数据,能识别多少种类型的实体
- 如何根据商品评论,生成商品的描述
- 文本生成:一对多训练如何训练
- 文本匹配常见架构
- 因果词向量的应用场景
- 项目初期,10w短文本,如何用无监督做分类
- 减轻特征工程的手段
- 【高频】平时逛过哪些有关NLP的论坛
- 说几个两年之内的前沿技术
- 导师觉得你最大的优点和缺点
- 想做一个什么样的人
- 对阿里的理解
- 研究生最大的收获
- 举一个例子说明遇到的最大的困难
- 介绍你做的最好的一篇论文以及创新点
- 当碰到难题时,团队士气低落的时候,作为团队的一员,该怎么做
- 对推荐系统理解
- 【高频】研究生期间的研究方向
参考资料
- NLP面试复盘 | 阿里/腾讯/头条/paypal/快手
- 【面试通关篇】NLP面经集结 | 达摩院、腾讯、微软、美团、百度
- 暑期实习面经(NLP 方向)达摩院、腾讯、微软、美团、百度
- 阿里面经-达摩院自然语言处理实习生(已拿到意向书)
- NLP实习面试经历(小米、去哪儿、美团、三角兽、爱奇艺、阿里)
- 阿里NLP三面凉经
- 阿里面经-达摩院自然语言处理实习生(已拿到意向书)
- 阿里达摩院NLP面经
- 阿里达摩院NLP二面凉经
- 暑期实习面经(NLP 方向)达摩院、腾讯、微软、美团、百度精
- 阿里国际事业部NLP算法面经
- 阿里自然语言处理岗线上面经
- 阿里巴巴面经-NLP
- 3.26 阿里健康NLP暑期实习岗一面
- 腾讯/阿里/携程 详细NLP算法实习面经
5px;">编程&数学基础
-
【高频】Topk -
三叉树遍历 -
求一个大于等于输入的正整数的最小降序序列 -
快排 -
提取有效的ip地址 -
【高频】贪心和DP的区别 -
给定x种硬币,凑齐y元 -
给100亿个数据,找到中位数 -
有序含重复值数组找某个值第一次出现的位置 -
最长重复子序列 -
DP的一般做法流程 -
海量商家和海量语料,语料不平衡,语料对商家 group by 后按照时间排序 -
全排列 -
概率题:甲乙扔骰子,获胜概率相同,投 10 次,已经 5 次了,甲已经赢了 3 次,问甲获胜概率 -
概率题,三个硬币,一个硬币两面人头,一个硬币一面人头一面数字,一个硬币两面数字,问随机拿去一个硬币,其中人头向上,问另一面人头也向上概率 -
智力题:倒水问题 -
Python 垃圾回收 -
Python 列表合并 -
Linux 多个进程如何通信 -
进程和线程区别 -
Linux debug
项目深度
-
文本生成评估指标,BLUE的缺点 -
为什么使用lightGBM,比起xgboost的优点是什么 -
【高频】样本不均衡 -
长文本的处理 -
引入词向量的相似性对于结果有什么不好的影响 -
如何引入知识图谱 -
词向量中很稀疏和出现未登录词,如何处理 -
解码策略 -
为什么要用深度学习,不用传统方法 -
kmeans的k怎么选择 -
新词发现怎么做
基础知识
-
HMM -
FM -
Wide&Deep -
【高频】预训练模型:Transformer、BERT、UniLM 等模型细节(时间复杂度)、优缺点 -
语言模型的公式 -
Self-attention和attention的区别 -
transformer为什么用+不用concat -
Attention、Mask的使用 -
位置编码 -
Seq2seq结构 -
BN、LN区别,在inference时如何处理 -
手撕LSTM -
Word Piece -
线性和非线性之间的关系 -
DSSM以及改进 -
树模型和深度学习的区别 -
【高频】梯度爆炸怎么解决 -
最小二乘法的推导、本质,和极大似然的关系 -
对epcho做shuffle,类似于一种优化器 -
优化器,什么情况下不适用动量优化器 -
【高频】防止过拟合的方法 -
【高频】决策树和 GBDT 区别 -
交叉熵的损失函数 -
GDBT如何抑制树的不断增长 -
xgboost如何做分类 -
mse和交叉熵的区别 -
lr模型:如何做特征交叉、缓解过拟合、和svm的区别 -
Sigmoid、Tanh 函数与导数 -
Sigmoid和ReLU的区别 -
【高频】Dropout作用、原理、实现 -
PCA原理及涉及的公式 -
L1,L2正则化 -
LSTM和RNN的结构、解决的问题 -
sigmoid当数据太大的时候不敏感怎么办 -
bagging、boosting -
熵的定义、公式 -
cnn的卷积计算,参数计算
开放题
-
若有个电子病历数据,能识别多少种类型的实体 -
如何根据商品评论,生成商品的描述 -
文本生成:一对多训练如何训练 -
文本匹配常见架构 -
因果词向量的应用场景 -
项目初期,10w短文本,如何用无监督做分类 -
减轻特征工程的手段 -
【高频】平时逛过哪些有关NLP的论坛 -
说几个两年之内的前沿技术 -
导师觉得你最大的优点和缺点 -
想做一个什么样的人 -
对阿里的理解 -
研究生最大的收获 -
举一个例子说明遇到的最大的困难 -
介绍你做的最好的一篇论文以及创新点 -
当碰到难题时,团队士气低落的时候,作为团队的一员,该怎么做 -
对推荐系统理解 -
【高频】研究生期间的研究方向
参考资料
-
NLP面试复盘 | 阿里/腾讯/头条/paypal/快手 -
【面试通关篇】NLP面经集结 | 达摩院、腾讯、微软、美团、百度 -
暑期实习面经(NLP 方向)达摩院、腾讯、微软、美团、百度 -
阿里面经-达摩院自然语言处理实习生(已拿到意向书) -
NLP实习面试经历(小米、去哪儿、美团、三角兽、爱奇艺、阿里) -
阿里NLP三面凉经 -
阿里面经-达摩院自然语言处理实习生(已拿到意向书) -
阿里达摩院NLP面经 -
阿里达摩院NLP二面凉经 -
暑期实习面经(NLP 方向)达摩院、腾讯、微软、美团、百度精 -
阿里国际事业部NLP算法面经 -
阿里自然语言处理岗线上面经 -
阿里巴巴面经-NLP -
3.26 阿里健康NLP暑期实习岗一面 -
腾讯/阿里/携程 详细NLP算法实习面经