算法工程师
来自深度之眼课程
文章目录
面试准备
个人背景
- Type A:有机器学习工作背景,对深度学习感兴趣
- Type B:没有机器学习工作背景,有数据类工作背景
- Type C:没有任何数据背景,没有工程背景,对深度学习感兴趣
截止2019年,互联网算法岗仍是不饱和的,人才供不应求
行情
-
大厂:
BATJM——ML&CV&NLP
-
独角兽:
蚂蚁——ML>NLP&CV
头条——NLP>ML>CV
-
人工智能行业:
商汤——人脸、自动驾驶
旷世——人脸、自动驾驶
小马知行——自动驾驶
方案:
经典面试问题
-
算法题
-
ML、DL知识
纸上推公式可能发生
-
相关项目经历
对引导面试主题有重要影响
重要的是:阐述问题的逻辑性和前后的严密性
面试扣分:
-
简单的算法题
From Leecode
-
难题部分:
注重思路:
-
对算法的理解深度:
决定评级
-
项目经历:
问题分析和解决能力
-
语言表达技巧
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nJmptvtQ-1625888374649)(https://i.loli.net/2021/07/09/xXDyUiJNkd3s4mz.png)]
准备
-
内力:
-
练习基本的算法题,排序题
-
至少读一本ML教材,例如李航**《统计学习方法》、《深度学习》,至少读懂一两个算法**
e.g讲一个你最喜欢的算法
-
认真做一个ML/DL项目,体验从数据清洗、特征工程、模型调优、模型迭代整个建模流程,总结一两个难点、以及你如何应对、解决难点
-
-
外力:
- 通过你的朋友打听哪家公司哪个组缺人
- 打听哪个组的面试难度低,招人要求低
项目
- 从自己公司/部门的算法组找机会合作项目,适用数据类、工程类背景同学
- 算法模型需要集成系统
- 算法需要与数据库、API交互
- 算法可以与前端、UI交互
- 算法落地需要BI、数据分析来发挥商业价值
- 数据挖掘、算法竞赛,包括Kaggle、天池
- Kaggle某些比赛奖励是硅谷公司面试机会
- Kaggle论坛有大量实战学习资料
实施
- 通常做项目周期2~3个月可以学到足够实战的技巧和经验
- 算法编程题可以在面试前一个月刷题
- 算法知识和算法甚础比较需要长的时间学习消化
- 对于有机器学习基础同学跳深度学习岗,可以直接读CV/NLP经典论文,以及最近一年的学术前沿论文
- 对于没有机器学习背景的同学,补数学基础算法基础往往需要更长周期,所以“外力”很重要,了解面试难易度
工作日常
岗位方向
-
机器学习类
-
搜索推荐
e.g 商品推荐、广告等
-
路径规划
e.g 美团、物流等
-
点击率预估
-
-
深度学习类
-
CV
-
NLP
-
算法生命周期
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-T7Y4Fxrr-1625888374651)(https://i.loli.net/2021/07/09/8SgmkKVnYGEH3jU.png)]
-
SPRINT1:
业务转化为算法需求
-
SPRINT2:
数据分析
-
SPRINT3:
模型迭代
-
SPRINT4:
部署、总结、评估、维护
工作时间分配
-
机器学习类
- 数据清洗、分析、特征工程80%时间
- 模型训练与调参10%时间(不计算模型训练运行时间)
- 开会
-
深度学习类
-
数据准备与清洗50%时间
-
模型训练与调优40%时间
不仅仅是调参,包括调整loss函数等等
-
其他10%时间
-
工作量
- 项目多的时候连续加班是常见的,最晚接近零点
- 大厂算法需求更大,项目更多,加班更多有项目的时候每天到公司开始写代码到下班
- 互联网大厂通常提供各种福利,如免费晚餐、加班打车免费、门诊保险
保护:眼睛、颈椎、腰椎、胃
项目实例一
-
美团饿了么公司的app中对用户发放各种类型的补贴/折扣券,其中有一类仅用于指定商家的折扣券,例如麦当劳满30元减4元优惠券。如何制定发放策略,使其比随机发放的下单转化率更高?假如随机发放500万用户,平均转化率0.1%。
-
转化成算法问题
预测用户收到优惠券后的下单概率,按概率从高到低排序,圈定前X%人群发放优惠券。优化指标是预测精度,目标是>0.1%。
-
第一步获取数据、简单分析,了解业务数据大致分布
- 用户画像数据,性别、年龄、地理位置
- 用户行为数据,登陆、浏览、点击、购物车、交易
- 商品类目,一级、二级类目
- 商品价格
- 满减优惠
-
第二步做特征工程:
经过数据分析,我们发现用户交易行为、登陆习惯、优惠券金额等数据影响用户下单概率,特征方向主要考虑
- 商品价格维度、类目维度、交易量维度
- 时间维度,包括近三个月、近一个月、近两周、近三天
- 统计维度,包括均值、方差、极大极小值等
- 登陆频率、最近登陆等信息
- 优惠券折扣金额
-
第三步,跑模型
通常使用GBDT,调整参数做实验。数据量大约1000万至1亿行样本,特征量大约数十个至数百个。模型跑完分析结果,可能出现的情况有
-
模型精度比业务情况高十倍,1%,可能某个特征处理时出现问题造成数据泄漏了,比如每一笔交易的优惠券使用额隐含了这笔交易(Label=1)
-
模型精度比较符合业务情况,稍高于0.1%,分析模型预测结果,迭代
-
模型精度非常低,某类特征过拟合,比如样本中某个城市进行了大力度促销,需要谨慎处理地理位置这个特征
-
项目实例二
-
某炼钢厂流水线上安装摄像探头采集图片,希望通过目标检测判断钢铁生产过程中可能发生的坏点,做到自动化质量控制。钢厂仅提供10张样本图片
-
转化成算法问题
目标检测: -
第一步,分析
分析10张样本,发现可以通过网上某个类似的公开图片集先做实验,下载图片集。如果没有标记,需要自己动手标记或找同事一起标记。
-
第二步,完成数据存储和数据清洗等
-
第三步,建模
- 找一个目标检测的模型框架和github代码实现,先在本地跑通代码,跑通我们的图片集,获得一个baseline分数
- 搜索相似业务场景/类似图片集的论文,找到目前业界的SOTA
- 尝试改进模型,网络结构、loss
- 发现改进效果不佳,读论文找方案,实现论文里的技巧。获得不错的效果
职业晋升前景
晋升路线
互联网算法类工作晋升路线分为管理类/技术类
本科一般P4-P5起步,硕士P5,工作1-3年P6,5年能力强的P7
- 技术类按阿里技术类职级从低到高
- 初级/高级/资深工程师(P4-6)
- 专家/高级/资深专家(P7-9)
- 管理类
- 经理/高级/资深经理(P7-9)
- 总监以上(P9-)
晋升难点
- 普遍对工程能力要求较高
- 管理岗以下升职拼绩效,项目的难易度、重要性会影响拿高绩效的难度
- 能抗压,能坚持高强度写代码
如果你在具备算法开发能力之外,同时具备优秀的沟通能力、或者敏锐的商业嗅觉,不要埋没了你的能力,导找适合自己的职业路线。
前途&钱途
-
钱多的地方
- 小的创业公司,级别也高于大厂,拿股票几率高
- 大厂P6过去带团队,技术止步不前
- 技术上需要试错,成败取决于个人与一定运气成分
- 创业公司管理相对混乱,工作时间可忙可闲,私人时间相对更多
-
前途稳定的地方
- 大厂公司稳定,不会受业绩影响到发不出工资
- 大厂周围牛人多,利于知识积累学习进步
- 大厂跳出去机会更多
强度写代码
如果你在具备算法开发能力之外,同时具备优秀的沟通能力、或者敏锐的商业嗅觉,不要埋没了你的能力,导找适合自己的职业路线。
前途&钱途
-
钱多的地方
- 小的创业公司,级别也高于大厂,拿股票几率高
- 大厂P6过去带团队,技术止步不前
- 技术上需要试错,成败取决于个人与一定运气成分
- 创业公司管理相对混乱,工作时间可忙可闲,私人时间相对更多
-
前途稳定的地方
- 大厂公司稳定,不会受业绩影响到发不出工资
- 大厂周围牛人多,利于知识积累学习进步
- 大厂跳出去机会更多
- 大厂工作内容难免重复机械,做好一枚岗位上的小齿轮,个人时间较少