自从2012年数据科学被评为21世纪最性感的工作以来,来自不同领域的许多人开始转向数据科学或相关的机器学习角色。用新奇的人工智能算法解决复杂的问题,再加上一份不错的薪水,听起来很有吸引力。很多公司都加入了宣传的行列,现在提供在不到一年的时间里学习数据科学/AI/ML的新兵训练营。在加入这样的训练营或转向机器学习之前,请考虑以下10件事。
已经是2021年了,但是工作头衔还没有明确定义并且所需技能差异很大
在初创企业注意到人工智能现在是一个有力的流行语之后,他们开始将现有的工作机会从数据分析师/统计学家重命名为数据科学家或其他相关人员。 职位听起来更性感,因此他们获得了更多的职位申请。
但是如果你读了招聘启事,你会注意到有些角色完全不同。有些需要业务分析师,用SAS, SPSS回答问题。有些人想要数据工程师构建大数据Hadoop系统,有些人想要使用TensorFlow和神经网络的深度学习研究人员,但他们可能都称他们为数据科学家。所有这些类型都非常不同,需要不同的技能。近年来,这些类型出现了:数据科学家(高级分析)、机器学习工程师、数据工程师和应用科学家/研究人员。
毕业生并不短缺
如前所述,很多人都想成为数据的魔术师。不仅是计算机科学家、物理学家和数学家,还有经济学家、心理学家和其他有定量背景的自然科学家。问题是,大多数公司并不寻找应届毕业生,有些公司甚至不知道他们在寻找什么都不知道。有些人可能希望雇佣一个数据科学家来解决他们所有的问题。因为他们并不真正了解这些要求,所以他们雇佣了刚毕业的大学生或新兵训练营的毕业生,把所有的流行语都写在了他们的简历上。85%的工作计划可能会失败,其中一个原因可能就是因为这个。此外,据techrepublic称,对数据科学家的需求在2019年已经开始萎缩。今天你可以从年轻的数据科学家那里知道了很多失望,问题,找工作困难等(COVID也是原因之一)
可能会出现技能短缺,但不会出现应聘者短缺。数据科学领域的入门级或实习职位收到数百名申请者的情况并不少见。当雇主谈到人才短缺时,他们通常指的是缺乏有经验的专业人士。
没有学位是很难的
在没有任何学术教育背景的情况下获得一份数据工作的想法是大胆的。如果你是一个天才或者幸运儿的话,这是可能的,但一般来说,你几乎不会得到面试电话。人工智能涉及统计学和数学,通常这两方面是研究中最难的部分。你可能不需要所有这些,但通常你不是唯一的申请者,你要和拥有博士学位的人竞争。所有这些mooc和训练营不可能在几个月内教你基本知识,你需要更多的时间。阅读招聘广告,你会注意到大部分硕士甚至博士都是加分项,这取决于职位。考虑到这一点,这很难,但不是不可能。
88%至少拥有硕士学位,46%拥有博士学位。
应用机器学习构建数据集
Kaggle挑战和大学课程有一个共同之处,这在工业中是基本不存在的的:一个数据集是可用的和准备好的。学习探索,数据预处理和建模是绝对有意义的,并且在实际工作的很大一部分是要做这些工作。如果机器学习能带来价值,那么它是值得的,但它需要你进行大量的观察和实验,直到你得到良好的结果,甚至需要更长的时间,直到你得到干净的数据。如果你是一个完美主义者,而你的挫折容忍度很低,不要去应用机器学习,它会让你发疯。
深度学习并没有被广泛采用
神经网络让人工智能在过去几年中流行起来,但它们也有一些缺点。他们很难训练和构建,他们需要很多时间来调整,他们容易过度拟合,计算强度非常高。基础设施正在改善,但仍然没有达到应有的水平。如果你想使用神经网络,请不要选择成为该行业的数据科学家。很少有公司使用神经网络,因为它太神奇了,在很多情况下,传统的方法已经足够好了。如果你想要使用深度学习,那么就把重点放在学术和研究上,或者扩展专注于ANNs的初创公司。
对人工智能的看法是错误的
人工神经网络的灵感来自大脑,但它们离大脑还很远。我不认为人工智能能与人类竞争。公众和科学界对人工智能的看法截然不同。问题是很难解释为什么ai玩《dota2》,deepfakes或作曲,但仍然不“智能”。似乎被遗忘的是,人工智能仍然是模式识别,如果某些模式发生变化,它很快就会失败。它不会理解,它不会思考,它也没有梦想。你可能会被问到,为什么你的AI系统不能做XYZ,你可能无法修复它。现在解释一下,为什么人工智能可以在围棋中击败世界冠军,却不能学会如何预测一些“简单”的商业问题。
很多AI实际上不是人工智能
2019年有一项关于欧洲人工智能初创企业的研究。他们基本上发现40%的人工智能初创公司根本没有使用人工智能。有些人甚至雇佣人类来伪造人工智能。原因很简单。人工智能系统需要数据、时间和人力来构建,成本很高。有时候,让人来做更容易、更便宜。不要做那种“给东西贴标签”的人,怎么就这样证明你的初创公司有人工智能方面的专业知识呢?对数据科学的职位招聘要持怀疑态度,在加入他们之前询问他们的数据。
需要终身学习
Spark, TensorFlow, PyTorch, keras, scikit-learn, pandas都是工具,让你的生活更轻松。这些工具会改变,它们会被更好的工具取代,或者它们会永远存在,谁知道呢。但它们只是工具。您不应该过多地关注这些工具,而应该关注技术和问题解决。如果你喜欢keras,但是PyTorch能更好地解决一些问题,那么学习PyTorch。您会注意到,这些工具和框架背后的思想通常非常接近,它们的工作原理也很相似。编程语言也是如此。不要做那种因为他太骄傲而不愿意学习Python,而用c++来建立ML模型原型的人。
学习领域知识
机器学习是关于数据的。数据是关于领域的。理解域对于理解数据是必要的。数据团队可以用数据解决任何问题而没有领域专长的想法是危险的,而且不会起作用。数据中有如此多的提示,只有您知道域是如何工作的,以及流程是如何工作的,才能理解这些提示。不仅仅是业务视图,还有技术视图。仅仅摆弄技术是不够的。为了理解这些领域,你需要有良好的沟通技巧,至少作为高级分析的数据科学家。
批判性思维
批判性思维是最重要的技能之一。许多项目之所以成功,仅仅是因为有人质疑当前的方法或目标。目标变量真的是我们想预测的吗?我们真的需要机器学习吗?我们会多花一个星期的时间来获得1%的收益吗?我们真的能相信这些数据吗?是一个自我实现的预言吗?问这些问题是相当困难的,因为通常我们不喜欢答案,但它是必要的!
如果你真的对机器学习和数据科学感兴趣,请不要相信咨询和培训公司的承诺,他们提供新兵训练营。不要因为炒作就这么做,记住,所有的炒作都有结束的时候。
免责声明:所有这些都是我个人的想法,也欢迎你提出自己的意见。
作者:Christian Freischlag
deephub翻译组