刚毕业的大学生们,恭喜你们!欢迎成为劳动者的一员。在你所有可能申请的工作中,“数据科学家”这个风骚无比的职位也许最难得到的一个,同时也许是 最具有潜在丰厚回报的一个。但是别害怕:Datanami在这里以一个实际数据科学家从业者的身份给你一些建议,告诉你怎样成为他们中的一员。
开始成为数据科学家的第一条建议是别被这个职位的要求所挫败。没有一个刚毕业的大学生能满足即是数学\统计天才,又精通市场、产品、网络安全,还是专业的Python、Java、R程序员。(提示:这就是为什么数据科学家被称为独角兽——因为他们不存在)
“在数据科学的屏蔽伞下隐藏着许多的技能,我们不能期望一个人能精通里面的所有东西。”Booz Allen Hamilton的数据科学家Kirk Borne说,“数据科学家人才短缺的最好解决方案是组成一个数据科学家团队。所以我建议有应该精通两个多个领域的同时对其他领域也能有一个基本的了解”
根据Kirk Borne所说的,你需要抓紧好好温习数据科学的核心技能,例如,机器学习、信息管理、统计学以及数据信息可视化。同时你也需要懂得数据库的周边知识和数 据结构,最少掌握几门像Python、R、SAS、Spark这样的编程语言。熟悉图分析、自然语言处理、最优化也能使你的数据科学简历更好看一些。还需 要进行数据建模和一些模拟练习。
“对学习物理学、生物学、天文学、化学或其它科学的学生来说,一个好消息是他们可以很容易地将它们的科学技能转换到数据科学这一领域”他说。
你应该返回学校继续修炼吗?
尽管最近数量可观的博士级别的数据科学编程者的出现一定程度上解决着这个“独角兽”短缺的问题,可是你不想再在学校待太长时间。一个硕士学位就已经足够了。Borne如是认为。
“最近越来越多的机构愿意雇佣既有一定课堂知识,又有一定实际经验的中等学位的数据科学家。”他对Datanami.说“学位最终对职业提升是十分 重要的(对于一个包含商业分析的MBA来说也许是最重要的),所以要重视获得你的学位——它只是在你刚开始从事数据科学家职业之前不是必须的。”
Hadoop服务提供商Qubole的CEO也针对评估做出了回应。虽然具有所需的如数学、数据挖掘、统计学、概率论、SQL等坚实背景,数据科学家还是有很多路要走,最终要从象牙塔进入产业界来获得最重要的元素:有趣的数据。
“在产业界去获得这些技能是十分重要的”Apache Hive联合创造者Thusoo说“你有坚实的知识基础,但是为I了运用这些技能你需要获得数据。很多有趣的数据集是和现实产业紧紧绑在一起的。现在不再像20或30年前那样——绝大多数的数据都在研究机构”。
现在*的数据科学家去学校不再是研究成为一个数据科学家,而是为了学习成为一个计算机科学家、天体物理学家(就像Borne)、化学工程师、或者理论物理学家。随着世界的前进,这些艰涩的科学和数学技能被证明对于处理日益增长的数据是无价的、弥足珍贵的。
“围绕数据进行思考是第一要义”Thusoo说“现成的工具和编程语言之类的你能很容易学会使用。无论是Python实现的、Scale实现的、 Java实现的还是其他语言实现的,随机森林算法就是随机森林算法。你需要理解的是在哪里使用适合的技术,而不是怎样用代码实现这些技术。”
南方卫理公会大学统计科学的副教授、数据科学硕士项目主任Dr. Monnie McGee说在大数据领域统计学也扮演着很重要的角色。
“统计和计算机科学都是很重要多的技能”她说“然而作为一个统计学领域的个体,我偏向地认为在数据科学领域统计训练对于一个个体来说是相当重要的”。
有统计方面的训练并不仅仅是能使用正确的统计方法或运行相关的软件,她说,“我的意思是有U能力做出能被测试的假设,适当的采集数据,设计方案评估数据中的噪点和信息,在问题的上下文环境层面解释结果。”她说。
耐心,年轻人
不要期望在你22岁时就能解决世界上的数据科学问题。实际上要成为一个数据科学家需要多年的训练和经验,为数众多的失败,不被打到的毅力。
伊利诺斯理工学院计算机科学与数据科学硕士项目主任Shlomo Engelson Argamon说,要想在数据科学领域做出成绩需要很多不同领域的经验。“需要数目繁多条目繁杂的工具和技能”Argamon继续说道“真正深入研究它们 需要消耗多年多的时间和经验,对于一个刚刚踏入数据科学领域的人,关键是抓住其中每一个领域的基础原理,有能力使用一两种方法和工具。倘若一个人基础知识 掌握的比较好的话,其它工具和叫技术会很容易地学会。”
有人预言,软件的发展将最终取代对数据科学家的需求。这种言论甚嚣尘上,从业的数据科学家群体也混淆了这个。
根据Borme的说法,数据库科学家具有坚实的经验基础,统计学、机器学习、数据处理方面的知识的事实使得他们区分于现成的软件包有有很大的优势。“带着这些天赋和能力,灵活的数据科学家能够学习和运用新的软件包,新的编程技术,许多组织中天才人物新创造的方法”,他说。
“因此,”Borme继续说到“分析软件包的发展不会像人们预测的那样取代数据科学家的需求。但是它的发展肯定会取代一些数据科学家的技能需求(如 Java和Hadoop),虽然不是全部取代:我认为我们都需要通晓一种编程语言(Pyython、R、SAS),可预见的将来SQL也是需要的。”
软技能问题
你也许是能够在一个单一范围内跳跃数十亿行数据的核心数量分析专家。但那不会自动的成功转换到数据科学圈。除了基础数学、技术技能,还要有软技能”如谦虚、好奇、果断。SMU的McGee如是说。
“谦虚是必须的,因为经常数据没有告诉我们想要知道的”她说“我们不得不足够谦逊去接受和解释数据真正告诉我们的。因为好奇心对于持续质询问关于们 周围的世界的问题和找到这些问题的答案是非常重要的。又因为这些答案不是直接可用的甚至有时不能解决这些问题,所以我们需要果断的选择”数据科学家要不断 的告诉自己“我知道存在解决的方法”,直到描绘出解决方法前脑子一直是堵塞的。数据科学家是错误的?是否存在一个解决方法?查看一下其中之一的特征就行了 (See trait one)。”
IIT的Argamon鼓励刚要从事数据科学的人preserver through这份工作最艰难的部分。“数据分析中的大多数工作是’数据苦差事’——转化杂乱的数据集,相处怎样结合不同数据格式问题的解决方案,处理错 误和缺失的数据项,探索数据的整体形状,测试和丢弃不同的模型等等。”他说“如果你想有寻找数据隐藏的东西的洞察力,你必须精力充沛,有坚强的毅力,这是 在任何教育项目中不会传授的品质,尽管他们能够通过建库的训练逐步获得”
“我的第一个建议永远是兴趣第一”最近离开乔治梅森大学去Booz Allen Hamilton的私人部门研究数据科学的borme说“你需要知道你擅长什么,你关心什么,你追求什么”。
走一条什么样的路是每个萌生从事数据科学的人都需要处理的一个挑战。你也许天生擅长数学、处理问题、交际或后天再大学或其它教育机构获得了编程和数 据处理技能。很幸运,你可以将很多产业中使用这些技能,从科学研究和网络安全到市场和金融。“对学习物理学、生物学、天文学、化学或其它科学的学生来说, 一个好消息是他们可以很容易地将它们的科学技能转换到数据科学这一领域”他说。
成为一名数据科学家
对于很多人来说成为一个数据科学家是一个理想的工作(也许就是你)。Borme说你可以优先记住“作为一个成功的数据科学家,你的每一天都在计算你的幸福——你通过使用数据解决现实世界的问题正生活在你的梦想之中。”他说。
Borme想起了一个关于Jeffrey Hammerbacher的Fastcompany故事,他是一个天才数据科学家,从Facebook离职去帮助建立Cloudera.“如果你认为你稀缺的技能(数据科学)在其他地方可以得到更好的使用,大胆的离开就行了。”
本文作者:佚名
来源:51CTO