很多牛逼的公司都宣称在建立数据科学部门,这个部门该如何组建,大家都在摸石头过河。
O‘reilly Strata今年 六月份发布了报告 《Analyzing the Analyzers》,比较清晰的阐述了数据科学部门所需要的不同角色及其技能。重点内容翻译如下:
数据科学家的分类研究方法
自我认识
请被调查者用常用的5级标准(从完全同意到完全不同意)来回答 “我觉得自己是一个XX” 这样的问题,能够获得数据科学家的自我认识结果。调查结果将数据科学家分为以下四类:Data Businesspeople、Data Creatives、Data Developer、Data Researchers。
技能需求
请被调查者对数据科学家所需的以下22项技能进行排序,分析不同类型的数据科学家的技能要求。其中的ML是机器学习的简写,OR指运筹学(Operations Research)
将它们结合起来分析
根据受访者的自我认知和技能排序,可以识别出不同类型的数据科学家所需要的技能。
数据科学家的类别
Data Businesspeople
Data Businesspeople 往往专注于组织管理和如何从数据项目中产生利润。他们往往将自己定位为领导或创业者,约 80% 的 Data Businesspeople 承担员工管理的责任。Data Businesspeople 还可能是咨询服务或合同类服务的提供者。Data Businesspeople 学历相对较高,大约 60% 拥有硕士以上学位,其中 MBA 接近 25%;而且很多 Data Businesspeople 都有工科学位的背景。Data Businesspeople 往往操作真实数据,90% 以上偶尔会操作 GB 级别的数据。与其他数据科学家相比,Data Businesspeople 年龄稍微偏大,接近四分之一是女性(相比略高),仅有四分之一的 Businesspeople 把自己称为数据科学家(相比略低)。
Data Creative
数据科学家往往可以独立完成一条龙的完整分析过程:从数据提取,整合、并进行分层,进行统计或其他复杂的分析,创造引人注目的可视化诠释和效果,开发具有更宽广应用前景的数据工具。而 Data Creative 则是其中能力最广泛的数据科学家,他们能够综合使用各种工具和技术解决问题、能够像黑客马拉松那样创新产品原型,是典型的万事通型人才。与其他类的数据科学家相比,Data Creative 更具艺术家风范。与 Data Researcher 相似,Data Creative 也有丰富的的学术经验,大约 3/4 拥有院校授课或发表论文的经历,一般拥有经济学和统计学等领域的学位。但不同之处在于,仅有较少的 Data Creative 拥有博士学位。Data Creative 具有深厚的业务经验,80% 的 Data Creative 按合同工作(接项目?);40% 创立了企业,甚至比 Data Businesspeople 还多。Data Creative 还被认为是黑客。他们往往还可能有深厚的开源经验,业余为开源项目和开放数据项目做贡献。Data Creative 相对更年轻,男性更多。有意思的是,他们也是最积极的回应我们最后一个问题的:“你觉得本次调查是否对你有用?”
Data Developer
Data Developer 专注于解决数据管理的技术问题 —— 如何获取,存储,以及学习。Data Developer 更倾向于将自己评价为科学家(在这一点上仅次于 Data Researcher)。对于那些从事机器学习和相关的学术研究的人来说,这是当然合理的。但是,还有一些 Data Developer,每日的工作仅仅是日复一日的开发代码。半数 Data Developer 具有计算机科学或计算机工程学位,约一半人为开源项目作出过贡献。更多 Data Developer 会强调自己具有机器学习/大数据技能。部分 Data Developer 做过咨询工作,承担过管理岗位、或为开放数据项目做出过贡献。
Data Researcher
走向“数据科学家”头衔的职业生涯路径中,最有趣是从在学校研究物理或社会科学开始,也有统计学专业的。许多组织已经深刻认识到,即使这些学生在校期间所学专业与企业业务领域完全不同,但他们被训练出的利用数据了解复杂过程的能力仍然极具价值。大部分具备统计技能的受访者,自认为是 Data Researcher。近 75% 的 Data Researcher 在同行评审期刊上发表过文章,半数以上拥有博士学位。(心理和政治科学学位也有可观的数字)。Data Researcher 很少创业,而且仅有半数具有管理经验。
关于大数据
下图描述了对于不同数量级数据集处理的调查结果:大多数数据科学家很少直接操作 TB 级以上的数据。
T型数据科学家
大多数成功的数据科学家既有丰富的专业经验,还至少在数据科学的某一方面深入钻研,如统计,大数据,或业务沟通等。这就是20世纪90年代提出的所谓的“T形技能”模式:“T”字母顶部的横表示广博技能,而竖线表示在某个区域的深度钻研。T形人才能够更容易融入跨学科团队,也能够更高效地工作。数据科学领域与生俱来就具有协作性和创造性,那些成功的专业人士能够与数据库管理员,商务人士,以及其他具有多种互补工作技能的人合作,以使数据项目以创新的方式完成。
Data Businesspeople 具有*的商业能力,其他能力较弱。Data Researcher 往往具有非常深的统计相关技能,但一般说来,他们对于机器学习/大数据,商业,和编程技巧却相对低。Data Developer的模式可以被称为“π形”,拥有强大的编程技巧,较强的机器学习/大数据相关技能,而其他三个技能相对中庸。最后,Data Creative 是不像T形结构的,所有技能相对平均,既不最强,也不最弱。
数据科学家和组织结构
数据人才来自哪里?
70% 的受访者至少拥有硕士学位,而科学领域的(社会学或物理学,而非数学、计算机、统计、或工程学科)达40%。
科学领域的研究生以上教育,提供了对真实数据的动手实践,不仅仅描述现象,还要评价理论和辨析立场。物理学和天文学教授了严格的统计思维,而粒子加速器和太空望远镜系统则提供了大量的需要小心处理的数据流。硬科学背景为任何类型的数据科学家,尤其是Data Developer提供了良好的培训。
另一方面,有人认为,社会科学也培养了大量的数据科学家。心理学家,经济学家,政治学家,以及其他组织,他们在工作中需要处理的来自真实世界的混乱的,嘈杂的数据。这些领域的数据科学家可以快速清理和汇总数据,利用先进的统计技术来理解因果关系,并深入思考有关数据可视化,展示和沟通的问题。我们在 Data Researcher 和 Data Creative中看到很多这样的受访者。
经典计算机科学(机器学习)和应用统计学位也是非常有效的数据科学家的起点。机器学习的重点是大规模数据处理和算法、结合软件开发技能,自然应用于真实世界组织数据。许多应用统计学科则将咨询能力、专业领域知识、以及关键方面有效的数据科学结合在一起。
还有不少学校也开始培养一些新兴的学位,如分析、数据可续、商务智能硕士等。
大多数当前的数据科学家往往涉足过多个领域,在不禁意之间获得了广泛而深入的领域知识。
从理论到实践:实习和指导
帕蒂尔(2011)建议 “招收哪些刚刚走出大学校园的聪明而有创意的人才,再把他们投入非常严格的实习计划中去。” 对于拥有足够预算,以及高级人才辅导项目的大型组织,这样做可能效果不错,但对于小公司,它的实用性似乎不太好。
对于小组织来说,有个可行的替代方式(DataGotham 2012年)—— 聘请专业的顾问,帮助招聘、培训、再整合和指导新鲜出校的数据科学家。DonorsChoose.org 意识到,雇佣数据科学家收集数据,在完成其慈善使命中具有巨大价值,他们与专家团队一同工作达5个星期完成雇佣。雇佣之前,专家帮助这个非营利性组织了解到数据科学家的作用,随后帮助新员工培训和指导,并设置了启动项目的成功路径。数据科学家的广泛的能力将对小组织非常有用,但必须有像这样创新的方法以确保其有效性。
团队和组织架构
首先,我们的数据显示,数据科学家应该是T形人才,具有多样技能,需要在技能互补的团队中最有效率。(达文波特 2010;帕蒂尔 2011)。而不明白这一点的组织往往期望聘请一个可以做到一切的“神”。
其次,组织需要建立自己的数据科学团队,以有效的开展工作。数据科学团队即需要直接访问原始数据,也需要与决策者沟通。根据我们的分析,他们具备需要多方面的技能才能充分利用数据。他们还需要得到流程管理的支持,采纳和使用其结果。当数据科学团队的产出被期望为具有完整的生命周期的软件系统时,那么这个团队中就必须拥有足够的资源去进行测试,部署和系统维护,这一点至关重要。虽然我们的受访者都或多或少有一些编程技巧,并能够承担这类任务,但期望大多数 Data Businesspeople 或 Data Researchers 能够高效完成这些,还是个不现实的期望。在大型组织里,在数据科学团队上的资金投入,与其他团队之间的管理关系协调,包括数据基础设施和IT员工,确实能够实现价值。(达文波特,2010年)
职业发展
企业中的数据科学家的角色不是一成不变的,也需要职业发展的晋升机会。具有多年数据科学家经验的员工,非常有价值,也非常难于替代。将工程师提升为领导角色需要充分衡量利与弊,还要考虑资深员工不想从事管理岗位的各种变数。在我们的调查者中,62%的承担着管理责任;这个数据能够显示有多少数据科学家愿意管理团队,而不是视管理为烦恼。
在大型组织中,保留数据科学家的另一个有趣的潜在方法是设立轮岗计划(达文波特,2010年)。在入职培训之后,数据科学家可以在内部团队有计划的转岗。产品部门可能需要个性化用户模式;市场部门需要在可控实验(controlled experiments)方面的帮助;财务部门需要预测;运营部门需要流程优化。通过直接加入不同部门,数据科学家能够了解关键业务的价值观和技能,专注于部门最需要帮助的问题,并以最小代价提供解决方案。而且,通过阶段性轮岗,数据科学家可以获得更宝贵的技能和宽阔的视野,不断提升其数据科学技能。
Author : iascchen(at)gmail(dot)com
Date : 2013-09-04
新浪微博 : @问天鼓