数据科学可能是解决业务问题的最热门工具,但存在缺陷的项目可能会造成重大损失,并导致决策者误入歧途。
如今,数据科学几乎都会引起IT和业务主管们的兴趣。但数据科学确实会出问题。
事实上,利用科学方法、流程、算法和技术系统从结构化和非结构化数据中获取各种见解的数据科学项目可能会以多种方式失败,从而导致时间、金钱和其他资源的浪费。存在缺陷的项目可能会导致决策者误入歧途,从而导致企业遭受的损害大于收益。
以下是数据科学项目未能如预期那样成功的一些最常见原因。
数据质量差
不良数据会导致数据科学工作变得很糟糕,因此花时间来确保数据的质量,这是至关重要的。任何分析工作都是如此,数据科学当然也是如此。
“不良数据或废数据会使数据科学项目无法完成,”数字化转型咨询公司 Adaptavist的首席信息官尼尔•莱利(Neal Riley)说。“您必须确保自己的数据是干净的,并适合于数据分析师使用。如果并非如此,那就完全是浪费时间。”
当企业在数据科学项目中使用不干净的数据时,他们最终将“看到会产生奇怪输出的模型,(并且)会看到该输出并没有代表实际情况或没有表现出使事情变得更好的一个过程,”莱利说。
有时,由于数据集中存在偏差或差异,所以数据质量很差。
“对于某些组织来说,他们会使用多个系统来运营业务,”全球公共机构雇员保险(WAEPA)公司的首席信息官布兰登•琼斯(Brandon Jones)说。“对于经验丰富的企业来说,您甚至可能仍会使用一些遗留系统,以供参考或验证。在许多情况下,业务会随着每个系统的不同而发生变化,因此导致在业务中计算某一指标的流程和/或方法存在差异。”
琼斯表示,这可能是导致数据科学出现问题的主要原因。由于基于更改后的业务流程进行了重复计算,从而其结果可能会被夸大。“为了解决这个问题,各个组织必须统一设置他们的数据分析程序,”他说。“这意味着要列出一个可以验证数据的具体日期,并且每个人都清楚和认同这是他们组织进行工作的通用标准。”
对要解决的问题没有明确定义
如果团队成员不了解他们试图解决的业务问题,那么数据科学项目如何能成功完成?然而,当数据科学团队在开展某些项目时,他们有时就会遇到这一问题。
网络安全公司Kenna Security的首席数据科学家迈克尔•罗伊特曼(Michael Roytman)表示:“定义某一问题的过程通常是数据科学家的工作,而实际上,定义某一问题(包括)多种业务情况,既涉及确定工作范围,又涉及界定潜在的投资回报。”
医疗咨询公司Impact Advisors的高级顾问兼虚拟首席信息官马克•约翰逊(Marc Johnson)表示,希望利用数据科学的业务用户需要就他们想要解决的问题提出一些探索性问题。
“就像任何项目一样,花时间来锁定问题的范围以找到数据的正确来源,”约翰逊说。“几年前,有人让我为一家拥有20年历史的公司设计一款分析产品。没有对客户群进行研究,以了解该产品是否有市场。没有明确客户想要查看该分析结果的一些指标。这一切都是基于竞争对手声称其拥有某一分析产品,以及客户想要该产品的传闻。”
约翰逊表示,这个项目在毫无方向的情况下消磨了两年,“因为对于我们试图解决的问题定义太模糊。”
缺乏相关数据
数据科学工作必然出问题的另一方式是不提供解决某一特定问题所需的特定类型数据。
对某一问题提供大量数据并不能解决问题。“有一种想法是,大数据会带来洞察力,但实际上很少有这种情况,”罗伊特曼说。“适合的、定制的且通常较小的数据集常常会带来完善的和可归纳的模型。”
约翰逊表示,为了从数据科学中获得价值,您应该不断努力从最相关的来源收集数据。“创造不是一次性活动,”他说。
约翰逊表示,由于数据是从不同来源收集或购买的,因此团队需要确保在数据中的任何修改不会歪曲其结果,以及牺牲整个数据集的质量。他们还必须确保数据集不存在任何隐私、法律或伦理问题。
缺乏数据透明度
团队需要对他们用于构建任何给定模型的数据保持透明度。“当人们不信任该模型或不理解该解决方案时,数据科学项目就会失败,”新泽西州司法机构的首席信息官杰克·麦卡锡(Jack McCarthy)说。“解决这一问题的方法是,您必须能够‘说明其数学原理’,并将其传达给可能不具备技术或统计技能的利益相关者。”
数据科学家需要解释数据的来源,他们为计算模型做了什么,并要提供对所有相关数据的访问权。“透明度是项目成功的关键,”麦卡锡说。
这方面的一个例子是新泽西州所使用的风险评估算法。“我们会向所有利益相关者提供一份报告,该报告包含某一被告历史上的哪些案件属于哪个类别,以及每个案件的评分方式,”麦卡锡说。“这些内容会提供给所有对手,因此他们有机会查看每个案件,并可以质疑其中包含的内容。这一切都是透明的。”
不愿意承认研究结果的不确定性
罗伊特曼表示,有时需要获得洞察力的业务团队或数据科学团队本身根本不愿意承认其研究结果不确定、不清楚或不够完善,或者甚至无法进行业务应用。
罗伊特曼说:“一个同样可接受和有价值的答复是,‘该模型不够好,无法为业务带来投资回报。”
罗伊特曼表示,Kenna Security公司的数据科学团队花了两个月的时间构建了一个漏洞分类模型,该模型会自动为某一漏洞生成一个通用缺陷列表。“该模型很有效;这是对研究生水平课程问题的一个很好的答案,”他说。“但对于我们的客户而言,它的效果还不够好,无法带来价值。(其)精度太低。所以我们放弃了该项目,尽管我们投入了时间并取得了成果。”
缺乏执行负责人
数据科学工作需要一位来自高管层的负责人,以确保项目获得足够的资源和支持。
“如果他是首席信息官,那么这会有所帮助,”莱利说。“我们将数据科学视为我们运营工作不可或缺的一部分,我已保证要做这方面工作的负责人。”他表示,即使首席信息官不是数据科学工作的内部负责人,他也应该负责确保所有相关数据的安全。但其参与的工作应该远远超出安全性的范围。
“充分利用您收集的信息,我认为这是现代首席信息官的职责,”莱利说。“凭借手头上拥有的所有数据,您就有办法从中获得一些东西,并可以合理地使用这些数据,而首席信息官就可以利用这些东西来帮助其组织内各个职能部门。”
莱利表示,在对销售流程制定新策略和做调整方面,Adaptavist公司从其数据科学工作中获得了最大收益。“这与我们的产品或IT基础设施、营销都没有任何关系。”他说。“从业务流程优化的角度来看,数据科学对我们帮助最大,可有助于内部销售人员更好地处理和管理潜在客户。”
人才短缺
技能缺口困扰着IT工作的诸多方面,数据科学也不例外。许多组织机构根本不具备开展项目或获取最大价值的相关技能。
Beanworks是一家基于云计算的应付账系统自动化提供商,其工程和数据业务首席信息官Tracy Huitika说:“真正的数据科学家需求量很大,很难找到,而且薪资很高。”“该职位通常需要是物理学或科学博士学位,并且能够使用R和 Python语言编写代码。”
约翰逊表示,数据科学项目失败(即使项目已经开始部署)的最大原因之一是缺乏持续管理项目的运营人才。“让一位优秀的数据科学家创建一个模型,而没有持续改进的运营计划,以及没有根据市场和数据变化进行调整,这就像设计一辆汽车,然后将钥匙交给一个10岁的孩子一样,”他说。
在某一模型投入使用后,企业需要通过雇佣或利用外部专家(例如精通数据科学的顾问)来获得适当的相关技能,以对该模型进行维护。
数据科学不是正确的解决方案
如果某个特殊问题起初不需要数据科学作为其解决方案,那该怎么办?这种对数据科学的错误使用可能会导致项目的失败,因此应仔细考虑何时该使用以及何时不该使用数据科学方法、流程和工具。
“导致数据科学项目失败的最大因素之一是数据科学、算法和机器学习技术甚至都不是适合的解决方案,”莱利说。
“您可能根本不需要机器学习模型;您可能只是需要回归分析,然后您可能需要花费大量时间和精力来研究所有不同的排列,而无需使用数据科学,”莱利说。“我们陷入了这样一种情况,即我们在研究金融数据科学建模,以可视化预测我们主要业务在未来取得盈利的因素。而事实证明,其最好的方法就是统计回归。”