AI是当前科技领域中的热门话题,同时发展到今天,无论是业务扩展还是相关数据安全,企业数据资产及其价值也成为企业运营中的明星业务。那么如何在企业数据项目中利用AI技术,则成为让企业和相关人员最激动最有兴趣的亮点了。
我们要强调一下AI的一个本质特点,AI并不是IT,AI的使用与传统软件的使用也大相径庭。究其根源,传统软件往往是确定性的技术,而AI是一项不确定性的、需要考虑概率统计的技术。
在数据中利用AI算法发现价值的过程是一个具有挑战性且通常很耗时的工作。虽然一个非技术背景的负责人或执行者在项目执行过程中不必掌握如何清理数据、编写Python或针对算法参数进行优化调整等这样的技术细节,但他们必须清晰理解整个项目过程各个阶段的定义和目标,只有这样他们才能帮助业务专家和数据科学家在这个充满实验性质的过程中发现企业业务数据的最大价值。
目前,国外相关研究已经清楚描述了AI数据下面的七个阶段,但是AI技术有不确定和概率统计特性,同时企业数据也需要有认识过程,因此在数据项目中使用AI技术在按这七个阶段执行时往往还需要遵循这样的规律(参照下图):项目各个阶段循环速度很快,而且阶段之间经常会有迭代循环操作,为了一个中间结果经常会从一个阶段(未完成)跳到下一阶段,如图所示,项目周期中的步骤1和2(业务理解和数据理解)以及步骤4和5(数据预处理和建模)经常是并行而不是串行发生。
下面我们详细分解AI数据项目周期中的七个阶段任务:
一、业务理解阶段
1、目标
确定该数据AI项目的最终业务目标,以及为该项目分配的资源。寻找诸如以下问题的答案:“项目追求的最终结果是什么?”、“ AI真的是完成该工作的正确工具吗?”、“这个潜在的AI项目中可测量和战略价值到底是什么?”等。
2、挑战
为企业寻找合理且可达到的目标机会,尽量避免因高估AI的能力而好高骛远,清晰认识到预期此类项目具有较长周期的迭代时间以及企业为此需要通过各种途径建立相关技能和竞争力,这样才能真正将AI技术融入企业日常业务中。
3、参与角色
i. 高层决策者
ii. 首席数据科学家
iii. 项目经理
iv. 相关业务专家
二、数据理解阶段
1、目标
确定数据的可访问性和潜在价值,寻找诸如以下问题的答案:“可以利用现有的数据资产就能实现我们定义的业务目标吗?”,或者“使用这些数据是否存在潜在挑战,或者是否有机会以新的方式使用这些数据来实现期望的业务成果?”等。
2、挑战
从数据中获取最高价值,为了达到这个目的需要相关业务专家和数据科学家一起研究数据,以确定诸如访问数据的方式、如何优化数据以及哪些功能可能对最终业务目标具有最高价值。
3、参与角色
i. 首席数据科学家
ii. 项目经理
iii. 相关业务专家
三、评估项目资源需求阶段
1、目标
评估和确定项目成功进行所要求的资源,这个工作包括额外的预算、对人员的专门培训、要求相关业务专家加入项目团队、或者需要访问新的数据系统。
2、挑战
让高层决策者清晰明白实际落地的AI项目存在不可避免的高复杂性和不断变化的需求(尤其是对于那些以前没有类似数据项目的企业的决策者)。
3、参与角色
i. 高层决策者
ii. 首席数据科学家
iii. 项目经理
iv. 相关业务专家
四、数据预处理阶段
1、目标
访问、清理和规范数据是数据分析工作成功的关键前提。数据分析团队从该过程中确定可提取的数据特征,以确保可提取数据源能更好地起到决策和预测作用。
2、挑战
数据科学家如何与决策者和业务专家讲清楚数据项目的困难/挑战和相关成本,这些挑战和成本通常是巨大的(尤其是在比较传统、之前几乎没有类似数据项目的企业看来)。如果在该阶段得出可以输入的数据源无论从数量还是质量都不能满足项目需求的结论,则一定要确定该项目不可行。
3、参与角色
i. 高层决策者
ii. 首席数据科学家
iii. 数据分析处理团队
iv. 相关业务专家
五、建模阶段
1、目标
在AI模型的数据输入和数据输出之间建立关联关系,对数据和算法进行迭代优化以达到项目预期的业务目标。
2、挑战
核心工作是在数据处理,数据理解和业务理解之间不停循环迭代以优化模型,这里的关键是需要相关业务专家为AI模型的假设和之后的模型训练过程提供精准的建议。
3、参与角色
i. 首席数据科学家
ii. 数据分析处理团队
iii. 相关业务专家
iv. 项目经理
六、评估阶段
1、目标
确定我们的数据资产和产生的AI模型是否满足项目设定的预期,这也经常需要在项目周期阶段1、2、3、4或5之间多次反复循环,根据上次结果和预期之间的差距,优化输入数据源、模型及相关参数进行迭代工作
2、挑战
因为数据项目的衡量标准很难清晰量化,评估阶段是一个巨大的挑战,为了确保此阶段能够顺利执行,让高层决策者和相关业务专家积极参与,制定出合理的评估标准并达到预期效果是关键,这样才能更有信心进入项目最终的部署实施阶段。
3、参与角色
i. 高层决策者
ii. 首席数据科学家
iii. 项目经理
iv. 相关业务专家
七、部署阶段
1、目标
将AI模型及应用程序成功集成到企业现有业务流程中,以业务效果为最终衡量标准。
2、挑战
培训企业业务人员高效使用新的AI应用,这是一个不间断维护并优化模型的持续过程,以适应业务的不断变化。
3、参与角色
i. 首席数据科学家
ii. 数据分析处理团队
iii. 项目经理
最后,需要再强调一下AI数据项目周期中的步骤可以按以上七个阶段顺序思考设计,但是在真正项目实际部署实施中并不总是严格遵循这样的串行顺序。例如,在数据预处理的阶段,团队可能会发现新问题而决定“退一步”去更深入了解相关业务,这样就还需要提出额外的资源需求(譬如数据需要密集且及时的清理工作,意味着更多的人员、时间和其他资源需求);同样,在评估阶段,为了验证结果或者根据项目实际情况,极大可能会在真正部署解决方案之前返回到数据理解等阶段。