本节书摘来自异步社区《数据科学与大数据分析——数据的发现 分析 可视化与表示》一书中的第2章,第2.7节,作者【美】EMC Education Services(EMC教育服务团队),更多章节内容可以访问云栖社区“异步社区”公众号查看
2.7 第6阶段:实施
在最后这个阶段,团队更广泛地言传项目的好处,并建立一个试点项目以可控的方式来部署项目成果,然后再将成果应用到整个企业或者用户生态系统。在第4阶段,团队在分析沙箱中对模型进行评估。如图2.8所示,第6阶段是大多数分析团队第一次在生产环境中部署新的分析方法或模型。团队在大规模部署模型之前,可以先在小范围内实验性地部署, 从而学习部署经验和有效地管控风险。这种方法使得团队可以在小规模的生产环境中研究模型的性能和相关约束,并在完全部署前作相应的调整。在试点项目中,团队可能需要考虑在数据库中运行算法,而不是在R等内存工具中,因为算法跑在数据库中明显比在内存中更快和更高效,尤其是当数据集很大时。
在设定试点项目中涉及的工作时,还要考虑针对一组离散的产品或单条业务线在生产环境中运行模型的情况,这将在实际场景中测试模型。这让团队从部署中学习,并在整个企业发布模型前进行任何必要的调整。请注意,这个阶段会引入一系列新的团队成员,通常是负责生产环境的工程师,他们有不同于核心项目团队的新问题和关注点。该技术团队需要确保模型能在生产环境中平滑运行,并能集成到相关的业务流程。
实施阶段的任务包括建立一个对模型精度持续检测的机制,并且在精度下降时,设法重新调试模型。如有可能,设计当模型运行出界(out-of-bounds)时产生警报。出界情况包括输入超出模型训练的范围,这可能会导致模型的输出不准确或无效。如果该情况经常发生,则需要新的数据来重新训练模型。
分析项目常常会对人们认识肤浅或者认为不可能探索的业务、问题或想法产生新的见解。要满足大多数利益相关者的需求,可以创建四种主要可交付成果。其创建方法将在第12章中详细讨论。
图2.9描述了一个分析项目中每一个主要利益相关者的关键输出,以及他们预期的项目结论。
- 业务用户通常试图确定项目的结果对业务产生的效益和影响。
- 项目发起人通常会问问题,关于项目的业务影响力、风险和投资回报率(ROI),以及项目在组织机构内外的推广方式。
- 项目经理需要确定该项目是否按时完成,是否控制在预算内,以及目标是否达成。
- 商业智能分析师需要知道他管理的报告和仪表板是否会被影响以及是否需要改变。
- 数据工程师和数据库管理员(DBA)通常需要共享他们在分析项目中的代码,并创建技术文档来介绍实现细节。
- 数据科学家需要共享代码并向他的同伴、经理和其他利益相关者解释模型。
虽然这7个角色在一个项目中有各自的兴趣点,这些兴趣点通常存在重叠,其中大部分可以通过4种主要的可交付成果来满足。
- 针对项目发起人的演示文档:这包括给高管级别利益相关者的信息,其中有些关键信息可以帮助他们进行决策。文档要注重简洁和图案,以方便演示人员进行讲解,同时便于听众掌握。
- 针对分析师的演示文档:描述业务流程的变化和报告的变化。数据科学家可能想要细节,并且习惯于技术图表(比如,观测者操作特征(ROC)曲线、密度图和在第3章和第7章所示的直方图)。
- 针对技术人员的代码。
- 实施代码的技术规范。
一般而言,当受众越是高管,越需要表达简洁。大多数高管项目发起人每周或每天都会参加很多报告会,因此确保陈述迅速切入要点,并阐述结果对发起人组织机构的价值。例如,如果团队正在与一家银行合作分析信用卡欺诈的案例,则要重点强调欺诈频率,在过去一个月或一年发生欺诈的次数,以及对银行造成的成本或营收的影响(或者关注对立面,即如果解决了欺诈问题,银行可以增加多少收入)。这样做比深层次的方法论更能体现业务影响力。演示则需要包括与分析方法和数据源相关的支持信息,但通常只作为辅助细节,或确保受众对分析数据使用的方法有信心。
当向拥有量化背景的受众做介绍时,应该花更多的时间来介绍方法论和发现。这时,团队可以更加详细地描述成果、方法论,以及分析试验。这些受众对技术更感兴趣,尤其是当团队开发了一种新的方法来处理或分析数据,而且该方法可以在将来重用或者用到类似的问题上。此外,尽量使用图例或数据可视化。虽然可能需要花费更多的时间来制作图例,但是人们更容易记住用图片来演示的内容,而不是一长串信息 [25]。数据可视化和演示将在第12章继续讨论。