随着人工智能(AI)变得越来越普遍,每个行业都竞相开发人工智能AI解决方案来推进它们的用例,围绕生产环境部署出现了实际的挑战。
在之前的文章中:如何从实验转向构建生产机器学习应用程序 ,我描述了将机器学习(ML)实验用于生产部署的过程。在这篇后续文章中,我概述了有助于用户简化和扩展整个机器学习生命周期的七个人工智能行业趋势。我们将描述每个趋势,讨论为什么它对操作机器学习很重要,以及当企业决定利用趋势来加速或改进其操作ML实践时,应该考虑哪些因素。
图1显示了一个典型的机器学习(ML)生命周期。随着时间的推移,ML功能相对于业务需求得到进一步优化,这个循环会重复。
趋势一:数据市场
许多机器学习计划的第一个挑战是找到一个可接受的数据集。数据市场试图解决数据集的短缺,尤其是在医疗和物联网等关键领域,通过提供一个:个人可以分享他们的数据、公司可以使用数据进行人工智能AI和分析的平台。市场平台保证了安全性、私密性,并提供了一个经济模型来激励参与者。
数据市场可以提供其他难以获得的丰富的数据,而且市场可以提供数据源并沿袭那些以后管理数据和确保质量所需要的信息。
趋势二:综合数据服务
解决数据集短缺的另一个角度是合成数据集市场。机器学习技术的进步已经证明,机器学习本身可以产生真实的数据集来训练其他ML算法,特别是在深度学习空间中。人工合成数据因其潜力而广受赞誉,因为相对于能够访问大量数据集的大型组织,人工智能AI可以为规模较小的公司提供公平的竞争环境。合成数据可以是真实数据集的匿名版本,也可以是真实数据样本生成的扩展数据集,还可以是模拟环境,比如用于训练自动驾驶汽车的虚拟环境。
趋势三:标签服务
好的数据集是稀缺的,被标记的好的数据集更加稀缺。为了解决这个问题,出现了一个数据标签市场,它经常关注特定的数据类型(比如图像中的对象)。其中一些标签来自于跨地理区域协调并通过协调软件管理的人工贴标签者。公司正在这个领域进行创新,将人工和基于机器学习的标签结合起来,这是一个有潜力降低纯人工标签成本的趋势。这一领域的其他创新包括使企业能够与标识服务提供者直接交互的服务。
趋势四:自动化机器学习模型
一旦找到合适的数据集并贴上标签,下一个挑战就是找到一个好的算法并训练一个模型。自动化机器学习(AutoML)技术使算法/模型选择和调优过程自动化,获取一个输入数据集,运行大量训练算法和超参数选项,以选择建议部署的最终模型。与AutoML相关(并且经常在内部提供),是利用深度特性合成等技术实现的特征工程自动化功能合成。AutoML软件有时也可以对输入数据集执行偏差检测。一些自动解决方案是SaaS产品,而另一些是可下载的软件,可以在云环境或内部环境中以容器形式运行。
趋势五:预制容器
对于那些可能正在开发自己模型的人来说,容器是生产部署的一种完善的设计模式,因为它们使任何训练或推理代码都能够在定义良好的可移植和可伸缩的环境中运行。Kubernetes等编制工具进一步支持基于容器的机器学习ML的伸缩性和灵活性。然而,组装容器可能是一项具有挑战性的任务,因为必须解决依赖关系,并对整个堆栈进行调优和配置。预先构建的容器市场解决了这个问题,为预先配置的容器提供了预先安装和配置的必要库,特别是对于复杂的环境,如GPUs。
趋势六:模型市场
如果你不想建立或训练自己的模型,有模型市场。模型市场使客户能够购买预先构建的算法,有时还可以购买经过训练的模型。这些对于以下用例是有用的:
(a)用例是足够通用的,因此不需要训练定制模型,也不需要将训练/推理代码装备到定制容器中;
(b)像转移学习这样的机制可以用来扩展和定制基本模型;
(c)用户没有足够的训练数据来建立自己的模型。
在模型市场中,处理数据和训练一个好的模型这样重要的工作可以被卸载,使用户能够专注于操作化的其他方面。也就是说,模型市场的一个关键挑战是筛选内容,以找到适合您需求的资产。
趋势七:应用级人工智能服务
最后,对于跨业务存在的常见用例,应用程序级别的人工智能AI服务可以消除对整个操作机器学习ML生命周期的需求。人们可以订阅执行人工智能任务的终端服务,而不是创建模型、训练和部署它们。应用级人工智能AI服务包括视觉、视频分析、自然语言处理(NLP)、表单处理、自然语言翻译、语音识别、聊天机器人等任务。
好处和注意事项
上述所有趋势都使用户能够简化或加快一个或多个操作机器学习ML生命周期的各个阶段,通过卸载、重用预构建项,或者通过特定阶段的自动化。考虑到迭代机器学习ML流程是如何实现的(例如,训练通常包括数十到数百个实验),自动化这些流程可以产生更可跟踪、可重现和可管理的工作流。外包这些任务甚至更容易,尤其是在强化了模型和算法的情况下(除了您自己的环境之外,已经在许多环境中测试过)可以用于基本任务。
也就是说,在您的环境中使用这些服务之前,有几个因素需要考虑:
1:考虑适用性
并不是所有的趋势都适用于所有的用例。最普遍适用的趋势是AutoML,它的应用范围很广。类似地,模型市场有非常广泛的模型和算法可用。数据集市和合成数据集趋向于特定于用例的类,而预构建的容器可以特定于不同的硬件配置(如GPUs),而这些硬件配置又适用于特定的用途。许多数据标签服务也有特定的用途(比如图像分类和表单阅读),但一些咨询公司确实提供定制的标签服务。最后,端到端人工智能AI服务非常特定于用例。
2:人工智能信任
随着更多的ML被部署,人类普遍对黑箱人工智能系统的恐惧表现为对信任的担忧和对监管力度的加大上。为了从人工智能AI中获益,企业不仅要考虑生产机器学习ML的机制,还要考虑管理任何客户社区的关注点。如果不加以解决,这些担忧可能会在客户流失、企业出糗、品牌价值损失或法律风险中具体化。
信任是一个复杂而广泛的主题,但其核心是需要理解和解释机器学习ML,并确信ML在预期的参数范围内正确运行,不受恶意入侵。特别是,生产ML所做的决策应该是可解释的——即必须提供可信服的解释。这在诸如GDPR的解释权条款等法规中变得越来越有必要。可解释性与公平性密切相关——需要确信人工智能AI不是无意或故意做出有偏见的决策。例如,亚马逊(Amazon)Rekognition等人工智能AI服务也因存在偏见而受到关注。
由于上面提到的几乎所有趋势都涉及到将机器学习ML生命周期的某些方面卸载或“外包”给第三方或自动化系统,因此需要在每个阶段进行额外的了解,以确保最终的生产生命周期能够交付信任的核心原则。这包括了解所部署的算法,用于训练它们的数据集是否没有偏见,等等。这些需求不会改变生命周期本身,但是需要付出额外的努力来确保正确的沿袭跟踪、配置跟踪和诊断报告。
考虑3:可诊断性和运营管理
无论机器学习ML生命周期的组件来自何处,您的企业都将负责管理和维护ML服务在其生命周期中的健康状态(除了人工智能趋势7中完全外包的服务之外)。
如果是这样,数据科学家和工程师必须了解正在部署的模型、用于训练模型的数据集以及这些模型的预期安全操作参数。由于许多服务和市场都是新生的,所以目前还没有标准化。用户有责任理解他们所使用的服务,并确保服务能够与生命周期的其余部分一起得到充分的管理。
(由怡海软件http://www.frensworkz.com/编译自Nisha Talagala,转载请注明出处)