有效地实施人工智能需要正确的数据输入

探究一个扎实的数据基础如何使人工智能具有更少的人为因素同时更加智能。


在当前的技术领域,没有什么能像人工智能(AI)那样会引起人们的好奇和兴奋。我们才刚刚开始看到企业内AI应用的潜在好处。


然而,企业中AI的发展受到了阻碍,因为数据科学家常常无法获得建立有效人工智能模型所需的相关数据。这些数据专家经常*仅依赖于一些已知的来源,如现有的数据仓库,而不能利用他们所需的全部实时和真实数据。此外,许多企业很难立即、有效且经济地确定大量数据的业务环境和质量。鉴于这些困难,很容易理解AI加速发展和使用所面临的一些历史障碍。


在一天结束后,当您了解这些数据时,该数据才对AI或任何其他用途有用。具体而言,这意味着要了解其背景和相关性。只有这样,您才能自信而安全地使用该数据来训练AI模型。实现这一目标的唯一方法是以“智能数据”为基础。


多年来,我们已经超越了对数据进行收集和聚合,以推动特定业务应用(数据1.0)的阶段,同时各个组织已经能够明确地定义流程,并随着数据量、种类和速度继续迅猛发展(数据2.0),允许所有人访问数据。但这还远远不够。我们现在已经达到了需要智能数据来真正为整个企业的转型提供动力的阶段(数据3.0)。


例如,想想一家公司在尝试重新定义其与客户群的传统关系过程中所面临的挑战。假设您是一家生产剃须刀片的公司,您的目标是通过订购而并非通过柜台销售。负责这种颠覆性变革工作需要大量的数据源(数据库、数据仓库、应用程序、大数据系统、物联网和社交媒体等)输入;各种数据类型(结构化、半结构化和非结构化)和各种位置(本地、云端、混合型和大数据)。或者,如果您是一家重型设备制造公司,需要确保您可以实时处理车间和机器人的所有数据,以预测未来的停机时间,同时坚持进行定期维护以避免操作性停机时间可能造成数百万美元的收入损失。


数据湖正在成为进行这类变革性工作所需的大量异构数据的一个存储库。但没有智能数据,这些数据湖就没有什么价值。高德纳公司估计,到2018年,令人震惊的是将有90%的数据湖将毫无用处,因为这些数据湖中充满了几乎没有人有能力来使用的原始数据。(“元数据是数据湖中的有价值信息收集器。”)


相比之下,通过智能数据,数据科学家可以像使用谷歌一样对“客户”这样的词进行搜索,并会立即发现相关数据的所有潜在来源。智能数据可以节省大量宝贵的时间,否则数据科学家可能不得不花费时间来收集、整合和改进他们模型所需的数据。智能数据也可提供最可靠的结果。


那么,如何确保您的数据真正智能化呢?通过构建端到端数据管理平台,该平台本身使用机器学习和AI功能,并且由大量的元数据驱动,以提高该平台的整体生产力。元数据是释放数据价值的关键。


如果您希望确保提供全面、相关且准确的数据来实施AI项目,那么有四种不同的元数据类别您需要考虑:


1. 技术元数据--包括数据库表和列信息以及有关数据质量的统计信息。


2. 业务性元数据--定义数据的业务背景以及元数据参与的业务流程。


3. 操作元数据--有关软件系统和流程执行的信息,例如,这些信息将显示数据的新鲜度。


4. 使用元数据--有关用户活动的信息,包括访问的数据集、评级和评论。


使用此元数据集合的AI和机器学习不仅有助于识别和推荐正确的数据。而且这些数据还可以被自动处理(无需人工干预),使其适用于企业AI项目。


数字化转型迫使各个组织以不同的方式审视数据;这是一个让你成为“猎物或捕食者”的问题。如今,人们可实时且随时随地访问数据和使用工具,从而可以实现快速分析。这就促进了人工智能和机器学习发展,并允许向使用数据优先的方法进行过渡。由于数字化、数据爆炸以及人工智能对企业产生的变革影响,人工智能的复兴正在蓬勃发展。


显然,有无数的数据输入可能会影响人工智能应用程序的决策,因此各个组织需要对相关的、有效的以及无用的内容进行分类。在您的组织采用由AI驱动的数据管理方法之前,请思考以下问题:


• 您希望通过AI技术实现什么目标?


• 您是否拥有数据相关的正确策略来帮助推动AI决策?


• 您具备适当的技能吗?

上一篇:ESXI主机的Management网络管理了什么?


下一篇:输入一行字符,分别统计出其中英文字母、空格、数字和其它字符的个数