数据准备常常被认为是企业内部利用数据的主要障碍。找到正确的工具则可以帮助企业实现突破。
要想获得数据分析的好处,首先必须正确地准备数据。据市场研究机构Gartner的最新研究显示,对于许多企业来说,这是一个很大的瓶颈,其70%的时间都花在了数据准备工作上了。
作为《数据准备工具市场指南》的主要作者,Gartner的数据和分析团队高级分析师Ehtisham Zaidi指出,“通过适当的人员及时地查找、访问、清理、转换和共享数据仍然是数据管理和分析中最耗时的障碍之一。”
日立Vantara的首席营销官Jonathan Martin认为,对于希望通过分析来转变业务的公司而言,主要问题不在于掌握人工智能,而在于掌握数据管道。
他指出:“数据准备工作是最具挑战性的工作。如何确定所有这些数据在哪里?是否可以建立一个投资组合?是否可以设计管道,以自动化的管理与治理方式将所有这些数据源连接在一起,从而使我们能够在要求的时间范围将这些数据送到正确的位置、合适的人和适当的机器那里?”
以下我们将深入探讨数据准备为何仍然是数据分析所面临的重大挑战,如何准备数据准备工具以解决这些问题,以及在为企业选择数据准备工具时要寻找哪些内容。
数据准备面临的挑战
数据准备面临的挑战是由多种因素导致的。
首先,支持分析计划所需的数据源和数据类型在数量上和复杂性上呈指数级增长。访问这些分布在分布式数据生态系统、公司内部和外部的数据源需要大量的时间、资源、技能和工具才能完成。
市场研究机构IDC负责数据集成和完整性软件服务的研究主管Stewart Bond说:“当今乃至这个时代的数据环境是非常复杂的。环境中存在着多种不同的数据类型,如交易数据、主数据、社交媒体数据、结构化数据、非结构化数据、日志文件数据、图形数据。不仅数据类型各不相同,并且这些数据所使用的存储技术也都不相同。”
其次,对自助式数据访问与集成的请求数量正在让IT团队不堪重负。Zaidi认为,这表明集中式IT模型和数据集成已经不再有效。
他说:“IT部门需要通过易于用户使用和理解的工具来配置数据访问和集成,这是数据准备需求进一步上升的原因。”
再次,数据需求在不断变化。因为业务分析师、整合者、业务用户、数据工程师和数据科学家对他们的项目都有着不同的数据需求。
Zaidi表示:“这使得准备一次数据就可以满足不同角色/消费者的不断变化的需求成为了不可能的事情。”
下一代数据准备工具
他补充道,随着数据准备工具的成熟,痛点已经发生了很大的变化。过去,痛点在于用来连接哪些数据源以及准备哪些数据。如今,公司正在将重点放在数据治理、沿袭、可追溯性和质量上。此外,他们还需要确保具有必要技能的合适人员能够通过数据准备工具访问适当的数据。
Bond将此归为“数据智能”问题,即有关数据的元数据。他说:“这种智能包括了解数据的位置、数据的含义,以及谁在使用它们,谁可以访问它们,为什么我们有数据,我们需要保存这些数据多长时间,别人如何使用它们。”
值得庆幸的是,数据准备工具市场正在不断发展,并且发展出了能够解决这些问题的新功能。上一代工具仅限于简单数据转换要求。数据转换可以说是业务用户所需的数据准备工作中的最后一英里。下一代工具可以与IT团队共享发现结果和准备就绪的模型,并包含了诸如数据编录之类的数据管理功能,这样用户就能够查看和搜索连接的数据资产。
Zaidi表示:“某些工具现在还嵌入了高级数据质量功能,这些是上一代工具所没有的。这些功能包括性能分析、标记、注释、重复数据删除、模糊逻辑匹配、链接和合并功能。IT和数据管理团队通过这些功能可以更容易提高质量,确保广泛采用和数据模型使用的治理与合规”。
这里机器学习(ML)是关键。基于机器学习的功能不仅可以在准备之前自动进行数据的匹配、联接、配置文件、标记和注释,而且某些工具可以突出显示敏感属性、反常现象和异常值,并与元数据管理和治理工具进行协作以防止敏感数据被泄露。
Zaidi解释道:“这些由机器学习增强的数据准备工具允许不同技能水平的用户采用数据准备,同时确保治理和合规性。”
应关注数据准备工具的哪些方面?
Zaidi指出,企业在评估现代化的数据准备工具时应当将重点放在以下关键功能上:
● 数据提取和分析。关注可视化环境,让用户能够以交互方式获取、搜索、采样和准备数据资产。
● 数据分类和基本元数据管理。工具应允许用户创建和搜索元数据。
● 数据建模和转换。工具应支持数据混搭和混合、数据清洗、过滤,以及用户定义的计算、群组和层级结构。
● 数据安全。工具应包括安全性功能,例如数据屏蔽、平台身份验证以及用户/组/角色级别的安全性筛选。
● 基本的数据质量和治理支持。数据准备工具应与支持数据治理/管理以及数据质量、用户权限和数据沿袭功能的工具集成在一起。
● 数据丰富。工具应支持基本的数据丰富功能,包括实体提取和从集成数据中捕获属性。
● 用户协作和可操作性。这些工具应便于共享查询和数据集,包括发布、共享和推广具有治理功能的模型,例如数据集用户评分或官方水印。
此外,Zaidi还强调要关注以下差异化功能:
● 数据源访问/连接。工具应具有基于API和基于标准的连接性,包括原生的对云应用程序和数据源的访问能力,例如流行的数据库PaaS和云数据仓库、本地数据源、关系型和非结构化数据以及非关系型数据库。
● 机器学习。工具应支持使用机器学习AI来改善甚至自动化数据准备过程。
● 混合和多云部署选项。数据准备工具需要支持在云端、本地或混合集成平台中的部署。
● 针对特定领域或垂直领域的产品或模板。工具应提供针对特定领域或垂直领域的数据和模型的成套模板或产品,以加快数据准备时间。
Zaidi在最后指出,用户必须考虑的第一件事是,企业是使用独立的数据准备工具,还是与厂商合作将数据准备嵌入后者的分析/商业智能、数据科学、数据集成工具中。如果用户的大多数使用情况依赖于一系列分析/商业智能和数据科学工具的数据集成,那么请考虑使用独立工具。如果仅在特定平台或生态系统的背景中需要数据准备,则使用这些工具的嵌入式数据准备功能可能更有意义。
数据准备市场概况
Gartner将数据准备工具供应商分为四类,由于数据准备功能已嵌入所有数据管理和分析工具中,因此每一类都在不断发生着变化。
独立的数据准备工具。这一领域内的供应商将重点放在了与下游流程进行更紧密集成方面,例如API访问以及对多个分析/商业智能、数据科学和数据集成工具的支持。该领域的工具包括Altair、Datameer、Lore IO、Modak Analytics、Paxata和Trifacta等供应商的产品。
数据整合工具。此类供应商一直专注于数据集成和管理。相关二手产品包括来自Cambridge Semantics、Denodo、Infogix、Informatica、SAP、SAS、Talend和TMMData等供应商的解决方案。
现代分析和商业智能平台。这些供应商专注于将数据准备作为端到端分析工作流的一部分。Zaidi称,由于数据准备对于现代分析和商业智能至关重要,因此该领域的所有供应商都嵌入了数据准备功能。此类别中的供应商包括Alteryx、Tableau、Cambridge Semantics、Infogix、微软、MicroStrategy、甲骨文、Qlik、SAP、SAS、TIBCO Software和TMMData。
数据科学和机器学习平台。Gartner指出,这类供应商将数据准备功能作为了端到端数据科学和ML流程的一部分。代表厂商包括Alteryx、Cambridge Semantics、Dataiku、IBM、Infogix、Rapid Insight、SAP和SAS。
除了以上四个大类之外,Gartner还注意到了其他新兴的具有数据准备功能的乐器新类别,其中包括以下平台和代表性供应商:
● 数据管理/数据湖支持平台:Informatica、Talend、Unifi和Zaloni
● 数据工程平台:Infoworks
● 数据质量工具:Experian
● 数据集成专家:Alooma、Nexla、StreamSet和Striim
下列6个数据准备工具充分展示了当前有关可用功能的发展情况。
Alteryx Designer
这个独立的数据准备工具其实也是Alteryx Analytics和Data Science平台的一部分,这意味着它们能够作为广泛应用的分析与商业智能平台中的一个功能被嵌入,亦或是作为被广泛应用的数据科学和机器学习平台中的一个功能被嵌入。它们可以提供拖放工作流,无需SQL代码即可分析、准备和混合数据。另外,该工具采取按年订阅并根据用户数量进行收费。
Cambridge Semantics Anzo
Anzo为Cambridge Semantics的端到端数据发现与集成平台,因此涵盖了上述Gartner的所有4个类别。Anzo在现有数据基础架构上应用了基于语义和图形的数据结构层,以映射企业数据,显示数据集之间的连接,启用可视化探索与发现以及混合多个数据集。Anzo可通过订阅获得,其根据核心数量和用户数量进行收费。
Datameer Enterprise
Datameer Enterprise为数据准备与数据工程平台,属于Gartner划分的独立类别。其重点是使用由向导引导的集成流程将原始且分散的数据源聚集在一起,以创建单一的数据存储。Datameer提供了类似于电子表格的界面,可用于混合和视觉探索功能。收费方式采取的是根据计算能力或数据量向客户收费,云用户则按小时收费或是包年。
Infogix Data3Sixty Analyze
Infogix的Data3Sixty Analyze为基于Web的解决方案,源自于Infogix收购的Lavastorm。与Datameer一样,其涵盖了Gartner的所有4个类别。Data3Sixty通过角色定义用户。设计人员可以创建和编辑数据流,调度器可以创建和修改计划以进行自动处理,但浏览器只能执行数据流。Infogix既将Data3Sixty作为基于订阅的桌面产品,又将其作为基于服务器的产品出售。作为基于服务器的产品出售时,其采取的收费方式为一次收费和订阅两种方式。
Talend Data Preparation
Talend提供了三种数据准备工具:开源桌面版Talend Data Preparation、Talend Data Preparation Cloud(作为Talend Cloud平台的一部分提供的商业版本)和商业版Talend Data Preparation(作为本地部署的Talend Data Fabric产品的一部分)。Talend数据准备是一个独立的工具,而Talend Cloud和Talend Data Fabric则将数据准备作为一个功能整合到了数据集成/数据管理工具中。Talend使用了机器学习算法进行标准化、清洗、模式识别和对账。开源版本是免费的,商业版本则采取的是指定用户许可证的方式进行订阅。
Trifacta Wrangler
Trifacta Wrangle是一个独立的数据准备平台,其有着多种版本,可支持云计算和本地计算环境。该平台提供了嵌入式的机器学习功能,能够推荐与之连接的数据、推断数据结构和架构、推荐联接、定义用户访问权限以及能够实现可视化/数据质量的自动化可视化。Trifacta Wrangler有免费版本,有收费版本。其中,Wrangler Pro根据计算力和用户数量收费,Wrangler Enterprise(分为本地版本和云版本) 按计算/处理规模和用户数量收费,Trifacta的Google Cloud Dataprep则根据计算消耗情况收费。