分析至上大数据项目部署的五大愿景

2022-06-28 11:11:11

文章讲的是分析至上大数据项目部署的五大愿景，如果你正在尝试构建大数据应用或分析系统，你可能会清楚的意识到该领域缺少哪些功能。笔者将人们对大数据的愿景归纳为五大需求，分别是SQL(或SQL-like)分析、快速部署、高级分析、实时分析和网络分析选件。

　　好消息是人们正在努力应对这些问题，SQL分析选件就是其中之一。大批数据管理和数据分析专家们对SQL非常熟悉，自然想要利用SQL知识搞清楚Hadoop集群和NoSQL数据库中的数据。Apache Hadoop软件的发行商都在规划、测试，甚至已经发布了SQL(或SQL-like)分析选件，用于分析存在于Hadoop集群里的数据。这些发行商包括Cloudera、EMC、Hortonworks、IBM、MapR和Teradata等。在NoSQL阵营中，10gen公司已经对MongoDB的分析能力进行了改进，大数据厂商Acunu对Cassandra也做了同样的改进。

　　部署和管理Hadoop集群和NoSQL数据库对于大多数IT组织而言是一种全新的体验，但似乎每个软件更新带来的部署和管理新特性都能够让生活变得更轻松。与此同时，EMC、HP、IBM、Oracle和Teradata等厂商计划或已经提供了一些工具，旨在帮助企业进行Hadoop快速部署。其他厂商将重点放在Hadoop框架组件的使用，如WibiData，提供简化HBase的开源库、模型和工具。

　　收集和利用大数据的重点是进行预测分析和其他高级分析，进而得到更明智的商业决策。但是在数据人才短缺的今天，企业正在寻求一种更简便的方式支持复杂的分析过程。很多厂商和企业都在研究机器学习，这是因为它不依赖于专家，而是依赖数据和计算能力收集客户行为数据，并挖掘数据背后的商业模式。

　　大数据的3V原理的其中一个V是velocity(速度)，但是很难用“实时”一词来形容Hadoop，其弊端在于MapReduce的分析方法。MapR和HStreaming等厂商开始为Hadoop增加实时分析功能，其他厂商可能会效仿，尤其是那些事件流处理厂商。

　　排在第五位的大数据愿景是更简便的网络分析。目前，企业友好型图形分析数据库和工具不断涌现，它们采用了很多与Facebook相同的真正大规模的技术。这里提到的工具和技术很少有30年以上的历史，不会像关系型数据库和SQL查询工具那样成熟。但是有明确的迹象表明，大数据管理和分析的痛点正在迅速缓解。

　　愿景一：大数据规模的SQL分析

　　通过很多关于大数据人才短缺的故事和报告，就可以得到这样一个结论：大数据领域最迫切的需求是了解数据类型的数据科学家，他们也知道如何通过编写自定义代码、MapReduce作业和算法在大数据中获取洞察力。但是，为何不让擅长关系型数据库、商业智能(BI)和分析工具的SQL专家处理更多繁重的工作呢?SQL专家的数量远远大于数据科学家，并且大多数SQL专家更急于扩大自己的职业潜力。

　　推动在Hadoop之上提供SQL分析能力，大数据的人才短缺只是其中一个原因。另一个原因是Apache Hive——Hadoop中的数据仓库，它提供SQL-like查询功能的有限子集，但是Hive是将SQL查询转化成MapReduce任务，这导致Hive的性能缓慢。

　　为了应对Hadoop之上SQL查询范围更广、速度更快的需求，很多相关项目和方案陆续发布，如Cloudera Impala、EMC Pivotal HD中的HAWQ查询特性、Hortonworks Stinger、IBM Big SQL、MapR支持的Apache Drill、Teradata SQL-H等。

　　即使是NoSQL阵营也在为更好的SQL-like查询功能而努力。去年10gen公司为其MongoDB NoSQL数据库新增了一个实时数据统计框架，该框架让用户直接在MongoDB中查询数据，而不需要编写或者运行编译的、面向批处理的MapReduce作业。Acunu公司也在做类似的工作，它已开发出一种SQL-like的AQL(Annotator Query Language)语言支持Cassandra查询。

　　SQL查询功能的发展仅仅是个开端。BI、分析工具和大数据平台自身分析系统的脱颖而出，如Datameer、Hadapt、Karmasphere和Platfora等，它们提供了Hadoop之上的分区查询、分析、数据可视化和监控能力。

作者:小野编译

来源：IT168

原文链接：分析至上大数据项目部署的五大愿景

码农公寓

相关文章