打造数据计算和分享的第一平台。
—— 2009年阿里云成立时的愿景
上次我们聊了聊有关网络协同的一些「启发」,那就是祭品、巫师、麻瓜结构,而在阿里巴巴的大数据生态下的「巫师」则要学习和掌握以下这些「魔法」:
- MaxCompute大数据平台、MaxCompute是一个SaaS模式的企业级云数据仓库,是一个阿里云在2009年成立的时候就开始研发的大数据计算平台,MaxCompute对标的开源产品是Hadoop,主要的应用场景是海量数据的存储和离线批量计算,相对于Hadoop主要的优势在于其原生就具备多租户安全隔离机制和基于标签的MAC强制访问控制安全模型,另外在单位数据的计算成本上也更具优势。
- DataWorks大数据开发平台、是一个一站式的大数据研发与数据治理平台,提供大数据管理、开发、运维、数据集成功能,通过数据集成可以集成整合各种数据源上的数据,数据治理提供数据资产管理的相关功能,包括数据发现、数据探查、数据资产地图等功能,并对于数据质量控制有一套完善的保障体系,最终支持将数据以安全可控的方式提供对外服务。最初的DataWorks主要配合MaxCompute使用,目前已经支持和Flink流式计算引擎和Hologres在线交互分析引擎配合使用,为三大计算引擎提供强大的开发、运维、报警监控平台。
- Flink流式大数据计算引擎、对比MaxCompute离线计算引擎,Flink主要的应用场景是诸如双十一实时交易统计、实时交易风控、在线机器学习等应用场景。Flink虽然脱胎于开源产品,但阿里巴巴在合并Flink的开发团队后对在云上提供的版本进行了深度定制优化,目前已经能够完美的融入阿里巴巴的大数据生态系统中。
- Hologres大数据交互式分析引擎、是一款大数据实时交互分析产品,可以在海量数据上提供实时的查询响应、Hologres既能提供HBase的点查询能力、也能提供Druid一样的即席查询(Ad-hoc)能力、同时也能支持Impala一样的复杂OLAP查询。Hologres在底层存储上和MaxCompute无缝打通,可以直接访问存储在MaxCompute上的数据,,从而避免数据迁移带来的额外成本,在交互接口上Hologres直接使用PostgresSQL的成熟生态,进一步降低集成和学习的成本。
- 机器学习平台PAI、为深度学习和传统机器学习用户提供了一站式的数据处理、模型训练、模型部署和预测的一站式服务。在模型训练方面根据使用者对AI相关技术的掌握情况提供四个等级的服务,分别是零门槛的PAI-Autolearning自动化机器学习平台、提供200多种算法和组件的可视化建模平台PAI-Studio、面向Tensorflow用户提供的jupyter交互式建模平台PAI-DSW、面向需要进行深度GPU性能优化的PAI-Blade。在模型部署和预测方面可以将PAI-DSW、PAI-Studio平台训练好的模型无缝对接到PAI EAS在线推理服务,PAI EAS支持快速的弹性扩缩容和蓝绿发布等运维管理特性。
- Datahub实时数据分发服务、是一个流式数据发布和订阅服务,区别于DataWorks内置的用于离线数据同步的数据集成,Datahub通常用来和Flink一起集成并用于流式数据的发布和订阅,Datahub支持的采集的数据源包括日志采集(LogStash/Fluntd)、数据库binlog采集(DTS/Oracle GoldenGate)、甚至包括视频采集(GB28181协议),通过订阅/分发机制实现数据的一次写入多次使用。
- ElasticSearch检索分析引擎、ES是业内最主流的信息检索分析引擎,通常配合ES的生态服务包括Beats(数据采集器,可以向Logstash或ES发送数据)、Logstash(日志收集、过滤、传输工具)、Kibana(数据可视化监控大盘)。ES的主要应用场景包括产品和服务的搜索、数据的聚合分析、日志数据的实时监控等场景。阿里云上的ES相对于开源版本增加了额外的付费的X-pack插件和达摩院提供的中文分词器。
- AIRec智能推荐服务、AIRec是基于阿里巴巴在电商、内容、新闻、视频直播和社交等领域的积累而为全球企业及开发者提供的云推荐服务,相对于通过PAI机器学习平台构建的半托管推荐服务,智能推荐服务AIRec一种全托管的推荐服务,提供由友盟合作打造的定制版客户端SDK,可对Android/IOS终端进行行为数据采集,将复杂的推荐算法模型、调度管理策略封装隐藏,只需完成数据对接即可使用。
- QuickBI数据可视化分析平台、QuickBI是一个轻量级的自助BI工具服务平台,通过业务人员的拖拽式操作即可实现丰富的数据可视化效果,可以让业务人员取数找数不再依赖技术人员,通过与现有业务系统集成整合,满足各个不同岗位人员各自的数据需求,最终的目标是人人都是数据分析师。
- DataV数据可视化平台、是一款数据可视化应用搭建平台,和QuickBI主要面向业务岗位不同,DataV面向的主要用户还是以IT技术人员为主。DataV可以为数据分析、业务分析、运营、设计师、开发者提供完整的可视化搭建工具链,从而提升数据可视化搭建效率,每年的双十晚会都会呈现由DataV搭建的数据大屏,让数据的更强烈的被大众所感知。
观察这些「魔法」不难发现:这其中既有大量自研产品,也包含诸如ES、Flink这样的优秀开源产品和服务,而无论是自研还是开源都已经在阿里巴巴生态下经过了长时间的优化、打磨、适配从而已经完美的契合在了一起,通过这些「魔法」,数据的价值将被以更快的速度、更低的延迟、更低的成本被开发出来。