流计算 - 不止于流
流计算&独享模式
阿里云流计算(Alibaba Cloud StreamCompute,Powered by Blink)是一个一站式、高性能、稳定、易用的流式大数据处理平台,通过它,您可以快速搭建具有亿级QPS处理能力的流式大数据系统。
近期流计算发布了一种新的售卖模式:独享模式。独享模式中,同时开放了一些针对数据湖场景的新功能:
-
ETL - 数据清洗,数据同步
-
数据分析
数据湖
Data Lake并不是一个新的概念,早在2011年就被提出,作为数仓的补充。
数据湖是一个中心化的存储,能够存储任意规模的结构化与半结构化数据。数据湖中的数据,不必经过结构化过程,即可进行各种类型的分析,如可视化,大数据处理,实时数据分析和机器学习。
数仓&数据湖
与数仓相比,数据湖中数据有以下几个特点:
在数据湖场景中,流计算有其独特优势,可完美解决数据湖场景下,结构化和半结构化数据的异构数据源计算和ETL等问题。下面以IoT场景举例说明其优势。
适应场景
典型工业化IoT场景,传感器,采集厂房中各地点的温度/湿度/压力等信息,并上传到云端做环境监控及数据分析,整体业务架构如下:
场景数据流
IoT场景中,整个系统数据分为几类:
-
IoT Device的运行日志,以文件的形式存储在OSS中
-
IoT Device采集的数据,上传到SLS/MQ/Kafka等各种数据通道类系统
-
MySQL/HBase/Redis等RDBMS/NoSQL中保存的重点监控区域设备白名单
场景业务逻辑
实时链路
离线链路
DataLake ETL
将IoT采集到的数据经过清洗,上传到数仓中做持久存储及分析
DalaLake分析
适用场景
实时BI
实时监控(CEP)
离线链路
优势
功能丰富:
-
实时/数据湖场景下ETL/分析/监控等功能集为一体
-
20+种connector,无缝对接各种类数据源<RDBMS/NoSQL/Queue/Hive...>
-
异构数据源计算:可使用标准SQL,对异构数据源<RDBMS/NoSQL/Queue/Hive...>直接计算<JOIN/UNION/SELECT...>
节省成本:
-
开发成本:实时/离线各种场景中,SQL+UDF即可解决所有问题,一套SQL,实时/离线无缝切换
-
运维成本:全托管模式,保证高SLA情况下,减轻用户运维负担
-
存储成本:直接分析OSS/RDBMS/NoSQL/Queue/Hive...中结构化/半结构化数据,与传统数仓中,数据集中后才能分析的模式相比,对低频查询类场景,可大大节省存储成本
-
计算成本:一个产品,支持多种计算能力,降低用户计算成本
阿里云流计算始终致力于为用户提供更丰富的功能,更强大的计算能力。
使用户以更低的成本,更灵活的方式,更短的时间,发掘所有数据中的价值,真正做到 DIVE INTO THE DATA,INSIGHT INTO THE FUTURE。