流计算独享模式正式邀测

流计算 - 不止于流

流计算独享模式正式邀测

流计算&独享模式

阿里云流计算(Alibaba Cloud StreamCompute,Powered by Blink)是一个一站式、高性能、稳定、易用的流式大数据处理平台,通过它,您可以快速搭建具有亿级QPS处理能力的流式大数据系统。
近期流计算发布了一种新的售卖模式:独享模式。独享模式中,同时开放了一些针对数据湖场景的新功能:
  • ETL - 数据清洗,数据同步
  • 数据分析

数据湖

Data Lake并不是一个新的概念,早在2011年就被提出,作为数仓的补充。
数据湖是一个中心化的存储,能够存储任意规模的结构化与半结构化数据。数据湖中的数据,不必经过结构化过程,即可进行各种类型的分析,如可视化,大数据处理,实时数据分析和机器学习。

数仓&数据湖

与数仓相比,数据湖中数据有以下几个特点:

流计算独享模式正式邀测
在数据湖场景中,流计算有其独特优势,可完美解决数据湖场景下,结构化和半结构化数据的异构数据源计算和ETL等问题。下面以IoT场景举例说明其优势。

适应场景

典型工业化IoT场景,传感器,采集厂房中各地点的温度/湿度/压力等信息,并上传到云端做环境监控及数据分析,整体业务架构如下:
流计算独享模式正式邀测

场景数据流

IoT场景中,整个系统数据分为几类:
  • IoT Device的运行日志,以文件的形式存储在OSS中
  • IoT Device采集的数据,上传到SLS/MQ/Kafka等各种数据通道类系统
  • MySQL/HBase/Redis等RDBMS/NoSQL中保存的重点监控区域设备白名单

场景业务逻辑

实时链路

流计算独享模式正式邀测

离线链路

DataLake ETL

流计算独享模式正式邀测
将IoT采集到的数据经过清洗,上传到数仓中做持久存储及分析

DalaLake分析

流计算独享模式正式邀测

适用场景

实时BI
实时监控(CEP
离线链路

优势

功能丰富:
  • 实时/数据湖场景下ETL/分析/监控等功能集为一体
  • 20+种connector,无缝对接各种类数据源<RDBMS/NoSQL/Queue/Hive...>
  • 异构数据源计算:可使用标准SQL,对异构数据源<RDBMS/NoSQL/Queue/Hive...>直接计算<JOIN/UNION/SELECT...>
节省成本:
  • 开发成本:实时/离线各种场景中,SQL+UDF即可解决所有问题,一套SQL,实时/离线无缝切换
  • 运维成本:全托管模式,保证高SLA情况下,减轻用户运维负担
  • 存储成本:直接分析OSS/RDBMS/NoSQL/Queue/Hive...中结构化/半结构化数据,与传统数仓中,数据集中后才能分析的模式相比,对低频查询类场景,可大大节省存储成本
  • 计算成本:一个产品,支持多种计算能力,降低用户计算成本

阿里云流计算始终致力于为用户提供更丰富的功能,更强大的计算能力。
使用户以更低的成本更灵活的方式更短的时间,发掘所有数据中的价值,真正做到 DIVE INTO THE DATA,INSIGHT INTO THE FUTURE。

上一篇:EXP数据库时,SET_NO_OUTLINES问题


下一篇:阿里云资源编排之异步通知