本篇内容将从3个部分为读者介绍一站式在线数据管理平台DMS,希望通过一站式数据管理理念,让企业敏捷建仓,通过低门槛数据开发快速发挥数据价值,欢迎大家使用和体验。
- 企业数据管理的痛点
- 云原生2.0一站式数据管理DMS
- 解决方案与最佳实践
一、企业数据管理的痛点
1) 数字化转型是企业发展的战略重点
在国家提出供给侧改革的形式下,企业在发展过程中,很多行业不断往头部集中,我们看到最近的经济报告,中国数字经济的GDP的占比逐年上升,企业自身也存在经营效益提升的诉求,因此在政策的导向和企业诉求的双轮驱动下,数字化转型也在快速推进。
2) 数据在业务中的全生命周期
在整个业务发展过程中数据的生命周期是从生产到存储、处理、分析、应用的一连串流程。企业内部多个业务会根据自身特点使用不一样的数据库,导致数据库使用类型非常多,而数据仓库也是独立建设为主,在企业内部系统中就会存在多种不同的数据存储系统和数据平台。今天非常缺乏覆盖数据生命周期的一站式管理平台,同时为了让这些数据统一管理,实时数据趋势成为未来的大趋势,有预测2025年新业务的实时数据占比会达到50%以上。
3) 企业数据价值化过程中遇到的痛点
企业内部有特别多种类的数据构成的数据孤岛、数据加工链路复杂、数据治理和安全管理困难,都成为发挥数据价值的痛点。
二、云原生2.0一站式数据管理DMS
1) 数据管理服务DMS
如何进行数据的统一安全管理,更快发挥数据价值? 在此背景下我们提出一站式数据管理平台,一站式数据管理平台DMS把企业数据资产统一串联起来,通过底层对接所有异构数据源统一管理起来,再从数据的生产端进行切入,从数据库的设计、开发、应用、发布,到数仓构建和数据服务,建设成覆盖数据生命周期的统一平台。通过这个方式,企业数据管理生命周期就能全部串联起来。这是非常新的理念,让企业在线数据处理和分析的整个周期都串联起来。
DMS产品在阿里集团内部沉淀了12年以上,我们从数据管理、数据安全、数据库的DevOps,数据传输这些底层基础建设逐步把数据生命周期全覆盖。
2) 一站式数据管理DMS 技术架构
技术架构主要有三层:
- 底层基础服务是构建全域统一的数据资产、开发运维体系和安全管理体系;
- 中间是控制平面和数据平面的支撑引擎,控制平面是面向数据安全和数据库DevOps场景的支撑引擎,比如工单执行引擎、安全规则引擎和稳定变更引擎;数据平面包括数据全量传输、增量以及ETL处理和转换的算子,包括联邦查询的多源异构统一查询处理,这些都是数据平面的引擎。
- 最上面是面向各场景的业务功能,支撑数据安全、数据库DevOps、数据集成与开发,通过对这些场景的支持形成一站式全链路数据生命周期管理。
接下来展开介绍一下DMS的三个部分核心特性。
3) DMS核心技术特性
数据管理DMS-数据资产与安全
数据资产是把全域数据统一管理起来,让企业快速知道有哪些数据,数据在哪里,数据治理情况,方便发挥数据价值。这里介绍两个技术点:
一个技术是知识图谱构建,将多源异构的物理元数据和相关业务逻辑对应起来。通过对元数据定义和语义学习到字段关联关系,结合在我们平台使用过程中工单系统人和数据的关系,形成构建数据图谱的输入,把数据汇集起来后构建成全域数据资产的关系图谱,让数据工程师进行低门槛数据的建仓,他可以通过指定几个核心业务字段,系统结合关联关系自动构建数仓宽表,帮助低门槛建仓和全域所有数据质量的实施。
在数据安全方面,我们支持包括GDPR在内的五个以上数据安全法案,让企业在选择数据安全法案后,可以分级分类进行敏感数据的识别。在数据生命周期的数据生产、数据集成、数据开发、价值挖掘过程,数据脱敏都会贯穿其中,支持15种以上的数据脱敏。
DevSecOps在云上有10万以上的开发者和活跃的用户。平台提供非常多数据库开发者工具集,基于这些开发者工具,将数据变更,库表设计DDL与安全规则引擎结合,使企业通过DevSecOps在保障安全下最大化释放业务开发人员的工作效率,让他们自主进行数据库的库表设计和变更发布。
安全规则引擎内置200多个安全规则模板,不同数据库引擎有不同的最佳实践,企业可以根据模板定义合适的安全规则,以操作人、数据库对象、具体操行为三者作为因子定义规范的规则。比如数据一次订正的数量,一次查询的数量,人员的字段访问权限,都是基于安全引擎设计的。
变更安全是对DevSecOps研发自主的变更动作进行保障和兜底,比如在做大批量数据操作的时候会切成多次小批量操作,有锁变更自动变成无锁变更。通过研发设计安全规则检测和拦截的规范让变更安全可靠,把这些能力释放给企业开发人员,能提高自主研发迭代的效率。
企业数字化转型面临的问题是如何进行统一数据集成和发挥数据价值,我们希望通过流批一体数据集成和低代码开发能力给到开发者便捷的体验。
数据底层的核心链路是基于DTS产品实时异构的数据传输能力,在数据迁移、同步、订阅方面有比较成熟的沉淀。
在传输链路内部实现AnyToAny的技术架构后,新数据源作为一个插件,快速跟原有的多种异构数据源进行实时打通。同时对非结构化数据可通过语义识别和类型映射,进行结构化入库后的价值挖掘。
在内部构建数据流批一体的集成链路后,通过统一的内存转换模块,支持用户自定义算子和脱敏算法,流和批的数据只要经过一次定义就能实现一致转换,所有的全量数据初始化都复用转化逻辑。在DMS进行建仓,链路自动把表结构自动在目标进行初始化,全量数据和增量数据迁过去,中间的转化只要做一次定义。在源端进行数据库切换或DDL变更都可以无缝将源端变更同步到目标数仓,实现库仓一体的技术架构。内置100多个数据转化的算子使用户数据的链路极大收敛,使整个链路更加稳定,极大简化了数据链路的运维成本。
在实现数据集成后,通过拖拉拽的方式,使数据源、跨库查询引擎和数据传输链路的流和批都能作为操作节点,让用户用自主定义数据加工流程,通过运维工具、安全管理和统一治理的能力能让企业进行批量生产任务创建。
三、解决方案与最佳实践
1) 某金融基于DMS+RDS构建数据安全生产方案
该金融公司基于DMS+RDS构建的数据安全生产方案。企业内部有600多个数据库实例,面向非常多的前线业务开发者,业务开发要做变更发布和数据库操作的时候,沟通问题、数据安全问题和效率问题通过DMS管理数据源、提供统一数据安全变更使得前端业务开发效率提升,同时数据安全和变更稳定性得到保障。
2) 某运营商基于DMS+PolarDB-X构建异地多活
上图是运营商通过DMS和Polar DB-X构建异地多活解决方案。传统数据库的灾备机房基础设施投入无法承担业务流量,或者只能承担有限的业务流量。这些基础设施投入很难发挥价值,导致运营商物理机房电力限制,无法支撑业务更大发展。通过DMS+PolarDB-X帮助升级为异地多活架构,实现了容灾快速切换,同时承担了业务流量,满足了业务拓展诉求。
3)全球多活数据库
由于很多企业对异地多活架构有很强的诉求,本次我们发布RDS全球多活数据库,通过RDS控制台可一键购买全球多活数据库,自动创建多个数据中心的RDS并完成架构搭建,通过多活接口让业务切流变得更简单,降低企业异地多活的实施成本和管理复杂度。
4)某银行基于DMS+ADB构建T+1的数据仓库
上图是某银行案例,基于DMS+ADB构建T+1的数据仓库。该企业周期性数据批量集成导致生产库出现大的业务负载,影响业务稳定性,定时报表无法支撑业务活动的实时决策。基于这样的痛点,我们构建T+1的数据仓库,拉链表对源库生产影响很小,第一次进行全量后都是增量的实时数据,通过定时合并产出周期性报表,在活动时基于ADB实时产生生产报表,而且通过在本地进行构建还能回溯任意时间点的历史数据快照,帮助企业同时解决了定时报表和实时分析的诉求。