产品简介
Dataphin是阿里巴巴集团数据治理方法论基于内部实践的产品化输出,致力于帮助各企业用中台方法论打造企业级好数据。Dataphin一站式提供数据采、建、管、用全生命周期管理的能力,以助力企业显著提升数据治理水平,构建质量可靠、消费便捷、生产安全经济的企业级数据中台。此外,Dataphin还提供了多种计算引擎支持及可拓展的开放能力,以适应各行各业的平台技术架构和个性化诉求。
新版本概览
2021年10月,Dataphin发布V2.9.5.3版本,重点在数据集成、语法拓展、批量运维、告警渠道等模块进行了优化升级:
- 数据集成:新增文件合并、列头导出、空值适配等能力,以降低清洗成本提升配置灵活性
- 语法拓展:支持建表语句TBLPROPERTIES参数、EXPLAIN等语法,适配多样性数据处理需求
- 发布中心:针对引用字段在开发生产环境不一致的场景进行识别阻断,增强发布管控能力,降低数据质量问题产生的风险
- 运维中心:拓展支持海量节点一键补数据功能,并简化实例批量操作步骤,提升运维效率和操作体验
- 平台能力:新增支持配置基于SMTP和Exchange协议邮箱进行告警邮件发送,以打通企业邮箱系统,增强告警适配性
此外,该版本进一步优化了页面查询和加载性能,旨在为用户提供更完善的产品能力和更流程的使用体验,以加速企业数据中台建设进程。
新版本重点特性详解
特性1:数据集成HDFS和FTP输出组件支持设置文件合并和列头导出;MaxCompute输出组件优化针对空值字段的适配
针对FTP和HDFS输出组件,可根据传输速率和存储要求配置是否需要合并输出,以提升数据同步效率;可自行选择是否需要导出列头,可减少后链路的加工处理。
MaxCompute输出组件针对来源表重类型为tinnyint、smallint、int等类型的空值字段增加了兼容处理,可正常同步而不报错,降低前置数据清洗成本。
特性2:新增支持建表TBLPROPERTIES参数、EXPLAIN、DELETE WHERE语法,适配多样性数据处理需求
建表语句新增支持TBLPROPERTIES参数语法;新增适配EXPLAIN语法以支持分析查询语句或表结构来分析性能瓶颈;新增适配DELETE WHERE语法以支持选择性删除,可适配更灵活多样的数据处理需求。
特性3:针对代码任务引用的字段在开发生产环境不一致的场景进行发布阻断,降低数据质量问题产生的风险
某些场景下,任务中引用的来源表字段可能在开发环境和生产环境不一致,尤其是select *的场景,导致运行的预期效果和测试不一致。本次升级,针对这种情况进行了sql解析,若引用字段在开发环境和生产环境不一致,则阻断发布并给用户提示,以增强发布管控能力,避免可能由此产生的数据不一致或运行报错等质量问题,降低后续排查成本。
特性4:运维中心拓展支持海量补数据功能,提升运维效率
任务上线后,如果修改了计算逻辑,或上游来源数据进行了更新,经常需要通过补数据操作对历史分区数据进行刷新。尤其在《个人信息保护法》出台后,全局任务补数据的频率大大增加,对于运维人员来说操作成本较高。
这个版本,Dataphin新增海量补数据模式,可以通过选中任务所在项目、或直接输入节点输出名称的方式快捷指定目标任务,列表操作也新增了运维负责人和所属项目的筛选,帮助用户快速定位任务,大大提升了操作效率。此外,本期在补数据业务日期的配置上也进行了升级,小时分钟调度任务可指定具体时间段,天任务可自定义输入非连续日期。最后,针对配置为暂停调度的任务,生成的补数据实例可根据实际情况指定是否需要正常运行,防止阻塞下游节点运行,以适配更灵活多样的补数据场景。
特性5:简化补数据实例、逻辑表周期实例的批量操作前置步骤,降低操作成本
由于补数据实例列表和逻辑表周期实例列表的节点均是多层结构,且存在混合运行状态,希望筛选出某种状态的节点进行批量操作的前置成本较高。本期,这两个列表优化了批量操作判断逻辑,用户无需进行前置判断和筛选,可以直接选中当前页面所有实例并执行预期操作,后台将根据单个节点运行实例进行自动过滤,功能易用性进一步提升。对于补数据实例,新增了一键重跑失败实例和一键终止运行中实例的快捷操作,大大提升了批量运维的效率,降低手动操作成本。
特性6:Dag图和操作弹框下游列表性能优化
本期重点针对运维Dag图和操作弹框下游列表的查询和加载性能进行了较大的优化。以800个节点场景为例,Dag加载时间由原来的15-20s缩短至5s内;补数据和重跑操作的下游节点列表,1000个节点的展示时间由原来的10s缩短至3秒左右,整体性能提升约2.5倍。
特性7:新增支持配置基于SMTP和Exchange协议邮箱进行告警邮件发送
历史版本中,Dataphin的告警邮件均通过Dataphin内置邮箱发送。对于部分企业客户来说,希望能通过公司自建的邮件系统收发告警邮件,以进行后续的统计分析。本期,Dataphin新增支持配置基于SMTP和Exchange协议邮箱进行告警邮件发送,并支持发送测试邮件,以打通企业邮箱系统,增强告警适配性。
总结与展望
本次发布的V2.9.5.3版本中,Dataphin围绕数据集成、语法拓展、批量运维、告警渠道等模块进行了功能迭代升级;在下一个版本中,我们将支持离线代码模板、clickhouse数据源、参数化视图等新功能,并优化即席查询、重跑下游列表等模块,敬请期待!
阿里云数据中台是阿里巴巴数据中台唯一商业化输出,以数据中台方法论为内核,构建起”快、准、全、统、通“的智能大数据体系。
阿里云数据中台产品矩阵是以Dataphin为基座,以Quick系列为业务场景化切入:
- - Dataphin,智能数据建设与治理
- - Quick BI,数据可视化分析
- - Quick Audience,一站式消费者运营和管理
- - Quick Tracking,全域行为洞察
- - Quick Stock, 智能货品运营
- - Quick Decision,风控决策数字引擎
目前正对外输出系列解决方案,包括通用数据中台解决方案、零售数据中台解决方案、金融数据中台解决方案、互联网数据中台解决方案等。