作者:张骞 更多内容详见数据中台官网 https://dp.alibaba.com
近期公司采购了阿里云智能数据构建与管理产品Dataphin,推广大数据和IT部门使用,说需要统一数据研发规范性,还要释放数据生产力,提高业务需求响应效率,作为大数据部门一个小分析师,有幸也体验了这个阿里云上神秘的产品,看看是哪里比较厉害,替代了原有的数据研发平台。
看外界宣传文章,说Dataphin主打OneData体系——OneModel、OneID、OneService,是阿里巴巴数据中台实践产品,听起来很有意思,本人就自己体验大概分享下优劣。
以下均基于个人经历背景、基于11月升级前的公共云版本,表达个人观点,不喜勿喷。
下面将以满分5分,对Dataphin打分。
功能完备性 评分:4.2分
点评:满足基本需求,部分功能待提升
概要:
从数据引入到数据最终使用,全套功能齐全:成员管理、计算设置、数据源配置、项目配置、数据引入同步、规范建模研发、代码&函数&资源开发、发布管理、运维管理、资产查找、资产可视化、资产权限。大数据建设,用一个Dataphin即可。
虽然基本需求都可以满足,但是部分业务场景,比如批量的调度节点操作、部分数据源同步,目前还不支持。
主要几块功能体验大概如下:
支持生产开发的研发模式
可以配置生产和开发环境隔离的研发模式,开发环境对象需要发布到生产环境才能生效,这样可以最大程度保证数据生产的稳定性。
支持14种数据库读写同步
官方目前支持了MySQL、PG、MongoDB、ADS、HBase、Vertica等14种数据库,还是很齐全的,上云的业务数据库基本都可以支持。
数据同步配置简洁,支持可视化的表单配置方式,也可以编写SQL清洗规则。
编辑器功能较全
脚本语言,Shell内置了一些常见python库使用,比较方便。
SQL代码,支持编辑器内智能提示,尤其逻辑表雪花模型式的提示和代码使用,比较方便快捷。
运维监控功能较全
日周月和小时分钟调度已经支持,DAG图也清晰容易操作(依赖上周期,也会特别标识,逻辑表调度任务会区分出来)。
基本的重跑、终止等等都可以进行,也可以做生产任务的监控报警。用起来还是挺顺手的。
资产功能体验不错
支持计算引擎里大数据计算存储MaxCompute的元数据采集解析,有个资产全景,可视化查看全局数据资产,这个还挺炫酷的。
资产元数据目前有基本的表结构、读写时间、关联任务、读取次数和存储量等,支持追溯字段粒度血缘关系,但是字段粒度的血缘关系不全(尤其物理表相关的),这个很有用,还是希望优化下。
支持数据探查,但是探查速度较慢。
关于创建项目的两三事
这个需要小吐槽下,所有工作开始之前,最重要的就是创建项目!但是目前步骤比较繁琐,让人有点晕。大致步骤就是:
①去MaxCompute创建Project(现在是基于Dataworks操作,还需要先开通Dataworks,有点烦);
②配置计算源;
③最后创建Dataphin的项目
这是什么神开端,为什么不能像PAI机器学习那样,直接在Dataphin新建项目,同时联动创建个MaxCompute Project呢?!不过还好,只是低频操作,希望后面可以改进下。
其他期待
目前研发流程还是比较复杂的,作为小企业,有时候不需要生产环境、开发环境两套,研发求的便捷,同时多配置一个计算源用于开发环境,也导致不必要IT资源开支。
数据同步灵活性还需要提升,OSS、DB2、SAP HANA等不支持,不支持脚本化配置清洗规则等。此外,如果同步数据量过大,也无法设置计算资源大小,大数据量做数据同步,头有点秃,最后只能写Shell脚本,但是Shell连接外部数据源需要显示填写AK信息,有些不安全、不便捷。
公共云有安全限制,Shell可安装引用的外部资源大小有限,不是很友好。
关于MR和Spark脚本,现在不支持调试,函数也不支持调试,比较太麻烦了。
关于SQL语法编辑器提示偶尔有些卡顿,期望可以持续优化下;另外建议支持编辑器改颜色等,长期黑色背景看累了,可以切换。
运维不支持看运维大盘,不支持批量管理任务,监控报警配置规则有限,不支持基线管理任务。
数据产出质量不能监控,比如空表、主键不唯一等等,现在都需要人工写Python实现。
(关于批量的问题,用到的时候才发现真的是企业级刚需,举个例子,有一次有个小伙伴离职,目前,我需要一个个找到他负责节点再转移负责人……关于基线的问题,有一批任务是Boss要看的,现在只能人肉盯是不是到点能运行完成,或者配置前置的一些定时的Shell任务做监测,任务失败就报警,达到监控目的)
权限不太用。(比如自己负责的表,还要自己审批下,申请其他资源,审批人是随机的…)
不支持配置数据API,开发出来的逻辑表数据,业务使用,还需要再多比较长的链路开发API
还有很多小而美的功能,已经整理给了采购部门做反馈,看是否有计划联系产品,申请迭代优化,精益求精。
听说后面会升级,支持单一生产环境的研发模式、可视化&组件化数据集成、自定义资源、数据服务升级、运维升级等,作为开发者,还是挺期待的,也提高研发流程的灵活性和扩展性,体验也可以提升。
结语:
阿里巴巴数据中台团队,致力于输出阿里云数据智能的最佳实践,助力每个企业建设自己的数据中台,进而共同实现新时代下的智能商业!
阿里巴巴数据中台解决方案,核心产品:
Dataphin,以阿里巴巴大数据核心方法论OneData为内核驱动,提供一站式数据构建与管理能力;
Quick BI,集阿里巴巴数据分析经验沉淀,提供一站式数据分析与展现能力;
Quick Audience,集阿里巴巴消费者洞察及营销经验,提供一站式人群圈选、洞察及营销投放能力,连接阿里巴巴商业,实现用户增长。
欢迎志同道合者一起成长!更多内容详见数据中台官网 https://dp.alibaba.com