作者:彭静 更多内容详见数据中台官网 https://dp.alibaba.com
导语:Dataphin·通用研发-实时&离线技能介绍
随着企业业务的不断扩展,程序员GG们通常会遇到老板提出的各种各样的需求--
• 老板A:“这个任务的计算逻辑比较复杂,但是结果我要快速拿到,排个最高优先级吧。“
• 老板B:“你这个任务非常重要,上线之前先把测试文档给我写一份看看,要保证上线的任务绝对正确!”
• 老板C:“脚本写完了要定期运维啊,还需要做到定时触发,我明天早上9点要准时看到数据!“
还在为各种开发和运维需求苦恼吗?同学,好日子来了!Dataphin·通用研发助力高效业务研发,开发、测试、运维一站式搞定!
——————————————————————————————————————————————
Dataphin支持丰富的脚本形态
复杂任务可能会涉及到多层业务逻辑,还会调取到其他函数功能、资源包等,纯SQL模式下几千行代码,在Dataphin中通通简化!
我们支持用户自定义UDX引入函数功能,支持Jar、Py、Files等多种资源包类型,程序员GG们可以轻松实现函数资源的管理、复用、引用,让复杂任务简单化!我们支持的离线脚本形式包括:SQL、MR、Spark、Shell、Python、Virtua;同时我们还支持实时脚本Flink_SQL以及Flink_Template_SQL
示例1:如何在Dataphin中优雅的调用Python功能包?
1、 新建资源文件
资源管理中新建资源,选择类型为Python,填写名称、描述,上传对应的资源包,选择目录后,单击提交。这里新建资源文件名称定为“test.py”。
2、Python文件语法规范
由于Python UDF必须通过annotate指定函数签名才可使用,且必须实现evaluate方法。新建的Python资源内固定语法如下:
其中前三行为固定语句,其中”MyPlus”可自定义命名。MyPlus类里定义的方法名必须为“evaluate”。@annotate的string代表定义的函数填入的数据类型,bigint代表输出值的数据类型(应用时,输入与输出数据的字段类型不同,需要在文件中增加转换语句,否则报错)。
3、新建函数引用该新建资源
函数管理中新建函数,填写名称,选择对应的资源(这里为test.py),填入类名、类型、命名格式、使用文档、选择目录后,单击提交。这里新建资源文件名称定为“test_function”。
4、验证该函数是否生效且满足预期,您可以新建SQL任务,执行该函数进行查询。示例如下:
示例2:如何在Dataphin中给任务排优先级,保障高优先级的任务的资源充足不受影响?
1、在Shell任务中,支持自定义分配资源,调度的CPU、内存都可以自己写入,力求保障任务稳定高效调度!
2、同时,可以给任务设置调度优先级,保障高优先级的任务调度不受影响。
怎么样!Dataphin的通用研发功能是不是很吸引人呢!这还只是强大功能的一小部分呢,快来亲自体验一下吧,效果超乎你想象!
————————————————————
阿里巴巴数据中台团队,致力于输出阿里云数据智能的最佳实践,助力每个企业建设自己的数据中台,进而共同实现新时代下的智能商业!
阿里巴巴数据中台解决方案,核心产品:
· Dataphin,以阿里巴巴大数据核心方法论OneData为内核驱动,提供一站式数据构建与管理能力;
· Quick BI,集阿里巴巴数据分析经验沉淀,提供一站式数据分析与展现能力;
· Quick Audience,集阿里巴巴消费者洞察及营销经验,提供一站式人群圈选、洞察及营销投放能力,连接阿里巴巴商业,实现用户增长。
欢迎志同道合者一起成长! 更多内容详见数据中台官网 https://dp.alibaba.com