2017云栖大会深圳峰会,阿里云高级产品专家陈鹏宇带来题为“数加:迈向数据智能之路”的演讲。本文引入一个数据工程师到首席数据官的七次升职过程,阐述了阿里大数据的进化史,其中包括Quick BI、DataV、PAI、公众趋势分析、MaxCompute & Data IDE以及推荐引擎等都进行了详细的解析,一起来了解下吧。
以下是精彩内容整理:
大数据实践之路并不像新闻描绘的高大上,很多企业仍然还没有解决看数据的问题,下面我会结合自身的体会,以一个虚拟人物的形象来描述如何一步步把企业大数据应用水平从早期的BI看数据一直到数据化运营到后来建立数据中台运营数据、激发数据创新的过程,在此过程中,数加也完成了它的使命,即帮助开发者在大数据方面实现升职加薪。
那么,小D是如何实现七次升职,从数据工程师到首席数据官CDO的呢?
第一份工作
老板需要一份经营报告,看过去一年各地区的新用户发展情况。小D熬了一个通宵将数据用脚本拖到临时数据库中,写了几十条SQL并生成一份报表交给了老板,并获得了表扬。
而老板/业务人员的需求越来越难满足,他们会不停地要经营报告、会员分析等,小D自己是处理不完这些事情的,所以就会请数据开发工程师帮忙提数据,工程师需要考虑搭建数据仓库,考虑从源数据找各种数据,理解数据含义、梳理数据结构并重新加工清洗,过程中经历几次的传递,出报表时可能以及不符合老板需求,同时周期特别长,所以小D就会过着跟需求作斗争的苦日子,所有人都会跟他要报表。
所以小D突然醒悟:我缺一个能解放双手的工具!
第一次升职
数加·Quick BI
数加Quick BI就是专门为解决人肉提数人的痛苦而诞生的,它可以做到在30分钟内,老板也能上手的BI。
报表加工过程零SQL,直接连接到数据源库,拖拽式,类Excel多维分析 ,告别临时拖数据,该过程简单好用,不用写SQL就可以将看数据门槛降的很低。
Quick BI是到阿里云上的,可以很方便地连接云上的各种数据源,包括redis、ADS、HybridDB等所有的云上数据库,点点鼠标就出数据了。
Quick BI之所以能做到直连数据源做分析,是因为背后有很强大的OLAP引擎,提供秒级别的查询响应,针对不同的查询规模,提供合适的加速服务,从而获得最快的响应速度。
Quick BI快捷好用,预置了很多模板,采用可视化模板,快速设计仪表板,为各部门搭建数据门户,基本一天可以搞定。
Quick BI报表可以嵌入系统自身运营系统中,可以把报表嵌入公司的Portal,方便大家集中看数据。
在Quick BI的帮助下,可以实现将需求响应速度从“1周”缩短到“1小时”。
但目前为止,小D仍然没有得到解放,他依然在做报表,响应速度越快,需求方给的需求就越多,小D就会越累。有一天小D生病了,数据处理不过来时,可能就需要将Quick BI账号给需求方,让他们自己做。
需求方按照小D教的方法,真的自己把报表做出来了。
各部门纷纷效仿,连系统工程师都开始使用 Quick BI!Quick BI for 万网,CDN,DMS,阿里云企业控制台,…
从此以后,公司里的每一个业务人员,包括大老板,都使用 Quick BI 做数据分析!
数加·Quick BI 把小D从提数工作中解放出来,伴随着数据分析效率的提升,小D迎来了第一次升职。人闲了之后,开始长出艺术细胞,小D开始琢磨着如何更好地展现数据?
第二次升职
数加·DataV
dataV做出了阿里双十一震撼的实时业务大屏,小D想尝试如何用更直观、更震撼的方式呈现数据。
春节的红包大战给了他机会,小D的第一个可视化大屏作品诞生了。领导特别满意,当场给我发了1万元红包,但小D想要更美的方式!于是…他做了各种尝试:
实时指挥监控
业务运营大图
直到有一次国家领带来访,CEO给国家领导作了一次精彩的汇报,小D深受鼓舞原来自己身上有辣么多艺术细胞。
于是,他买了DataV开发者版,开始想着如何赚外快。比如:
企业概况
工业物联网
税收分析
智慧城市
DataV 帮小D赚了很多外快,心有戚戚,总想着为社会做点贡献:
2017/01/23-22时空气质量
全球象牙走私犯罪活动数据
数加·DataV 让我看见数据之美,在提升公司格调的同时,小D也迎来了自己的第二次升职。
第三次升职
美好时光总是波澜不惊…直到某个周末,突然间,负面新闻铺天盖地而来。
一次负面新闻被炒作扩散了,该从哪着手分析呢?这时就需要一个手段,能够快速的帮他对负面事件的影响和传播情况进行预判和控制,这就需要舆情监控工具的帮助。
数加·公众趋势分析
公众趋势分析可以时刻关注您的口碑,它可以直观的看到事件造成的影响面和传播效果。
我们可以看到是谁在传播舆论,共计转发次数和每层转发次数,是否被衰减,过程中有没有水军参与等,都可以一目了然。
还会对影响面进一步分析,扩散范围有多大等等
也会对公众对此事件感受如何作分析,在不同阶段,公众整体对事情的认知,会有博弈、会有专家跳出来,也有公司公关部门参与,我们可以用从情感值的变化来看公司公关采取手段是否有效。
通过公众趋势分析,我们总结出来以上几种舆情扩散模式。
公众趋势分析主要从四方面为大家提供方便:
- 监测:2分钟更新一次大中型网站数据;涵盖全球网络媒体,千万源站,20亿网页(包含*主流新闻网站数据来源);高效、稳定的爬虫技术及平台支撑;
- 预警:负面舆情自动预警;
- 分析:舆情精准匹配;精准算法将信息自动聚类;情感正负面分析;热词云图,专业图表报告;
- 跟踪:舆情事件跟踪。
利用公众趋势分析可以做很多很多事情,比如:
- 传媒行业:发现事件热点,梳理传媒脉络,跟踪栏目受众的喜好倾向,鉴别新闻炒作
- 企业品牌:分析消费者对品牌的认知和注意力迁移,关注竞品分析,塑造品牌口碑
- 旅游行业:倾听游客反馈,预判旅游出行趋势和热门程度,提升旅游服务的体验
数加·公众趋势分析 赋予我千里眼、顺风耳,在挽回公司口碑的同时,小D实现了第三次升职。
第四次升职
此次负面新闻使得用户粘性下降了,老板要我出一个提升业绩的方案。
小D给老板建议做内容社交,先从新闻推荐做起。本来这就是尝试性的事情,对于创业公司投入太多精力是不划算的,所以小D用了数加推荐引擎。
数加·推荐引擎
推荐引擎21天搭建个性化推荐系统,在新闻场景中推荐引擎提供了哪些能力?具体如下:
1. 新用户冷启动:通过阿里云提供的海量用户人群特征提供最精准的推荐服务,为企业解决新客户的冷启动推荐;
2. 新闻智能分类:通过自然语言处理(NLP)、深度学习为新闻实现自动打标,并分类;
3. 用户兴趣画像:基于新闻内容、用户属性、用户行为三类数据,进行特征提取,输出用户兴趣画像、品类画像、新闻画像;
4. 新闻实时推荐:新新闻毫秒级推荐(实时修正),老用户毫秒级推荐(在线推荐),新用户2~3分钟推荐(近线推荐)。
推荐引擎真的很简单,按照开题服务——上传数据——配置推荐场景算法——API对接——查看效果报表的流程实现。
除了新闻推荐,还做了短视频、音乐、内容社交和群组等。我也推荐给朋友们用:
好看锁屏
大麦网
以大麦网安卓客户端为例,图中为已有的个性化推荐。
短视频推荐
数加·推荐引擎让我第一次感受算法的魅力,成功启动内容社交的同时,小D获得了第四次升职。
第五次升职
后来小D惊喜地发现:数加·推荐引擎 居然支持自定义算法,但小D没有学习过算法,机器学习PAI恰巧可以解决问题。
数加·PAI
数据分析师 + 数加·PAI = 数据科学家
不需要很深入的了解,只需要算法的关键参数配置,理解应用场景,经过1天的学习,很快就可以上手了。PAI提供了数据预处理、特征工程、机器学习模型训练和模型评估等方面整个过程的包装。
了解后,小D开始用算法解决社交场景中的难题:
- 利用关系挖掘算法K-CORE找出社交关系链中的粉丝领袖
- 通过掌握粉丝领袖的属性特点可以快速实现整个粉丝群体的人物画像
- 通过标签传播算法,可以分析社交链路中的情感传播模式,对微博大V的正面情绪或者是负面情绪在整个粉丝链中的传播效果进行预判
- 通过最大联通子图和最短路径算法,可以将社交链路中的人脉关系按照一度人脉、二度人脉准确分类
阿里云机器学习(PAI)有最全的分布式算法库,支持流行的深度学习框架,阿里自己也会有深度学习的算法。同时,PAI天池算法大赛已经有数万名选手参加,这里才是最强大脑。
数加·机器学习PAI 让分析师也会用算法,提升数据化运营能力的同时,小D实现了第五次升职。
第六次升职
公司的社交网络越做越大,老板开始想要收入了,从流量变现开始。
我们自己研发的营销系统,很快遇到了瓶颈。比如:
- 性能不达标:高并发访问,整个广告过程要求小于100毫秒
- 营销效果不佳:数据积累不够,算法效果一般
- 实时优化与海量数据的矛盾:数据量日益庞大,但广告优化的实时性要求不减
- 工程量及运维挑战:开发和运维的人力投入成本较大
我们不想过多的经历解决技术问题,只关心流量问题,因此尝试了数加营销引擎。
营销引擎
营销引擎将原来流量系统迁移到新版流量系统中,对接的第三方投放系统也可以自己来做,3天可以搭建高水准的DSP系统。
营销引擎提供了所有基础的能力和功能,整个过程只需要一个人,2天半时间就可以将全新的营销系统搭建起来。
营销引擎提供很多技术能力,效果得到显著提升。
最终给客户形成完整的、带数据的、自有的广告营销平台。
营销引擎(Open Ad)为企业搭建自有DSP、ADN、DMP系统,提供稳定可靠有效的竞价、投放、受众定向、CTR预估、效果优化等核心能力。以API及源码的形式提供。
数加·营销引擎让我们看到流量变现原来可以这样玩,在帮助公司盈利时,小D又一次实现了升职。
第七次升职
内部数据已经形成了脆弱的生态系统,深层次问题浮出水面,比如规模达到PB级,算不动了;存储和计算成本越来越高;平台稳定性差;同一份数据被重复存储和计算;几千份代码不好管理等。
数加·MaxCompute & Data IDE可以帮助数据官搭建底盘。
数加·MaxCompute & Data IDE
简单易用的数仓开发套件 Data IDE,从找表开始,到申请权限,设计工作流,支持跨团队合作,再到发布监控,包括数据质量的监控等。
整个数据加工处理的过程就是传统的数仓,数仓的建设是一个迭代的过程,快速构建基于云的数据仓库,可以支持机器学习PAI算法的挖掘、BI的OLAP等。
形成【数据中台】体系,支撑数据应用快速创新,需做到以下三点:
1. 统一平台,数据大集中:统一的存储,统一的计算引擎,统一的数据开发平台
2. 资源共享,弹性分配:基于ODPS多集群技术,由数以万计的服务器提供超级计算能力,按需弹性分配给各数据开发团队
3. 数据隔离,分权管理:基于ODPS多租户机制,各部门可独立管理自身的数据,独立做数据授权
实现统一平台后,就可以做数据安全、数据质量、数据成本的管理,我们的算法模型、数据等都是可以共享的。中台上面支撑的业务是一个存——通——用的过程。
所有行为的背后都是有数加引擎支撑,maxcompute是数据仓库的基石,analyticDB可以让数据探查变得*等。
依附数加·计算引擎大数据的百年根基,搭建数据中台,自此,小D完成了到CDO的转变。