轻松筹数据平台部高级总监 孟奇奎
本文讲述了轻松筹是如何利用阿里云大数据平台搭建低成本的数据中台,实现数据化运营。数据中台支撑了轻松筹丰富的运营活动,通过智能化的手段,为用户和企业创造了价值。
轻松筹是一家聚焦于事前保障、事后救助的健康管理平台,数据驱动是轻松筹最重要的文化。轻松筹的大数据平台是基于经过时间验证的飞天大数据组件构建的。在轻松筹大数据平台体系内,我们用到了MaxCompute、DataWorks、Hologres、Flink以及GDB、DataHub、PAI等各种成熟的阿里云技术组件。
MaxCompute主要解决我们大数据海量数据存储和计算的需求问题,DataWorks是解决数据的调度问题,Hologres是我们实时数据仓库的核心组件,这个组件解决实时数据采集以及交互式查询问题。Flink是处理流数据的引擎,GDB是处理轻松筹复杂的图数据的计算平台,DataHub是我们的数据的交互平台,PAI是用于我们深度学习和机器学习模型训练的平台。
我们结合轻松筹的特点,构建了轻松筹的数据中台,包括我们的离线数据仓库,实时数据仓库,以及online和offline的AI训练平台。那么在这些基础平台之上,我们构建了一些数据应用的工具和系统,包括实时的或者是T+1的BI报表,数据*的探索和分析,用户行为采集与分析,用户画像平台,以及我们一些自然语言处理和推荐服务的一些在线的和离线的深度学习和机器学习模型,以及我们成百上千的标签化的数据服务,这些数据服务既包括T+1的,也包括实时的。在这些平台之上的轻松筹的数据应用,在大量的业务场景中支持了我们的精细化运营。
包括我们每天基于大数据会生成我们的电销线索,我们利用算法模型以及人工策略去优化我们的微信推送,短信推送,提升ROI;也利用我们的推荐算法去优化广告流量,提升点击转化率,以及成长转化率。同时我们利用一些NLP以及推荐的算法去进行风险控制,防范来自外部客户的欺诈和内部员工的欺诈。另外大数据平台也会应用于各种各样的运营决策场景,以及管理决策场景。同时在我们的平台上面也有大量的商业分析人员进行灵活的数据分析,去发现商业价值和机会。就到今天为止,我们轻松筹大数据平台已经深入的和各个业务场景进行了结合,我们轻松筹的数据体系在轻松筹发挥越来越大的价值。
为什么选择飞天大数据平台?从轻松筹的实践角度去思考,飞天大数据平台是一种低成本的、高效率的全域数据管理基础设施。以飞天平台最核心的几个产品为例,比如MaxCompute。MaxCompute是一个最具成本效益的全域的全历史周期的数据存储和运算平台,它支持从TB级到PB级数据持续增长,不存在架构上的瓶颈,支持基于海量数据复杂运算逻辑的数据分析,而且成熟度比较高,具有良好的配套设施和兼容性。
另外Hologres支持低延时的交互式数据查询,是实时数仓的最佳技术组件,可以与MaxCompute无缝结合,支持nearline和offline的数据组合应用,并且可以与Flink结合,实现实时的数据抽取加载和转换,并且可弹性扩展。而GraphCompute是支持百亿节点千亿边规模的超大图存储,适用于关系图数据库的存储和计算,为图计算提供了一个低成本可扩展的高效的计算平台,PAI是一个机器学习和深度学习的训练平台,提供了按需付费、弹性扩展的gpu,相比较于独立gpu的服务器具有成本优势,为复杂的模型训练提供了充足的算力资源。这就是我们选择飞天平台作为我们大数据平台的基础设施,构建我们轻松筹的大数据体系的原因。
数据化运营是构建数据闭环,利用数据和算力持续改进的过程。数据化运营不是一个静态的过程,而是一个动态的过程。我们通过构建数据闭环,利用数据和算力,持续改进我们的运营效率。在轻松筹的数据化运营体系里面,我们的大数据平台处于核心的位置。
一方面大数据平台让我们可以从所有的业务系统去抽取用户数据、订单数据、合约数据、项目数据、产品数据;同时在我们的大数据平台上面,我们所有的运营人员可以进行运营活动的创意分析、设计执行以及评估,并形成我们的人工策略和算法策略。这些人工策略和算法策略,使我们可以通过各种各样的客户接触渠道,进行用户触达。
同时另一方面我们的大数据平台也会采集我们所有的运营活动的过程数据、结果数据以及用户反馈数据,我们利用这些数据来进行运营活动的评价,并且对运营活动进行持续的改进和优化,所以说我们利用大数据平台构建数据闭环,同时也构建运营闭环,通过运营闭环实现我们数据化运营的运营策略的持续改进。在这个过程中,我们实现数据驱动运营,数据、算力和算法是最核心的三个要素。其中的算力我们主要是依赖于阿里的飞天大数据平台解决方案。
从轻松筹的数据平台建设角度来看,轻松筹在业务场景上有两个大的场景,一个是数据驱动运营,另外一个是数据驱动管理。我们希望把有限的人力和物力聚焦于我们数据发挥价值,而不是聚焦于底层平台的建设和运维。那么飞天数据平台降低了我们轻松筹大数据平台建设和运维的复杂性,让我们的人力和物力聚焦于数据驱动价值。在任何一家企业里,所有人都认为数据是有价值的,但是能够让数据发挥价值,在任何企业都不是一个简单的事情。
数据驱动价值,从数据的角度来看,我们只是要做到下面5件事情:第一件事是基础中台能力建设,第二件事是构建数据闭环,第三件事是数据产品和工具化,第4件事是指标体系和数据治理,第5件事才是我们把数据聚焦于数据创造价值。而这里面的任何一件事情都不是简单的容易实现的。从数据驱动运营的角度来看,我们首先要把运营目标数据化,其次运营过程数据化,然后我们需要把运营数据形成闭环,运营策略数据化以及运营的智能化。从数据驱动管理的角度来看,我们需要把管理目标指标化,管理目标的跟踪和预警,实现数据支持管理决策,数据支持问题的快速定位和解决,数据支持机会的发现。所以说整个聚焦于数据驱动价值这个场景和目标来说,我们有大量的工作要做,那么我们希望把一些基础平台基础能力的建设和运维的工作让阿里云来承担,而轻松筹主要聚焦于我们的数据应用,数据的价值创造。
通过智能化手段为用户和企业创造价值,这是任何数据平台或者任何注重数据的企业发展的必然结果。数据平台的建设,我们会积累大量的运营案例,我们会记录千百万用户的选择,这些所有的选择都隐藏在数据中,挖掘这些数据的价值,即对企业有价值,又对用户有价值。
我们整个数据平台体系的建设分为三个阶段:
第一个阶段是数据的原始积累阶段,我们尽可能详尽的全面的收集数据并保存历史。这段时间我们对数据的存储有比较大的需求。
第二个阶段是我们人工策略试验阶段,反复的定义策略,细分客户并付诸执行,观察效果持续改进,同时积累数据。这个阶段我们对平台的计算能力有很高的要求。
第三阶段是我们通过机器学习深度学习算法,挖掘数据中蕴含的经验和知识,这些知识有可能来自于运营人员,也可能来自于用户,我们最终是要实现如下的目标:在合适的时间把合适的产品推荐给合适的用户。在这个阶段我们对我们的复杂的计算能力有很高的要求,这个时候PAI会进入我们的视野。
今天在轻松筹的大数据中台上支撑了丰富的运营活动,那么从全公司来看,我们全公司从高管到执行层,经一半的员工每天都会通过数据中台提供的看板了解公司的运营状况,每天在平台上会计算1000+的各类标签,提供毫秒级的标签服务,以及基于标签组合的选人服务。每日有千万+的基于算法评分或者人工细分的客户精准推送,每天会生成近百万的电销线索,每日有千万+的人群定向或者算法推荐支持我们的投放,我们要求的响应时间都是小于50毫秒,每日通过AI审核1000+的大病筹款项目,包括数千+的文本资料和数万+的图片资料,防范我们的客户欺诈。每日有50多位我们的高级分析用户,通过各种工具执行数千次的数据探索与分析。我们有数亿节点,几十亿条边的关系数据运行在阿里云的图数据库上,支持风控和运营,每日在大数据平台上运行有6000+的作业。另外我们利用阿里的gpu资源训练几十个机器学习模型和深度学习模型,优化推送、成单转化、信息流推荐等场景的转化率。
谢谢大家!
更多大数据客户实战案例:
https://developer.aliyun.com/article/772449