近日,“2016易观A10大数据应用峰会”主论坛“大数据基础框架设计-实时分析技术平台洞察与实践”上,易观CTO郭炜发表了“企业大数据的实时分析之路”的主题演讲,从技术角度给大家讲述如何用实时分析帮助企业进行数据运营。
以下为演讲实录及PPT:
郭炜:各位嘉宾,各位领导,各位技术的小伙伴们,早上好!
非常荣幸今天站在这里和大家分享一下我们易观对于实时分析技术的一些理解。其实昨天于老师也曾经讲过,我们的实时分析会助力我们的用户资产增长,究竟什么是实时分析,实时分析究竟怎么样帮助企业能够做到他的用户资产增长。今天上午主要有几个技术大咖,后面我相信王老师会一一介绍,从技术角度来给大家讲讲怎么让一个企业做到实时分析之路。下午是相关移动互联网一些实际用户讲讲怎么样他们是怎么样做实时分析和应用分析,这是今天的安排。
今天我作为第一个主讲者,给大家讲讲我们怎么样用实时分析帮助企业,让他自己的企业数据运营做起来,从技术上面怎么做。
其实大家知道,在现在数据越来越多,而且越来越快,就在我刚才讲话的1分钟里面,有2100万的微信会发出去,可能有900多万分钟的视频就会被播放,大家会发现一个事情,在过去我们总是说现在的数据非常大,其实现在的数据也变得非常快,从我们观察的观点能看到,过去整个数据让大数据平台建起来之后,只是让我们的企业数据连通起来,其实现在的实时分析和实时数据计算让整个企业的效率增长起来。
很久以前大数据有三个概念,三个V,第一个V是非常大的,海量。第二个V是速度,很快。第三个V是多样化,很难。其实过去我们做大数据的时候大家一般都会强调一个企业有多少多少数据量,每天要加载多少数据,多少万条用户,每天月活是多少,在过去的时段里,特别是现在国内的创新企业,我们的数据真的越来越多,每一个企业都是数据资产企业。但其实到现在为止,每一个企业真的都有了很多的数据,下一步模式要面临的是我们怎么能让这些数据高效的运转起来,而不仅仅是只拿到很多数据存储起来,并没有把它变成真正的实用价值,中间也遇到了很多的问题。
我记得我刚刚开始做数据的时候大家都说我们现在有几个GB的数据,后来发现我们自己的仓库有TB级数据仓库,现在大家提到大数据平台的时候都会提到PB级的数据平台。大家会发现,随着我们的数据增长,这些并不能够很好衡量我们自己的数据量级,PB级其中一部分,再往上大家能看到EB级数据,ZB级数据。现在整个宇宙统计信息量来讲,其实它是有250万亿数据在里面,将来所有数据加在一起不能用YottaByte衡量,其实我们的潮流速度并没有几何速度提升。我下面会讲到每个企业怎么样通过这么大数据量级帮助我们做相关的分析和相关的处理。
这里有一个观点,过去大家经常说我们的数据非常大,第二天我们会看到头一天很多相关的分析报表,我们的运营情况,其实我们会看到,我提一个概念,数据永远是临时的,分析永远是有时效性的。无论你是在网络也好,还是其他电商处理也好,你会发现一个现象,你购买一个东西,比如你购买了一个手机,购买以后你会发现,这些电商广告还非常少的一直推荐你,在周围所有推荐位都是手机,即使你完成了购买动作。为什么呢?为什么他的推荐没有这么有效了呢?不在于他没有捕捉到你的数据和信息,其实他已经完全采集到我们的信息,但为什么没有很快的根据你现在的场景来去反馈你相关的推荐方法呢?其实是因为他的实时分析和他的实时计算没有做到。所以第一点,我们在做很多的日常处理和我们真正在做大数据分析的时候,我们如果没有做到很好的实时分析就会产生一些不适时的产品推荐,包括很多在做APP分析也好,或者是做互联网数据分析也好,经常会发现一些我们自己互联网产品的一些问题,经常能看到,如果一个问题经常是通过我们的质控部门或者客服部门反馈回来说,比如我的一个购买,或者我的一个浏览出现了一些问题,这个时候再反馈到客户那里,从你的客户再看到你的研发部门,或者再到你的产品部门,说到这样的问题的时候其实它也是过时的产品质量控制。我们做实时分析是希望在你用户发现这个问题之前你就能发现你自己的产品问题,从而控制相关的产品质量。
第三个,现在互联网金融非常火暴,大家做贷款的时候,每一个互联网金融公司都在说我1分钟发贷款,3分钟发贷款,拼速度的同时,一旦这笔贷款发出去,没有将这个人当时的相关状况和信息做一个很好的模型分析,你拿到的是过时的数据,头一天的数据,对你的风险是非常大的。我们现在说大数据,每一个数据都是临时的,只有最接近你这段时间的数据它的价值越高,离你时间越远的数据价值越低。所以做实时分析的目标是将眼前最零块的数据分析能够达到它最大的价值,分析基于所有数据采集到处理完还不够,我们将它做一个分析模型,将我们的分析模型也做到实时化,从而达到我们的实时分析,助力相关用户资产的增长。
说到这里,现在AI都非常火,很多公司也要成立自己的AI部门,很多AI算法也在不断的迭代,其实真正做AI之前一定要做的一件事情就是实时分析,为什么这么说?大家能看到,整个数据从过去2000年到现在,国内所有这些做数据的相关企业,从数据仓库到大数据分析平台到AI,都是有一个过程的,可能最开始是非常不实时的,企业内部的统计,可能每个月出一个月报,到后来出现数据仓库,开始我们做了相关的OLAP分析,报表分析,BI的KPI,这都是在最开始的那段时间,它一般来讲是以月以天来计的。再往后大数据出现了,过去企业内的这些数据开始现在能看到用户的一些点击,我们能看到一些日志分析,我们开始基于这些日志做用户画像,包括有一些推荐引擎,广告位,这些是我们的企业大数据分析。再往后一步是我们现在正处的时代,它应该是企业实时大数据分析。
为什么这么讲?它有几部分:第一个,我们的数据源在过去还只是鼠标点击流,通过网页,或者是APP,再往下,在现在的时代,都是可穿戴设备,智能的wifi,我们每一次人走在哪里他能够知道你现在所处的环境和状态,从而在你现在此时此刻此地给你做相关的推荐,最近很多广告推荐算法已经融合了场景推荐的方式,它会要求我要知道你现在此时此刻在哪里,根据你此时此刻的一些状态和你的行为来给你限时的反馈,这个反馈不仅仅是在过去只是把过去的一些数据做一些点击的采集,做一些模型,做一些过去的实时画像,而是知道你现在此时此刻的需求。比如实时的渠道分析,我现在做一个活动,究竟我这个活动它的每一个渠道究竟哪里比较好,我究竟在哪里加大投入,比如实时场景推荐,此时此刻你在哪里,实时风险评估,你放贷款的时候应该什么时间给什么样的人,做到这些才能说我拿到这个数据将来才能实现AI分析。很多自动驾驶的汽车,你是在开车的时候前面的情况经常发生变化,如果你只是一个小数据量级去训练你的模型,你会发现我们可能会出现异常驾驶事故,最近也出现很多类似的事故,不是因为AI不够智能,而是因为他给AI提供的数据量级不够大不够快,造成我们在AI学习过程当中中间有一些盲点,从而造成一些安全事故。
所以所有的AI,如果企业想做AI的时候,第一步先要实现整个实时计算整个采集分析加工的这套流程。企业如何做有效实时分析呢?无外乎分几步,第一步是定方向,为什么先把它放在里面讲呢,因为对于每一个企业来讲,讲实时分析是非常容易的,但实时分析的投入非常大,因为它和过去大数据平台又不同,它对实时计算集群能力、架构、人员都有更高的要求,所以企业做实时分析的时候首先要评估企业自己的ROI,选择一个适合的场景,究竟什么样的场景对于每个企业比较合适,究竟你要做场景推荐还是要做实时分析的风险评估,这是第一个。第二步是夯实基础,现在有各种各样的开源的闭源的大数据实时分析框架,我会给大家详讲,大家要选择一种或者几种适合自己企业当时状态的实时计算框架,今天也来了非常多的这方面的专家,后面会给大家详细讲解。第三步是打造能力,这里提一个说法,提到实时分析的时候我听到很多技术小伙伴会跟我讲,实时分析,这边做批量,这边做实时,或者现在提出的Lambda架构,把实时和批量计算放在一起,不就这些吗。其实完全不是,因为实时的分析并不等于实时的计算,实时计算只是实时分析当中的一步,在我们的分析过程当中除了数据计算之外还有数据挖掘能力,实时采集的能力,这都是企业打造实时分析时候的重要节点。第四步是实现突破,找到产品出口,找到最合适的一个点,哪怕一两点,找出来,让企业自己的实时分析流畅的流转起来。
刚才讲了四点,我稍微展开讲一讲实时分析的要素。
第一个要素,选择合适的业务方向,数据时间轴离现在越近它的价值越高,真正反馈到我们产品的企业生命周期当中,无外乎有这么六点,每一个企业看自己究竟做实时分析的时候应该选择哪一点做突破。
第一是产品选择,中间会提到相关适合场景的推荐,我们相关的竞品反馈,马上双十一就到了,在座如果有电商小伙伴,一定是实时跟踪竞争对手的价格变化,然后做决策。现在主要靠人,未来加上算法,应该是系统能够自动去调的,否则你的价格和模型永远赶不上竞争对手,永远被动在做。
第二个,购买,购买有几个,一个是价格要合适,不同的人可能他的价格和他的优惠幅度是不同的,在他购买的刹那你究竟给他打五折还是给优惠券激励他完成闭环,还有白条,我们这个白条什么时候给什么样的人做相关推荐,也是购买流程。
第三个,业务创新,现在有很多这种洞察,我们很多新的业务,包括现在的智能硬件都需要实时分析引擎才能转起来。
第四个,品牌感知,如果一个问题出现的时候往往通过互联网的传播,它是指数级的增长,一旦你没有控制住相关问题的爆发,比如最近某款手机,开始的时候只是一两个点,突然爆发到全球航空公司都不能用,禁止这款手机登上飞机,你的品牌控制和质量控制怎么在第一时间控制好,这是非常重要的。包括产品使用,用户在使用你产品的时候能够实时看到用户究竟怎么用你这款产品的,怎么样提高你的这款产品,包括后面数据相关的服务,比如说用户的反馈机制也好,产品的质量控制也好,这个其实是找到企业自己第一个找到我们相关分析的方向。
第二个是要构建实时数据源生态,实时数据采集和过去的采集有很大的不同,因为在一开始的时候我们觉得每一个企业比如拿到他的网络行为日志,或者拿到他的APP行为日志,或者拿到企业相关交易信息,我们觉得就够了。但现在整体实时分析的时候发现这不够,因为你要了解一个用户所处状态做到完整实时分析,你要知道这个人现在所处场景是怎么样的,场景这个词会延展到不仅仅是他在场景里面点击的状态,而是他现在所处的周围场景。比如在座各位在这个会场里面,可能对于某一些不同的场景来讲,还有一些人在不同的商场里面,究竟他在电影院里面还是刚出来,还是在商场里面吃饭,这个场景如果只是单一一家企业很难拿到相关数据和信息,他需要融合到新的比如智能硬件,智能wifi,或者是智能视频识别,知道你所处的场景。这些可能不仅仅是一个企业就可以完成的,它需要多个企业联合,形成数据的实时融合,才能将你自己的数据,对于用户的数据采集完整,才能让你的数据达到实时化。过去我们的采集还是很容易的,比如你去采集我们的行为日志就可以了,现金采集方法完全不同了,我们在做视频识别或者照片识别的时候,并不是每个企业都有这样的能力。你在实时分析实时处理的时候也需要生态,需要你的合作伙伴帮助你把过去批量的分析变成现在的实时分析。所以在企业做实时分析的时候需要打造一个比较好的数据源生态,才能够让你获得这些实时的数据源。
第三个,我们要实现实时的计算架构与算法。这里分几层:第一个是实时采集,你现在有相关的合作伙伴也好、生态也好,自己的SDK也好,采集也好,通过智能设备也好,把你的数据采集上来。再往上是实时计算,这只是其中的一部分,我把数据实时计算出来,因为你把它计算出来如果你不能给它做很好的查询,其实这件事情还没有达到分析报表层面。所以再往上一层最基本的,实时查询,目前也是越来越多的开源和相关的技术小伙伴投入到里面,比如像麒麟,他主要做实时OLAP查询,百亿级的数据怎么能够在秒级别甚至毫秒级别能够把数据查询出来,这是像麒麟这样的。像Greenplum,他怎么能够在那么大数据量里面秒级相关数据查询,当然,现在也有一个新出的Druid,很多用户在用,也是实时OLAP引擎查询。包括Impala、Spark SQL,我们计算到某一个结果以后,要给你的业务部门,要给你的分析师,要给你的相关风险控制部门能查到这些用户实时动态,不仅仅是当前此时此刻的数据,还包括了这个用户以往一年两年、三年,甚至很长的数据,能够实时把数据相关分析做起来。
后面这个稍微多讲一点,实时分析算法,大家比较熟悉的是R,MLlib ,Kamanja,MOA,SAMOA,后面三个是大家不太熟悉的,开源也有一段时间了,他们做流式数据挖掘的,我给大家多讲两句SAMOA,我们做了采集,做了计算,做了查询,其实并没有做完,需要将你现在的状况把它实时分析出来,变成一个模型。举一个例子,昨天Google的郭老师举了一个例子,Google做防风险欺诈的时候,能看到手机屏幕点击的位置,从而看到你这个人是机器在点还是人在点,这个过程完全就是通过我们流式的聚类就能做出来,每次点击的时候能够看到每个设备究竟是聚在一起点击还是随机点屏幕任何东西,从而看到防欺诈相关的算法。再往上相关的并发服务很多小伙伴比较熟悉了,比如现在常用挖掘的实时Python,我就不做分析了。
第四个,精准的产品出口。实时的分析,实时的展示,实时的反馈,你可以做一些股票的购买,风险的控制,人机交互。这都是要素四里面说到的。
实时分析是大数据分析的必经之路,一开始我们企业做的是内部数据BI,之后是企业大数据分析,经过企业实时大数据分析,才能做到企业AI应用。这些是和大家沟通交流的。
今天时间也差不多了,后面有非常多的技术专家会和我们去做一些相关的沟通,就像我刚才提到的,麒麟,包括Greenplum,他会把我们刚才提到的每一层都给大家做比较详细的讲解,各位都是专家,我就不讲太多了,把时间留给我们的技术专家做相关介绍。
总体来讲,我相信实时分析是每个企业在大数据上面的必经之路,我相信每个企业在现在的阶段一定建立自己的实时分析平台,从而助力自己实时分析的进展。
非常感谢各位早上聆听我的演讲,谢谢。
本文作者:佚名
来源:51CTO