深解数据驱动:从过去 到未来

在2000年初,做为Oracle 8i的OCP有一个福利就是能定期收到Oracle的Tech Magazine和ProfitMagazine。在Yahoo统治下的以EditorContent为主的Internet时代,这是一个不错的了解湾区工业界技术趋势和产品的渠道。当然也是能和ACM期刊一起Zhuangbility的工具。记得Profit某期讨论的一个话题,让我这个初出茅庐的工程师,对Data有了不一样的理解(Everything in tech stack changes time from time, exceptdata).其实这也包括Oracle自己。

做为一个有想法的码农,当然不会把自己的职业生涯和某一个产品或者语言绑定起来,同时也希望有几个清晰的领域可以持续研究和学习。而这个讨论,让我意识到在数据存储、处理、高性能获取之外,更应该考虑数据背后所存在的实体的实际意义,以及数据整合后的实用价值。伴随着最近这几年BigData, AI, Machine Learning概念的火爆,数据驱动(Data Driven)做为一个策略被IT界沧海拾珠 , 重新翻炒。

在这个大趋势下,如何做到数据驱动?如何发挥了投资无数的DT(Data Technology的收益,而不只是一堆高性能高并发的一零一零?如何在回答图灵问题之外,有效的部署机器算法去解决真实的问题?“风物长宜放眼量”,回到经典的哲学思维,数据从哪里来(从哪里来)?数据是什么(是什么)?我们哪里能用数据(到那里去)?

深解数据驱动:从过去 到未来

利用定量数据来透明描述问题

在今天的互联网时代,提到用户,大家张口就来的一个词应该就是用户画像(User Persona),之前说的是用户群分(User Segmentation),都是一个意思,即利用数据来定量的描述一个用户,无非纬度更多,划分更细。而在这个之前,而我们在谈到一个公司、一个部门、一个产品、一个feature的时候,也需要有量化的数据指标来清晰的定量描述运营的健康状况, 应该把这个定义为公司画像(Company Profile)。

传统的BI技术,致力于打造基于业务交易数据(Transaction Data的数据仓库(Data Warehouse)。在非常长的一段时间里,我们采集的数据来源自交易系统背后的RDBMS。而主要工作是通过对这些交易数据的可视化,业务方可以相对清晰的了解目前企业的生产、库存、周转,现有效率和财务现状。在WebAnalyzing 2.0的平台和方法出现之前,基于交易的数据产品其实没有办法回答用户是谁,用户在那里和用户需要什么。

换句话说,我们只拥有整个Datalife cycle里一小段数据。当时通过调研,市场双盲测试的方法,企业可以获取一小部分的数据来支持这个闭环,但是时效性,覆盖面,反馈度都不够高。这就给了Yahoo,eBay,初期Amazon这样的第一代Internet公司的机会。通过提供内容和商品平台来收集用户的数据,在提供One stop的体验之外,通过采集用户访问过程中的数据,理解和分析用户的意图,刻画用户在不同阶段的属性,完成完整的数据闭环。

深解数据驱动:从过去 到未来

现有的BI工具提供了大量炫酷的可视化工具,基于完整的数据采集和运算平台,提供对从效率指标到KPI体系的支持。让从管理层到一线同事能够清晰的了解他所负责的产品和业务目前运营状况:增长,趋于平稳或者萎缩,盈利或者亏损(blooding), 健康或者冒烟,这是数据驱动要解决的第一个问题。只有了如指掌,才能运筹帷幄。工作中遇到的 CEO们都会说,“数据对我们很重要 ”,大多指的就是数据透明化后,他们可以做更好的策略判断。

定性的分析问题

当有了准确、可靠的基本数据后,自然而然会想做些更有趣和不同的东西。对于有想法的数据从业者来说,有趣之处在于能够应用到实际场景上,看到问题的解决。从定量的数据解读,到定性的分析,再到以分析结果驱动相应的实施行为,最后采集这些Action 的效果并持续迭代改进。

从实际解决视角的的角度来看,数据没有大小之分,数据只有是否被商业认知之分。数据驱动是一种信仰,只有让数据产生商业价值,数据才能在实践中反复迭代变大,从而产生力量驱动改变。

常见的几类定性分析的应用如下。同时也分享了我们想去解决的问题:

从互联网站点诞生以来“流量为王”就是第一公理,无数初创企业的估值都来源于DAU/PV。基于现有的流量数据以及流量成份的组合,利用7天数据对未来15到30天可以做出一个可靠的预测。

Case: 基于定向流量和意图的相关性,意图和购买的相关性,Google利用了多种不同类型的搜索和广告点击量,成功预测了计划上映电影的票房情况。

深解数据驱动:从过去 到未来

Case: 在众多电商的Ranking Algo里,对商品本身的售卖预期是一个关键因素。商品的历史展示,点击和购买情况会做为历史数据的堆积。基于这个历史数据,综合竞争商品,替代商品,搭售商品的堆积,可以对某一商品未来的售卖做出一个相对可靠的趋势预测。

Problem: 点融做为一个互联网金融公司,我们发现我们的流量和我们的投资有很强的相关性。如何有效的对于未来流量的做出预估?基于未来流量对后续的投资做一个可靠的预估是我们有兴趣解决的问题。

成份分析/ Decomposition

“天下熙熙皆为利来,天下攘攘皆为利往”,在经典的商业问题里,我们都希望搞清楚购买你的产品和服务的用户是谁?他们各自喜欢你产品的那些部分?他们会有多忠诚? 他们的各自的满意度是多少?通过产品特征和用户特征的关联,通过对流量成份的分析和监控,提高收益。

Case: 航空公司作为资源固定的业态(PerishableCapacity)是最早采用收益管理/动态定价(Yield Management/Variable Pricing)的行业。通过对需求的售卖周期(Fluctuating Demand),计划性(Sold in Advance),成本(Class),变化性(Refund/Return)等因素的分析,制定了一系列定价上的策略,从而实现收益的最大化和可管理性。

深解数据驱动:从过去 到未来

Case:为了解决配送效率的问题,Amazon提出过把热门货物预先分配到指定地点的策略。国内的某电商同样基于效率考虑,按照电脑的金额和送货地址的匹配,以及库存周期的预估,完成了笔记本的配送优化。

深解数据驱动:从过去 到未来

Problem:在目前互联网金融行业普遍货客成本高居不下的情况下,如何定性不同的渠道从而在合理预算的前提下提升推广和活动的效率?如何按照用户的忠诚度和需求划分,组合不同的金融产品从而提升体验?

Problem:在Risk领域,如果有效评估现有规则的效用和效率(Attribution)?如何确定经验规则的使用范围和周期? 如何在借贷的整个周期里Cut over现有规则的效力?

AB Testing的方法

线上的大规模的流量,在有效的Managing Orthogonal分流后,比较传统的线下分组测试,可以同时进行更大规模的测试。ABT可以回答很多针对目前客流人群习惯和喜好的问题。通常这类问题相对感性,ABT的方法可以替代简单Survey和主观的判断。

Problem: 点融计划设计和部署一个同时支持Online和Mobile,同时支持前台和后端的实验平台。通过一个轻量的EP平台,以支持业务的发展。

自动化干预

数据驱动的终极目标是希望利用数据能够直接在生产环境带来改变,提供价值。在厘清了数据管理,完成了离线的事后分析后,我们可以利用这样的数据基础在特定领域完成基于算法的自动调整。

深解数据驱动:从过去 到未来

算法的线上部署除了对平台和算法本身的支持之外,还需要考虑一下几点:

·风险约束Constraints– 不同于离线系统的决策和执行周期,线上系统需要确定一系列的边界,例如收益管理的利润率目标、系统单位时间最大损失和单品的单位时间最大损失;推荐系统的CTR的下线;Score Card的TypeII 的Error rate。在类似Quants的极端高频交易情况下,系统本身的防线风险完全依赖超过几个Unit头寸的自动止损规则。

·数据的及时性–实时数据和历史数据的组合,如何Decay历史特征;如何在特定周期下替换历史数据;

·异常数据的容忍– 线上Algo的输入无法做到离线的清洗水平,为了防止做出愚昧的判断,我们需要更健壮的数据预处理模块。

·Algo的迭代– 需要可靠的离线迭代平台来纠正线上Algo运行过程中的误差和偏离。采集线上的数据到离线平台,通过离线平台调整参数和适应性。支持从离线平台推送新的algo。

深解数据驱动:从过去 到未来

构建数据平台

作为一个创业公司,我们目前考虑升级我们的数据平台:

·系统构成简洁– 我们拥抱现有的业内数据处理技术,同时希望标准化技术选型,降低复杂度。

·自助服务–提供数据获取的自动化能力,让Data Engineering不只是为业务的资源。

·数据产品– 整合我们的内部数据和第三方数据,提供目前具体问题的加工后的数据产品。

我们的目标不是构建海量数据的聚合平台。而是构建更清晰灵活的支持小数据(Micro Data)计算处理平台,完成对商业有价值的数据应用。


本文作者:佚名

来源:51CTO

上一篇:网页空白没有提示错误多次刷新仍然空白


下一篇:[数据恢复答疑]IBM 的RAID5E和RAID5EE适合我吗?