大数据在媒体行业的应用——《企业大数据实践路线》之二

作者:阿里云MVP戚俊

本文系《MVP时间》视频课程《4节课看懂企业大数据实践路线》的文字版,视频请看MVP时间课程主页

本期视频可见课程直通

上期内容回顾:
《企业大数据实践路线》之企业大数据的现状与痛点
下期内容链接:
解析业务数据的特征——《企业大数据实践路线》之三

上期我们讲了企业大数据的现状与痛点,本期我们以媒体行业为例,深入分析大数据在媒体行业的应用。
先来看一下媒体行业工作流:
大数据在媒体行业的应用——《企业大数据实践路线》之二

新闻工作者先产生一个内容,形式可以是文字的、视频的等,无论你是编辑还是记者或者说是美编,或电视台的采编人员等等所生产的内容都会存入到业务数据库里面,业务数据库通常存在我们内部单位的机房里面,媒体行业也同样,再小都会存放到自己的机房里面,都有自己的业务数据库,把业务数据存入数据库之后呢,通过渠道把数据传输出去,比如说通过网站、直媒的渠道、移动端渠道、电视台视频的渠道等其它渠道出去,这些渠道出去的东西被观众、读者、听众所获取后产生反馈,或无反馈,但最终数据都会被特点的人员即统计人员进行统计。如果说是直媒,它不像电子媒体有收视率,阅读量的概念,但直媒会有甄别能力的数据量,可以在系统里面或者是企业内部的甄别系统里面查到。数据又分散在不同的系统里面,甄定有甄定的系统,网站有网站的CMS,视频有专门的视频点播系统,APP有APP的客户端,新媒体有新媒体的客户端,如头条等其它媒体渠道,这些大部分信息都是由我们的统计人员把它们重新合并、归类放到我们自己的企业如报社、杂志社内部去进去分布的。这个过程需要绘制一张统计报表。

1、 看了一个报道在报纸上看到的
2、 看了一篇新闻在电视上看到的
3、 网站上看了一个视频,这个视频多少分钟,讲述了一个什么样的事情

看到的这三样东西,可能表现形态是不一样的,但在整个的新闻单位内部,是有一个起始点出发的,从某一个新闻线索出发延伸出来的三条数据,把这些扩散传播出去的信息反向回收回来,再跟这三条线索关联和绑定:
一是通过这样的关联和绑定去解析营收,可以具体去看到是什么样的新闻,什么样的文章更容易得到读者的喜欢,或什么样的内容下它的广告效果会更好。
这些营收的解析都是通过我们的统计人员反向解析后绘制出来的报表来解析我们的营收这样一个过程。
二是绩效考核。绩效考核主要是针对我们的记者、编辑、新闻工作人员、美编、电视台的采编人员这样一个绩效考核,这个就会关联到年终奖,月度季度奖金都会有一定的关联。
这就是我们传统媒体整个的一个工作流程,从开始介入工作到最终出绩效考核,得出的一个全流程的概览。

流程版的工作流:
大数据在媒体行业的应用——《企业大数据实践路线》之二

人肉方式跟进传播路径:这里的路径比如说传播到了微信,或者是传播到了某某网站,传播到了电子刊物、电视台等各种各样的新媒体。
通过粗浅的分析大致了解传播效果:这里为什么会是粗浅?人肉的跟踪方式一定是不会有很好的效果,因为它有时效性,统计的时间节点,各平台的传播路径产生的反馈结果是不一样的,比如说有一篇文章,放到了今日头条里,今天下午3点去统计,它的阅读量可能只有1500,但你把这个数字记录下来后就没了,但你明天再来看,可能晚上特定标签的用户在晚上9点钟批量的阅读,这类人就爱看你这种类型的文章,这样可能就会有一个爆发式的增长,就会有2万次甚至是5万次的阅读量,这样前面统计出来的1500次由于时效性的问题变得极其不准确,这是第一个时效性带来的问题。
第二个就是传播渠道太多,人力有限,通过人力基本上是无法100%覆盖的,大部分的人力统计都是肉眼去识别、去记录再汇总的EXCLE里面,或者有更高级的方法,半自动化的方式抓取,通过爬虫去抓取一些电子版的一些阅读量、评论数据等等。不可避免的是渠道的限制,以及转载转发的限制,无法很全面的收集回来,这是传播效果遇到的最大阻碍。

总结:
1)时效性
2)渠道覆盖面

通过内容付费或增值业务产生营收:比如本身就是通过付费来看的,或者是通过一本出杂,这本杂质是要买了才能看。或者说你的内容是免费的,但里面有一些像广告业务,或者是帮助其它公司做了一些PR的品牌宣传,通过增值的方式产生营收。
粗放的进行绩效考核:由于前置流程比较粗,所以这个考核一定是不全面的,对员工不公平,或者过度发放绩效,明明没有那么好的价值,通过直观感受来评定绩效考核的标准,这就会产生一个粗放的绩效考核。
从上面的图形版到流程版,除了不精细的问题外,好像没有什么很致使的错误在里面,以前我们做媒体行业,也是这么认为的,凑合用,没有出现什么恶劣的后果,但目前在我们这样一个时代里,竞争对手都在往前跑,我们也不得不往前跑,对此我们就分析了一下,拿到了一个点告诉媒体行业客户问题出在哪里。
下面这张图可以看出一个正常的媒体工作流应该有的样子。

大数据在媒体行业的应用——《企业大数据实践路线》之二

图的前半部分是和我们上面讲到的一样的,但是从传播渠道开始,你的数据就开始脱缰而出,不受控制。

大数据在媒体行业的应用——《企业大数据实践路线》之二

这个过程就有了人,做了机械的事情以及不准确的事情,接下来的操作,统计,营收,绩效都会由于依赖于不准备的统计数据,就像导致后续所有环节都出现问题,这个过程最大的问题在于人为进行数据收集的关卡没有做好,导致数据脱缰,不受控制。人为会存在很多客观,主观等各方面影响,就会容易出一系列的错误,但往往又最难控制,最难管理。
在整个工作流最重要的三个环节之前加入了一个不靠谱的人来完成这样的工作,所以让自己的整个数据环境应得很不安全,这也是在和客户进行问题处理中总结出来的一个概念,传统媒体是这样一个情况和现状。
改造完之后的状况又是怎样的呢?
看一下下面这张图,一个前沿媒体的工作流程:

大数据在媒体行业的应用——《企业大数据实践路线》之二

还是通过采编人员去创作内容,之后通过近期的热点、读者偏好进行定向化或者有权重的创作,创作完成后进行智能核对及智能排版,这样一个过程,像媒体行业都有三审三校的过程,防止出现大的疏漏,像错别字、书写错误、拼写错误等,可以通过比较智能的校对工具或者是校对过程,以及一个比较智能的排版过程解决这些问题,当这个问题解决之后,才会把一个比较标准的内容入到内容库中,进一步进行内容传播,内容传播后分到不同的渠道。

现在变为千人千面的推荐内容,推送给相应的读者,这个模式很像头条,或者是新闻版的淘宝,每个人会看到不一样的内容,伴随着每个人阅读的信息越多而差异性越大。每个人的阅读习惯以及行为都不同,不同程度的阅读时间积累之后把握到你感兴趣的信息点,给你推荐你喜欢的信息。

当你把信息推送给读者之后,就会产生各样各样的数据,比如像我们的传播数据,如一段视频、 一段声音,传道到不同的渠道媒体(头条、网易新闻、网站以及APP)上等,这个传播的数据是需要记录下来的,以及阅读的数据,比如某某某什么时间阅读了什么文章也需要记录下来,还有行为数据比如在阅读或者是观看信息的过程中产生的一些行为,最长见的像评论点赞、视频发弹幕,这些是比较基础的,还有更深层次的,像在这个过程中产生的分享,或者是看了几分钟,或者是跳行等都是行为数据。
这三类数据我们把它汇总到我们的大数据池中,之后就进入到下一个流程:通过内容付费或增值业务产生营收。这一步是没有变化的,你用不用大数据,它都是这样没有任何的改变,比如说方式都是固定的,但是可以通过创作人、作品口碑、题材口碑等要素形成决策报告。

在上一个环节中,我们说到的最主要的问题,用来做决策的东西的前置数据比较粗糙、杂乱,以致于没有办法提供一个强有力的数据支撑。这个环节来解决这个问题,通过创作人、作品口碑、题材口碑等要素做一个决策报告出来,这个决策报告就比较直白的告诉管理层或者是决策层。某某创作人最近30天创作了多少篇内容,每一篇内容又是怎样的阅读情况,甚至可以再细分,什么样地域的人或者是什么样标签的人更喜欢某某创作人产生的什么类型的内容。

作品口碑就是针对特定的内容,比如说一部影视作品,一个数据报告,把所有和这个作品相关的各个纬度相关的信息汇总起来,进行清晰,介绍,介绍完之后进行总结报告,每一类的题材都可以通过数据分析他各个纬度形成数据报告。

拿到决策报告之后,就可以通过决策报告驱动内容创作。比如说某个创作人杭州人比较喜欢看他的内容,就可以通过数据报告把这些信息展现出来。除此之外,还可以拿来做更精细化的绩效考核。

上一篇:SQL Server 游标运用:查看一个数据库所有表大小信息(Sizes of All Tables in a Database)


下一篇:《Hadoop实战手册》一1.10 在Greenplum外部表中使用HDFS