最近,怀着一颗好奇的心,我粗略阅读了(英)维克托·迈尔-舍恩伯格所著的《大数据时代》一书的电子版。总体感觉就是本书的内容很宏观,不太容易让人理解。
读完这本电子书之后,我又上网查了一点资料,对“大数据”有了进一步的了解。
1. “大数据”的简介
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,但近年来引起人们关注的原因是互联网和信息行业的发展。
“大数据”在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积了大量的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用G或T来衡量。
2. “大数据”的四个特征
数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、速度快时效高(Velocity)。
3. 培养三种能力
第一,整合企业数据的能力。
第二,探索数据背后价值和制定精确行动纲领的能力。
第三,进行精确快速实时行动的能力。
4. 《大数据时代》章节结构
附:《大数据时代》经典语句
引言一场生活、工作与思维的大变革
大数据,变革公共卫生
1. 当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。
大数据,变革商业
大数据,变革思维
1. 如今,数据已经成为了一种商业资本,一项重要的经济投入,可以创造新的经济利益。
2. 大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及*与公民关系的方法。
大数据,开启重大的时代转型
1. 人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。
2. 大数据也一样,量变导致质变。
预测,大数据的核心
大数据,大挑战
1. 第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。
2. 第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。
3. 第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系。
4. 数据化意味着我们要从一切太阳底下的事物中汲取信息,甚至包括很多我们以前认为和“信息”根本搭不上边的事情。
5. 大数据时代开启了一场寻宝游戏,而人们对于数据的看法以及对于由因果关系向相关关系转化时释放出的潜在价值的态度,正是主宰这场游戏的关键。
6. 大数据标志着人类在寻求量化和认识世界的道路上前进了一大步。过去不可计量、存储、分析和共享的很多东西都被数据化了。拥有大量的数据和更多不那么精确的数据为我们理解世界打开了一扇新的大门。社会因此放弃了寻找因果关系的传统偏好,开始挖掘相关关系的好处。
第一部分大数据时代的思维变革
01更多:不是随机样本,而是全体数据
让数据“发声”
1. 利用所有的数据,而不再仅仅依靠一小部分数据。
2. 小数据时代的随机采样,最少的数据获得最多的信息。
3. 采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。
4. 认为样本选择的随机性比样本数量更重要,这种观点是非常有见地的。
5. 随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。
全数据模式,样本=总体
1. 大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。
02更杂:不是精确性,而是混杂性
允许不精确
1. 对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。
大数据的简单算法比小数据的复杂算法更有效
纷繁的数据越多越好
1. 大数据时代要求我们重新审视精确性的优劣。
2. 大数据不仅让我们不再期待精确性,也让我们无法实现精确性。
3. 错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。
混杂性,不是竭力避免,而是标准途径
1. 互联网上最火的网址都表明,它们欣赏不精确而不会假装精确。
2. 这并不代表系统不知道正确的数据是多少,只是当数量规模变大的时候,确切的数量已经不那么重要了。
3. 要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。
新的数据库设计的诞生
1. 宽容错误会给我们带来更多价值。
2. 第一个折中是,我们默认自己不能使用更多的数据,所以我们就不会去使用更多的数据;第二个折中出现在数据的质量上。
03更好:不是因果关系,而是相关关系
林登与亚马逊推荐系统
1. 从字面上来讲,这是一场人与鼠标的战争。
2. 知道“是什么”可以创造点击率,这种洞察力足以重塑很多行业,不仅仅只是电子商务。
3. 知道是什么就够了,没必要知道为什么。
关联物,预测的关键
1. 通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。
2. 我们现在拥有如此多的数据,这么好的机器计算能力,因而不再需要人工选择一个关联物或者一小部分相似数据来逐一分析了。
3. 大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。
4. 建立在相关关系分析法基础上的预测是大数据的核心。
5. 同样有用的一种方法是,通过找出新种类数据之间的相互联系来解决日常需要。
6. 通过找出一个关联物并监控它,我们就能预测未来。
7. 收集和分析数据的花费比出现停产的损失小得多。
8. 当收集、存储和分析数据的成本比较高的时候,应该适当地丢弃一些数据。
9. 这个系统依赖的是相关关系,而不是因果关系。它告诉你的是会发生什么,而不是为什么发生。这正是这个系统的价值!
10. 数据表明,早产儿的稳定不但不是病情好转的标志,反而是暴风雨前的宁静,就像是身体要它的器官做好抵抗困难的准备。
“是什么”,而不是“为什么”
1. 通过去探求“是什么”而不是“为什么”,相关关系帮助我们更好地了解了这个世界。
2. 第一种是不费力的快速思维,通过这种思维方式几秒钟就能得出结果;另一种是比较费力的慢性思维,对于特定的问题,就是需要考虑到位。
3. 相关关系很有用,不仅仅是因为它能为我们提供新的视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽掉。
改变,从操作方式开始
大数据,改变人类探索世界的方法
1. 因为不受限于传统的思维模式和特定领域里隐含的固有偏见,大数据才能为我们提供如此多新的深刻洞见。
2. 大数据时代将要释放出的巨大价值使得我们选择大数据的理念和方法不再是一种权衡,而是通往未来的必然改变。但是在我们到达目的地之前,我们有必要了解怎样才能到达。
第二部分大数据时代的商业变革
04数据化:一切皆可“量化”
莫里的导航图,大数据的最早实践之一
1. 许多船挂了一面特殊的旗帜,表明它参与了这个信息交流计划。这些旗帜就是出现在一些网站上的友情链接的前身。
数据,从最不可能的地方提取出来
1. 这说明在远在信息数字化之前,对数据的运用就已经开始了。
数据化,不是数字化
1. “数据化”——这是指一种把现象转变为可制表分析的量化形式的过程。
2. 数字化指的是把模拟数据转换成用0和1表示的二进制码。
量化一切,数据化的核心
1. 计量和记录一起促成了数据的诞生,它们是数据化最早的根基。
2. 帕西奥利的著作和美第齐家族的成功奠定了复式记账法成为标准数据记录法的基础,也奠定了阿拉伯数字在此之后不可取代的地位。
3. 数字化带来了数据化,但是数字化无法取代数据化。
当文字变成数据
1. 当文字变成数据,它就大显神通了——人可以用之阅读,机器也可用之分析。
当方位变成数据
1. “现实挖掘”这里指的是通过处理大量来自手机的数据,发现和预测人类行为。
当沟通变成数据
世间万物的数据化
1. 有了大数据的帮助,我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成的。
2. 将世界看作信息,看作可以理解的数据的海洋,为我们提供了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观。
05价值:“取之不尽,用之不竭”的数据创新
ReCaptcha与数据再利用
1. 数据的基本用途为信息的收集和处理提供了依据。
2. 不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。
数据的“潜在价值”
1. 数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。
数据创新1:数据的再利用
数据创新2:重组数据
1. 随着大数据的出现,数据的总和比部分更有价值。当我们将多个数据集的总和重组在一起时,重组总和本身的价值也比单个总和更大。
数据创新3:可扩展数据
数据创新4:数据的折旧值
1. 即使数据用于基本用途的价值会减少,但潜在价值却依然强大。
数据创新5:数据废气
1. “数据废气”是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。
数据创新6:开放数据
给数据估值
1. 公司账面价值和市场价值之间的差额被记为“无形资产”。
2. 一个办法是从数据持有人在价值提取上所采取的不同策略入手,最常见的一种可能性就是将数据授权给第三方。
06角色定位:数据、技术与思维的三足鼎立
Decide.com与商品价格预测
大数据价值链的3大构成
1. 三种大数据公司:第一种是基于数据本身的公司,第二种是基于技能的公司,第三种是基于思维的公司。
大数据掌控公司
大数据技术公司
大数据思维公司和个人
1. 他们思考的只有可能,而不考虑所谓的可行。
2. 所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。
全新的数据中间商
1. 大数据公司的多样性表明了数据价值的转移。
2. 随着数据价值转移到数据拥有者手上,传统的商业模式也被颠覆了。
专家的消亡与数据科学家的崛起
1. 行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。
大数据,决定企业竞争力
第三部分大数据时代的管理变革
07风险:让数据主宰一切的隐忧
无处不在的“第三只眼”
1. 大数据还会带来更多的威胁,毕竟,大数据的核心思想就是用规模剧增来改变现状。
我们的隐私被二次利用了
1. 大数据的价值不再单纯来源于它的基本用途,而更多源于它的二次利用。
2. 大数据时代,很多数据在收集的时候并无意用作其他用途,而最终却产生了很多创新性的用途。
3. 如果所有人的信息本来都已经在数据库里,那么有意识地避免某些信息就是此地无银三百两。
4. 另一条技术途径在大部分情况下也不可行,那就是匿名化。
5. 匿名化对大数据的无效性。而出现这种无效性则是由两个因素引起的,一是我们收集到的数据越来越多,二是我们会结合越来越多不同来源的数据。
预测与惩罚,不是因为“所做”,而是因为“将做”
1. 人们不是因为所做而受到惩罚,而是因为将做,即使他们事实上并没有犯罪。
数据*
1. 其实,卓越的才华并不依赖于数据。
2. 只要得到了合理的利用,而不单纯只是为了“数据”而“数据”,大数据就会变成强大的武器。
3. 大数据诱使我们犯下罗伯特·麦克纳马拉所犯的罪行,也让我们盲目信任数据的力量和潜能而忽略了它的局限性。
挣脱大数据的困境
08掌控:责任与*并举的信息管理
一场管理规范的变革
1. 变革并不止于规范。
管理变革1:个人隐私保护,从个人许可到让数据使用者承担责任
1. 为实现这一平衡,监管机制可以决定不同种类的个人数据必须删除的时间。再利用的时间框架则取决于数据内在风险和社会价值观的不同。
2. 公司可以利用数据的时间更长,但相应地必须为其行为承担责任以及负有特定时间之后删除个人数据的义务。
管理变革2:个人动因VS预测分析
1. 在大数据时代,关于公正的概念需要重新定义以维护个人动因的想法:人们选择自我行为的*意志。简单地说,就是个人可以并应该为他们的行为而非倾向负责。
管理变革3:击碎黑盒子,大数据算法师的崛起
1. 大数据的运作是在一个超出我们正常理解的范围之上的。
管理变革4:反数据垄断大亨
结语正在发生的未来
凡是过去,皆为序曲
大数据时代,名副其实的“信息社会”
更大的数据源于人本身
(本人新浪微博:http://weibo.com/zhouzxi?topnav=1&wvr=5,微信号:245924426,欢迎关注!)