《大数据导论》——1.1节概念与术语

本节书摘来自华章社区《大数据导论》一书中的第1章,第1.1节概念与术语,作者瓦吉德·哈塔克(Wajid Khattak),保罗·布勒(Paul Buhler),更多章节内容可以访问云栖社区“华章社区”公众号查看

1.1 概念与术语
作为开端,我们首先要定义几个基本概念和术语,以便大家理解。
1.1.1 数据集
我们把一组或者一个集合的相关联的数据称作数据集。数据集中的每一个成员数据,都应与数据集中的其他成员拥有相同的特征或者属性。以下是一些数据集的例子:
存储在一个文本文件中的推文(tweet)
一个文件夹中的图像文件
存储在一个CSV格式文件中的从数据库中提取出来的行数据
存储在一个XML文件中的历史气象观测数据
图1.1中显示了三种不同数据格式的数据集。


《大数据导论》——1.1节概念与术语

1.1.3 数据分析学
数据分析学是一个包含数据分析,且比数据分析更为宽泛的概念。数据分析学这门学科涵盖了对整个数据生命周期的管理,而数据生命周期包含了数据收集、数据清理、数据组织、数据分析、数据存储以及数据管理等过程。此外,数据分析学还涵盖了分析方法、科学技术、自动化分析工具等。在大数据环境下,数据分析学发展了数据分析在高度可扩展的、大量分布式技术和框架中的应用,使之有能力处理大量的来自不同信息源的数据。图1.3显示了代表数据分析学的符号。


《大数据导论》——1.1节概念与术语

大数据分析(学)的生命周期通常会对大量非结构化且未经处理过的数据进行识别、获取、准备和分析等操作,从这些数据中提取出能够作为模式识别的输入,或者加入现有的企业数据库的有效信息。
不同的行业会以不同的方式使用大数据分析工具和技术。以下述三者为例:
在商业组织中,利用大数据的分析结果能降低运营开销,还有助于优化决策。
在科研领域,大数据分析能够确认一个现象的起因,并且能基于此提出更为精确的预测。
在服务业领域,比如公众行业,大数据分析有助于人们以更低的开销提供更好的服务。
大数据分析使得决策有了科学基础,现在做决策可以基于实际的数据而不仅仅依赖于过去的经验或者直觉。根据分析结果的不同,我们大致可以将分析归为以下4类:
描述性分析
诊断性分析
预测性分析
规范性分析
不同的分析类型将需要不同的技术和分析算法。这意味着在传递多种类型的分析结果的时候,可能会有大量不同的数据、存储、处理要求。如图1.4所示,生成高质量的分析结果将加大分析环境的复杂性和开销。


《大数据导论》——1.1节概念与术语

从描述性分析到规范性分析,价值和复杂性都在不断提升
1.描述性分析
描述性分析往往是对已经发生的事件进行问答和总结。这种形式的分析需要将数据置于生成信息的上下文中考虑。
相关问题可能包括:
过去12个月的销售量如何?
根据事件严重程度和地理位置分类,收到的求助电话的数量如何?
每一位销售经理的月销售额是多少?
据估计,生成的分析结果80%都是自然可描述的。描述性分析提供了较低的价值,但也只需要相对基础的训练集。
如图1.5所示,进行描述性分析常常借助即席报表和仪表板(dashboard)。报表常常是静态的,并且是以数据表格或图表形式呈现的历史数据。查询处理往往基于企业内部存储的可操作数据,例如客户关系管理系统(CRM)或者企业资源规划系统(ERP)。


《大数据导论》——1.1节概念与术语

图左侧的操作系统,经过描述性分析工具的处理,能够生成图右侧的报表或者数据仪表板
2.诊断性分析
诊断性分析旨在寻求一个已经发生的事件的发生原因。这类分析的目标是通过获取一些与事件相关的信息来回答有关的问题,最后得出事件发生的原因。
相关的问题可能包括:
为什么Q2商品比Q1卖得多?
为什么来自东部地区的求助电话比来自西部地区的要多?
为什么最近三个月内病人再入院的比率有所提升?
诊断性分析比描述性分析提供了更加有价值的信息,但同时也要求更加高级的训练集。如图1.6所示,诊断性分析常常需要从不同的信息源搜集数据,并将它们以一种易于进行下钻和上卷分析的结构加以保存。而诊断性分析的结果可以由交互式可视化界面显示,让用户能够清晰地了解模式与趋势。诊断性分析是基于分析处理系统中的多维数据进行的,而且,与描述性分析相比,它的查询处理更加复杂。
3.预测性分析
预测性分析常在需要预测一个事件的结果时使用。通过预测性分析,信息将得到增值,这种增值主要表现在信息之间是如何相关的。这种相关性的强度和重要性构成了基于过去事件对未来进行预测的模型的基础。这些用于预测性分析的模型与过去已经发生的事件的潜在条件是隐式相关的,理解这一点很重要。如果这些潜在的条件改变了,那么用于预测性分析的模型也需要进行更新。


《大数据导论》——1.1节概念与术语

4.规范性分析
规范性分析建立在预测性分析的结果之上,用来规范需要执行的行动。其注重的不仅是哪项操作最佳,还包括了其原因。换句话说,规范性分析提供了经得起质询的结果,因为它们嵌入了情境理解的元素。因此,这种分析常常用来建立优势或者降低风险。
下面是两个这类问题的样例:
这三种药品中,哪一种能提供最好的疗效?
何时才是抛售一只股票的最佳时机?
规范性分析比其他三种分析的价值都高,同时还要求*的训练集,甚至是专门的分析软件和工具。这种分析将计算大量可能出现的结果,并且推荐出最佳选项。解决方案从解释性的到建议性的均有,同时还能包括各种不同情境的模拟。
这种分析能将内部数据与外部数据结合起来。内部数据可能包括当前和过去的销售数据、消费者信息、产品数据和商业规则。外部数据可能包括社会媒体数据、天气情况、*公文等等。如图1.8所示,规范性分析涉及利用商业规则和大量的内外部数据来模拟事件结果,并且提供最佳的做法。


《大数据导论》——1.1节概念与术语

规范性分析通过引入商业规则、内部数据以及外部数据来进行深入彻底的分析
1.1.4 商务智能
商务智能(BI)通过分析由业务过程和信息系统生成的数据让一个组织能够获取企业绩效的内在认识。分析的结果可以用于改进组织绩效,或者通过修正检测出的问题来管理和引导业务过程。商务智能在企业中使用大数据分析,并且这种分析通常会被整合到企业数据仓库中以执行分析查询。如图1.9所示,商务智能的输出能以仪表板显示,它允许管理者访问和分析数据,且可以潜在地改进分析查询,从而对数据进行深入挖掘。

《大数据导论》——1.1节概念与术语

上一篇:json转换为csv-基于python2


下一篇:阿里云ECS服务器使用体验