ML之DataScience:基于机器学习处理数据科学(DataScience)任务(数据分析、特征工程、科学预测等)的简介、流程、案例应用执行详细攻略

数据科学的任务(数据分析、特征工程、科学预测等)的简介


       数据科学在20世纪60年代已被提出,只是当时并未获得学术界的注意和认可,1974年彼得.诺尔出版了《计算机方法的简明调查》中将数据科学定义为:“处理数据的科学,一旦数据与其代表事物的关系被建立起来,将为其他领域与科学提供借鉴”。1996年在日本召开的“数据科学、分类和相关方法”,已经将数据科学作为会议的主题词。2001年美国统计学教授威廉.s.克利夫兰发表了《数据科学:拓展统计学的技术领域的行动计划》,因此有人认为是克利夫兰首次将数据科学作为一个单独的学科,并把数据科学定义为统计学领域扩展到以数据作为现金计算对象相结合的部分,奠定了数据科学的理论基础。


      随着科技的发展,人类社会拥有数据规模增长很快,每时每刻、从天到地都有大量数据被产生和存储下来。比如这么多家社交网站,一天到晚从你的location到点击了什么连接,各种鸡毛蒜皮的数据都存着,他们不怕数据太多,就怕有啥没记录下来的;最近有家叫UrtheCast的公司,直接在国际空间站安装了第一个民用的高分辨率摄像机,对着地球不停拍照,一天能拍下2.5T的数据。数据量的增大和数据的多样化也促进了美国很多公司,进行数据分析来支持商务决策(data driven decision making)。


       数据科学是一个多学科领域,专注于从大量原始和结构化数据中找到切实可行的见解。该领域主要注重发掘我们没有意识到我们还不清楚的事情的答案。数据科学专家使用几种不同的技术来获得答案,包括计算机科学,预测分析,统计学和机器学习,通过海量数据集进行解析,努力为尚未被认识到的问题提供解决方案。

      数据科学家的主要目标是找出问题并找出潜在的研究途径,而不用担心具体的答案,更多的重点放在寻找正确的问题上。专家通过预测潜在趋势,探索不同和不相关的数据来源,并找到更好的分析信息的方式来实现这一点。


1、数据科学专业必备能力


计算机能力:一般来说,数据科学专业大多要求具备编程、计算机科学相关的专业背景。简单来说,就是对处理大数据所必需的Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能。

数学、统计、数据挖掘的能力:除了数学、统计方面的素养之外,还需要具备使用SPSS、SAS等主流统计分析软件的技能。其中,面向统计分析的开源编程语言及其运行环境“R”最近备受瞩目。

数据可视化:信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析,开发Web原型,使用外部API将图表、地图、Dashboard等其他服务统一起来,从而使分析结果可视化,这是对于数据科学家来说十分重要的技能之一。

2、数据科学知识体系


     数据科学主要以统计学、机器学习、数据可视化以及(某一)领域知识为理论基础,其主要研究内容包括数据科学基础理论、数据预处理、数据计算和数据管理。



数据科学的任务(数据分析、特征工程、科学预测等)的流程


1、处理数据科学任务的一般流程


ML之DataScience:基于机器学习处理数据科学(DataScience)任务(数据分析、特征工程、科学预测等)的简介、流程、案例应用执行详细攻略



2、数据分析


Py之matplotlib&seaborn :matplotlib&seaborn绘图的高级进阶之高级图可视化(基础图(直方图等),箱型图、密度图、小提琴图等)简介、案例应用之详细攻略


(1)、对数据进行探索性的分析,可视化工具包:pandas、matplothb/seaborn


Python语言学习之图表可视化:python语言中可视化工具包的简介、安装、使用方法、经典案例之详细攻略



(2)、初步把握数据:读取训练数据,取少量样本进行观测,并查看数据规模和数据类型。

— 标签、特征意义、特征类型等


(3)、单个特征分析:分析每列特征的分布。

— 直方图

— 包括标签列(对分类问题,可看出类别样本是否均衡)

— 检测奇异点(outliers )


(4)、多个特征之间相关性分析:分析每两列特征之间的相关性 。

— 特征与特征之间信息是否冗余

— 特征与标签是否线性相关


(5)、特征工程




 


上一篇:log4net.dll配置以及在项目中应用


下一篇:什么是Web Service?