挖掘建模①—分类与预测

python基础知识及数据分析工具安装及简单使用(Numpy/Scipy/Matplotlib/Pandas/StatsModels/Scikit-Learn/Keras/Gensim))
数据探索(数据清洗)①——数据质量分析(对数据中的缺失值、异常值和一致性进行分析)
数据探索(数据清洗)②—Python对数据中的缺失值、异常值和一致性进行处理

挖掘建模①—分类与预测

挖掘建模

经过数据探索与数据预处理部分,得到了可以直接建模的数据。根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等模型,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。

分类与预测

分类主要是预测分类标号(离散、无序的),而预测主要是建立连续值函数模型,预测给定自变量的条件下因变量的值。

分类

分类,指将数据映射到预先定义好的群组或类。
因为在分析测试数据之前,类别就已经确定了,所以分类通常被称为有监督的学习。分类算法要求基于数据属性值来定义类别。分类就是构造一个分类模型,把具有某些特征的数据项映射到某个给定的类别上。下图是一个三分类问题:
挖掘建模①—分类与预测

实现过程

挖掘建模①—分类与预测
挖掘建模①—分类与预测

  • 第一步是学习步:通过归纳分析训练样本集来建立分类模型得到分类规则
  • 第二步是分类步:先用已知的检验样本集评估分类规则的准确率,如果准确率是可以接受的,则使用该模型对未知类标号的待测样本集进行预测。

预测

确定两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制。

实现过程

预测的实践过程与分类的时间过程类似。

  • 第一步是通过训练集建立预测属性(数值型的)的函数模型
  • 第二步是预测,模型通过检验后再进行预测或控制。

常用的分类与预测算法

挖掘建模①—分类与预测

回归分析

回归分析是通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的一种有效工具,在工商管理、经济、社会、医学和生物学等领域应用十分广泛。

回归分析研究的范围:
挖掘建模①—分类与预测
在数据挖掘环境下,自变量与因变量具有相关关系,自变量的值是已知的,因变量是要预测的

常用的回归模型如下:
挖掘建模①—分类与预测

  • 线性回归模型是相对简单的回归模型,但是通常因变量和自变量之间呈现某种曲线关系,就要建立非线性回归模型。
  • Logistic回归属于概率型非线性回归,分为二分类和多分类的回归模型。对于二分类的Logistic回归,因变量 y 只有“是、否”两个取值,记为1和0。假设在自变量作用下, y 取“是”的概率是p ,则取“否”的概率是1-p ,研究的是当y 取“是”发生的概率 p 与自变量 的关系。
  • 当自变量之间出现多重共线性时,用最小二乘估计估计的回归系数将会不准确,消除多重共线性的参数改进的估计方法主要有岭回归和主成分回归。
Logistic函数

挖掘建模①—分类与预测
挖掘建模①—分类与预测

挖掘建模①—分类与预测

决策树

决策树是一树状结构,它的每一个树结点可以是叶节点,对应着某一类,也可以对应着一个划分,将该节点对应的样本集划分成若干个子集,每个子集对应一个节点。对一个分类问题,从已知类标记的训练元组学习并构造出决策树是一个从上至下,分而治之的过程。

常用的决策树算法
挖掘建模①—分类与预测
ID3算法是一种基于信息熵的决策树分类算法,它选择当前样本集中具有最大信息增益值的属性作为测试属性;样本集的划分则依据测试属性的取值进行,测试属性有多少不同取值就将样本集划分为多少子样本集,同时,决策树上相应于该样本集的节点长出新的叶子节点。ID3算法根据信息理论,采用划分后样本集的不确定性作为衡量划分好坏的标准,用信息增益值度量:信息增益值越大,不确定性越小。因此,ID3算法在每个非叶节点选择信息增益最大的属性作为测试属性。该属性使得对结果划分中的样本分类所需的信息最小,并反映划分的最小随机性。

人工神经网络

人工神经网络(Artificial Neural Networks,ANNs),是模拟生物神经网络进行信息处理的一种数学模型。它以对大脑的生理研究成果为基础,其目的在于模拟大脑的某些机理与机制,实现一些特定的功能。
挖掘建模①—分类与预测

挖掘建模①—分类与预测
人工神经网络的学习也称为训练,指的是神经网络在受到外部环境的刺激下调整神经网络的参数,使神经网络以一种新的方式对外部环境作出反应的一个过程。在分类与预测中,人工神将网络主要使用有指导的学习方式,即根据给定的训练样本,调整人工神网络的参数以使网络输出接近于已知的样本类标记或其他形式的因变量。

挖掘建模①—分类与预测
挖掘建模①—分类与预测

分类与预测算法评价

分类与预测模型对训练集进行预测而得出的准确率并不能很好地反映预测模型未来的性能,为了有效判断一个预测模型的性能表现,需要一组没有参与预测模型建立的数据集,并在该数据集上评价预测模型的准确率,这组独立的数据集叫测试集。模型预测效果评价,通常用相对绝对误差、平均绝对误差、根均方差、相对平方根误差等指标来衡量。

绝对误差与相对误差

挖掘建模①—分类与预测

平均绝对误差

挖掘建模①—分类与预测

均方误差

挖掘建模①—分类与预测

均方根误差

挖掘建模①—分类与预测

平均绝对百分误差

挖掘建模①—分类与预测

Kappa统计

Kappa统计是比较两个或多个观测者对同一事物,或观测者对同一事物的两次或多次观测结果是否一致,以由于机遇造成的一致性和实际观测的一致性之间的差别大小作为评价基础的统计指标。Kappa统计量和加权Kappa统计量不仅可以用于无序和有序分类变量资料的一致性、重现性检验,而且能给出一个反映一致性大小的“量”值。

Kappa取值在[-1,+1]之间,其值的大小均有不同意义:

  • Kappa = +1说明两次判断的结果完全一致
  • Kappa = -1说明两次判断的结果完全不一致
  • Kappa = 0说明两次判断的结果是机遇造成
  • Kappa < 0说明一致程度比机遇造成的还差,两次检查结果很不一致,在实际应用中无意义
  • Kappa > 0此时说明有意义,Kappa愈大,说明一致性愈好
  • Kappa≥0.75说明已经取得相当满意的一致程度
  • Kappa<0.4说明一致程度不够

识别准确度

挖掘建模①—分类与预测

识别精确率

挖掘建模①—分类与预测

反馈率

挖掘建模①—分类与预测

ROC曲线

挖掘建模①—分类与预测

混淆矩阵

挖掘建模①—分类与预测

上一篇:解决Matlab安装扩展包spams的问题“错误使用 mex error C2039: “isspace”: 不是“std”的成员”


下一篇:大数据批流处理方案分析