数据挖掘之模型评估
划分原始数据集的方法
将原始数据按一定比例分割为训练数据和检验数据,通过训练数据来构建模型,检验数据进行模型评估,通过测试模型在检验集上的准确率和错误率来评估分类模型的分类性能和泛化能力。通常使用的几种划分原始数据集的方法:
保持方法
将类标号己知的全量样本分割为两个无重叠的子集,其中训练集用于学习构建模型,检验集用于模型准确率和泛化能力的估计,分割的比重按照实际数量量级和需求设置,准确率取训练集构建的模型在检验集上的准确率。这种方法有很大的局限性,一方面会使训练样本量变少,构建的模型效果不如全量数据构建的模型好,另一方面由于训练集和检验集不是独立的,所以模型性能依赖于分割比例,有其不确定性。
交叉验证
(1)二折交叉验证:把全量样本分割为数量一致的两部分,轮换作为训练和检验集。
(2)k折交叉验证:将全量样本进行随机k等分,依次将随机k-1份用于建模,剩下的用于模型评估,迭代k次确保所有样本都进行一次验证。由于重复k次,时间开销较大。
模型评估
混淆矩阵
分类模型的效果强弱通过模型能够正确判别检验样本类别的能力进行度量模型应用的预测结果和样本真实结果的对比表称为混淆矩阵。下表为二分类问题的混淆矩阵。
f11表示原本属于种类1被预测为种类1的记录数,f10表示原本属于种类1被预测为种类0的记录数,f10表示原本属于种类0被预测为种类1的记录数,f00表示原本属于种类0被预测为种类0的记录数。混淆矩阵记录了分类模型检验数据的结果,但是比较起来不够直观。为此,可以使用一些性能度量,如准确率,如下。
性能度量
ROC 曲线
比较不同算法模型性能好坏时,最常用的一种方法是受试者工作特征曲线 ( receiver operating characteristic curve,ROC曲线),又称为感受性曲线(sensitivity curve)。ROC 曲线是展不分类模型命中率和误判率相关联的一种几何表现形式。在ROC 曲线上,竖轴代表命中率,横轴代表误判率,曲线上的每一个点对应一个分类模型的命中率和误判率值,通过调节阈值改变分类结果得到一系列点最终可以绘制出曲线。ROC 曲线下方的面积大小可以作为分类模型平均性能的度量,面积越大则模型的平均性能越好。ROC 曲线示意图如下图。
参考链接:http://cdmd.cnki.com.cn/Article/CDMD-10013-1018162176.htm