12.60 基于不可指定性的处理混合条件属性的模型树
模型树是处理混合条件属性(大数据多模态的一个特例)分类问题的一种有效方法,其中混合条件属性是指在信息决策表中部分条件属性的取值是符号型的,而另一部分条件属性的取值是数值型的。从全局来看,模型树是一种树结构,但在每一个叶子节点都有一个特定模型被构建。在基于不明确性的模型树 (AMT) 中,决策树的构建原则是尽量减少父节点划分产生子节点过程中的歧义。模型树的叶子节点是一个由极速学习机 (ELM) 算法[11-13]训练得到的三层前馈神经网络。在 AMT 中,我们分别用决策树和ELM来处理离散型属性和连续型属性。以下列出的算法 2 对基于不可指定性的模型树的生成过程进行了简要地描述。近年来深度学习[14]一直是一个非常热门的课题,通过与深度学习的结合,AMT 可以被扩展到属性是图像和文本的问题中。深度学习本质上是一个自动特征选择策略,最初开发深度学习的目的是对图像进行特征提取和分类。对于属性为图像的大数据的分类问题而言,结合深度学习的模型树将是一个非常有效的方法。最近的一些研究[15-16]表明,在性能方面 ELM 自动编码器要优于多种不同技术水平的深度学习算法。
算法 2:基于不明确性的模型树 (AMT)
输入:混合属性的大数据集 S
输出:基于不明确性的模型树
步骤 1:选出具有最小不明确性的条件属性 D i 作为模型树的根节点;
步骤 2:根据离散型条件属性的取值将当前父节点划分为若干个子节点;
步骤 3:对于每个子节点,选择出不明确性小于划分属性的离散型条件属性;
步骤 4:重复步骤 2 和 3,直到各个子节点不明确度的最大值小于给定的阈值;
步骤 5:将不再被划分的子节点作为叶子节点,在该叶子节点上对连续型条件属性的样例进行训练得到一个 ELM。
几个大数据集(样例个数超过两百万)的实验结果表明,我们所提方法的并行化算法有良好的性能。并行 AMT 算法的训练时间随着计算机数量的增多而减少,这表明并行算法是可以减少计算时间的;实验结果还表明,我们所提的 AMT 算法有很好的泛化能力。在基于 15 个数据集的对比实验中我们可以看到在大多数数据集上 AMT 算法的测试精度要高于功能树[17] 、朴素贝叶斯树 [18]和逻辑模型树[19-20]的测试精度。