12.58 大数据不确定性学习的研究
一个建立在常规数据集上的学习模型和算法一般是不能拓展到大数据的,原因有多个。基于不确定性的学习模型自然也是如此。不确定性的处理对大数据学习更为重要,有些与不确定性有关的问题只有在大数据集上才有,在常规数据集上原本不是问题。我们在此简要介绍两种基于大数据学习的不确定性的研究,一种是基于模糊性的半监督学习;另一种是基于不可指定性的处理混合条件属性的模型树。其中,第一项研究工作,基本满足如图 1 所示的基于不确定性的大数据学习的一般框架[2] 。
图 1 中,分类器 A 的训练精度与分类器 B 的训练精度相同,但是 A 的不确定性小于 B 的不确定性(例如模糊性或不明确性)。我们称对于某些类型的大数据(并非所有类型),分类器 A 比 B 有更强的泛化能力。与传统的模式识别观点相比,A 的这一优势为学习算法的设计提供了一个截然不同的思路。