《中国人工智能学会通讯》——11.78 结束语

11.78 结束语

特征选择和学习是大数据领域中数据降维与表示的重要方法。过去的工作往往只能适用于小规模数据或难于应用于体量大、复杂性高等特性的数据。设计通用性强、易于并行化或大规模化的高效特征选择和学习方法,是其能在实际大数据应用中发挥作用的关键所在。本文开展了并行大规模特征选择、复杂数据融合与高效学习、基于深度学习的特征表示模型、算法及应用研究。

● 特征选择是数据降维的典型方法,可以有效解决“维数灾难”,缓解“信息丰富、知识贫乏”现状,降低复杂度。我们构建了一个统一的并行大规模特征选择框架,进而提出了相应的模型 -数据双重并行方法。基于该框架,给出了四种典型的启发式特征选择算法的并行方法,并设计了相应的基于 Spark 的并行大规模特征选择算法。进而从方法层面运用粒计算理论对并行特征选择算法进行加速。

● 粗糙集理论,是继概率论、模糊集、证据理论之后又一个处理不确定性的数学工具。我们给出了复合信息系统的定义,进而扩展粗糙集模型,提出了复合粗糙集模型。该模型可以同时处理多种数据类型,为复杂数据融合提供了一个新的方法。概念近似集是基于粗糙集模型的特征选择算法的核心步骤,为有效计算概念近似集,提出了复合粗糙集模型中近似集的矩阵表示方法,并设计了基于矩阵的并行概念近似计算算法,同时实现了基于单 GPU和 Multi-GPU 的并行概念近似集计算算法。

● 实际大数据应用中标记数据不易获得,普遍存在标记数据稀少、标记数据昂贵等现象。为此,我们结合了生成式学习和判别式学习的优点,提出了一个新型混合网络结构 SUGAR。SUGAR 有主网络、辅助网络和桥组合而成,可以同时从无标记数据和有标记数据中学到更有意义的高层次特征。同时提出了基于 SUGAR 的深度网络模型。

● 在实际大数据应用中,如天文大数据中的恒星光谱识别问题,往往需要更加定制化的方法。我们回顾了恒星光谱的特点及传统处理方法,进而根据恒星光谱的特点,运用 Dropout、Maxout 等多种深度学习技术,提出了相应的基于深度学习的特征表示方法 LLDL。

上一篇:个人自主建站方式汇总(各种软件镜像快速建站)


下一篇:《中国人工智能学会通讯》——4.21 结束语