一、阅前了解
1、LDA:(来自百度百科)
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。
LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。
二、论文内容
TMvis为浙江工业大学汤颖教授及其研究生在计算机辅助设计与图形学学报发表的论文,该论文的核心是通过可视化的方法帮助用户解决主题建模中难解释和难调整的两大难题。通过设计两个可视化区域:语料库优化可视化区域,协助用户高效构建字典;主题模型可视化区,帮助用户理解当前模型并改进。通过用户与可视化系统的交互从而实现主题模型的交互及提升。其交互提升的整体流程如下图所示。
1、语料库优化可视化区域
语料库可视化区域主要用于支持用户高效的选取无用词。通过体现所有词空间关系分布的总览图和展现部分具体词的列表视图来实现。总览图为所有词条聚类分布的散点图,列表视图包括基于词频的词条排名列表和对应词条的相似排名列表。词条聚类分布散点图首先运用t-sne对对词向量降维然后用k-means聚类得到可视化图形。相似排名列表由基于余弦距离计算词条相似性获得。词条排名列表由词条的特征频率作为排名指标计算出词条的排名信息。
|
|
|
2、主题模型可视化工作区域
通过LDA模型训练得到文档,再对主题模型提取信息得到文档级别信息、主题标签分布、关键词信息、主题词信息。本文主要设计了三种可视化视图分针对文档级别信息(文档名)与关键词信息、标签分布信息、主题词信息。文档级别信息(文档名)与关键词信息由词云图实现,文档名词云中词的大小对应文档在该主题下的概率, 关键词词云中词的大小对应该词的Textrank 得分. 词云中的颜色随机生成。标签分布信息由南丁格尔玫瑰图实现,图中扇形的母线长度映射为该主题中对应标签的总数。主题词信息由气泡云图显示,其中气泡的大小映射该词在对应主题下的概率值。
参考文献:
[1] 汤颖, 苏建明, 童宁. TMvis:基于LDA的主题建模可视分析系统[J]. 计算机辅助设计与图形学学报, 2019(10).