这是TextRank的路线:
>汇总的文件表示为tf-idf矩阵
>(tf-idf矩阵)*(tf-idf矩阵).Transpose =一些图的邻接矩阵,其顶点是
实际上是上述文件的句子
>页面排名适用于此图表 – >返回每个句子的PR值
现在,该PR值实际上是该邻接矩阵的特征值
这背后的物理意义或直觉是什么?
为什么Eigen值实际上是排名?
以下是Page Rank的链接:
http://www.cs.princeton.edu/~chazelle/courses/BIB/pagerank.htm
以下是上页摘录:
PageRank或PR(A)可以使用简单的迭代算法计算,并且对应于web的规范化链接矩阵的主特征向量.
TextRank的链接:
https://joshbohde.com/blog/document-summarization
解决方法:
首先,你的问题有点不对劲. eignevalues不是分数.相反,静止特征向量的条目是分数.
Textrank适用于graphical approach to words.它有许多变体,但它们有以下常见步骤:
>创建一个加权图,其中顶点是实体(单词或句子),权重是实体之间的转换概率.
>找到与图表关联的stochastic matrix,并根据其固定分布对每个实体进行评分.
在这种情况下,图形构建如下.首先,构建矩阵,其中行是句子而列是单词.矩阵的条目由TF-IDF指定.为了找到句子之间的相似性,将归一化矩阵乘以其变换.这是因为,对于每两个句子和一个单词,基于每个句子中单词的TF-IDF的乘积,句子之间存在相似性,并且我们需要对所有单词进行总结.如果你仔细考虑一下,总结产品就是转置的矩阵乘法.
所以现在我们有一个随机矩阵P,可以解释为从句子i到句子j的转换概率.得分是静态分布x,这意味着
P x = x = 1 x.
这意味着x是与特征值1相关联的特征向量.到Perron-Frobenius Theorem,该特征向量存在于某些温和条件下,1是最大特征值.最后一部分基本上是Pagerank.