https://www.jianshu.com/p/28f2bc62a75b
1.定义
利用SVD分解来找到词项-文档矩阵C的某个低秩逼近,在这个低秩逼近下能够为文档集中的每篇文档产生一个新的表示。同样,查询也可以映射到这个低秩表示的空间,从而可以基于新的表示来进行查询和文档的相似度计算。这个过程称为LSI。(潜在语义索引) LSI通过term-document矩阵的SVD将term和document投影到一个低维的空间中,在这个过程中丢弃了一些影响比较小(小的奇异值)的信息,这些信息可能是噪声。