自动文档摘要评价方法：Edmundson，ROUGE

2023-08-20 17:26:46

　　自动文档摘要评价方法大致分为两类：

（1）内部评价方法(Intrinsic Methods)：提供参考摘要，以参考摘要为基准评价系统摘要的质量。系统摘要与参考摘要越吻合，质量越高。

（2）外部评价方法(Extrinsic Methods)：不提供参考摘要，利用文档摘要代替原文档执行某个文档相关的应用。例如：文档检索、文档聚类、文档分类等，能够提高应用性能的摘要被认为是质量好的摘要。

　　其中内部评价方法，是比较直接比较纯粹的，被学术界最常使用的文摘评价方法，将系统生成的自动摘要与专家摘要采用一定的方法进行比较也是目前最为常见的文摘评价模式。

　　下面介绍两个比较简单的，也是在自动摘要评价以及自动文档摘要的相关国际评测中经常会被用到的两个内部评价方法：Edmundson和ROUGE。

（一）Edmundson：

　　Edmundson评价方法比较简单，可以客观评估，就是通过比较机械文摘（自动文摘系统得到的文摘）与目标文摘的句子重合率(coselection rate)的高低来对系统摘要进行评价。也可以主观评估，就是由专家比较机械文摘与目标文摘所含的信息，然后给机械文摘一个等级评分。类如等级可以分为：完全不相似，基本相似，很相似，完全相似等。

　　Edmundson比较的基本单位是句子，通过句子级标号分隔开的文本单元，句子级标号包括“。”“：”“；”“！”“？”，并且只允许专家从原文中抽取句子，而不允许专家根据自己对原文的理解重新生成句子，专家文摘和机械文摘的句子都按照在原文中出现的先后顺序给出。

　　计算公式：

　　每一个机械文摘的重合率为按三个专家给出的文摘得到的重合率的平均值：

即对所有专家的重合率取一个均值，Pi为相对于第i个专家的重合率，n为专家的数目。

（二）ROUGE：

　　ROUGE是由ISI的Lin和Hovy提出的一种自动摘要评价方法，现被广泛应用于DUC¹（Document Understanding Conference）的摘要评测任务中。

　　ROUGE基于摘要中n元词(n-gram)的共现信息来评价摘要，是一种面向n元词召回率的评价方法。ROUGE准则由一系列的评价方法组成，包括ROUGE-1，ROUGE-2，ROUGE-3，ROUGE-4，以及ROUGE-Skipped-N-gram等，1、2、3、4分别代表基于1元词到4元词以有跳跃的N-gram模型。在自动文摘相关研究中，一般根据自己的具体研究内容选择合适的N元语法ROUGE方法。

　　计算公式：

　　其中，n-gram表示n元词，{Ref Summaries}表示参考摘要，即事先获得的标准摘要，Countmatch(n-gram)表示系统摘要和参考摘要中同时出现n-gram的个数，Count(n-gram)则表示参考摘要中出现的n- gram个数。

不难看出，ROUGE公式是由召回率的计算公式演变而来的，分子可以看作“检出的相关文档数目”，即系统生成摘要与标准摘要相匹配的N-gram个数，分母可以看作“相关文档数目”，即标准摘要中所有的N-gram个数。

---------------------------------------------------------------------------------------------------------------------------------------------------------------

注：

　　1. DUC(Document Understanding Conference)评测是由NIST(National Institute of Standards and Technology)从2001年开始举办的摘要评估领域比较有名的一个国际评测。从2008年开始，DUC逐渐转移到TAC(Text Analysis Conference)，依然由NIST举办，感兴趣的可以参考下面两个官方链接：

http://duc.nist.gov/

http://www.nist.gov/tac/

码农公寓

相关文章