1.概述
该研究探讨了大型语言模型(如GPT-3.5)与小型语言模型(如BERT)相比,在检测假新闻方面的有效性。研究结果表明,尽管大型语言模型能够提供有价值的多视角依据,但性能不如微调的小型语言模型,例如BERT。该研究将这种表现不佳归因于大型语言模型在选择和整合这些依据形成连贯结论方面的局限性。因此,该文提出大型语言模型不应该替代小型语言模型,但可以作为顾问,增强小型语言模型的检测能力。因此,论文提出了ARG,旨在有效地将大型语言模型的洞察力整合到小型语言模型中。实验显示,这种混合方法的表现优于传统模型,有效结合了大模型和小模型的优势。
2.LLM在虚假信息检测的局限
通过大模型和小模型的性能对比,我们可以发现:
-
性能比较:尽管大型语言模型通常被认为功能强大,但在所有四种提示方法中,它们的性能都不及经过特定任务微调的小型语言模型(SLM),例如BERT。这表明在特定任务上,小型模型通过微调获得的任务相关知识对于性能至关重要。
-
提示方法的效果:少量样本提示方法(Few-Shot Prompting)的性能优于零样本提示方法(Zero-Shot Prompting),表明在此任务中使用相关样本是重要的。然而,引入样本的数量只是缩小了与SLM的性能差距,并没有超越SLM。
-
思维链提示(CoT)的额外益处:在零样本设置中,特别是在英文数据集上,思维链提示带来了额外的性能增益。这说明了有效使用理由可能需要更仔细的设计,以及思维链方法在解析复杂问题时可能的优势。
作者也进一步从文本描述、常识、事实性分析等方向验证了大模型的多视角分析能力:
- 多视角分析能力:尽管在新闻真实性判断上表现不佳,大型语言模型通过零样本思维链提示显示出了独特的多视角分析能力,这对于小型语言模型来说是一个挑战。
- 基于视角的分析潜力:使用特定视角(常识)进行分析的子集表现优于全测试集上的零样本思维链结果,表明从特定视角进行分析具有潜力。
- 事实性分析的不可靠性:基于大型模型内部记忆进行事实性分析的表现低于平均水平,揭示了在使用大型语言模型进行事实性分析时的不可靠性。
3.ARG网络构建
(1)总体流程
首先,输入为新闻文本以及LLM生成的文本描述、常识原理。分别对新闻文本和依据进行编码。然后,对新闻文本及其原理进行交互,最后聚合新闻文本特征和交互特征,做出预测。
(2)Representation
使用bert分别对新闻文本和LLM生成的原理进行特征提取。
(3)News-Rationale Collaboration
News-Rationale Interaction:这是一个交叉注意力+平均池化模块。例如:f(t->x)由Rt为query,x提供key和value的交叉注意力,再经过池化得到
LLM Judgement Prediction:对原理的特征Rt和Rc进行预测,预测其是否为虚假新闻。起到辅助头的作用。
Rationale Usefulness Evaluation:对f(x->t)与f(x->c)再连一个辅助头。
(4)Prediction
将新闻特征与交互特征进行加权,预测其是否为虚假新闻
(5)ARGD
如上图所示, 对ARG进行蒸馏,保留ARG中新闻编码器(ecoder)和分类器,并训练一个rationale-aware feature simulator(用Transformer实现)和一个注意力模块来内化知识。
4.实验评估
(1)实验设置
- 方法比较:对比了三组方法:仅使用大型语言模型(LLM-Only)、仅使用小型语言模型(SLM-Only)和结合大型和小型语言模型(LLM+SLM)。
- 实施细节:保持了与第2部分相同的数据集和预训练模型设置,同时为ARG-D网络使用从ARG模型派生的参数。
(2)性能比较与削减研究
- 性能对比:ARG在宏观F1评分上超越了所有比较方法,显示了其有效性。即使是无理由版本的ARG-D也优于除ARG及其变体外的所有方法。
- 功能模块的有效性:移除LLM判断预测器或理由有效性评估器都会显著降低ARG的性能,突显了这两个结构的重要性。
- 互动结构的重要性:即便是ARG变体中表现最弱的一个,也仍然优于其他所有方法,显示了新闻-原理互动结构的设计重要性。