探索大型语言模型在文化常识方面的理解能力与局限性-实验装置

本文根据以下两个标准对 LLM 进行评估

  1. 了解特定文化和一般常识
  2. 了解特定文化背景下的一般常识

根据这些评估标准,本文使用中国、****印度、伊朗、肯尼亚和美国五个国家的文化和五种官方语言(中文、印地语、波斯语、苏马瓦里语和英语)进行了多任务实验。

创建多语言提示

在本实验中,我们制作了多语言提示,以研究语言在本地语言学习者的表现中所起的作用,以及不同语言在多大程度上可以提高(或降低)本地语言学习者识别文化常识的能力。

具体来说,对于以中文、印地语、波斯语、苏马瓦里语和英语书写的提示,Azure 的翻译 API 可用于将其翻译为目标语言。

此外,还通过使用不同的翻译工具重新翻译部分翻译结果来验证翻译质量。

测试LLM

为了全面测试 LLMs 在与文化常识相关的任务中的能力,本文在不同尺度上对 LLMs 进行了实验,包括

使用的开源模型有:LLAMA2(用于各种任务);Vicuna(由 ShareGPT 对 LLAMA2 进行微调);Falcon(具有开放的商业用途和干净的语料库 RefinedWeb)。

此外,闭源模型还有GPT-3.5-turbo 和****GPT-4,它们是托管在 Azure 上的 OpenAI 模型。

通过对这些模型执行下述任务,对每个模型进行了比较验证。

上一篇:Exams/ece241 2014 q4


下一篇:【大语言模型-论文精读】谷歌-BERT:用于语言理解的预训练深度双向Transformers