【大语言模型-论文精读】谷歌-BERT:用于语言理解的预训练深度双向Transformers

【大语言模型-论文精读】谷歌-BERT:用于语言理解的预训练深度双向Transformers

Note: 持续更新中,未完。。。


目录

文章目录

  • 【大语言模型-论文精读】谷歌-BERT:用于语言理解的预训练深度双向Transformers
    • 目录
    • 1. 引言
    • 2. 简介


1. 引言

@article{devlin2018bert,
  title={Bert: Pre-training of deep bidirectional transformers for language understanding},
  author={Devlin, Jacob},
  journal={arXiv preprint arXiv:1810.04805},
  year={2018}
}

在这里插入图片描述

BERT(Bidirectional Encoder Representations from Transformers)是由Google在2018年首次提出的一种预训练深度双向Transformers模型,具有较强的自然语言理解能力。这篇论文发表后,Bert模型迅速从自然语言理解(NLP)领域扩展应用到计算机视觉、多媒体、图形学图像等诸多领域,取得令人瞩目的效果。这篇经典的论文发表至今,已经被引用113695次!可以肯定地说:这是一篇几乎所有从事自然语言处理(Natural Lanugage Processing, NLP),深度学习(Deep Learning, DL)和大语言模型(Large language model, LLM)相关方向的研究者,必看且必了然于胸的一篇佳作。
在这里插入图片描述

2. 简介

语言模型预训练已经被证明可以有效地改善许多自然语言处理任务。这些任务包括:句子级任务和词符级任务。句子级任务,比如自然语言推理和释义,目的是通过对句子进行整体分析来预测句子之间的关系;词符级人物,比如命名实体识别和问题回答,要求模型在词符级产生细粒度的输出。

自然语言处理与理解(Natural Language Process & Understanding)
在这里插入图片描述

现有的两种策略可以将预训练好的语言表征(表示)应用于下游任务中:基于特征和微调(fine-tuning, FT)。

  • 基于特征的方法,比如ELMo,使用特定于任务的架构,将预先训练好的表征作为额外的特征。
  • 微调方法,比如生成式预训练Transformer(OpenAI GPT),引入最少得任务相关的参数,在下游任务中通过简单的微调所有预训练的模型参数。

这两种方法在预训练期间具有相同的目标函数,它们都使用单向语言模型来学习通用语言表征(表示)形式。

在谷歌的这篇论文中,作者认为:当前的技术限制了预训练表示的能力,特别是对于微调的方法。 最主要的限制是:标准语言模型是单向的,并且这限制了可以在预训练期间使用的模型结构的选择。 举个例子,

上一篇:探索大型语言模型在文化常识方面的理解能力与局限性-实验装置


下一篇:实验4 循环结构