GPT笔记2024-02-05 20:03:34 GPT笔记 GPT与Transformer中解码器的结构类似。GPT由多个Transformer中的解码器块组成,与Transformer中解码器不同在于没有编码器-解码器注意力层。因此,GPT中解码器块由遮蔽自注意力层和基于位置的前馈神经网络。 模型通过语言模型方法进行学习。将原始文本与译文用特殊符号隔开输入到模型中,学习每个位置输出的损失,最小化平均损失对模型进行训练 应用: 机器翻译: 文本生成 上一篇:Transformer 在时间序列预测中的应用下一篇:【ARXIV2201】ConvNeXt