大语言模型-Transformer-Attention Is All You Need-一、背景信息：

2024-07-20 07:28:53

Transformer是一种由谷歌在2017年提出的深度学习模型。

主要用于自然语言处理（NLP）任务，特别是序列到序列（Sequence-to-Sequence）的学习问题，如机器翻译、文本生成等。Transformer彻底改变了之前基于循环神经网络（RNNs）和长短期记忆网络（LSTMs）的序列建模范式，并且在性能上取得了显著提升。

码农公寓