LLAMA2入门（二）-----Transformer基础知识

2024-10-20 21:25:08

在 Transformer 中，Q（Query）、K（Key）、V（Value）是自注意力机制（Self-Attention Mechanism）的核心部分。它们分别代表查询、键和值，用于计算输入序列中的每个元素如何与其他元素交互。理解 Q、K、V 的含义对理解 Transformer 的自注意力机制至关重要。

Q、K、V 的生成

在 Transformer 中，给定输入序列的每个 token（词向量表示），通过线性变换生成查询向量（Q）、键向量（K）和值向量（V）。这些向量用于计算注意力权重，并根据权重对输入序列中的信息进行加权平均。

对每个输入向量 xix_ixi，通过以下公式生成查询、键和值：
$W_q \cdot x_i, \quad K = W_k \cdot x_i, \quad V = W_v \cdot x_i$
其中 $W_q$ 、 $W_k$ 、 $W_v$ 是学习到的线性投影矩阵，分别将输入向量投影到查询、键和值的子空间。

Q（Query）——查询

定义：查询向量（Query）表示的是当前 token（位置）试图去询问其他 token（位置）关于某些信息的需求。

作用：在自注意力机制中，查询向量用于寻找与之相关的其他 token。它通过与其他 token 的键向量（K）进行点积计算相似度，判断当前 token 需要关注哪些其他 token。

举个例子，如果查询向量代表某个词（例如句子中的“the”），那么这个查询向量会去和其他词的键向量比较，决定它应该关注哪些词。比如，在句子“the cat sat on the mat”中，第一个“the”可能会特别关注“cat”。

K（Key）——键

定义：键向量（Key）是每个 token 提供给其他 token 参考的表示，它表示该 token 所携带的某种信息，供查询向量进行匹配。

作用：键向量是与查询向量进行相似度计算的目标。每个 token 的键向量表示这个 token 可以提供的信息。查询向量会与所有键向量进行比较，以确定自己应该关注哪些键向量。

在自注意力机制中，查询向量和键向量的点积结果表示了它们之间的相关性，点积值越高，表示查询更关注这个键。

V（Value）——值

定义：值向量（Value）表示当前 token 所包含的实际信息。这些信息是通过注意力权重加权平均后，输出给最终的自注意力结果。

作用：值向量是在注意力权重的指导下被提取的信息。当查询和键确定了每个 token 之间的关注度后，值向量被用来构建最终的输出表示。值向量中的信息是模型用于生成新表示的基础。

换句话说，值向量是每个 token 所包含的信息，而自注意力机制决定了每个查询位置应该从哪些键位置提取多少值向量的信息。

Q、K、V 的工作流程

整个自注意力机制的计算流程如下：

1.生成 Q、K、V 向量

对每个输入 token $x_i$ ，通过线性变换生成查询向量 $Q$ 、键向量 $K$ 和值向量 $V$ 。
$Q_i = W_q \cdot x_i, \quad K_i = W_k \cdot x_i, \quad V_i = W_v \cdot x_i$
这些向量的维度通常比输入 token 的维度小。

2.计算查询与键的相似度（点积）

对每个查询向量 $Q_i$ 和所有的键向量 $K_j$ 进行点积，计算它们的相似度。这可以理解为“该查询应该关注多少信息”：
$attention_score i j = Q i ⋅ K j \text{attention\_score}_{ij} = Q_i \cdot K_j$
点积结果表示查询向量 $Q_i$ 和键向量 $K_j$ 之间的相似度，表示查询位置 $i$ 应该关注键位置 $j$ 的程度。

3.应用 softmax 函数

为了将点积结果转化为一个概率分布，对查询与所有键的相似度进行 softmax 归一化：
$\alpha_{ij} = \frac{\exp(Q_i \cdot K_j)}{\sum_{k=1}^{n} \exp(Q_i \cdot K_k)}$
这一步确保每个查询向量对所有键的权重之和为 1，称为注意力权重。

4.加权值向量

最后，使用这些注意力权重 $\alpha_{ij}$ 对所有值向量 $V_j$ 进行加权平均，生成每个查询向量的最终输出：
$\text{output}_i = \sum_{j=1}^{n} \alpha_{ij} V_j$
通过加权不同的值向量，查询向量 QiQ_iQi 可以从不同的键位置获取不同量的信息，最终形成新的上下文表示。

5.多头注意力机制（Multi-Head Attention）

在多头注意力机制中， $Q$ 、 $K$ 、 $V$ 向量会被分成多个子空间，分别计算多个“头”的自注意力。每个头都使用不同的线性变换矩阵 $W_q, W_k, W_v$ ，这样模型可以在不同的子空间中学习到不同的注意力模式。

每个头的输出会被拼接起来，再通过一个线性变换，生成最终的自注意力输出。

Q、K、V 示例说明

假设我们有一个输入句子："The cat sat on the mat"，并通过 Transformer 模型的自注意力机制处理。

查询向量（Q）：例如，当我们在处理词 “the” 时，它的查询向量 $Q_{\text{the}}$ 表示当前 “the” 在句子中需要关注哪些其他词。

键向量（K）：键向量 $K_{\text{cat}}, K_{\text{mat}}$ 表示这些词的信息，这些信息供 “the” 的查询向量进行匹配。

值向量（V）:值向量 $V_{\text{cat}}, V_{\text{mat}}$ 包含了这些词的实际信息，表示这些词在句子中的具体语义内容。模型会根据查询与键的匹配度，决定从 “cat” 或 “mat” 的值向量中获取多少信息。

当 “the” 的查询向量与 “cat” 和 “mat” 的键向量进行点积后，模型可以决定 “the” 应该从 “cat” 和 “mat” 这些词中获取多少信息，最终形成 “the” 的上下文表示。

总结：Q、K、V 的含义

Q（Query）：表示当前 token 向其他 token 请求的信息。

K（Key）：表示当前 token 提供给其他 token 的信息。

V（Value）：表示当前 token 的实际内容，在注意力权重的作用下输出。

通过计算查询与键之间的相似性，Transformer 能够动态调整每个 token 对其他 token 的关注程度，从而捕捉序列中的依赖关系并生成上下文相关的表示。

序列长度

序列长度（sequence length） 通常是指句子中 token 的数量。具体来说，句子中的每个词（或子词）被分割成 token 后，形成一个序列，序列长度就是这个序列中 token 的个数。

例如，对于句子 "I love AI"，如果没有进行任何特殊的分割，序列长度为 3，因为这个句子有 3 个词（每个词作为一个 token）。
如果使用某种分词方法（如 BPE），可能将一些单词分割成多个子词。例如，“AI” 可能会被分割成两个子词 token，这时序列长度会增加。

在深度学习任务中，尤其是在自然语言处理（NLP）中，序列长度在不同的输入句子之间可能是不同的，因此通常会通过**填充（padding）**来使所有序列达到相同的长度。

嵌入维度

嵌入维度是指每个 token（词或子词）被表示为的向量的长度。在 NLP 中，词汇（或子词）通常会被转换为一个固定维度的向量，称为嵌入向量（embedding vector）。

例如，假设一个嵌入向量的维度是 512，那么每个 token 都会被转换为一个 512 维的向量。嵌入维度决定了这些向量的长度。

嵌入向量是通过嵌入层（Embedding Layer）生成的。这个嵌入层将每个 token 映射到一个高维向量空间，在这个空间中，具有相似语义的 token 会靠得更近。

关系：序列长度与嵌入维度

在 NLP 模型中，输入数据通常以张量的形式表示。假设我们处理一个批次的句子输入，张量的形状通常为 (batch_size, sequence_length, embedding_dimension)。

batch_size：批次大小，表示一次输入中包含多少个句子。
sequence_length：每个句子的长度，即该句子中的 token 数。
embedding_dimension：每个 token 的嵌入向量长度，即每个 token 被表示成多大的向量。

例如，假设我们有一个批次大小为 2（即一次输入 2 个句子），每个句子的序列长度为 5，每个 token 的嵌入维度为 512，那么输入张量的形状就是 (2, 5, 512)。每个句子中的 5 个 token 都会被转换成 512 维的嵌入向量。

总结

序列长度是句子中的 token 数，表示句子在模型中的输入长度。

嵌入维度是每个 token 的嵌入向量长度，表示每个 token 在模型中被表示成的高维向量。

码农公寓