Transformer 模型图解详解

概述

2017年，Google在论文《Attention Is All You Need》中提出了Transformer模型，使用Self-Attention结构取代了在NLP任务中常用的RNN网络结构。相比RNN，其最大优点是可以并行计算，大幅提升了训练效率。Transformer的提出开启了预训练语言模型和大模型时代的新篇章。

1. Transformer 整体架构

1.1 黑盒视角

将Transformer视为一个黑盒，在机器翻译任务中，它接收一种语言的句子作为输入，输出另一种语言的翻译结果：

输入: "Hello world" (英文) → Transformer黑盒 → 输出: "你好世界" (中文)

1.2 Encoder-Decoder 架构

Transformer本质上是一个Encoder-Decoder架构，中间部分可以分为两个组件：

编码组件（Encoder Stack）：由多层编码器堆叠而成，负责将输入序列编码为上下文表示
解码组件（Decoder Stack）：由相同层数的解码器堆叠而成，负责根据编码结果生成输出序列

原始论文中使用了6层编码器和6层解码器，实际应用中可以根据任务需求调整层数。

点击放大查看

1.3 编码器单层结构

每个编码器由两个子层组成：

Self-Attention 层（自注意力层）：让编码器在对特定词编码时，使用输入句子中其他词的信息
Feed Forward Network（前馈网络，FFN）：对每个位置独立进行非线性变换

每个编码器结构相同，但使用不同的权重参数。

点击放大查看

编码器的输入先流入Self-Attention层，它可以让编码器在对特定词进行编码时使用输入句子中其他词的信息。例如翻译一个词时，不仅关注当前词，还会关注其他词的信息。然后，Self-Attention层的输出会流入前馈网络。

1.4 解码器单层结构

解码器也有编码器中的两层，但之间还有一个额外的注意力层：

Masked Self-Attention：带掩码的自注意力，保证因果性
Encoder-Decoder Attention（交叉注意力）：帮助解码器关注输入句子的相关部分
Feed Forward Network：前馈网络

交叉注意力类似于seq2seq模型中的注意力机制，让解码器能够聚焦于源序列的关键位置。

2. 数据流：从输入到输出

2.1 词嵌入（Embedding）

和通常的NLP任务一样，首先使用词嵌入算法将每个词转换为词向量。在Transformer论文中，词嵌入向量的维度是 512。

"我"   →  [0.2, -0.5, 0.1, ..., 0.3]  (512维向量)
"喜欢" →  [-0.1, 0.4, 0.7, ..., -0.2]  (512维向量)
"AI"   →  [0.5, 0.3, -0.2, ..., 0.1]  (512维向量)

嵌入仅发生在最底层的编码器中。所有编码器都会接收到一个大小为512的向量列表：

底部编码器接收的是词嵌入向量
其他编码器接收的是上一个编码器的输出

这个列表大小（序列长度）是可以设置的超参数，通常设置为训练数据集中最长句子的长度。

2.2 编码器内部数据流

对输入序列完成嵌入操作后，每个词都会流经编码器的两个子层：

输入向量 → Self-Attention层 → Feed Forward层 → 输出到下一层编码器

3. Self-Attention（自注意力）机制

3.1 直观理解

通过一个例子来理解Self-Attention：

句子：The animal didn't cross the street because it was too tired

问题：这个句子中的 it 指的是什么？是指 animal 还是 street？

对人来说这是一个简单的问题，但对算法来说却不那么简单。

当模型在处理 it 时，Self-Attention机制使其能够将 it 和 animal 关联起来：

处理 "it" 时：
- 注意力权重: animal ←─── 0.6 ───→ it
- 注意力权重: street ←─── 0.1 ───→ it
- 注意力权重: tired  ←─── 0.2 ───→ it

模型判断 "it" 更可能指代 "animal"

当模型处理每个词时，Self-Attention机制使得模型不仅能够关注当前位置的词，而且能够关注句子中其他位置的词，从而可以更好地编码这个词。

如果你熟悉RNN，可以对比理解：RNN通过维护隐状态将已处理的先前词/向量的表示与当前正在处理的词/向量进行合并，而Transformer使用Self-Attention机制将其他词的理解融入到当前词中。

3.2 Scaled Dot-Product Attention

Self-Attention的基本计算结构称为 Scaled Dot-Product Attention。

对于Self-Attention来说，Q（Query）、K（Key）和V（Value）三个矩阵均来自同一输入，按照以下步骤计算：

Step 1: 通过权重矩阵投影得到 Q, K, V
        Q = X × W_Q
        K = X × W_K
        V = X × W_V

Step 2: 计算 Q 和 K^T 的点积
        Scores = Q × K^T

Step 3: 除以 √d_k 进行缩放（防止点积结果过大）
        Scaled = Scores / √d_k

Step 4: Softmax归一化为概率分布
        Weights = Softmax(Scaled)

Step 5: 用权重对 V 做加权求和
        Output = Weights × V

完整公式：

\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

3.3 为什么需要 Q、K、V？

Query（查询）：当前位置要"查询"的信息，表示"我在找什么"
Key（键）：每个位置"提供"的信息，表示"我这里有什么"
Value（值）：每个位置实际输出的内容，表示"我要传递什么"

计算注意力分数时，Query与Key的相似度决定了关注程度，然后用这个关注度对Value进行加权求和。

3.4 具体计算示例

假设输入只有两个词："Thinking" 和 "Machines"，每个词被嵌入为512维向量。

第1步：为每个输入向量创建三个向量：Query向量、Key向量和Value向量。

它们是通过词向量分别和3个权重矩阵（W_Q、W_K、W_V）相乘得到的，这3个矩阵通过训练获得。

新向量的维数通常小于词向量的维数。例如新向量为64维，而embedding向量为512维。这是为了使多头注意力计算保持一致的结构性选择。

第2步：计算注意力分数。

假设正在计算第一个词"Thinking"的自注意力。需要根据"Thinking"这个词，对句子中的每个词都计算一个分数。这些分数决定了在编码"Thinking"时，需要对句子中其他位置的每个词放置多少注意力。

Scores[Thinking, Thinking] = Q_Thinking · K_Thinking = 112
Scores[Thinking, Machines] = Q_Thinking · K_Machines = 96

第3步：将分数除以 √d_k（假设d_k=64，则除以8）。

Scaled[Thinking, Thinking] = 112 / 8 = 14
Scaled[Thinking, Machines] = 96 / 8 = 12

第4步：Softmax归一化。

Softmax([14, 12]) ≈ [0.88, 0.12]

这些Softmax分数决定了在编码当前位置的词时，对所有位置的词分别有多少注意力。当前位置的词通常有最高分数，但与当前词相关的其他词也会获得较高分数。

第5步：将每个Softmax分数分别与每个Value向量相乘，然后求和。

Output_Thinking = 0.88 × V_Thinking + 0.12 × V_Machines

这样就完成了自注意力的计算。生成的向量会输入到前馈网络中。

3.5 矩阵形式的自注意力

实际实现中，上述计算是以矩阵形式进行的，以便实现更快的并行处理速度：

输入矩阵 X: (seq_len, d_model)

Q = X × W_Q    →  (seq_len, d_k)
K = X × W_K    →  (seq_len, d_k)
V = X × W_V    →  (seq_len, d_v)

Attention = Softmax(Q × K^T / √d_k) × V
           →  (seq_len, seq_len) × (seq_len, d_v)
           →  (seq_len, d_v)

矩阵X中的每一行表示输入句子中每一个词的词向量。矩阵Q、K和V中的每一行分别表示Query向量、Key向量和Value向量。

4. 多头注意力机制（Multi-Head Attention）

4.1 核心思想

在Transformer论文中，通过添加多头注意力机制进一步完善了自注意力层：

通过 h 个不同的线性变换对Query、Key和Value进行映射
将不同的Attention结果拼接起来
再进行一次线性变换

点击放大查看

4.2 为什么需要多头？

每一组注意力用于将输入映射到不同的子表示空间，这使得模型可以在不同子表示空间中关注不同的位置。

回到前面的例子：当我们对句子中的"it"进行编码时：

一个注意力头关注"The animal"（指代关系）
另一个注意力头关注"tired"（属性修饰）

模型对"it"的表示，融入了"animal"和"tired"的部分表达，理解更加全面。

4.3 本质理解

Multi-Head Attention的本质是：在参数总量保持不变的情况下，将同样的Query、Key、Value映射到原来的高维空间的不同子空间中进行Attention计算，在最后一步再合并不同子空间中的Attention信息。

这样做的好处：

降低每个头的维度：计算每个head的Attention时每个向量的维度降低，在某种意义上防止了过拟合
多角度关联：由于Attention在不同子空间中有不同的分布，Multi-Head Attention实际上是寻找了序列之间不同角度的关联关系
信息综合：在拼接步骤中，将不同子空间中捕获到的关联关系综合起来

5. 位置前馈网络（Position-wise Feed-Forward Networks）

位置前馈网络就是一个全连接前馈网络，每个位置的词都单独经过这个完全相同的前馈神经网络。

其由两个线性变换组成：

FFN(x) = \max(0, xW_1 + b_1)W_2 + b_2

也可以写作：

FFN(x) = \text{ReLU}(xW_1 + b_1)W_2 + b_2

其中：

输入维度：d_model（512）
隐藏层维度：通常为 4 × d_model = 2048
激活函数：原始论文使用ReLU，现代模型多使用GELU或SwiGLU

FFN对每个位置独立做特征变换，增加了模型的非线性表达能力。

6. 残差连接和层归一化

6.1 残差连接（Residual Connection）

编码器结构中每个子层（Self-Attention层和FFN层）都有一个残差连接，再执行层标准化操作：

输出 = LayerNorm(x + Sublayer(x))

残差连接的作用：

缓解梯度消失：提供梯度直连通路
简化学习目标：只需要学习残差 F(x) = H(x) - x
稳定训练：帮助训练深层网络

6.2 层归一化（Layer Normalization）

对每个样本的特征维度进行归一化，使其均值为0、方差为1：

\text{LayerNorm}(x) = \gamma \cdot \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta

为了方便残差连接，编码器和解码器中的所有子层和嵌入层的输出维度需要保持一致（d_model = 512）。

7. 位置编码（Positional Encoding）

7.1 为什么需要位置编码？

到目前为止描述的模型中缺少一个关键要素：表示序列中词顺序的方法。

Self-Attention机制本身是完全对称的——交换两个输入词的位置，输出也会相应交换，模型无法区分序列顺序。为了解决这个问题，Transformer为每个输入的词嵌入向量添加一个位置向量。

7.2 正弦余弦位置编码

Transformer原文使用正弦余弦函数生成位置编码：

PE(pos, 2i) = \sin\left(\frac{pos}{10000^{2i/d_{model}}}\right)

PE(pos, 2i+1) = \cos\left(\frac{pos}{10000^{2i/d_{model}}}\right)

其中：

pos：词在序列中的位置（0, 1, 2, ...）
i：维度索引
d_model：模型维度（512）

7.3 位置编码的特点

每个位置有一个独特的位置编码向量
位置编码遵循特定的周期性模式
有助于模型确定每个词的位置和不同词之间的距离
可扩展到未知序列长度：即使遇到训练时未见过的更长序列，也能生成对应的位置编码

最终输入为词嵌入与位置编码相加：

最终输入 = token_embedding + positional_encoding

7.4 现代替代方案

现代大模型通常使用以下位置编码变体：

可学习位置编码（Learnable PE）：BERT使用，将位置编码作为可训练参数
旋转位置编码（RoPE）：LLaMA等模型使用，通过旋转矩阵注入位置信息
ALiBi：直接在注意力分数上添加与距离相关的偏置

8. 解码器详解

8.1 编码器与解码器协同工作

通过前面的介绍，已经了解：

第一个编码器的输入是源序列
最后一个编码器的输出是一组注意力向量Key和Value
这些向量将在每个解码器的Encoder-Decoder Attention层被使用

点击放大查看

8.2 解码流程

编码阶段：Encoder一次性读入整个源序列，经过N层编码得到memory
解码阶段：每个时间步输出一个元素，重复直到输出结束符

解码阶段的每一步：

当前已生成的序列作为Decoder输入
Decoder通过Masked Self-Attention关注已生成的部分
通过Encoder-Decoder Attention关注源序列
通过FFN进行特征变换
输出下一个token的概率分布

8.3 Encoder-Decoder Attention

Encoder-Decoder Attention层的工作原理和多头自注意力机制类似，不同之处在于：

Query：来自Decoder上一层的输出
Key和Value：来自Encoder栈的输出

这样解码器在生成每个词时，都能关注到源序列中最相关的部分。

9. Mask（掩码）机制

Mask表示掩码，它对某些值进行掩盖，使其在参数更新时不产生效果。Transformer模型里面涉及两种mask：

9.1 Padding Mask

问题：每个批次输入序列的长度不同，需要对较短的序列进行填充（padding）。

做法：在较短的序列后面填充特殊token（如<pad>）。这些填充位置没有实际意义，Attention机制不应该把注意力放在这些位置上。

具体实现：把这些位置的注意力分数加上一个非常大的负数（负无穷），经过Softmax后，这些位置的概率就会接近0。

9.2 Sequence Mask（因果掩码）

问题：Decoder在训练时，为了防止看到未来的信息而"作弊"，需要对当前位置之后的信息进行屏蔽。

做法：产生一个上三角矩阵，上三角的值全为负无穷。把这个矩阵作用在每个序列上，当前位置只能关注到它及之前的位置。

Sequence Mask 矩阵示例（4×4）：

     pos0  pos1  pos2  pos3
pos0 [  0,  -∞,  -∞,  -∞]  → pos0只能看自己
pos1 [  0,   0,  -∞,  -∞]  → pos1能看pos0和pos1
pos2 [  0,   0,   0,  -∞]  → pos2能看pos0~pos2
pos3 [  0,   0,   0,   0]  → pos3能看pos0~pos3

9.3 Mask 使用场景总结

Encoder的Self-Attention：只需要Padding Mask
Decoder的Masked Self-Attention：需要Padding Mask + Sequence Mask（两者相加）
Encoder-Decoder Attention：只需要Padding Mask

10. 最后的线性层和Softmax层

解码器栈的输出是一个float向量。如何把这个向量转换为一个具体的词？

10.1 线性层

通过一个线性层（全连接神经网络），将解码器栈的输出向量映射到一个更长的向量——logits向量。

假设模型的输出词汇表有10000个英文单词，则logits向量有10000个数字，每个数表示一个单词的分数。

10.2 Softmax层

Softmax层把分数转换为概率：

所有分数转换为正数
所有概率加起来等于1
选择最高概率所对应的单词，作为这个时间步的输出

Logits:    [2.5, -1.2, 0.3, 5.1, ..., 1.0]  (10000维)
              ↓ Softmax
Probs:     [0.01, 0.001, 0.005, 0.85, ..., 0.02]
              ↓ Argmax
Output:    "hello"  (概率最高的词)

11. 面试常见问题

Q1: 为什么Transformer要用LayerNorm而不是BatchNorm？

A：

BatchNorm对batch维度做归一化，依赖于batch size，而Transformer处理变长序列，推理时batch size可能为1
LayerNorm对每个样本单独归一化，不依赖batch，更适合变长序列场景
Transformer中每个token位置独立处理，LayerNorm更适合

Q2: 为什么Transformer比RNN更适合处理长序列？

A：

并行计算：Transformer可以一次性处理整个序列，RNN必须按时间步顺序计算
长程依赖：自注意力直接建模任意两个位置的依赖，与距离无关；RNN长距离信息容易丢失
梯度传播：Transformer通过残差连接，梯度传播更顺畅

Q3: 为什么点积注意力要除以√d_k？

A：当d_k很大时，点积结果的方差会随d_k增大而增大，导致Softmax进入饱和区（梯度极小）。除以√d_k后，方差重新变为1，Softmax保持在合理区间，梯度健康，训练更稳定。

Q4: 多头注意力为什么有效？只用单头不行吗？

A：

不同头可以在不同子空间学习不同的注意力模式
有的头关注局部语法，有的头关注长程语义
多头相当于集成学习，多个注意力分布综合起来效果更好
拆分为多个头后每个头维度降低，总计算量与单个大注意力差不多，但表达能力更强

Q5: Transformer中主要参数集中在哪些地方？

A：

词嵌入层：vocab_size × d_model
多头注意力层：4 × d_model² × n_layers（Q/K/V/O四个投影矩阵）
FFN层：8 × d_model² × n_layers（隐藏层通常为4d_model）

总体而言，FFN层参数最多，其次是注意力层。

Q6: Self-Attention的时间复杂度是多少？

A： O(n² × d)，其中n是序列长度。主要开销在计算n×n的注意力矩阵。相比之下，RNN是O(n × d²)。短序列时Transformer更快，长序列时计算量增长较快。

Q7: Padding Mask和Sequence Mask有什么区别？

A：

Padding Mask：处理变长序列的填充位置，让模型不关注pad token
Sequence Mask：保证Decoder的因果性，每个位置只能看到之前的位置，不能看到未来信息

12. 总结

Transformer的核心设计可以概括为：

组件	作用
Self-Attention	让每个位置都能关注全局信息，直接建模任意位置依赖
Multi-Head Attention	在多个子空间并行计算注意力，捕捉不同角度的关联
FFN	对每个位置进行非线性特征变换，增强表达能力
残差连接	缓解梯度消失，帮助深层网络训练
LayerNorm	稳定每层的特征分布
位置编码	注入序列顺序信息
Mask机制	处理填充和保证因果性

Transformer凭借其并行计算能力和强大的长程依赖建模能力，成为了现代大语言模型的基础架构，从BERT到GPT，从T5到LLaMA，无一不是基于Transformer的思想发展而来。

Transformer 模型图解详解

概述

1. Transformer 整体架构

1.1 黑盒视角

将Transformer视为一个黑盒，在机器翻译任务中，它接收一种语言的句子作为输入，输出另一种语言的翻译结果：

输入: "Hello world" (英文) → Transformer黑盒 → 输出: "你好世界" (中文)

1.2 Encoder-Decoder 架构

Transformer本质上是一个Encoder-Decoder架构，中间部分可以分为两个组件：

编码组件（Encoder Stack）：由多层编码器堆叠而成，负责将输入序列编码为上下文表示
解码组件（Decoder Stack）：由相同层数的解码器堆叠而成，负责根据编码结果生成输出序列

原始论文中使用了6层编码器和6层解码器，实际应用中可以根据任务需求调整层数。

点击放大查看

1.3 编码器单层结构

每个编码器由两个子层组成：

Self-Attention 层（自注意力层）：让编码器在对特定词编码时，使用输入句子中其他词的信息
Feed Forward Network（前馈网络，FFN）：对每个位置独立进行非线性变换

每个编码器结构相同，但使用不同的权重参数。

点击放大查看

1.4 解码器单层结构

解码器也有编码器中的两层，但之间还有一个额外的注意力层：

Masked Self-Attention：带掩码的自注意力，保证因果性
Encoder-Decoder Attention（交叉注意力）：帮助解码器关注输入句子的相关部分
Feed Forward Network：前馈网络

交叉注意力类似于seq2seq模型中的注意力机制，让解码器能够聚焦于源序列的关键位置。

2. 数据流：从输入到输出

2.1 词嵌入（Embedding）

和通常的NLP任务一样，首先使用词嵌入算法将每个词转换为词向量。在Transformer论文中，词嵌入向量的维度是 512。

"我"   →  [0.2, -0.5, 0.1, ..., 0.3]  (512维向量)
"喜欢" →  [-0.1, 0.4, 0.7, ..., -0.2]  (512维向量)
"AI"   →  [0.5, 0.3, -0.2, ..., 0.1]  (512维向量)

嵌入仅发生在最底层的编码器中。所有编码器都会接收到一个大小为512的向量列表：

底部编码器接收的是词嵌入向量
其他编码器接收的是上一个编码器的输出

这个列表大小（序列长度）是可以设置的超参数，通常设置为训练数据集中最长句子的长度。

2.2 编码器内部数据流

对输入序列完成嵌入操作后，每个词都会流经编码器的两个子层：

输入向量 → Self-Attention层 → Feed Forward层 → 输出到下一层编码器

3. Self-Attention（自注意力）机制

3.1 直观理解

通过一个例子来理解Self-Attention：

句子：The animal didn't cross the street because it was too tired

问题：这个句子中的 it 指的是什么？是指 animal 还是 street？

对人来说这是一个简单的问题，但对算法来说却不那么简单。

当模型在处理 it 时，Self-Attention机制使其能够将 it 和 animal 关联起来：

处理 "it" 时：
- 注意力权重: animal ←─── 0.6 ───→ it
- 注意力权重: street ←─── 0.1 ───→ it
- 注意力权重: tired  ←─── 0.2 ───→ it

模型判断 "it" 更可能指代 "animal"

当模型处理每个词时，Self-Attention机制使得模型不仅能够关注当前位置的词，而且能够关注句子中其他位置的词，从而可以更好地编码这个词。

3.2 Scaled Dot-Product Attention

Self-Attention的基本计算结构称为 Scaled Dot-Product Attention。

对于Self-Attention来说，Q（Query）、K（Key）和V（Value）三个矩阵均来自同一输入，按照以下步骤计算：

Step 1: 通过权重矩阵投影得到 Q, K, V
        Q = X × W_Q
        K = X × W_K
        V = X × W_V

Step 2: 计算 Q 和 K^T 的点积
        Scores = Q × K^T

Step 3: 除以 √d_k 进行缩放（防止点积结果过大）
        Scaled = Scores / √d_k

Step 4: Softmax归一化为概率分布
        Weights = Softmax(Scaled)

Step 5: 用权重对 V 做加权求和
        Output = Weights × V

完整公式：

\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

3.3 为什么需要 Q、K、V？

Query（查询）：当前位置要"查询"的信息，表示"我在找什么"
Key（键）：每个位置"提供"的信息，表示"我这里有什么"
Value（值）：每个位置实际输出的内容，表示"我要传递什么"

计算注意力分数时，Query与Key的相似度决定了关注程度，然后用这个关注度对Value进行加权求和。

3.4 具体计算示例

假设输入只有两个词："Thinking" 和 "Machines"，每个词被嵌入为512维向量。

第1步：为每个输入向量创建三个向量：Query向量、Key向量和Value向量。

它们是通过词向量分别和3个权重矩阵（W_Q、W_K、W_V）相乘得到的，这3个矩阵通过训练获得。

新向量的维数通常小于词向量的维数。例如新向量为64维，而embedding向量为512维。这是为了使多头注意力计算保持一致的结构性选择。

第2步：计算注意力分数。

Scores[Thinking, Thinking] = Q_Thinking · K_Thinking = 112
Scores[Thinking, Machines] = Q_Thinking · K_Machines = 96

第3步：将分数除以 √d_k（假设d_k=64，则除以8）。

Scaled[Thinking, Thinking] = 112 / 8 = 14
Scaled[Thinking, Machines] = 96 / 8 = 12

第4步：Softmax归一化。

Softmax([14, 12]) ≈ [0.88, 0.12]

第5步：将每个Softmax分数分别与每个Value向量相乘，然后求和。

Output_Thinking = 0.88 × V_Thinking + 0.12 × V_Machines

这样就完成了自注意力的计算。生成的向量会输入到前馈网络中。

3.5 矩阵形式的自注意力

实际实现中，上述计算是以矩阵形式进行的，以便实现更快的并行处理速度：

输入矩阵 X: (seq_len, d_model)

Q = X × W_Q    →  (seq_len, d_k)
K = X × W_K    →  (seq_len, d_k)
V = X × W_V    →  (seq_len, d_v)

Attention = Softmax(Q × K^T / √d_k) × V
           →  (seq_len, seq_len) × (seq_len, d_v)
           →  (seq_len, d_v)

矩阵X中的每一行表示输入句子中每一个词的词向量。矩阵Q、K和V中的每一行分别表示Query向量、Key向量和Value向量。

4. 多头注意力机制（Multi-Head Attention）

4.1 核心思想

在Transformer论文中，通过添加多头注意力机制进一步完善了自注意力层：

通过 h 个不同的线性变换对Query、Key和Value进行映射
将不同的Attention结果拼接起来
再进行一次线性变换

点击放大查看

4.2 为什么需要多头？

每一组注意力用于将输入映射到不同的子表示空间，这使得模型可以在不同子表示空间中关注不同的位置。

回到前面的例子：当我们对句子中的"it"进行编码时：

一个注意力头关注"The animal"（指代关系）
另一个注意力头关注"tired"（属性修饰）

模型对"it"的表示，融入了"animal"和"tired"的部分表达，理解更加全面。

4.3 本质理解

这样做的好处：

降低每个头的维度：计算每个head的Attention时每个向量的维度降低，在某种意义上防止了过拟合
多角度关联：由于Attention在不同子空间中有不同的分布，Multi-Head Attention实际上是寻找了序列之间不同角度的关联关系
信息综合：在拼接步骤中，将不同子空间中捕获到的关联关系综合起来

5. 位置前馈网络（Position-wise Feed-Forward Networks）

位置前馈网络就是一个全连接前馈网络，每个位置的词都单独经过这个完全相同的前馈神经网络。

其由两个线性变换组成：

FFN(x) = \max(0, xW_1 + b_1)W_2 + b_2

也可以写作：

FFN(x) = \text{ReLU}(xW_1 + b_1)W_2 + b_2

其中：

输入维度：d_model（512）
隐藏层维度：通常为 4 × d_model = 2048
激活函数：原始论文使用ReLU，现代模型多使用GELU或SwiGLU

FFN对每个位置独立做特征变换，增加了模型的非线性表达能力。

6. 残差连接和层归一化

6.1 残差连接（Residual Connection）

编码器结构中每个子层（Self-Attention层和FFN层）都有一个残差连接，再执行层标准化操作：

输出 = LayerNorm(x + Sublayer(x))

残差连接的作用：

缓解梯度消失：提供梯度直连通路
简化学习目标：只需要学习残差 F(x) = H(x) - x
稳定训练：帮助训练深层网络

6.2 层归一化（Layer Normalization）

对每个样本的特征维度进行归一化，使其均值为0、方差为1：

\text{LayerNorm}(x) = \gamma \cdot \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta

为了方便残差连接，编码器和解码器中的所有子层和嵌入层的输出维度需要保持一致（d_model = 512）。

7. 位置编码（Positional Encoding）

7.1 为什么需要位置编码？

到目前为止描述的模型中缺少一个关键要素：表示序列中词顺序的方法。

7.2 正弦余弦位置编码

Transformer原文使用正弦余弦函数生成位置编码：

PE(pos, 2i) = \sin\left(\frac{pos}{10000^{2i/d_{model}}}\right)

PE(pos, 2i+1) = \cos\left(\frac{pos}{10000^{2i/d_{model}}}\right)

其中：

pos：词在序列中的位置（0, 1, 2, ...）
i：维度索引
d_model：模型维度（512）

7.3 位置编码的特点

每个位置有一个独特的位置编码向量
位置编码遵循特定的周期性模式
有助于模型确定每个词的位置和不同词之间的距离
可扩展到未知序列长度：即使遇到训练时未见过的更长序列，也能生成对应的位置编码

最终输入为词嵌入与位置编码相加：

最终输入 = token_embedding + positional_encoding

7.4 现代替代方案

现代大模型通常使用以下位置编码变体：

可学习位置编码（Learnable PE）：BERT使用，将位置编码作为可训练参数
旋转位置编码（RoPE）：LLaMA等模型使用，通过旋转矩阵注入位置信息
ALiBi：直接在注意力分数上添加与距离相关的偏置

8. 解码器详解

8.1 编码器与解码器协同工作

通过前面的介绍，已经了解：

第一个编码器的输入是源序列
最后一个编码器的输出是一组注意力向量Key和Value
这些向量将在每个解码器的Encoder-Decoder Attention层被使用

点击放大查看

8.2 解码流程

编码阶段：Encoder一次性读入整个源序列，经过N层编码得到memory
解码阶段：每个时间步输出一个元素，重复直到输出结束符

解码阶段的每一步：

当前已生成的序列作为Decoder输入
Decoder通过Masked Self-Attention关注已生成的部分
通过Encoder-Decoder Attention关注源序列
通过FFN进行特征变换
输出下一个token的概率分布

8.3 Encoder-Decoder Attention

Encoder-Decoder Attention层的工作原理和多头自注意力机制类似，不同之处在于：

Query：来自Decoder上一层的输出
Key和Value：来自Encoder栈的输出

这样解码器在生成每个词时，都能关注到源序列中最相关的部分。

9. Mask（掩码）机制

Mask表示掩码，它对某些值进行掩盖，使其在参数更新时不产生效果。Transformer模型里面涉及两种mask：

9.1 Padding Mask

问题：每个批次输入序列的长度不同，需要对较短的序列进行填充（padding）。

做法：在较短的序列后面填充特殊token（如<pad>）。这些填充位置没有实际意义，Attention机制不应该把注意力放在这些位置上。

具体实现：把这些位置的注意力分数加上一个非常大的负数（负无穷），经过Softmax后，这些位置的概率就会接近0。

9.2 Sequence Mask（因果掩码）

问题：Decoder在训练时，为了防止看到未来的信息而"作弊"，需要对当前位置之后的信息进行屏蔽。

做法：产生一个上三角矩阵，上三角的值全为负无穷。把这个矩阵作用在每个序列上，当前位置只能关注到它及之前的位置。

Sequence Mask 矩阵示例（4×4）：

     pos0  pos1  pos2  pos3
pos0 [  0,  -∞,  -∞,  -∞]  → pos0只能看自己
pos1 [  0,   0,  -∞,  -∞]  → pos1能看pos0和pos1
pos2 [  0,   0,   0,  -∞]  → pos2能看pos0~pos2
pos3 [  0,   0,   0,   0]  → pos3能看pos0~pos3

9.3 Mask 使用场景总结

Encoder的Self-Attention：只需要Padding Mask
Decoder的Masked Self-Attention：需要Padding Mask + Sequence Mask（两者相加）
Encoder-Decoder Attention：只需要Padding Mask

10. 最后的线性层和Softmax层

解码器栈的输出是一个float向量。如何把这个向量转换为一个具体的词？

10.1 线性层

通过一个线性层（全连接神经网络），将解码器栈的输出向量映射到一个更长的向量——logits向量。

假设模型的输出词汇表有10000个英文单词，则logits向量有10000个数字，每个数表示一个单词的分数。

10.2 Softmax层

Softmax层把分数转换为概率：

所有分数转换为正数
所有概率加起来等于1
选择最高概率所对应的单词，作为这个时间步的输出

Logits:    [2.5, -1.2, 0.3, 5.1, ..., 1.0]  (10000维)
              ↓ Softmax
Probs:     [0.01, 0.001, 0.005, 0.85, ..., 0.02]
              ↓ Argmax
Output:    "hello"  (概率最高的词)

11. 面试常见问题

Q1: 为什么Transformer要用LayerNorm而不是BatchNorm？

A：

BatchNorm对batch维度做归一化，依赖于batch size，而Transformer处理变长序列，推理时batch size可能为1
LayerNorm对每个样本单独归一化，不依赖batch，更适合变长序列场景
Transformer中每个token位置独立处理，LayerNorm更适合

Q2: 为什么Transformer比RNN更适合处理长序列？

A：

并行计算：Transformer可以一次性处理整个序列，RNN必须按时间步顺序计算
长程依赖：自注意力直接建模任意两个位置的依赖，与距离无关；RNN长距离信息容易丢失
梯度传播：Transformer通过残差连接，梯度传播更顺畅

Q3: 为什么点积注意力要除以√d_k？

Q4: 多头注意力为什么有效？只用单头不行吗？

A：

不同头可以在不同子空间学习不同的注意力模式
有的头关注局部语法，有的头关注长程语义
多头相当于集成学习，多个注意力分布综合起来效果更好
拆分为多个头后每个头维度降低，总计算量与单个大注意力差不多，但表达能力更强

Q5: Transformer中主要参数集中在哪些地方？

A：

词嵌入层：vocab_size × d_model
多头注意力层：4 × d_model² × n_layers（Q/K/V/O四个投影矩阵）
FFN层：8 × d_model² × n_layers（隐藏层通常为4d_model）

总体而言，FFN层参数最多，其次是注意力层。

Q6: Self-Attention的时间复杂度是多少？

A： O(n² × d)，其中n是序列长度。主要开销在计算n×n的注意力矩阵。相比之下，RNN是O(n × d²)。短序列时Transformer更快，长序列时计算量增长较快。

Q7: Padding Mask和Sequence Mask有什么区别？

A：

Padding Mask：处理变长序列的填充位置，让模型不关注pad token
Sequence Mask：保证Decoder的因果性，每个位置只能看到之前的位置，不能看到未来信息

12. 总结

Transformer的核心设计可以概括为：

组件	作用
Self-Attention	让每个位置都能关注全局信息，直接建模任意位置依赖
Multi-Head Attention	在多个子空间并行计算注意力，捕捉不同角度的关联
FFN	对每个位置进行非线性特征变换，增强表达能力
残差连接	缓解梯度消失，帮助深层网络训练
LayerNorm	稳定每层的特征分布
位置编码	注入序列顺序信息
Mask机制	处理填充和保证因果性

大模型面试

大模型面试

Transformer模型图解详解

Transformer 模型图解详解

概述

1. Transformer 整体架构

1.1 黑盒视角

1.2 Encoder-Decoder 架构

1.3 编码器单层结构

1.4 解码器单层结构

2. 数据流：从输入到输出

2.1 词嵌入（Embedding）

2.2 编码器内部数据流

3. Self-Attention（自注意力）机制

3.1 直观理解

3.2 Scaled Dot-Product Attention

3.3 为什么需要 Q、K、V？

3.4 具体计算示例

3.5 矩阵形式的自注意力

4. 多头注意力机制（Multi-Head Attention）

4.1 核心思想

4.2 为什么需要多头？

4.3 本质理解

5. 位置前馈网络（Position-wise Feed-Forward Networks）

6. 残差连接和层归一化

6.1 残差连接（Residual Connection）

6.2 层归一化（Layer Normalization）

7. 位置编码（Positional Encoding）

7.1 为什么需要位置编码？

7.2 正弦余弦位置编码

7.3 位置编码的特点

7.4 现代替代方案

8. 解码器详解

8.1 编码器与解码器协同工作

8.2 解码流程

8.3 Encoder-Decoder Attention

9. Mask（掩码）机制

9.1 Padding Mask

9.2 Sequence Mask（因果掩码）

9.3 Mask 使用场景总结

10. 最后的线性层和Softmax层

10.1 线性层

10.2 Softmax层

11. 面试常见问题

Q1: 为什么Transformer要用LayerNorm而不是BatchNorm？

Q2: 为什么Transformer比RNN更适合处理长序列？

Q3: 为什么点积注意力要除以√d_k？

Q4: 多头注意力为什么有效？只用单头不行吗？

Q5: Transformer中主要参数集中在哪些地方？

Q6: Self-Attention的时间复杂度是多少？

Q7: Padding Mask和Sequence Mask有什么区别？

12. 总结

Transformer模型图解详解

Transformer 模型图解详解

概述

1. Transformer 整体架构

1.1 黑盒视角

1.2 Encoder-Decoder 架构

1.3 编码器单层结构

1.4 解码器单层结构

2. 数据流：从输入到输出

2.1 词嵌入（Embedding）

2.2 编码器内部数据流

3. Self-Attention（自注意力）机制

3.1 直观理解

3.2 Scaled Dot-Product Attention

3.3 为什么需要 Q、K、V？

3.4 具体计算示例

3.5 矩阵形式的自注意力

4. 多头注意力机制（Multi-Head Attention）

4.1 核心思想

4.2 为什么需要多头？

4.3 本质理解

5. 位置前馈网络（Position-wise Feed-Forward Networks）

6. 残差连接和层归一化

6.1 残差连接（Residual Connection）

6.2 层归一化（Layer Normalization）

7. 位置编码（Positional Encoding）

7.1 为什么需要位置编码？

7.2 正弦余弦位置编码