23 流水线并行与模型并行

流水线并行（Pipeline Parallelism）

优化目标

当模型大到单卡无法容纳时，我们需要使用多卡训练。流水线并行的目标是：

训练更大模型：理想状况下，模型大小和GPU数量成线性关系
更快训练速度：理想状况下，训练速度和GPU数量成线性关系

面临的主要挑战：

内存限制：每块GPU不仅要存模型参数，还要存中间激活结果
带宽限制：卡间通讯开销可能抹平多卡带来的速度提升

朴素模型并行的问题

朴素模型并行将模型按层拆分到不同GPU，做一轮forward再统一做一轮backward：

点击放大查看

存在两个主要问题：

GPU利用率低，气泡大：大部分时间GPU处于空闲状态。对于K块GPU，气泡占比为 K/(K+M)，当GPU数量K越大，空置比例越接近1，资源浪费严重。
中间结果内存占用大：每块GPU需要保存所有micro-batch的中间激活，内存压力大。

Gpipe 流水线并行解决方案

Gpipe是Google提出的经典流水线并行框架，主要通过两个核心技术解决上述问题：

1. 切分micro-batch

在原有的mini-batch基础上，进一步切分成多个更小的micro-batch，让流水线跑起来：

点击放大查看

切分后，bubble的时间复杂度变为：

bubble时间 = (K - 1) / (M + K - 1)

其中K是GPU数量，M是micro-batch数量。当 M >= 4K 时，bubble产生的空转占比已经很小，可以忽略不计。

2. Re-materialization (激活检查点)

动机：虽然切分micro-batch解决了GPU空置问题，但每个micro-batch都需要保存中间激活，内存压力仍然很大。

核心思想：用时间换空间。几乎不保存中间结果，等到backward的时候，再重新forward计算一遍。只保存每个stage的输入，其余中间结果算完就丢弃。

点击放大查看

空间复杂度对比：

朴素模型并行：O(N * L * d / K)，N是mini-batch大小，L是每层宽度，d是模型深度
Gpipe：O(N * d / K + N * L / M)，M是micro-batch数量

当L变大时，Gpipe对GPU内存压力显著减小。

GPipe vs PipeDream

特性	GPipe	PipeDream
梯度更新	同步更新	异步更新
权重一致性	每轮更新后权重一致	使用旧权重计算梯度，有权重偏移
GPU利用率	较低（等待流水线）	较高，减少气泡
实现复杂度	简单	复杂

目前PyTorch原生的流水线接口基于Gpipe。

模型并行（Tensor Parallelism）

基本概念

张量并行也称为模型并行，是一种层内并行策略：将单个层的权重切分到多个GPU上，而不是整个层放到一个GPU上。

对于矩阵乘法 Y = X * A：

A是权重矩阵，可以按行或列切分
不同GPU并行计算不同分块
最后汇总得到完整结果

行并行 vs 列并行

点击放大查看

优缺点

优点：随着并行度增加，显存占用成比例减少，可以训练更大模型
缺点：每层计算都需要通信，通信频繁，计算效率较低
适用场景：节点内GPU之间有NVLINK高速连接，通信延迟低

3D 并行（数据+流水线+张量）

基本思想

3D并行就是将三种并行策略组合起来，共同训练超大模型：

点击放大查看

实践策略选择（以DGX A100集群为例）

第一步：张量并行TP：张量并行对通信延迟要求最高，放在节点内（节点内有NVLINK 600GB/s）
第二步：流水线并行PP：每个节点负责一部分层，多个节点组成完整流水线
第三步：数据并行DP：对完整的流水线副本再做数据并行，增加吞吐量

不同并行方式对比

并行方式	显存效率	通信效率	实现难度
数据并行	低（每个卡都存完整模型）	中	简单
张量并行	高（成比例减少）	低（频繁通信）	难
流水线并行	中（按层切分）	高（P2P通信）	中

显存效率排序：张量并行 > 流水线并行 > 数据并行 通信效率排序：流水线并行 > 数据并行 > 张量并行

Megatron-LM 530B 案例

张量并行：TP=8（单节点8卡A100，利用NVLINK）
流水线并行：PP=35（35个节点）
数据并行：DP=8（8个这样的流水线）
总GPU数：8 * 35 * 8 = 2240块A100

常见问题

Q1: 什么时候用数据并行，什么时候用模型/流水线并行？

如果模型能完整放进单卡显存：数据并行DDP最简单高效
如果模型放不进单卡：需要模型并行/流水线并行，或者ZeRO
如果显存还是不够：组合使用（3D并行）

Q2: 激活检查点（Checkpointing）的原理是什么？

A: 激活检查点是一种时间换空间的显存优化技术。不保存所有中间激活，只保存检查点位置的激活。反向传播时，重新计算检查点之间的中间激活。这样可以大幅减少显存占用，但增加计算量。

Q3: 为什么ZeRO出来后还需要3D并行？

A: 根据ZeRO论文，虽然ZeRO3也能达到类似的显存优化效果，但张量并行通信量太高，只能限于节点内（需要NVLINK）。当GPU数量增加到千量级，3D并行的效率明显优于纯ZeRO3。

Q4: 平民（万兆网，无NVLINK）适合玩3D并行吗？

A: 不适合。张量并行需要节点内NVLINK超高速连接，没有NVLINK通信瓶颈会非常严重。万兆网条件下，ZeRO的通信量都很大，更不用说3D并行的张量并行了。这种场景下，优先尝试ZeRO，如果还是放不下再考虑PP。

Q5: 如何选择并行策略？

场景	推荐方案
单GPU，显存够用	直接单GPU
单GPU，显存不够	Offload到CPU
单节点多卡，模型能放进单卡	DDP 或 ZeRO stage 1/2
单节点多卡，模型放不进单卡	张量并行或 ZeRO stage 3
多节点多卡，高带宽网络	ZeRO 或 3D并行
多节点多卡，低带宽网络	DP + PP + TP + ZeRO-1

面试常见问题

Q1: 流水线并行中的"气泡"是什么，怎么减少？

A: 气泡是GPU空闲等待的时间。朴素流水线并行中，很多GPU处于空闲。解决方法是将大batch切分成多个micro-batch，让流水线"流动"起来，减少气泡占比。当micro-batch数量远大于GPU数量时，气泡占比可以忽略。

Q2: Gpipe的re-materialization是什么，为什么需要它？

A: re-materialization就是激活检查点技术。因为切分micro-batch后，如果每个micro-batch都保存中间激活，内存压力还是很大。通过不保存中间激活，反向传播时重新计算，可以大幅节省显存，代价是增加一些计算量，典型的时间换空间。

Q3: 张量并行和流水线并行有什么区别？

张量并行：层内切分，把一个层的权重切分到多个GPU，属于横向切分，需要频繁通信
流水线并行：层间切分，把不同层放到不同GPU，属于纵向切分，只需要在层边界通信

Q4: 什么是1F1B（One Forward One Backward）流水线调度？

A: 1F1B是PipeDream提出的调度方法，在饱和流水线后，每个step每个GPU做一次forward然后立刻做一次backward，相比Gpipe的全部forward完再全部backward，可以进一步减少气泡，提高GPU利用率。

Q5: 为什么需要3D并行？

A: 对于千亿/万亿参数模型，单种并行策略无法满足要求：

纯数据并行：每个卡都要存完整模型，显存不够
纯张量并行：通信量太大，跨节点太慢
纯流水线并行：气泡多，利用率低

组合三种并行，可以在显存效率和计算效率之间取得最好平衡。

23 流水线并行与模型并行

流水线并行（Pipeline Parallelism）

优化目标

当模型大到单卡无法容纳时，我们需要使用多卡训练。流水线并行的目标是：

训练更大模型：理想状况下，模型大小和GPU数量成线性关系
更快训练速度：理想状况下，训练速度和GPU数量成线性关系

面临的主要挑战：

内存限制：每块GPU不仅要存模型参数，还要存中间激活结果
带宽限制：卡间通讯开销可能抹平多卡带来的速度提升

朴素模型并行的问题

朴素模型并行将模型按层拆分到不同GPU，做一轮forward再统一做一轮backward：

点击放大查看

存在两个主要问题：

GPU利用率低，气泡大：大部分时间GPU处于空闲状态。对于K块GPU，气泡占比为 K/(K+M)，当GPU数量K越大，空置比例越接近1，资源浪费严重。
中间结果内存占用大：每块GPU需要保存所有micro-batch的中间激活，内存压力大。

Gpipe 流水线并行解决方案

Gpipe是Google提出的经典流水线并行框架，主要通过两个核心技术解决上述问题：

1. 切分micro-batch

在原有的mini-batch基础上，进一步切分成多个更小的micro-batch，让流水线跑起来：

点击放大查看

切分后，bubble的时间复杂度变为：

bubble时间 = (K - 1) / (M + K - 1)

其中K是GPU数量，M是micro-batch数量。当 M >= 4K 时，bubble产生的空转占比已经很小，可以忽略不计。

2. Re-materialization (激活检查点)

动机：虽然切分micro-batch解决了GPU空置问题，但每个micro-batch都需要保存中间激活，内存压力仍然很大。

核心思想：用时间换空间。几乎不保存中间结果，等到backward的时候，再重新forward计算一遍。只保存每个stage的输入，其余中间结果算完就丢弃。

点击放大查看

空间复杂度对比：

朴素模型并行：O(N * L * d / K)，N是mini-batch大小，L是每层宽度，d是模型深度
Gpipe：O(N * d / K + N * L / M)，M是micro-batch数量

当L变大时，Gpipe对GPU内存压力显著减小。

GPipe vs PipeDream

特性	GPipe	PipeDream
梯度更新	同步更新	异步更新
权重一致性	每轮更新后权重一致	使用旧权重计算梯度，有权重偏移
GPU利用率	较低（等待流水线）	较高，减少气泡
实现复杂度	简单	复杂

目前PyTorch原生的流水线接口基于Gpipe。

模型并行（Tensor Parallelism）

基本概念

张量并行也称为模型并行，是一种层内并行策略：将单个层的权重切分到多个GPU上，而不是整个层放到一个GPU上。

对于矩阵乘法 Y = X * A：

A是权重矩阵，可以按行或列切分
不同GPU并行计算不同分块
最后汇总得到完整结果

行并行 vs 列并行

点击放大查看

优缺点

优点：随着并行度增加，显存占用成比例减少，可以训练更大模型
缺点：每层计算都需要通信，通信频繁，计算效率较低
适用场景：节点内GPU之间有NVLINK高速连接，通信延迟低

3D 并行（数据+流水线+张量）

基本思想

3D并行就是将三种并行策略组合起来，共同训练超大模型：

点击放大查看

实践策略选择（以DGX A100集群为例）

第一步：张量并行TP：张量并行对通信延迟要求最高，放在节点内（节点内有NVLINK 600GB/s）
第二步：流水线并行PP：每个节点负责一部分层，多个节点组成完整流水线
第三步：数据并行DP：对完整的流水线副本再做数据并行，增加吞吐量

不同并行方式对比

并行方式	显存效率	通信效率	实现难度
数据并行	低（每个卡都存完整模型）	中	简单
张量并行	高（成比例减少）	低（频繁通信）	难
流水线并行	中（按层切分）	高（P2P通信）	中

显存效率排序：张量并行 > 流水线并行 > 数据并行 通信效率排序：流水线并行 > 数据并行 > 张量并行

Megatron-LM 530B 案例

张量并行：TP=8（单节点8卡A100，利用NVLINK）
流水线并行：PP=35（35个节点）
数据并行：DP=8（8个这样的流水线）
总GPU数：8 * 35 * 8 = 2240块A100

常见问题

Q1: 什么时候用数据并行，什么时候用模型/流水线并行？

如果模型能完整放进单卡显存：数据并行DDP最简单高效
如果模型放不进单卡：需要模型并行/流水线并行，或者ZeRO
如果显存还是不够：组合使用（3D并行）

Q2: 激活检查点（Checkpointing）的原理是什么？

Q3: 为什么ZeRO出来后还需要3D并行？

Q4: 平民（万兆网，无NVLINK）适合玩3D并行吗？

Q5: 如何选择并行策略？

场景	推荐方案
单GPU，显存够用	直接单GPU
单GPU，显存不够	Offload到CPU
单节点多卡，模型能放进单卡	DDP 或 ZeRO stage 1/2
单节点多卡，模型放不进单卡	张量并行或 ZeRO stage 3
多节点多卡，高带宽网络	ZeRO 或 3D并行
多节点多卡，低带宽网络	DP + PP + TP + ZeRO-1

面试常见问题

Q1: 流水线并行中的"气泡"是什么，怎么减少？

Q2: Gpipe的re-materialization是什么，为什么需要它？

Q3: 张量并行和流水线并行有什么区别？

张量并行：层内切分，把一个层的权重切分到多个GPU，属于横向切分，需要频繁通信
流水线并行：层间切分，把不同层放到不同GPU，属于纵向切分，只需要在层边界通信

Q4: 什么是1F1B（One Forward One Backward）流水线调度？

Q5: 为什么需要3D并行？

A: 对于千亿/万亿参数模型，单种并行策略无法满足要求：

纯数据并行：每个卡都要存完整模型，显存不够
纯张量并行：通信量太大，跨节点太慢
纯流水线并行：气泡多，利用率低

组合三种并行，可以在显存效率和计算效率之间取得最好平衡。

大模型面试

大模型面试

23 流水线并行与模型并行

23 流水线并行与模型并行

流水线并行（Pipeline Parallelism）

优化目标

朴素模型并行的问题

Gpipe 流水线并行解决方案

1. 切分micro-batch

2. Re-materialization (激活检查点)

GPipe vs PipeDream

模型并行（Tensor Parallelism）

基本概念

行并行 vs 列并行

优缺点

3D 并行（数据+流水线+张量）

基本思想

实践策略选择（以DGX A100集群为例）

不同并行方式对比

Megatron-LM 530B 案例

常见问题

Q1: 什么时候用数据并行，什么时候用模型/流水线并行？

Q2: 激活检查点（Checkpointing）的原理是什么？

Q3: 为什么ZeRO出来后还需要3D并行？

Q4: 平民（万兆网，无NVLINK）适合玩3D并行吗？

Q5: 如何选择并行策略？

面试常见问题

Q1: 流水线并行中的"气泡"是什么，怎么减少？

Q2: Gpipe的re-materialization是什么，为什么需要它？

Q3: 张量并行和流水线并行有什么区别？

Q4: 什么是1F1B（One Forward One Backward）流水线调度？

Q5: 为什么需要3D并行？

23 流水线并行与模型并行

23 流水线并行与模型并行

流水线并行（Pipeline Parallelism）

优化目标

朴素模型并行的问题

Gpipe 流水线并行解决方案

1. 切分micro-batch

2. Re-materialization (激活检查点)

GPipe vs PipeDream

模型并行（Tensor Parallelism）

基本概念

行并行 vs 列并行

优缺点

3D 并行（数据+流水线+张量）

基本思想

实践策略选择（以DGX A100集群为例）

不同并行方式对比

Megatron-LM 530B 案例

常见问题

Q1: 什么时候用数据并行，什么时候用模型/流水线并行？

Q2: 激活检查点（Checkpointing）的原理是什么？

Q3: 为什么ZeRO出来后还需要3D并行？

Q4: 平民（万兆网，无NVLINK）适合玩3D并行吗？

Q5: 如何选择并行策略？

面试常见问题

Q1: 流水线并行中的"气泡"是什么，怎么减少？

Q2: Gpipe的re-materialization是什么，为什么需要它？

Q3: 张量并行和流水线并行有什么区别？

Q4: 什么是1F1B（One Forward One Backward）流水线调度？

Q5: 为什么需要3D并行？