22 数据并行DP与DDP

数据并行原理

基本概念

数据并行是分布式训练中最常用的并行策略之一，其核心思想是：

数据划分：将整个训练数据集切分为多份，每张GPU分配到不同的数据批次进行训练
模型副本：每个进程（GPU）都保存一个完整的模型副本
梯度同步：保证多个GPU上的模型参数始终一致

关键保证

要保证所有worker上的模型参数一致，需要两个关键步骤：

初始同步：确保所有worker都从相同的初始化模型参数开始训练。训练开始前，通常会将0号卡的模型参数通信同步到其他卡。
迭代同步：每次训练迭代中，反向传播计算完梯度后，在优化器更新参数之前，插入reduce通信操作来规约梯度，确保所有worker上的梯度都是相同的。

由于相同的初始化 + 相同的梯度，优化器更新后可以保证所有worker上的模型参数始终一致。

数据并行提升效率的关键技术

梯度分桶：动机是集体通信在大张量上比在小张量上效率更高。将梯度分成多个桶批量通信。
计算与通信重叠：有了梯度分桶之后，在等待同一个桶内的梯度计算完后，就可以开始进行通信操作，让计算和通信并行执行。
跳过梯度同步：通过梯度累加，减少梯度通信的频次，例如每N步才同步一次梯度。

nn.DataParallel 局限

基本原理

nn.DataParallel是PyTorch最早提供的单机多卡数据并行实现：

python

import torch
import torch.nn as nn

model = Model()
device_ids = [0, 1]
model = nn.DataParallel(model, device_ids=device_ids)

处理流程

若干块计算GPU，1块梯度收集GPU（通常是GPU0）
在每块计算GPU上都拷贝一份完整的模型参数
把一个batch数据均匀分给不同的计算GPU
每块计算GPU完成前向和反向传播，得到梯度
每块计算GPU将梯度推送给梯度收集GPU做聚合（一般是累加）
梯度收集GPU聚合完毕后，计算GPU从它拉取完整的梯度结果，用于更新模型参数
更新后，所有计算GPU上的模型参数保持一致

主要局限

负载不均衡：输出默认汇总到第0块卡，导致第一块卡的显存占用远大于其他卡，容易出现OOM。
单进程多线程：DP使用单进程控制多GPU，受Python GIL限制，不能充分利用多CPU核心。
通信效率低：所有梯度都要汇总到主卡再广播，通信瓶颈明显，速度慢。
不支持多机多卡：DP只能在单机多卡环境下使用，无法扩展到多节点。
内存冗余：每个GPU都需要保存完整的模型副本，显存利用率低。

常见问题

Q: 为什么第一块卡的显存会占用更多？ A: 因为output_device默认是device_ids[0]，每次输出loss都会在第一块GPU相加计算，造成额外负载。

Q: 如何正确保存DP训练的模型？ A: 需要保存net.module.state_dict()而不是直接保存整个网络，加载时先创建模型再加载：

python

# 保存
torch.save(net.module.state_dict(), './model.pth')

# 加载
new_net = Model()
new_net.load_state_dict(torch.load("./model.pth"))

Q: DP训练时出现warning如何解决？

UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars;
will instead unsqueeze and return a vector.

A: 这是因为每个卡输出一个loss标量，需要汇总。可以使用size_average=False, reduce=True，每个GPU的损失相加但不除以batch大小，最后汇总后再除以整个batch大小，得到正确的平均loss。

DistributedDataParallel (DDP) 原理与实现

核心思想

DDP通过多进程实现分布式训练，每个GPU对应一个进程，解决了DP的负载不均衡和GIL瓶颈问题。核心改进在于使用Ring-AllReduce算法来均衡通信负载。

实现流程

初始化进程组

python

import torch.distributed as dist
dist.init_process_group(backend="nccl")

使用DistributedSampler

python

from torch.utils.data.distributed import DistributedSampler
train_sampler = DistributedSampler(train_dataset)
dataloader = DataLoader(dataset, batch_size=batch_size, sampler=train_sampler)

包装DDP模型

python

import torch.nn.parallel.DistributedDataParallel as DDP
model = DDP(model, device_ids=[args.local_rank], output_device=args.local_rank)

启动训练

bash

python -m torch.distributed.run --nnodes=1 --nproc_per_node=2 --node_rank=0 \
    --master_port=6005 train.py

参数更新流程

进程组初始化后，rank=0的进程会将网络初始化参数broadcast到其它每个进程，确保初始参数一致。
每个进程各自读取不同的训练数据，DistributedSampler保证进程间数据不重叠。
前向传播和loss计算在每个进程（每个CUDA设备）上独立完成，不需要gather到主进程。
反向阶段，梯度信息通过all-reduce操作，每个进程中的param.grad都会变成所有进程梯度的平均值。

为了提高效率，梯度信息被划分成了多个buckets分桶传输。
因为初始参数相同，梯度经过all-reduce后也相同，所以每个进程更新完参数后，权重自然保持一致，不需要额外broadcast。

注意：BatchNorm的running stats需要在每次迭代中从rank 0broadcast到其他进程。

Ring-AllReduce 算法

算法简介

Ring-AllReduce是DDP实现高效梯度同步的核心，由百度最先提出。它将通信压力分散到所有GPU上，消除了中心节点瓶颈。

假设有N块GPU，每块GPU上的梯度也被切成N份。Ring-AllReduce分为两个阶段：Reduce-Scatter和All-Gather。

第一阶段：Reduce-Scatter

定义网络拓扑：每个GPU只和相邻的两个GPU通信。
每次发送对应位置的数据给下一个GPU，同时从上一个GPU接收数据进行累加。
经过N-1次迭代后，每块GPU上都有一块数据拥有了对应位置完整的聚合结果。

第二阶段：All-Gather

依然按照相邻GPU通信的原则，但这次不做累加，而是直接替换。
以Reduce-Scatter结束时每个GPU获得的完整数据块作为起点。
再经过N-1次迭代后，每块GPU上都汇总到了完整的梯度数据。

复杂度分析

对于K块GPU：

总的通信步数：2*(K-1) 步
每步每个GPU只发送和接收总梯度/K 的数据
总通信量：2*(K-1)/K * |G| ≈ 2|G|，几乎是常数，与GPU数量无关
相比DP的O(K)通信量，Ring-AllReduce的通信效率大大提高

DP vs DDP 对比

对比维度	nn.DataParallel	DistributedDataParallel
实现方式	单进程多线程	多进程，每个GPU一个进程
GIL限制	受GIL影响，效率低	不受GIL限制，效率高
负载均衡	主卡负载不均衡	各卡负载均衡
扩展性	仅支持单机多卡	支持单机多卡和多机多卡
通信效率	低，中心节点瓶颈	高，Ring-AllReduce均衡负载
速度	较慢	较快
使用复杂度	简单，只需包装模型	相对复杂，需要进程管理

面试常见问题

Q1: 数据并行和模型并行有什么区别？

数据并行：每个GPU保存完整模型，处理不同数据，重点是并行计算梯度，通过同步梯度保持参数一致。适合模型能单卡放下，但需要加速训练的场景。
模型并行：将模型拆分到不同GPU，每个GPU只保存部分模型参数，共同完成一个batch的计算。适合模型太大，单卡放不下的场景。

Q2: DDP中gradient bucketing（梯度分桶）有什么好处？

通信效率更高：集体通信在大张量上比多次小张量通信效率更高
支持计算通信重叠：可以在计算后面梯度的同时，传输已经计算完的桶， overlapping computation and communication

Q3: DDP每个进程都有优化器吗？还是只有主进程有？

A: 每个进程都有自己的优化器。因为all-reduce之后每个进程的梯度都一样，初始参数也一样，所以每个进程独立更新参数后结果自然一致，不需要只在主更更新再广播。

Q4: DDP中find_unused_parameters参数的作用？

A: 当模型中有一些参数不参与当前迭代的计算（动态计算图，某些分支不执行），需要设置find_unused_parameters=True，DDP会只对用到的参数做all-reduce，否则会报错。默认是False，因为开启会有一点额外开销。

Q5: 为什么DDP比DP快？

DDP是多进程，避开了Python GIL的限制
DDP使用Ring-AllReduce，通信负载分布到所有GPU，没有中心节点瓶颈
DP需要聚合到主卡再广播，通信量更大，负载不均衡

Q6: DDP训练如何保存模型？

A: 一般只需要在rank=0进程保存即可，避免每个进程都保存一遍重复。保存的是model.module.state_dict()，和DP类似。

Q7: 什么是参数服务器（Parameter Server）？和All-Reduce对比？

参数服务器：有中心节点存储参数，worker计算梯度后push给中心节点，中心节点更新后再pull参数。优点是灵活，缺点是中心节点容易成为瓶颈。
All-Reduce：没有中心节点，每个worker都参与计算和通信，负载均衡，适合GPU集群，速度更快。DDP使用的是All-Reduce。

22 数据并行DP与DDP

数据并行原理

基本概念

数据并行是分布式训练中最常用的并行策略之一，其核心思想是：

数据划分：将整个训练数据集切分为多份，每张GPU分配到不同的数据批次进行训练
模型副本：每个进程（GPU）都保存一个完整的模型副本
梯度同步：保证多个GPU上的模型参数始终一致

关键保证

要保证所有worker上的模型参数一致，需要两个关键步骤：

初始同步：确保所有worker都从相同的初始化模型参数开始训练。训练开始前，通常会将0号卡的模型参数通信同步到其他卡。
迭代同步：每次训练迭代中，反向传播计算完梯度后，在优化器更新参数之前，插入reduce通信操作来规约梯度，确保所有worker上的梯度都是相同的。

由于相同的初始化 + 相同的梯度，优化器更新后可以保证所有worker上的模型参数始终一致。

数据并行提升效率的关键技术

梯度分桶：动机是集体通信在大张量上比在小张量上效率更高。将梯度分成多个桶批量通信。
计算与通信重叠：有了梯度分桶之后，在等待同一个桶内的梯度计算完后，就可以开始进行通信操作，让计算和通信并行执行。
跳过梯度同步：通过梯度累加，减少梯度通信的频次，例如每N步才同步一次梯度。

nn.DataParallel 局限

基本原理

nn.DataParallel是PyTorch最早提供的单机多卡数据并行实现：

python

import torch
import torch.nn as nn

model = Model()
device_ids = [0, 1]
model = nn.DataParallel(model, device_ids=device_ids)

处理流程

若干块计算GPU，1块梯度收集GPU（通常是GPU0）
在每块计算GPU上都拷贝一份完整的模型参数
把一个batch数据均匀分给不同的计算GPU
每块计算GPU完成前向和反向传播，得到梯度
每块计算GPU将梯度推送给梯度收集GPU做聚合（一般是累加）
梯度收集GPU聚合完毕后，计算GPU从它拉取完整的梯度结果，用于更新模型参数
更新后，所有计算GPU上的模型参数保持一致

主要局限

负载不均衡：输出默认汇总到第0块卡，导致第一块卡的显存占用远大于其他卡，容易出现OOM。
单进程多线程：DP使用单进程控制多GPU，受Python GIL限制，不能充分利用多CPU核心。
通信效率低：所有梯度都要汇总到主卡再广播，通信瓶颈明显，速度慢。
不支持多机多卡：DP只能在单机多卡环境下使用，无法扩展到多节点。
内存冗余：每个GPU都需要保存完整的模型副本，显存利用率低。

常见问题

Q: 为什么第一块卡的显存会占用更多？ A: 因为output_device默认是device_ids[0]，每次输出loss都会在第一块GPU相加计算，造成额外负载。

Q: 如何正确保存DP训练的模型？ A: 需要保存net.module.state_dict()而不是直接保存整个网络，加载时先创建模型再加载：

python

# 保存
torch.save(net.module.state_dict(), './model.pth')

# 加载
new_net = Model()
new_net.load_state_dict(torch.load("./model.pth"))

Q: DP训练时出现warning如何解决？

UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars;
will instead unsqueeze and return a vector.

DistributedDataParallel (DDP) 原理与实现

核心思想

DDP通过多进程实现分布式训练，每个GPU对应一个进程，解决了DP的负载不均衡和GIL瓶颈问题。核心改进在于使用Ring-AllReduce算法来均衡通信负载。

实现流程

初始化进程组

python

import torch.distributed as dist
dist.init_process_group(backend="nccl")

使用DistributedSampler

python

from torch.utils.data.distributed import DistributedSampler
train_sampler = DistributedSampler(train_dataset)
dataloader = DataLoader(dataset, batch_size=batch_size, sampler=train_sampler)

包装DDP模型

python

import torch.nn.parallel.DistributedDataParallel as DDP
model = DDP(model, device_ids=[args.local_rank], output_device=args.local_rank)

启动训练

bash

python -m torch.distributed.run --nnodes=1 --nproc_per_node=2 --node_rank=0 \
    --master_port=6005 train.py

参数更新流程

进程组初始化后，rank=0的进程会将网络初始化参数broadcast到其它每个进程，确保初始参数一致。
每个进程各自读取不同的训练数据，DistributedSampler保证进程间数据不重叠。
前向传播和loss计算在每个进程（每个CUDA设备）上独立完成，不需要gather到主进程。
反向阶段，梯度信息通过all-reduce操作，每个进程中的param.grad都会变成所有进程梯度的平均值。

为了提高效率，梯度信息被划分成了多个buckets分桶传输。
因为初始参数相同，梯度经过all-reduce后也相同，所以每个进程更新完参数后，权重自然保持一致，不需要额外broadcast。

注意：BatchNorm的running stats需要在每次迭代中从rank 0broadcast到其他进程。

Ring-AllReduce 算法

算法简介

Ring-AllReduce是DDP实现高效梯度同步的核心，由百度最先提出。它将通信压力分散到所有GPU上，消除了中心节点瓶颈。

假设有N块GPU，每块GPU上的梯度也被切成N份。Ring-AllReduce分为两个阶段：Reduce-Scatter和All-Gather。

第一阶段：Reduce-Scatter

定义网络拓扑：每个GPU只和相邻的两个GPU通信。
每次发送对应位置的数据给下一个GPU，同时从上一个GPU接收数据进行累加。
经过N-1次迭代后，每块GPU上都有一块数据拥有了对应位置完整的聚合结果。

第二阶段：All-Gather

依然按照相邻GPU通信的原则，但这次不做累加，而是直接替换。
以Reduce-Scatter结束时每个GPU获得的完整数据块作为起点。
再经过N-1次迭代后，每块GPU上都汇总到了完整的梯度数据。

复杂度分析

对于K块GPU：

总的通信步数：2*(K-1) 步
每步每个GPU只发送和接收总梯度/K 的数据
总通信量：2*(K-1)/K * |G| ≈ 2|G|，几乎是常数，与GPU数量无关
相比DP的O(K)通信量，Ring-AllReduce的通信效率大大提高

DP vs DDP 对比

对比维度	nn.DataParallel	DistributedDataParallel
实现方式	单进程多线程	多进程，每个GPU一个进程
GIL限制	受GIL影响，效率低	不受GIL限制，效率高
负载均衡	主卡负载不均衡	各卡负载均衡
扩展性	仅支持单机多卡	支持单机多卡和多机多卡
通信效率	低，中心节点瓶颈	高，Ring-AllReduce均衡负载
速度	较慢	较快
使用复杂度	简单，只需包装模型	相对复杂，需要进程管理

面试常见问题

Q1: 数据并行和模型并行有什么区别？

数据并行：每个GPU保存完整模型，处理不同数据，重点是并行计算梯度，通过同步梯度保持参数一致。适合模型能单卡放下，但需要加速训练的场景。
模型并行：将模型拆分到不同GPU，每个GPU只保存部分模型参数，共同完成一个batch的计算。适合模型太大，单卡放不下的场景。

Q2: DDP中gradient bucketing（梯度分桶）有什么好处？

通信效率更高：集体通信在大张量上比多次小张量通信效率更高
支持计算通信重叠：可以在计算后面梯度的同时，传输已经计算完的桶， overlapping computation and communication

Q3: DDP每个进程都有优化器吗？还是只有主进程有？

Q4: DDP中find_unused_parameters参数的作用？

Q5: 为什么DDP比DP快？

DDP是多进程，避开了Python GIL的限制
DDP使用Ring-AllReduce，通信负载分布到所有GPU，没有中心节点瓶颈
DP需要聚合到主卡再广播，通信量更大，负载不均衡

Q6: DDP训练如何保存模型？

A: 一般只需要在rank=0进程保存即可，避免每个进程都保存一遍重复。保存的是model.module.state_dict()，和DP类似。

Q7: 什么是参数服务器（Parameter Server）？和All-Reduce对比？

参数服务器：有中心节点存储参数，worker计算梯度后push给中心节点，中心节点更新后再pull参数。优点是灵活，缺点是中心节点容易成为瓶颈。
All-Reduce：没有中心节点，每个worker都参与计算和通信，负载均衡，适合GPU集群，速度更快。DDP使用的是All-Reduce。

大模型面试

大模型面试

22 数据并行DP与DDP

22 数据并行DP与DDP

数据并行原理

基本概念

关键保证

数据并行提升效率的关键技术

nn.DataParallel 局限

基本原理

处理流程

主要局限

常见问题

DistributedDataParallel (DDP) 原理与实现

核心思想

实现流程

参数更新流程

Ring-AllReduce 算法

算法简介

第一阶段：Reduce-Scatter

第二阶段：All-Gather

复杂度分析

DP vs DDP 对比

面试常见问题

Q1: 数据并行和模型并行有什么区别？

Q2: DDP中gradient bucketing（梯度分桶）有什么好处？

Q3: DDP每个进程都有优化器吗？还是只有主进程有？

Q4: DDP中find_unused_parameters参数的作用？

Q5: 为什么DDP比DP快？

Q6: DDP训练如何保存模型？

Q7: 什么是参数服务器（Parameter Server）？和All-Reduce对比？

22 数据并行DP与DDP

22 数据并行DP与DDP

数据并行原理

基本概念

关键保证

数据并行提升效率的关键技术

nn.DataParallel 局限

基本原理

处理流程

主要局限

常见问题

DistributedDataParallel (DDP) 原理与实现

核心思想

实现流程

参数更新流程

Ring-AllReduce 算法

算法简介

第一阶段：Reduce-Scatter

第二阶段：All-Gather

复杂度分析

DP vs DDP 对比

面试常见问题

Q1: 数据并行和模型并行有什么区别？

Q2: DDP中gradient bucketing（梯度分桶）有什么好处？

Q3: DDP每个进程都有优化器吗？还是只有主进程有？

Q4: DDP中find_unused_parameters参数的作用？

Q5: 为什么DDP比DP快？

Q6: DDP训练如何保存模型？

Q7: 什么是参数服务器（Parameter Server）？和All-Reduce对比？