26 分布式训练故障处理

常见故障类型

大规模分布式训练由于涉及多机器多设备，故障概率比单机训练高很多。常见故障包括：

硬件故障：GPU故障、主机宕机、网络中断
软件故障：程序死锁、OOM（显存不足）、NaN/Inf loss、数据加载错误
配置故障：环境不一致、网络不通、NCCL配置错误
数据故障：数据损坏、某个卡数据加载慢，导致其他卡等待

Checkpoint 与恢复策略

为什么需要故障恢复

大规模分布式训练集群跑一次可能需要几天甚至几周，中途任何节点故障都可能导致训练中断，如果没有 checkpoint 恢复，就要从头开始，浪费大量时间。

故障恢复的目标是：从最近保存的 checkpoint 恢复训练，尽可能减少损失。

最优Checkpoint存储间隔

存储间隔太小：频繁存储会占用大量IO和计算时间，降低训练效率存储间隔太大：故障后需要重新训练很多step，浪费时间

可以通过公式推导最优间隔：

集群时间损失 = ckpt存储耗时 + 故障期望次数 × (ckpt间隔/2 + 恢复耗时)

对间隔求导找到最小值，就能得到最优存储间隔。

异步存储的问题

能否异步存储checkpoint，掩盖存储时间？

python

# 伪代码 - 这是错误的！
ckpt_thread = Thread(target=save_ckpt)
ckpt_thread.start()
train_next_step()  # 立刻开始下一轮训练

这会导致内存踩踏：下一个step已经开始更新参数，异步存储还在拷贝数据，可能存进去一半更新一半不更新，checkpoint损坏。

完全异步不可行，但可以部分重叠：

方案1：在训练脚本侧，下一次参数更新之前，强制等待存储完成
方案2：框架侧新增同步点，D2H拷贝完成前，阻塞后续写操作

断点续训与"临终遗言"

如果任意节点故障，能否在退出前快速保存当前完整checkpoint？

可行条件：在多维并行（DP/TP/PP）场景中，只要每个PP stage的所有TP rank都完好，整网参数就是完整的，可以捕获错误后做临终存储。

这种做法能让ckpt interval趋近于0，故障只损失当前step。

不可行情况：

如果故障正好发生在参数更新过程中，无法保证完整性
如果某个PP stage有一个TP rank故障，整网参数不完整，无法保存

工业级框架一般会结合定期保存+临终遗言两种策略。

弹性训练

什么是弹性训练

弹性训练允许训练过程中节点动态加入退出，不需要完全重启。比如：

某个节点故障，自动将其剔除，剩下的节点继续训练
空闲节点加入，自动扩缩并行度

弹性训练关键技术

动态进程组：支持运行时增减节点，不需要重新初始化
一致性协议：确保参数在节点变化后仍然一致
数据重分配：DistributedSampler需要重新分片数据
Checkpoint兼容：不同并行度能加载原有checkpoint

优势

提高集群利用率：可以利用空闲节点动态扩容
容忍节点故障：不需要整作业重启，只丢掉一个batch
降低成本：spot实例（廉价抢占式实例）可以用

常见 Bug 与避坑指南

1. DDP显存分布不均衡，0卡OOM

问题描述：理论上DDP每个进程一个GPU，显存应该均匀，但实际发现0卡显存比其他卡高很多，容易OOM。

问题定位：通常是加载预训练模型时，torch.load() 默认把数据加载到0卡：

python

# 错误写法
checkpoint = torch.load("checkpoint.pth")
model.load_state_dict(checkpoint["state_dict"])

即使每个进程load一次，数据都会先到0卡再复制，导致0卡多占一块显存。

解决方法：把weights map到cpu再load：

python

# 正确写法
checkpoint = torch.load("checkpoint.pth", map_location=torch.device('cpu'))
model.load_state_dict(checkpoint["state_dict"])

2. 第一个epoch结尾程序卡死在all_reduce

问题描述：自定义数据接口，程序跑一个epoch正常，第一个epoch结束就卡住，没有报错。

问题定位：自研数据分配时，某张卡少一个batch，导致这张卡不执行all_reduce，其他所有卡都在等它，死锁。

解决方法：

保证每张卡分配到相同数量的batch
使用DistributedSampler，它会自动保证这点，不要自己切分

3. 少卡正常，多卡卡住，在数据读取后训练开始前

排查步骤：

先确认所有卡都能正常使用，网络通信正常（NCCL测试）
检查batch分配，是否有卡没数据，导致等待
最小化测试：只留几条数据，每张卡一条数据测试，看能不能跑通

4. DeepSpeed多机训练NCCL不通

解决方法：新建 .deepspeed_env 文件，设置：

NCCL_IB_DISABLE=1
NCCL_DEBUG=INFO
NCCL_SOCKET_IFNAME=eth0
NCCL_P2P_DISABLE=1

如果没有IB（InfiniBand）网络，一定要禁用，否则NCCL会卡住。

5. DeepSpeed启动时进程被杀死，无日志

原因：GPU显存不够，OOM被系统OOM killer杀死。

解决：按照之前的DeepSpeed调参步骤，一步步减小显存占用：

减小batch size
开启梯度检查点
升高ZeRO stage
开启offload

6. DeepSpeed ZeRO-3 保存模型后，怎么转成pytorch格式？

解决方法：DeepSpeed提供了转换脚本：

bash

python zero_to_fp32.py . pytorch_model.bin

这个脚本会把分片的参数合并成一个完整的pytorch模型文件。

如果想保存的时候直接合并fp16，需要在配置中开启：

json

"stage3_gather_16bit_weights_on_model_save": true

7. loss变成NaN

常见原因：

学习率太大，梯度爆炸
FP16溢出，如果模型是BF16预训练却用FP16训练
梯度爆炸，需要梯度裁剪
数据中有bad case，包含inf/nan

排查：

先关掉混合精度，用FP32试试，如果还是NaN，问题不在AMP
梯度裁剪，看看能不能解决
减小学习率

8. 多机训练速度比单机还慢

原因：网络带宽打满，通信时间比计算时间还长。比如万兆网跑ZeRO3，每步通信量几百GB，当然很慢。

解决：

如果模型不是特别大，降低ZeRO stage
万兆网不适合ZeRO3，尽量用PP拆分
升级网络带宽

9. 环境不一致导致的启动失败

多节点训练需要保证：

代码路径一致
conda/python路径一致
依赖库版本一致

否则容易出现exits with return code = 127或exits with return code = -6错误。

解决方法：

使用共享文件系统，代码和环境都在共享存储上
如果是本地存储，保证每个节点版本一致
必要时在脚本里手动更新PATH：
python
1local_env = os.environ.copy() 2local_env["PATH"] = "/path/to/conda/bin:" + local_env["PATH"] 3os.environ.update(local_env)

10. DDP find_unused_parameters什么时候需要开？

当模型使用动态计算图，有些参数在当前iteration不参与计算（比如某些分支没走到），需要开启find_unused_parameters=True，否则DDP会报错找不到这些参数的梯度。

开启会增加一点通信 overhead，所以静态图默认关。

面试常见问题

Q1: 分布式训练为什么比单机训练更容易出故障？

A: 分布式训练涉及多台机器、多个GPU，需要网络通信。任何一个环节出问题（硬件故障、网络中断、软件bug）都会导致整个训练失败。故障概率和节点数量成正比，节点越多概率越高。所以需要checkpoint、故障恢复、弹性训练这些机制来容错。

Q2: 为什么不能异步保存checkpoint？

A: 因为保存checkpoint需要拷贝参数，如果保存还没完成就开始下一个step训练，参数会被更新，导致保存过程中数据被修改，checkpoint文件损坏，一半旧一半新，无法恢复。所以必须等保存完成才能继续训练，或者用同步点保证数据一致性。

Q3: 什么是弹性训练，有什么好处？

A: 弹性训练允许训练过程中动态增减节点，节点故障可以自动剔除，新节点可以加入。好处是：

提高集群利用率，可以利用空闲spot实例降低成本
容忍节点故障，不需要整个作业重启，减少损失
可以根据负载动态扩缩容

Q4: DDP为什么会出现0卡显存占用比其他卡高？怎么解决？

A: 通常是因为加载预训练模型时，torch.load默认把张量加载到0卡，即使每个进程都load一遍，0卡也会多保留一份。解决方法是加载时用map_location=torch.device('cpu')，把权重先读到CPU，再分发到各个GPU。

Q5: 分布式训练程序卡死不报错，常见原因是什么？

A: 最常见原因是死锁：某个卡少一个batch，在all_reduce时，其他卡都在等这个卡，没人发消息也没人收，卡住不动。解决方法是保证每个卡每个epoch的batch数一致，使用DistributedSampler自动分配。

Q6: 多机分布式训练NCCL连不上，怎么调试？

先检查网络是否通：每个节点能ping通其他节点
检查ssh免密登录是否配置正确
检查NCCL环境变量，没有IB网络要禁用IB：NCCL_IB_DISABLE=1
设置NCCL_DEBUG=INFO看日志输出，定位具体哪一步错了
检查防火墙是否开放了所需端口

Q7: 如何估算分布式训练的checkpoint最优保存间隔？

A: 目标是最小化总时间损失。时间损失 = 存储间隔内平均浪费时间 + 每次存储本身的时间。通过求导可以得到最优间隔，大约是 sqrt(2 * T_storage * MTTF)，其中MTTF是平均故障间隔。简单说就是：故障越频繁，存的越频繁；存储越快，存的越频繁。

26 分布式训练故障处理

常见故障类型

大规模分布式训练由于涉及多机器多设备，故障概率比单机训练高很多。常见故障包括：

硬件故障：GPU故障、主机宕机、网络中断
软件故障：程序死锁、OOM（显存不足）、NaN/Inf loss、数据加载错误
配置故障：环境不一致、网络不通、NCCL配置错误
数据故障：数据损坏、某个卡数据加载慢，导致其他卡等待

Checkpoint 与恢复策略

为什么需要故障恢复

故障恢复的目标是：从最近保存的 checkpoint 恢复训练，尽可能减少损失。

最优Checkpoint存储间隔

存储间隔太小：频繁存储会占用大量IO和计算时间，降低训练效率存储间隔太大：故障后需要重新训练很多step，浪费时间

可以通过公式推导最优间隔：

集群时间损失 = ckpt存储耗时 + 故障期望次数 × (ckpt间隔/2 + 恢复耗时)

对间隔求导找到最小值，就能得到最优存储间隔。

异步存储的问题

能否异步存储checkpoint，掩盖存储时间？

python

# 伪代码 - 这是错误的！
ckpt_thread = Thread(target=save_ckpt)
ckpt_thread.start()
train_next_step()  # 立刻开始下一轮训练

这会导致内存踩踏：下一个step已经开始更新参数，异步存储还在拷贝数据，可能存进去一半更新一半不更新，checkpoint损坏。

完全异步不可行，但可以部分重叠：

方案1：在训练脚本侧，下一次参数更新之前，强制等待存储完成
方案2：框架侧新增同步点，D2H拷贝完成前，阻塞后续写操作

断点续训与"临终遗言"

如果任意节点故障，能否在退出前快速保存当前完整checkpoint？

可行条件：在多维并行（DP/TP/PP）场景中，只要每个PP stage的所有TP rank都完好，整网参数就是完整的，可以捕获错误后做临终存储。

这种做法能让ckpt interval趋近于0，故障只损失当前step。

不可行情况：

如果故障正好发生在参数更新过程中，无法保证完整性
如果某个PP stage有一个TP rank故障，整网参数不完整，无法保存

工业级框架一般会结合定期保存+临终遗言两种策略。

弹性训练

什么是弹性训练

弹性训练允许训练过程中节点动态加入退出，不需要完全重启。比如：

某个节点故障，自动将其剔除，剩下的节点继续训练
空闲节点加入，自动扩缩并行度

弹性训练关键技术

动态进程组：支持运行时增减节点，不需要重新初始化
一致性协议：确保参数在节点变化后仍然一致
数据重分配：DistributedSampler需要重新分片数据
Checkpoint兼容：不同并行度能加载原有checkpoint

优势

提高集群利用率：可以利用空闲节点动态扩容
容忍节点故障：不需要整作业重启，只丢掉一个batch
降低成本：spot实例（廉价抢占式实例）可以用

常见 Bug 与避坑指南

1. DDP显存分布不均衡，0卡OOM

问题描述：理论上DDP每个进程一个GPU，显存应该均匀，但实际发现0卡显存比其他卡高很多，容易OOM。

问题定位：通常是加载预训练模型时，torch.load() 默认把数据加载到0卡：

python

# 错误写法
checkpoint = torch.load("checkpoint.pth")
model.load_state_dict(checkpoint["state_dict"])

即使每个进程load一次，数据都会先到0卡再复制，导致0卡多占一块显存。

解决方法：把weights map到cpu再load：

python

# 正确写法
checkpoint = torch.load("checkpoint.pth", map_location=torch.device('cpu'))
model.load_state_dict(checkpoint["state_dict"])

2. 第一个epoch结尾程序卡死在all_reduce

问题描述：自定义数据接口，程序跑一个epoch正常，第一个epoch结束就卡住，没有报错。

问题定位：自研数据分配时，某张卡少一个batch，导致这张卡不执行all_reduce，其他所有卡都在等它，死锁。

解决方法：

保证每张卡分配到相同数量的batch
使用DistributedSampler，它会自动保证这点，不要自己切分

3. 少卡正常，多卡卡住，在数据读取后训练开始前

排查步骤：

先确认所有卡都能正常使用，网络通信正常（NCCL测试）
检查batch分配，是否有卡没数据，导致等待
最小化测试：只留几条数据，每张卡一条数据测试，看能不能跑通

4. DeepSpeed多机训练NCCL不通

解决方法：新建 .deepspeed_env 文件，设置：

NCCL_IB_DISABLE=1
NCCL_DEBUG=INFO
NCCL_SOCKET_IFNAME=eth0
NCCL_P2P_DISABLE=1

如果没有IB（InfiniBand）网络，一定要禁用，否则NCCL会卡住。

5. DeepSpeed启动时进程被杀死，无日志

原因：GPU显存不够，OOM被系统OOM killer杀死。

解决：按照之前的DeepSpeed调参步骤，一步步减小显存占用：

减小batch size
开启梯度检查点
升高ZeRO stage
开启offload

6. DeepSpeed ZeRO-3 保存模型后，怎么转成pytorch格式？

解决方法：DeepSpeed提供了转换脚本：

bash

python zero_to_fp32.py . pytorch_model.bin

这个脚本会把分片的参数合并成一个完整的pytorch模型文件。

如果想保存的时候直接合并fp16，需要在配置中开启：

json

"stage3_gather_16bit_weights_on_model_save": true

7. loss变成NaN

常见原因：

学习率太大，梯度爆炸
FP16溢出，如果模型是BF16预训练却用FP16训练
梯度爆炸，需要梯度裁剪
数据中有bad case，包含inf/nan

排查：

先关掉混合精度，用FP32试试，如果还是NaN，问题不在AMP
梯度裁剪，看看能不能解决
减小学习率

8. 多机训练速度比单机还慢

原因：网络带宽打满，通信时间比计算时间还长。比如万兆网跑ZeRO3，每步通信量几百GB，当然很慢。

解决：

如果模型不是特别大，降低ZeRO stage
万兆网不适合ZeRO3，尽量用PP拆分
升级网络带宽

9. 环境不一致导致的启动失败

多节点训练需要保证：

代码路径一致
conda/python路径一致
依赖库版本一致

否则容易出现exits with return code = 127或exits with return code = -6错误。

解决方法：

使用共享文件系统，代码和环境都在共享存储上
如果是本地存储，保证每个节点版本一致
必要时在脚本里手动更新PATH：
python
1local_env = os.environ.copy() 2local_env["PATH"] = "/path/to/conda/bin:" + local_env["PATH"] 3os.environ.update(local_env)

10. DDP find_unused_parameters什么时候需要开？

开启会增加一点通信 overhead，所以静态图默认关。

面试常见问题

Q1: 分布式训练为什么比单机训练更容易出故障？

Q2: 为什么不能异步保存checkpoint？

Q3: 什么是弹性训练，有什么好处？

A: 弹性训练允许训练过程中动态增减节点，节点故障可以自动剔除，新节点可以加入。好处是：

提高集群利用率，可以利用空闲spot实例降低成本
容忍节点故障，不需要整个作业重启，减少损失
可以根据负载动态扩缩容

Q4: DDP为什么会出现0卡显存占用比其他卡高？怎么解决？

Q5: 分布式训练程序卡死不报错，常见原因是什么？

Q6: 多机分布式训练NCCL连不上，怎么调试？

先检查网络是否通：每个节点能ping通其他节点
检查ssh免密登录是否配置正确
检查NCCL环境变量，没有IB网络要禁用IB：NCCL_IB_DISABLE=1
设置NCCL_DEBUG=INFO看日志输出，定位具体哪一步错了
检查防火墙是否开放了所需端口

大模型面试

大模型面试

26 分布式训练故障处理

26 分布式训练故障处理

常见故障类型

Checkpoint 与恢复策略

为什么需要故障恢复

最优Checkpoint存储间隔

异步存储的问题

断点续训与"临终遗言"

弹性训练

什么是弹性训练

弹性训练关键技术

优势

常见 Bug 与避坑指南

1. DDP显存分布不均衡，0卡OOM

2. 第一个epoch结尾程序卡死在all_reduce

3. 少卡正常，多卡卡住，在数据读取后训练开始前

4. DeepSpeed多机训练NCCL不通

5. DeepSpeed启动时进程被杀死，无日志

6. DeepSpeed ZeRO-3 保存模型后，怎么转成pytorch格式？

7. loss变成NaN

8. 多机训练速度比单机还慢

9. 环境不一致导致的启动失败

10. DDP find_unused_parameters什么时候需要开？

面试常见问题

Q1: 分布式训练为什么比单机训练更容易出故障？

Q2: 为什么不能异步保存checkpoint？

Q3: 什么是弹性训练，有什么好处？

Q4: DDP为什么会出现0卡显存占用比其他卡高？怎么解决？

Q5: 分布式训练程序卡死不报错，常见原因是什么？

Q6: 多机分布式训练NCCL连不上，怎么调试？

Q7: 如何估算分布式训练的checkpoint最优保存间隔？

26 分布式训练故障处理

26 分布式训练故障处理

常见故障类型

Checkpoint 与恢复策略

为什么需要故障恢复

最优Checkpoint存储间隔

异步存储的问题

断点续训与"临终遗言"

弹性训练

什么是弹性训练

弹性训练关键技术

优势

常见 Bug 与避坑指南

1. DDP显存分布不均衡，0卡OOM

2. 第一个epoch结尾程序卡死在all_reduce

3. 少卡正常，多卡卡住，在数据读取后训练开始前

4. DeepSpeed多机训练NCCL不通

5. DeepSpeed启动时进程被杀死，无日志

6. DeepSpeed ZeRO-3 保存模型后，怎么转成pytorch格式？

7. loss变成NaN

8. 多机训练速度比单机还慢

9. 环境不一致导致的启动失败

10. DDP find_unused_parameters什么时候需要开？

面试常见问题

Q1: 分布式训练为什么比单机训练更容易出故障？

Q2: 为什么不能异步保存checkpoint？

Q3: 什么是弹性训练，有什么好处？

Q4: DDP为什么会出现0卡显存占用比其他卡高？怎么解决？

Q5: 分布式训练程序卡死不报错，常见原因是什么？

Q6: 多机分布式训练NCCL连不上，怎么调试？

Q7: 如何估算分布式训练的checkpoint最优保存间隔？