25 混合精度训练AMP

FP16 / BF16 / FP32 对比

精度	位数	指数位数	尾数位数	范围	特点
FP32	32	8	23	±1.18×10⁻³⁸ ~ ±3.4×10³⁸	标准单精度，训练默认使用，精度足够但显存大计算慢
FP16 (半精度)	16	5	10	±6.1×10⁻⁵ ~ ±6.5×10⁴	半精度，显存减半，计算更快，但容易溢出
BF16 (脑浮点)	16	8	7	±1.2×10⁻³⁸ ~ ±3.4×10³⁸	指数范围和FP32一样，不容易溢出，但精度略低

关键区别：

FP16：尾数精度高，但范围小，容易出现溢出（Inf/NaN）
BF16：范围和FP32一样，不容易溢出，但尾数精度低
在Ampere架构以上GPU，BF16硬件加速支持更好

混合精度训练原理

什么是自动混合精度训练（AMP）

自动混合精度训练就是在训练过程中，根据操作类型，自动选择合适的精度：

对大部分算子（矩阵乘、卷积等）使用FP16/BF16计算，节省显存加快速度
对少数对精度敏感的操作保持FP32
框架自动处理类型转换，不需要手动逐一层转换

这就是"混合"和"自动"的含义。PyTorch从1.6开始原生支持torch.cuda.amp。

为什么需要混合精度？

优点：
- 显存占用减少约一半
- 利用Tensor Core加速，计算性能翻倍
- 训练速度明显提升
- 精度损失通常可以忽略不计
问题：
- FP16数值范围小，容易出现溢出（Overflow / Underflow）
- 微小的梯度可能因为舍入误差变成0，梯度信息丢失

权重备份

混合精度训练中，通常在FP32空间保存一份权重备份：

前向反向计算使用FP16
参数更新使用FP32权重
这样可以避免更新时的舍入误差，保证训练稳定性

梯度缩放（GradScaler）

为什么需要梯度缩放

FP16的最小正数值是 2^-14 ≈ 6.1e-5，很多更新参数的小梯度会小于这个值，直接变成0，梯度信息就丢失了（Underflow）。

解决方法：损失缩放（Loss Scaling）。

Loss Scaling 机制

原理很简单：

前向计算得到loss后，将loss乘以一个缩放因子scale（比如1024）
反向传播得到的梯度也会放大scale倍，这样小梯度也能被FP16表示，不会变成0
参数更新之前，再把梯度除以scale缩放到原来的大小

python

# 伪代码
loss = criterion(output, target)
loss = loss * scale       # 放大loss
scaled_loss.backward()    # 梯度也被放大
scaler.unscale_(optimizer) # 梯度除以scale，恢复原来大小
optimizer.step()          # 更新参数

动态损失缩放

固定scale不一定合适：

scale太小：还是会有underflow
scale太大：可能出现overflow（梯度变成Inf/NaN）

AMP采用动态调整策略：

如果连续N个steps没有出现Inf/NaN，说明scale还有提升空间，将scale翻倍
如果出现Inf/NaN，跳过这一步更新，将scale减半
这样自动找到当前训练最合适的scale值

PyTorch AMP 使用示例

基本用法

python

from torch.cuda.amp import autocast, GradScaler

# 初始化梯度缩放器
scaler = GradScaler()

for epoch in epochs:
    for input, target in data:
        optimizer.zero_grad()
        
        # 前向过程开启autocast
        with autocast():
            output = model(input)
            loss = criterion(output, target)
        
        # 反向传播，scaler会放大loss
        scaler.scale(loss).backward()
        
        # 梯度unscale并更新，如果梯度没有Inf/NaN才更新
        scaler.step(optimizer)
        
        # 更新scaler的scale
        scaler.update()

完整分布式训练+AMP示例

python

from torch.cuda.amp import autocast, GradScaler

# ... 分布式初始化代码省略 ...

if args.use_amp:
    scaler = GradScaler()

for epoch in range(1, args.epochs + 1):
    train_sampler.set_epoch(epoch)
    for step, batch_data in enumerate(train_loader):
        self.model.train()
        
        if args.use_amp:
            with autocast():
                logits, label = self.on_step(batch_data)
                loss = self.criterion(logits, label)
            scaler.scale(loss).backward()
            scaler.step(self.optimizer)
            scaler.update()
        else:
            logits, label = self.on_step(batch_data)
            loss = self.criterion(logits, label)
            loss.backward()
            self.optimizer.step()

注意事项

autocast只包裹前向计算，反向传播不需要放在autocast上下文里
不要手动调用.half()，autocast会自动转换类型
如果遇到RuntimeError: expected scalar type float but found c10::Half，需要手动在那个tensor上调.float()
只有CUDA设备支持AMP，CPU不支持

常见问题

Q1: 混合精度训练一定会更快吗？

A: 不一定。只有模型较大，且GPU支持Tensor Core（Volta架构以上，即V100/2080Ti及之后），才能获得明显加速。小模型加速不明显，甚至可能因为类型转换开销变慢。

Q2: 训练出现Inf/NaN怎么办？

检查是否使用了FP16但模型是BF16预训练的，改用BF16或者FP32
减小初始学习率
梯度裁剪防止梯度爆炸
GradScaler会自动处理，溢出的step会被跳过，多训练几个step看看
禁用AMP试试，如果还是有问题那不是AMP的问题

Q3: BF16和FP16怎么选？

如果GPU是Ampere架构以上（RTX 30系、A100、3090等），推荐BF16，不容易溢出，不需要担心梯度underflow
如果是 older GPU（V100、T4、2080Ti），用FP16
BF16在有硬件支持的情况下，稳定性比FP16好

Q4: 推理时需要混合精度吗？

A: 推理也可以用，能减少显存占用，加快推理速度。只要训练时用了混合精度，推理直接用就可以，不需要特殊处理。

Q5: 混合精度会影响模型最终精度吗？

A: 大量实践表明，只要训练稳定，最终精度和全FP32训练几乎没有差别。梯度缩放和权重备份技术已经很好地解决了精度问题。

面试常见问题

Q1: 什么是混合精度训练，为什么能节省显存？

A: 混合精度训练就是同时使用FP16和FP32两种精度：大多数计算用FP16，参数更新用FP32。FP16每个元素只占2字节，FP32占4字节，所以显存占用大约减少一半，能训练更大的batch或者更大的模型。同时，NVIDIA GPU的Tensor Core对FP16有专门加速，训练速度也会提升。

Q2: 为什么会出现梯度溢出，怎么解决？

A: FP16的表示范围比FP32小很多，太大的梯度会超过FP16表示范围变成Inf（溢出），太小的梯度会变成0（下溢）。解决方法是动态损失缩放：放大loss使得小梯度也能被表示，更新前再缩放回去，并且动态调整缩放因子。

Q3: BF16相比FP16有什么优势？

A: BF16和FP16都是16位，但BF16保留了和FP32一样的8位指数，指数范围和FP32完全相同，所以不容易出现溢出/下溢，训练更加稳定。现代GPU（Ampere及以后）对BF16有原生硬件支持，速度和FP16一样快。

Q4: 动态损失缩放的工作流程？

前向得到loss后，乘以scale因子放大
反向传播得到放大的梯度
参数更新前，梯度除以scale恢复到正确大小
如果更新中发现Inf/NaN，跳过这次更新，并将scale减半
如果连续多个step都正常，将scale翻倍
自动适应找到合适的scale

Q5: AMP中autocast做了什么？

A: autocast是上下文管理器，它会根据算子类型自动选择最合适的精度：对于矩阵乘、卷积这些适合低精度的算子，自动转为FP16/BF16；对于一些需要高精度的算子，保持FP32。用户不需要手动转换类型，框架自动处理，所以叫"自动"混合精度。

25 混合精度训练AMP

FP16 / BF16 / FP32 对比

精度	位数	指数位数	尾数位数	范围	特点
FP32	32	8	23	±1.18×10⁻³⁸ ~ ±3.4×10³⁸	标准单精度，训练默认使用，精度足够但显存大计算慢
FP16 (半精度)	16	5	10	±6.1×10⁻⁵ ~ ±6.5×10⁴	半精度，显存减半，计算更快，但容易溢出
BF16 (脑浮点)	16	8	7	±1.2×10⁻³⁸ ~ ±3.4×10³⁸	指数范围和FP32一样，不容易溢出，但精度略低

关键区别：

FP16：尾数精度高，但范围小，容易出现溢出（Inf/NaN）
BF16：范围和FP32一样，不容易溢出，但尾数精度低
在Ampere架构以上GPU，BF16硬件加速支持更好

混合精度训练原理

什么是自动混合精度训练（AMP）

自动混合精度训练就是在训练过程中，根据操作类型，自动选择合适的精度：

对大部分算子（矩阵乘、卷积等）使用FP16/BF16计算，节省显存加快速度
对少数对精度敏感的操作保持FP32
框架自动处理类型转换，不需要手动逐一层转换

这就是"混合"和"自动"的含义。PyTorch从1.6开始原生支持torch.cuda.amp。

为什么需要混合精度？

优点：
- 显存占用减少约一半
- 利用Tensor Core加速，计算性能翻倍
- 训练速度明显提升
- 精度损失通常可以忽略不计
问题：
- FP16数值范围小，容易出现溢出（Overflow / Underflow）
- 微小的梯度可能因为舍入误差变成0，梯度信息丢失

权重备份

混合精度训练中，通常在FP32空间保存一份权重备份：

前向反向计算使用FP16
参数更新使用FP32权重
这样可以避免更新时的舍入误差，保证训练稳定性

梯度缩放（GradScaler）

为什么需要梯度缩放

FP16的最小正数值是 2^-14 ≈ 6.1e-5，很多更新参数的小梯度会小于这个值，直接变成0，梯度信息就丢失了（Underflow）。

解决方法：损失缩放（Loss Scaling）。

Loss Scaling 机制

原理很简单：

前向计算得到loss后，将loss乘以一个缩放因子scale（比如1024）
反向传播得到的梯度也会放大scale倍，这样小梯度也能被FP16表示，不会变成0
参数更新之前，再把梯度除以scale缩放到原来的大小

python

# 伪代码
loss = criterion(output, target)
loss = loss * scale       # 放大loss
scaled_loss.backward()    # 梯度也被放大
scaler.unscale_(optimizer) # 梯度除以scale，恢复原来大小
optimizer.step()          # 更新参数

动态损失缩放

固定scale不一定合适：

scale太小：还是会有underflow
scale太大：可能出现overflow（梯度变成Inf/NaN）

AMP采用动态调整策略：

如果连续N个steps没有出现Inf/NaN，说明scale还有提升空间，将scale翻倍
如果出现Inf/NaN，跳过这一步更新，将scale减半
这样自动找到当前训练最合适的scale值

PyTorch AMP 使用示例

基本用法

python

from torch.cuda.amp import autocast, GradScaler

# 初始化梯度缩放器
scaler = GradScaler()

for epoch in epochs:
    for input, target in data:
        optimizer.zero_grad()
        
        # 前向过程开启autocast
        with autocast():
            output = model(input)
            loss = criterion(output, target)
        
        # 反向传播，scaler会放大loss
        scaler.scale(loss).backward()
        
        # 梯度unscale并更新，如果梯度没有Inf/NaN才更新
        scaler.step(optimizer)
        
        # 更新scaler的scale
        scaler.update()

完整分布式训练+AMP示例

python

from torch.cuda.amp import autocast, GradScaler

# ... 分布式初始化代码省略 ...

if args.use_amp:
    scaler = GradScaler()

for epoch in range(1, args.epochs + 1):
    train_sampler.set_epoch(epoch)
    for step, batch_data in enumerate(train_loader):
        self.model.train()
        
        if args.use_amp:
            with autocast():
                logits, label = self.on_step(batch_data)
                loss = self.criterion(logits, label)
            scaler.scale(loss).backward()
            scaler.step(self.optimizer)
            scaler.update()
        else:
            logits, label = self.on_step(batch_data)
            loss = self.criterion(logits, label)
            loss.backward()
            self.optimizer.step()

注意事项

autocast只包裹前向计算，反向传播不需要放在autocast上下文里
不要手动调用.half()，autocast会自动转换类型
如果遇到RuntimeError: expected scalar type float but found c10::Half，需要手动在那个tensor上调.float()
只有CUDA设备支持AMP，CPU不支持

常见问题

Q1: 混合精度训练一定会更快吗？

Q2: 训练出现Inf/NaN怎么办？

检查是否使用了FP16但模型是BF16预训练的，改用BF16或者FP32
减小初始学习率
梯度裁剪防止梯度爆炸
GradScaler会自动处理，溢出的step会被跳过，多训练几个step看看
禁用AMP试试，如果还是有问题那不是AMP的问题

Q3: BF16和FP16怎么选？

如果GPU是Ampere架构以上（RTX 30系、A100、3090等），推荐BF16，不容易溢出，不需要担心梯度underflow
如果是 older GPU（V100、T4、2080Ti），用FP16
BF16在有硬件支持的情况下，稳定性比FP16好

Q4: 推理时需要混合精度吗？

A: 推理也可以用，能减少显存占用，加快推理速度。只要训练时用了混合精度，推理直接用就可以，不需要特殊处理。

Q5: 混合精度会影响模型最终精度吗？

A: 大量实践表明，只要训练稳定，最终精度和全FP32训练几乎没有差别。梯度缩放和权重备份技术已经很好地解决了精度问题。

面试常见问题

Q1: 什么是混合精度训练，为什么能节省显存？

Q2: 为什么会出现梯度溢出，怎么解决？

Q3: BF16相比FP16有什么优势？

Q4: 动态损失缩放的工作流程？

前向得到loss后，乘以scale因子放大
反向传播得到放大的梯度
参数更新前，梯度除以scale恢复到正确大小
如果更新中发现Inf/NaN，跳过这次更新，并将scale减半
如果连续多个step都正常，将scale翻倍
自动适应找到合适的scale

大模型面试

大模型面试

25 混合精度训练AMP

25 混合精度训练AMP

FP16 / BF16 / FP32 对比

混合精度训练原理

什么是自动混合精度训练（AMP）

为什么需要混合精度？

权重备份

梯度缩放（GradScaler）

为什么需要梯度缩放

Loss Scaling 机制

动态损失缩放

PyTorch AMP 使用示例

基本用法

完整分布式训练+AMP示例

注意事项

常见问题

Q1: 混合精度训练一定会更快吗？

Q2: 训练出现Inf/NaN怎么办？

Q3: BF16和FP16怎么选？

Q4: 推理时需要混合精度吗？

Q5: 混合精度会影响模型最终精度吗？

面试常见问题

Q1: 什么是混合精度训练，为什么能节省显存？

Q2: 为什么会出现梯度溢出，怎么解决？

Q3: BF16相比FP16有什么优势？

Q4: 动态损失缩放的工作流程？

Q5: AMP中autocast做了什么？

25 混合精度训练AMP

25 混合精度训练AMP

FP16 / BF16 / FP32 对比

混合精度训练原理

什么是自动混合精度训练（AMP）

为什么需要混合精度？

权重备份

梯度缩放（GradScaler）

为什么需要梯度缩放

Loss Scaling 机制

动态损失缩放

PyTorch AMP 使用示例

基本用法

完整分布式训练+AMP示例

注意事项

常见问题

Q1: 混合精度训练一定会更快吗？

Q2: 训练出现Inf/NaN怎么办？

Q3: BF16和FP16怎么选？

Q4: 推理时需要混合精度吗？

Q5: 混合精度会影响模型最终精度吗？

面试常见问题

Q1: 什么是混合精度训练，为什么能节省显存？

Q2: 为什么会出现梯度溢出，怎么解决？

Q3: BF16相比FP16有什么优势？

Q4: 动态损失缩放的工作流程？

Q5: AMP中autocast做了什么？