显存优化策略

概述

在大模型推理和训练过程中，显存（GPU内存）资源往往是瓶颈。显存优化技术能够让我们在有限的硬件资源下运行更大的模型、使用更大的批量数据。本文总结了常用的显存优化策略。

显存占用分析

显存占用组成

大模型的显存占用主要包括几个部分：

模型参数：存储模型权重
梯度：反向传播时计算的梯度
优化器状态：存储一阶矩、二阶矩等优化器状态
激活值：前向传播过程中产生的中间激活
CUDA内核：预留的CUDA运行空间

不同精度下的显存估算

不同精度格式每个参数占用的字节数不同：

fp32：每个参数占 4 bytes
fp16/bf16：每个参数占 2 bytes
int8：每个参数占 1 byte
int4：每个参数占 0.5 bytes

推理时显存估算

对于nB参数的模型，使用fp16精度推理：

模型权重占用：2n GB 显存

举例：

7B模型 → ~14GB
13B模型 → ~26GB
70B模型 → ~140GB

训练时显存估算

全量微调时，基础显存占用（模型参数 + 梯度 + 优化器）约为 16n GB：

模型参数（fp16）：2n
梯度（fp16）：2n
优化器（AdamW需要保存一阶、二阶矩，fp32）：12n
总计：2 + 2 + 12 = 16n GB

激活值显存占用与 max_length、batch_size 成正比。

举例：

7B全量训练 → 基础显存约112GB，加上激活值实际需要160GB+

经验公式：全量训练建议准备 20n GB 显存是最低要求，显存不够可以用Offloading将部分数据卸载到CPU内存。

梯度累积 (Gradient Accumulation)

梯度累积是一种在显存有限情况下模拟大批量训练的技术。

原理

传统的梯度更新方式对每个batch都进行一次损失计算和梯度更新：

python

for (inputs, labels) in data_loader:
    inputs = inputs.to(device)
    labels = labels.to(device)
    with torch.set_grad_enabled(True):
        # 前向传播
        preds = model(inputs)
        loss  = criterion(preds, labels)
        # 反向传播
        loss.backward()
        # 更新权重
        optimizer.step()
        optimizer.zero_grad()

梯度累积累积多个小batch的梯度，累积到指定步数后再一次性更新参数：

python

gradient_accumulation_steps = 4
for batch_idx, (inputs, labels) in enumerate(data_loader):
    inputs = inputs.to(device)
    labels = labels.to(device)
    with torch.set_grad_enabled(True):
        preds = model(inputs)
        loss = criterion(preds, labels)
        loss /= gradient_accumulation_steps  # 平均损失
        loss.backward()  # 反向传播累积梯度
        # 达到累积步数或最后一个batch才更新参数
        if ((batch_idx + 1) % gradient_accumulation_steps == 0) or ((batch_idx+1) == len(data_loader)):
            optimizer.step()
            optimizer.zero_grad()

优缺点

优点	缺点
在有限显存下实现更大有效batch	降低训练速度
梯度更稳定，收敛更好	累积步数过大可能影响优化器性能
几乎不引入额外计算开销

Gradient Checkpointing

梯度检查点是一种以计算换显存的经典技术。

原理

传统反向传播需要保存所有前向传播的中间激活值，占用大量显存。梯度检查点通过选择性地只保存一部分"检查点"节点的激活值，其他节点不保存，反向传播时重新计算未保存的激活值。

点击放大查看

反向传播时：

从输出回传到检查点E，重新计算E到输出之间的激活
从E回传到检查点C，重新计算C到E之间的激活
以此类推

优缺点

优点	缺点
显著减少激活值显存占用（可减少约30%-50%）	增加前向传播计算量
支持更大模型、更大batch训练	训练速度变慢
实现简单，易用

使用方式

在PyTorch中使用：

python

from torch.utils.checkpoint import checkpoint

class MyModel(nn.Module):
    def forward(self, x):
        # 将部分层用checkpoint包装
        x = checkpoint(self.block1, x)
        x = self.block2(x)
        return x

Offloading 策略

Offloading（卸载）是将参数、梯度或优化器状态从GPU显存卸载到CPU内存，以空间换时间解决显存不足问题。

常见卸载策略

参数卸载：将不参与当前计算的参数卸载到CPU
优化器状态卸载：将AdamW等优化器的状态存储在CPU内存
激活卸载：将部分激活卸载到CPU

ZeRO 卸载

DeepSpeed ZeRO (Zero Redundancy Optimizer) 支持多级卸载：

ZeRO-1：分割优化器状态到各个GPU
ZeRO-2：分割优化器状态 + 梯度
ZeRO-3：分割所有（参数、梯度、优化器状态），支持CPU卸载

使用ZeRO-3 Offloading后，单个GPU可以训练远大于自身显存的模型。

其他显存优化技术

1. 量化 (Quantization)

INT8量化：将权重从fp16量化为int8，节省一半显存
INT4/GPTQ量化：进一步压缩到4bit，可节省75%显存，精度损失可控
GPTQ：目前最流行的4bit量化方法，支持实时推理

2. 稀疏化

剪枝去除冗余参数，实际参数量减少，显存占用降低
结构化剪枝更利于硬件加速

3. 混合精度训练

使用fp16/bf16存储权重和计算，相比fp32节省一半显存
配合Gradient Scaling防止梯度下溢

4. LoRA (低秩适配)

只训练少量低秩矩阵，冻结原始模型权重
显存需求从16n大幅降至不到1n，大幅降低显存占用
非常适合微调大模型

推理时显存优化

推理阶段的目标是在有限显存下运行更大模型，常用优化：

权重量化：INT4/INT8量化，直接减少权重显存占用
分页注意力 (PagedAttention)：vLLM使用该技术高效管理KV缓存，减少碎片，支持更大batch
动态KV缓存裁剪：根据上下文重要性裁剪KV缓存
模型并行：将模型拆分到多卡，每张卡只存储部分权重
CPU Offload：将不常用层放到CPU内存，需要时再加载

如何评估GPU利用率

1. FLOPs比值法

利用DeepSpeed的flops_profiler实测FLOPs，除以GPU理论峰值FLOPs得到利用率：

json

{
  "flops_profiler": {
    "enabled": true,
    "profile_step": 1,
    "module_depth": -1,
    "top_modules": 1,
    "detailed": true,
    "output_file": null
  }
}

计算公式：

GPU利用率 = 实测FLOPs / GPU理论峰值FLOPs

举例：A100理论峰值312 TFLOPS，实测100 TFLOPS → 利用率32%。

2. 吞吐量估计法

根据实际训练速度估算利用率：

吞吐量 = 样本数 / 秒 / GPU × max_length
GPU利用率 = 实际吞吐量 / 论文吞吐量（假设100%利用率）

3. PyTorch Profiler分析法

使用torch.profiler记录各函数执行时间，在TensorBoard中查看tensor core利用率，可以精确分析瓶颈。

常用调试命令

查看多卡NVLINK拓扑：

bash

nvidia-smi topo -m

查看显卡型号：

bash

cd /usr/local/cuda/samples/1_Utilities/deviceQuery
make
./deviceQuery

检查DeepSpeed环境：

bash

ds_report

查看多机训练网速：

bash

iftop

面试常见问题

**如何估算一个nB大模型推理和训练分别需要多少显存？
- 推理：fp16下约 2n GB，只需要存储模型权重
- 全量训练：模型参数+梯度+优化器约16n GB，加上激活值实际需要20n GB左右
**Gradient Checkpointing 的原理是什么？它是如何节省显存的？
- 原理：不保存所有前向激活值，只保存检查点位置的激活，反向传播时重新计算未保存的激活
- 以增加计算时间为代价，显著减少激活值占用的显存，让更大模型能在有限显存下训练
**梯度累积 (Gradient Accumulation) 的作用是什么？
- 在显存有限无法跑大batch时，通过累积多个小batch梯度再更新，模拟大batch训练效果
- 不增加显存占用，就能获得大batch训练的稳定性好处，但会降低训练速度
**什么是Offloading？有什么优缺点？
- Offloading将参数、梯度或优化器状态从GPU显存卸载到CPU内存
- 优点：能在有限GPU显存训练远大于显存的模型；缺点：CPU-GPU数据传输会降低训练速度
**为什么量化能节省显存？INT4量化能节省多少显存？
- 量化通过降低每个参数的比特数来减少总存储需求，fp16每个参数16bit，INT4只用4bit
- INT4相比fp16能节省 (16-4)/16 = 75% 的显存，即只需要原来1/4的空间
**LoRA为什么能大幅减少显存占用？
- LoRA冻结原始模型权重，只训练少量低秩矩阵，绝大部分参数（原始权重）不需要计算梯度和保存优化器状态，因此显存需求大幅降低

显存优化策略

概述

显存占用分析

显存占用组成

大模型的显存占用主要包括几个部分：

模型参数：存储模型权重
梯度：反向传播时计算的梯度
优化器状态：存储一阶矩、二阶矩等优化器状态
激活值：前向传播过程中产生的中间激活
CUDA内核：预留的CUDA运行空间

不同精度下的显存估算

不同精度格式每个参数占用的字节数不同：

fp32：每个参数占 4 bytes
fp16/bf16：每个参数占 2 bytes
int8：每个参数占 1 byte
int4：每个参数占 0.5 bytes

推理时显存估算

对于nB参数的模型，使用fp16精度推理：

模型权重占用：2n GB 显存

举例：

7B模型 → ~14GB
13B模型 → ~26GB
70B模型 → ~140GB

训练时显存估算

全量微调时，基础显存占用（模型参数 + 梯度 + 优化器）约为 16n GB：

模型参数（fp16）：2n
梯度（fp16）：2n
优化器（AdamW需要保存一阶、二阶矩，fp32）：12n
总计：2 + 2 + 12 = 16n GB

激活值显存占用与 max_length、batch_size 成正比。

举例：

7B全量训练 → 基础显存约112GB，加上激活值实际需要160GB+

经验公式：全量训练建议准备 20n GB 显存是最低要求，显存不够可以用Offloading将部分数据卸载到CPU内存。

梯度累积 (Gradient Accumulation)

梯度累积是一种在显存有限情况下模拟大批量训练的技术。

原理

传统的梯度更新方式对每个batch都进行一次损失计算和梯度更新：

python

for (inputs, labels) in data_loader:
    inputs = inputs.to(device)
    labels = labels.to(device)
    with torch.set_grad_enabled(True):
        # 前向传播
        preds = model(inputs)
        loss  = criterion(preds, labels)
        # 反向传播
        loss.backward()
        # 更新权重
        optimizer.step()
        optimizer.zero_grad()

梯度累积累积多个小batch的梯度，累积到指定步数后再一次性更新参数：

python

gradient_accumulation_steps = 4
for batch_idx, (inputs, labels) in enumerate(data_loader):
    inputs = inputs.to(device)
    labels = labels.to(device)
    with torch.set_grad_enabled(True):
        preds = model(inputs)
        loss = criterion(preds, labels)
        loss /= gradient_accumulation_steps  # 平均损失
        loss.backward()  # 反向传播累积梯度
        # 达到累积步数或最后一个batch才更新参数
        if ((batch_idx + 1) % gradient_accumulation_steps == 0) or ((batch_idx+1) == len(data_loader)):
            optimizer.step()
            optimizer.zero_grad()

优缺点

优点	缺点
在有限显存下实现更大有效batch	降低训练速度
梯度更稳定，收敛更好	累积步数过大可能影响优化器性能
几乎不引入额外计算开销

Gradient Checkpointing

梯度检查点是一种以计算换显存的经典技术。

原理

点击放大查看

反向传播时：

从输出回传到检查点E，重新计算E到输出之间的激活
从E回传到检查点C，重新计算C到E之间的激活
以此类推

优缺点

优点	缺点
显著减少激活值显存占用（可减少约30%-50%）	增加前向传播计算量
支持更大模型、更大batch训练	训练速度变慢
实现简单，易用

使用方式

在PyTorch中使用：

python

from torch.utils.checkpoint import checkpoint

class MyModel(nn.Module):
    def forward(self, x):
        # 将部分层用checkpoint包装
        x = checkpoint(self.block1, x)
        x = self.block2(x)
        return x

Offloading 策略

Offloading（卸载）是将参数、梯度或优化器状态从GPU显存卸载到CPU内存，以空间换时间解决显存不足问题。

常见卸载策略

参数卸载：将不参与当前计算的参数卸载到CPU
优化器状态卸载：将AdamW等优化器的状态存储在CPU内存
激活卸载：将部分激活卸载到CPU

ZeRO 卸载

DeepSpeed ZeRO (Zero Redundancy Optimizer) 支持多级卸载：

ZeRO-1：分割优化器状态到各个GPU
ZeRO-2：分割优化器状态 + 梯度
ZeRO-3：分割所有（参数、梯度、优化器状态），支持CPU卸载

使用ZeRO-3 Offloading后，单个GPU可以训练远大于自身显存的模型。

其他显存优化技术

1. 量化 (Quantization)

INT8量化：将权重从fp16量化为int8，节省一半显存
INT4/GPTQ量化：进一步压缩到4bit，可节省75%显存，精度损失可控
GPTQ：目前最流行的4bit量化方法，支持实时推理

2. 稀疏化

剪枝去除冗余参数，实际参数量减少，显存占用降低
结构化剪枝更利于硬件加速

3. 混合精度训练

使用fp16/bf16存储权重和计算，相比fp32节省一半显存
配合Gradient Scaling防止梯度下溢

4. LoRA (低秩适配)

只训练少量低秩矩阵，冻结原始模型权重
显存需求从16n大幅降至不到1n，大幅降低显存占用
非常适合微调大模型

推理时显存优化

推理阶段的目标是在有限显存下运行更大模型，常用优化：

权重量化：INT4/INT8量化，直接减少权重显存占用
分页注意力 (PagedAttention)：vLLM使用该技术高效管理KV缓存，减少碎片，支持更大batch
动态KV缓存裁剪：根据上下文重要性裁剪KV缓存
模型并行：将模型拆分到多卡，每张卡只存储部分权重
CPU Offload：将不常用层放到CPU内存，需要时再加载

如何评估GPU利用率

1. FLOPs比值法

利用DeepSpeed的flops_profiler实测FLOPs，除以GPU理论峰值FLOPs得到利用率：

json

{
  "flops_profiler": {
    "enabled": true,
    "profile_step": 1,
    "module_depth": -1,
    "top_modules": 1,
    "detailed": true,
    "output_file": null
  }
}

计算公式：

GPU利用率 = 实测FLOPs / GPU理论峰值FLOPs

举例：A100理论峰值312 TFLOPS，实测100 TFLOPS → 利用率32%。

2. 吞吐量估计法

根据实际训练速度估算利用率：

吞吐量 = 样本数 / 秒 / GPU × max_length
GPU利用率 = 实际吞吐量 / 论文吞吐量（假设100%利用率）

3. PyTorch Profiler分析法

使用torch.profiler记录各函数执行时间，在TensorBoard中查看tensor core利用率，可以精确分析瓶颈。

常用调试命令

查看多卡NVLINK拓扑：

bash

nvidia-smi topo -m

查看显卡型号：

bash

cd /usr/local/cuda/samples/1_Utilities/deviceQuery
make
./deviceQuery

检查DeepSpeed环境：

bash

ds_report

查看多机训练网速：

bash

iftop

面试常见问题

**如何估算一个nB大模型推理和训练分别需要多少显存？
- 推理：fp16下约 2n GB，只需要存储模型权重
- 全量训练：模型参数+梯度+优化器约16n GB，加上激活值实际需要20n GB左右
**Gradient Checkpointing 的原理是什么？它是如何节省显存的？
- 原理：不保存所有前向激活值，只保存检查点位置的激活，反向传播时重新计算未保存的激活
- 以增加计算时间为代价，显著减少激活值占用的显存，让更大模型能在有限显存下训练
**梯度累积 (Gradient Accumulation) 的作用是什么？
- 在显存有限无法跑大batch时，通过累积多个小batch梯度再更新，模拟大batch训练效果
- 不增加显存占用，就能获得大batch训练的稳定性好处，但会降低训练速度
**什么是Offloading？有什么优缺点？
- Offloading将参数、梯度或优化器状态从GPU显存卸载到CPU内存
- 优点：能在有限GPU显存训练远大于显存的模型；缺点：CPU-GPU数据传输会降低训练速度
**为什么量化能节省显存？INT4量化能节省多少显存？
- 量化通过降低每个参数的比特数来减少总存储需求，fp16每个参数16bit，INT4只用4bit
- INT4相比fp16能节省 (16-4)/16 = 75% 的显存，即只需要原来1/4的空间
**LoRA为什么能大幅减少显存占用？
- LoRA冻结原始模型权重，只训练少量低秩矩阵，绝大部分参数（原始权重）不需要计算梯度和保存优化器状态，因此显存需求大幅降低

大模型面试

大模型面试

显存优化策略

显存优化策略

概述

显存占用分析

显存占用组成

不同精度下的显存估算

推理时显存估算

训练时显存估算

梯度累积 (Gradient Accumulation)

原理

优缺点

Gradient Checkpointing

原理

优缺点

使用方式

Offloading 策略

常见卸载策略

ZeRO 卸载

其他显存优化技术

1. 量化 (Quantization)

2. 稀疏化

3. 混合精度训练

4. LoRA (低秩适配)

推理时显存优化

如何评估GPU利用率

1. FLOPs比值法

2. 吞吐量估计法

3. PyTorch Profiler分析法

常用调试命令

面试常见问题

显存优化策略

显存优化策略

概述

显存占用分析

显存占用组成

不同精度下的显存估算

推理时显存估算

训练时显存估算

梯度累积 (Gradient Accumulation)

原理

优缺点

Gradient Checkpointing

原理

优缺点

使用方式

Offloading 策略

常见卸载策略

ZeRO 卸载

其他显存优化技术

1. 量化 (Quantization)

2. 稀疏化

3. 混合精度训练

4. LoRA (低秩适配)

推理时显存优化

如何评估GPU利用率

1. FLOPs比值法

2. 吞吐量估计法

3. PyTorch Profiler分析法

常用调试命令

面试常见问题