增量预训练策略

概述

增量预训练是在已有预训练模型基础上，继续在新数据上进行预训练，让模型学习新知识或适应新领域的技术。业界普遍认为"预训练学知识，指令微调学格式"，增量预训练是领域大模型构建的关键步骤。

增量预训练 vs 全量预训练

增量预训练

定义：在已有预训练基座模型基础上，继续用领域/新语种数据训练，更新模型参数。

优势：

计算成本低，不需要从零开始训练
能快速让模型获得新知识或领域能力
保留了原模型的通用能力
数据需求量相对较小（至少几B tokens）

适用场景：

领域知识注入
中文适配（很多开源基座是英文的）
新知识更新

全量预训练

定义：从零开始，用大规模数据训练整个模型。

优势：

可以完全控制数据分布
从头学习到目标领域知识，没有旧知识干扰
最终性能上限更高

劣势：

计算成本极高，需要大量GPU和时间
需要TB级数据，数据收集难度大

适用场景：

训练新的通用基座模型
对数据分布有极强控制力要求的场景

对比总结

对比维度	增量预训练	全量预训练
计算成本	低	高
数据需求	几B tokens	上百B tokens
周期	天/周	月/季度
保留通用能力	✓	✗
领域适配效果	好	更好（数据足够时）

准备工作

模型底座选型

主流选择：

LLaMA系列：最常用，Scaling法则下预训练充分，生态完善，但存在版权问题
BLOOM：开源协议友好，7B版本可用，但整体效果略逊于LLaMA
Falcon、Aquila、Baichuan：协议友好，生态和效果还在发展中，结构类似LLaMA
ChatGLM：不推荐直接在SFT模型上做增量预训练，效果较差（未证实）
中文基座：Open-Llama、Chinese-LLaMA-Alpaca等，生态完善

经验建议：起步优先选LLaMA系列，生态成熟，坑少。

数据准备

经典开源数据集：

WuDao 200G + The Pile，合计约1T文本，足够前期实践
中文领域：中文书籍、领域语料、百科等

实践建议：刚开始不需要太多数据，先收集GB量级的领域文本跑通流程，再逐步扩大。

数据清洗要点：

清理网页中的广告、导航等无用内容
去重，避免重复数据
质量过滤，保证数据质量
Falcon论文的数据清洗方法很有参考价值

训练框架选择

超大规模训练（百卡级别）

直接使用3D并行（张量并行+流水线并行+数据并行），推荐 Megatron-DeepSpeed，已有多个成功案例。

缺点：checkpoint转换麻烦，门槛较高。

少量节点训练（几台机器）

分两种情况：

单节点或多节点（节点间通信快）：直接使用 DeepSpeed ZeRO，简单有效
多节点（节点间通信慢）：考虑流水线并行，参考transpeeder实现

少量卡（资源有限）

显存不够时，可以使用 LoRA 进行增量预训练，只训练低秩矩阵，显存占用大大降低。

训练流程

1. 数据预处理

参考基座模型的预训练设置，通常处理成固定长度（如LLaMA是2048）
不够长度的做padding

2. 分词器

如果是中文适配，很多工作会扩展中文词表
如果没有定论，可先用原版分词器

3. 原始模型加载

不同框架的模型层命名可能不同，需要转换
快速原型可先跑通转换流程，保证能成功加载

4. 训练参数设置

显存不够时使用zero3+offload
多机配置deepspeed的hostfile
参数默认值通常可以工作

5. 观测训练进展

使用wandb记录loss、flops、吞吐速度、token数、ppl
根据观测结果反复调整，这一步很重要

6. 模型转换

不同框架checkpoint格式不同，需要转换为标准HuggingFace格式
以ZeRO为例：zero → f32 → fp16 → HuggingFace格式

7. 模型测试

转换后用text-generation-webui等工具加载测试
简单测试续写能力，验证模型训练正常

关键参数设置经验

数据量要求

至少需要几B tokens，否则几十条数据不如直接做微调。

Loss变化规律

增量预训练开始阶段，通常会出现loss上升，随后慢慢收敛，这是正常现象。

学习率设置

学习率大小的影响：

lr过大：loss收敛困难，旧能力损失大
lr过小：难以学到新知识

经验法则：

数据集较小（如100B以下）：建议使用原预训练阶段最大学习率的10%
举例：7B模型原预训练lr=3e-4，增量预训练用3e-5
缩放规则：lr与batch size的平方根成正比，batch size增大4倍，lr扩大2倍

Warmup设置

warmup_ratio：

通常LLM训练：warmup_ratio ≈ epoch × 1%
- 预训练1个epoch → 0.01
- SFT 3个epoch → 0.03
CPT（继续预训练）建议调大一点
数据集很大（几百B tokens）：warmup对最终效果影响不大
数据集较小：更小的ratio让模型过渡更平滑

关系：学习率越大，通常需要更大的warmup比例，二者相辅相成。

实验结论

Warmup步数的影响

实验对比不同预热步数：

模型经过充分训练后，不同warmup步数最终性能差别不大
训练前期，更长预热步数，无论是上游还是下游任务，loss都更低（下游学得快，上游忘得慢）

实践启示：资源不允许充分训练时，较小学习率+较长warmup是更稳妥的选择。

学习率大小的影响

实验对比不同最大学习率：

充分训练后，学习率越大，下游性能越好，但上游（原预训练）遗忘越多
训练前期，大学习率会导致loss大幅上升，随后下降

实践启示：根据你的资源和目标选择：如果追求下游领域性能，资源充足，可以用较大学习率；如果要保留更多原能力，资源有限，用较小学习率。

中断重启的学习率策略

实验发现：在原数据集上继续训练时，使用Rewarmup效果不如常量学习率，且学习率越大损伤越大。

结论：训练中断重启时，应该恢复学习率到中断前的状态（包括数值和衰减率），不要重新warmup。

领域适配与中文适配策略

领域适配

数据收集：收集高质量领域文本，保证领域相关性和知识覆盖率
数据清洗：严格清洗，保证数据质量，去掉无关内容
学习率：偏小学习率，避免忘掉太多通用能力
评估：除了PPL，还要做下游任务评估，验证领域效果

中文适配（基于LoRA）

以Llama 2中文增量预训练为例：

目标：保持原模型权重不变，只训练LoRA低秩矩阵，高效让模型支持中文。

语料构建：可以使用中文书籍项目（如shu数据集），纯文本格式，每本一个txt文件。

参数设置示例：

python

lr = 2e-4                  # 学习率
lora_rank = 64             # LoRA秩
lora_alpha = 128           # LoRA缩放系数
lora_trainable = "q_proj,v_proj,k_proj,o_proj,gate_proj,down_proj,up_proj"
modules_to_save = "embed_tokens,lm_head"  # 需要保存的模块
lora_dropout = 0.05
block_size = 512           # 最大序列长度
per_device_train_batch_size = 1

启动命令示例：

bash

torchrun --nnodes 1 --nproc_per_node 1 scripts/training/run_clm_pt_with_peft.py \
  --deepspeed ${deepspeed_config_file} \
  --model_name_or_path ${pretrained_model} \
  --tokenizer_name_or_path ${chinese_tokenizer_path} \
  --dataset_dir ${dataset_dir} \
  --data_cache_dir ${data_cache} \
  --per_device_train_batch_size ${per_device_train_batch_size} \
  --do_train \
  --fp16 \
  --max_steps ${training_steps} \
  --lr_scheduler_type cosine \
  --learning_rate ${lr} \
  --warmup_ratio 0.05 \
  --weight_decay 0.01 \
  --output_dir ${output_dir} \
  --lora_rank ${lora_rank} \
  --lora_alpha ${lora_alpha} \
  --trainable ${lora_trainable} \
  --modules_to_save ${modules_to_save} \
  --lora_dropout ${lora_dropout}

面试常见问题

**为什么需要增量预训练？
- 业界普遍认为预训练学知识，指令微调学格式。要让大模型获得领域知识，靠指令微调不靠谱，需要增量预训练注入新知识。
**增量预训练和全量预训练怎么选择？
- 如果是领域适配、中文适配，已有通用基座，选增量预训练，成本低见效快；如果要训练全新的通用基座模型，数据足够，才选择全量预训练。
**增量预训练学习率怎么设置？
- 数据集较小时，建议用原预训练学习率的10%左右；学习率太大容易忘掉旧知识，太小学不到新知识；学习率和batch size平方根成正比缩放。
**增量预训练初期loss上升正常吗？
- 正常。因为模型在学习新知识，分布发生变化，初期loss会上升，训练一段时间后会慢慢收敛。
**训练中断后重新启动，学习率应该怎么处理？
- 应该恢复学习率到中断前的状态，包括数值和衰减率，不要重新做warmup，因为实验表明重新warmup会损伤性能。
**LoRA能否用于增量预训练？
- 可以。资源有限显存不够时，使用LoRA做增量预训练能大幅降低显存占用，只训练低秩矩阵，是小资源下的好方案。
**中文适配LLaMA怎么做增量预训练？
- 通常使用LoRA方法，收集中文语料（如中文书籍），学习率设置为2e-4左右，rank选择64，训练增量预训练后再做SFT微调。

增量预训练策略

概述

增量预训练 vs 全量预训练

增量预训练

定义：在已有预训练基座模型基础上，继续用领域/新语种数据训练，更新模型参数。

优势：

计算成本低，不需要从零开始训练
能快速让模型获得新知识或领域能力
保留了原模型的通用能力
数据需求量相对较小（至少几B tokens）

适用场景：

领域知识注入
中文适配（很多开源基座是英文的）
新知识更新

全量预训练

定义：从零开始，用大规模数据训练整个模型。

优势：

可以完全控制数据分布
从头学习到目标领域知识，没有旧知识干扰
最终性能上限更高

劣势：

计算成本极高，需要大量GPU和时间
需要TB级数据，数据收集难度大

适用场景：

训练新的通用基座模型
对数据分布有极强控制力要求的场景

对比总结

对比维度	增量预训练	全量预训练
计算成本	低	高
数据需求	几B tokens	上百B tokens
周期	天/周	月/季度
保留通用能力	✓	✗
领域适配效果	好	更好（数据足够时）

准备工作

模型底座选型

主流选择：

LLaMA系列：最常用，Scaling法则下预训练充分，生态完善，但存在版权问题
BLOOM：开源协议友好，7B版本可用，但整体效果略逊于LLaMA
Falcon、Aquila、Baichuan：协议友好，生态和效果还在发展中，结构类似LLaMA
ChatGLM：不推荐直接在SFT模型上做增量预训练，效果较差（未证实）
中文基座：Open-Llama、Chinese-LLaMA-Alpaca等，生态完善

经验建议：起步优先选LLaMA系列，生态成熟，坑少。

数据准备

经典开源数据集：

WuDao 200G + The Pile，合计约1T文本，足够前期实践
中文领域：中文书籍、领域语料、百科等

实践建议：刚开始不需要太多数据，先收集GB量级的领域文本跑通流程，再逐步扩大。

数据清洗要点：

清理网页中的广告、导航等无用内容
去重，避免重复数据
质量过滤，保证数据质量
Falcon论文的数据清洗方法很有参考价值

训练框架选择

超大规模训练（百卡级别）

直接使用3D并行（张量并行+流水线并行+数据并行），推荐 Megatron-DeepSpeed，已有多个成功案例。

缺点：checkpoint转换麻烦，门槛较高。

少量节点训练（几台机器）

分两种情况：

单节点或多节点（节点间通信快）：直接使用 DeepSpeed ZeRO，简单有效
多节点（节点间通信慢）：考虑流水线并行，参考transpeeder实现

少量卡（资源有限）

显存不够时，可以使用 LoRA 进行增量预训练，只训练低秩矩阵，显存占用大大降低。

训练流程

1. 数据预处理

参考基座模型的预训练设置，通常处理成固定长度（如LLaMA是2048）
不够长度的做padding

2. 分词器

如果是中文适配，很多工作会扩展中文词表
如果没有定论，可先用原版分词器

3. 原始模型加载

不同框架的模型层命名可能不同，需要转换
快速原型可先跑通转换流程，保证能成功加载

4. 训练参数设置

显存不够时使用zero3+offload
多机配置deepspeed的hostfile
参数默认值通常可以工作

5. 观测训练进展

使用wandb记录loss、flops、吞吐速度、token数、ppl
根据观测结果反复调整，这一步很重要

6. 模型转换

不同框架checkpoint格式不同，需要转换为标准HuggingFace格式
以ZeRO为例：zero → f32 → fp16 → HuggingFace格式

7. 模型测试

转换后用text-generation-webui等工具加载测试
简单测试续写能力，验证模型训练正常

关键参数设置经验

数据量要求

至少需要几B tokens，否则几十条数据不如直接做微调。

Loss变化规律

增量预训练开始阶段，通常会出现loss上升，随后慢慢收敛，这是正常现象。

学习率设置

学习率大小的影响：

lr过大：loss收敛困难，旧能力损失大
lr过小：难以学到新知识

经验法则：

数据集较小（如100B以下）：建议使用原预训练阶段最大学习率的10%
举例：7B模型原预训练lr=3e-4，增量预训练用3e-5
缩放规则：lr与batch size的平方根成正比，batch size增大4倍，lr扩大2倍

Warmup设置

warmup_ratio：

通常LLM训练：warmup_ratio ≈ epoch × 1%
- 预训练1个epoch → 0.01
- SFT 3个epoch → 0.03
CPT（继续预训练）建议调大一点
数据集很大（几百B tokens）：warmup对最终效果影响不大
数据集较小：更小的ratio让模型过渡更平滑

关系：学习率越大，通常需要更大的warmup比例，二者相辅相成。

实验结论

Warmup步数的影响

实验对比不同预热步数：

模型经过充分训练后，不同warmup步数最终性能差别不大
训练前期，更长预热步数，无论是上游还是下游任务，loss都更低（下游学得快，上游忘得慢）

实践启示：资源不允许充分训练时，较小学习率+较长warmup是更稳妥的选择。

学习率大小的影响

实验对比不同最大学习率：

充分训练后，学习率越大，下游性能越好，但上游（原预训练）遗忘越多
训练前期，大学习率会导致loss大幅上升，随后下降

实践启示：根据你的资源和目标选择：如果追求下游领域性能，资源充足，可以用较大学习率；如果要保留更多原能力，资源有限，用较小学习率。

中断重启的学习率策略

实验发现：在原数据集上继续训练时，使用Rewarmup效果不如常量学习率，且学习率越大损伤越大。

结论：训练中断重启时，应该恢复学习率到中断前的状态（包括数值和衰减率），不要重新warmup。

领域适配与中文适配策略

领域适配

数据收集：收集高质量领域文本，保证领域相关性和知识覆盖率
数据清洗：严格清洗，保证数据质量，去掉无关内容
学习率：偏小学习率，避免忘掉太多通用能力
评估：除了PPL，还要做下游任务评估，验证领域效果

中文适配（基于LoRA）

以Llama 2中文增量预训练为例：

目标：保持原模型权重不变，只训练LoRA低秩矩阵，高效让模型支持中文。

语料构建：可以使用中文书籍项目（如shu数据集），纯文本格式，每本一个txt文件。

参数设置示例：

python

lr = 2e-4                  # 学习率
lora_rank = 64             # LoRA秩
lora_alpha = 128           # LoRA缩放系数
lora_trainable = "q_proj,v_proj,k_proj,o_proj,gate_proj,down_proj,up_proj"
modules_to_save = "embed_tokens,lm_head"  # 需要保存的模块
lora_dropout = 0.05
block_size = 512           # 最大序列长度
per_device_train_batch_size = 1

启动命令示例：

bash

torchrun --nnodes 1 --nproc_per_node 1 scripts/training/run_clm_pt_with_peft.py \
  --deepspeed ${deepspeed_config_file} \
  --model_name_or_path ${pretrained_model} \
  --tokenizer_name_or_path ${chinese_tokenizer_path} \
  --dataset_dir ${dataset_dir} \
  --data_cache_dir ${data_cache} \
  --per_device_train_batch_size ${per_device_train_batch_size} \
  --do_train \
  --fp16 \
  --max_steps ${training_steps} \
  --lr_scheduler_type cosine \
  --learning_rate ${lr} \
  --warmup_ratio 0.05 \
  --weight_decay 0.01 \
  --output_dir ${output_dir} \
  --lora_rank ${lora_rank} \
  --lora_alpha ${lora_alpha} \
  --trainable ${lora_trainable} \
  --modules_to_save ${modules_to_save} \
  --lora_dropout ${lora_dropout}

面试常见问题

**为什么需要增量预训练？
- 业界普遍认为预训练学知识，指令微调学格式。要让大模型获得领域知识，靠指令微调不靠谱，需要增量预训练注入新知识。
**增量预训练和全量预训练怎么选择？
- 如果是领域适配、中文适配，已有通用基座，选增量预训练，成本低见效快；如果要训练全新的通用基座模型，数据足够，才选择全量预训练。
**增量预训练学习率怎么设置？
- 数据集较小时，建议用原预训练学习率的10%左右；学习率太大容易忘掉旧知识，太小学不到新知识；学习率和batch size平方根成正比缩放。
**增量预训练初期loss上升正常吗？
- 正常。因为模型在学习新知识，分布发生变化，初期loss会上升，训练一段时间后会慢慢收敛。
**训练中断后重新启动，学习率应该怎么处理？
- 应该恢复学习率到中断前的状态，包括数值和衰减率，不要重新做warmup，因为实验表明重新warmup会损伤性能。
**LoRA能否用于增量预训练？
- 可以。资源有限显存不够时，使用LoRA做增量预训练能大幅降低显存占用，只训练低秩矩阵，是小资源下的好方案。
**中文适配LLaMA怎么做增量预训练？
- 通常使用LoRA方法，收集中文语料（如中文书籍），学习率设置为2e-4左右，rank选择64，训练增量预训练后再做SFT微调。

大模型面试

大模型面试

增量预训练策略

增量预训练策略

概述

增量预训练 vs 全量预训练

增量预训练

全量预训练

对比总结

准备工作

模型底座选型

数据准备

训练框架选择

超大规模训练（百卡级别）

少量节点训练（几台机器）

少量卡（资源有限）

训练流程

1. 数据预处理

2. 分词器

3. 原始模型加载

4. 训练参数设置

5. 观测训练进展

6. 模型转换

7. 模型测试

关键参数设置经验

数据量要求

Loss变化规律

学习率设置

Warmup设置

实验结论

Warmup步数的影响

学习率大小的影响

中断重启的学习率策略

领域适配与中文适配策略

领域适配

中文适配（基于LoRA）

面试常见问题

增量预训练策略

增量预训练策略

概述

增量预训练 vs 全量预训练

增量预训练

全量预训练

对比总结

准备工作

模型底座选型

数据准备

训练框架选择

超大规模训练（百卡级别）

少量节点训练（几台机器）

少量卡（资源有限）

训练流程

1. 数据预处理

2. 分词器

3. 原始模型加载

4. 训练参数设置

5. 观测训练进展

6. 模型转换

7. 模型测试

关键参数设置经验

数据量要求

Loss变化规律

学习率设置

Warmup设置

实验结论

Warmup步数的影响

学习率大小的影响

中断重启的学习率策略

领域适配与中文适配策略

领域适配

中文适配（基于LoRA）

面试常见问题