中文大模型适配策略

概述

主流开源大模型（如LLaMA系列）大多以英文语料为核心，中文词表覆盖不足，对中文支持不友好。要让英文大模型更好支持中文，通常需要三个关键步骤：构建中文Tokenizer → 继续预训练 → 指令微调。本文介绍完整的中文适配流程。

一、中文Tokenizer构建

为什么需要重新构建中文词表？

原生英文模型的词表对中文覆盖不足，中文通常会被拆分成单个字节，导致：

中文序列长度爆炸，相同文字占用更多token
模型无法学习到中文的语义信息，效果变差
推理效率降低，更长的序列意味着更多计算

因此，第一步需要扩展词表，增加中文词汇。

训练中文词表的实践步骤

1. 数据预处理

首先收集中文语料，并进行清洗过滤：

python

# 示例：预处理《斗破苍穹》小说语料
sentences = []
with open("data/raw.txt", "r", encoding="utf-8") as fp:
    for line in fp:
        line = line.strip()
        # 过滤无效内容
        if "===" in line or len(line) == 0 or "来自:" in line:
            continue
        sentences.append(line)

with open("data/corpus.txt", "w", encoding="utf-8") as fp:
    fp.write("\n".join(sentences))

2. 使用SentencePiece训练中文词表

SentencePiece是Google开源的子词分词工具，适合训练多语言词表：

python

import sentencepiece as spm

spm.SentencePieceTrainer.train(
    input='data/corpus.txt',
    model_prefix='tokenizer',
    vocab_size=50000,
    character_coverage=1.0,  # 1.0表示覆盖所有字符
    model_type="bpe",
)

主要参数说明：

vocab_size：设置词表大小，中文通常建议50k-60k
character_coverage：中文建议设为1.0，保证所有中文字符都被覆盖
model_type：可选unigram或bpe，BPE更常用

运行后得到tokenizer.model和tokenizer.vocab两个文件。

3. 合并中英文词表

将训练好的中文词表与原英文模型词表合并：

python

from transformers import LlamaTokenizer
from sentencepiece import sentencepiece_model_pb2 as sp_pb2_model
import sentencepiece as spm

# 加载原有LLaMA词表
llama_tokenizer = LlamaTokenizer.from_pretrained("original_llama_tokenizer")
llama_spm = sp_pb2_model.ModelProto()
llama_spm.ParseFromString(llama_tokenizer.sp_model.serialized_model_proto())

# 加载新训练的中文词表
chinese_sp = spm.SentencePieceProcessor()
chinese_sp.Load("tokenizer.model")
chinese_spm = sp_pb2_model.ModelProto()
chinese_spm.ParseFromString(chinese_sp.serialized_model_proto())

# 合并词表：添加原有词表中没有的中文词
llama_spm_tokens = set(p.piece for p in llama_spm.pieces)
for p in chinese_spm.pieces:
    piece = p.piece
    if piece not in llama_spm_tokens:
        new_p = sp_pb2_model.ModelProto().SentencePiece()
        new_p.piece = piece
        new_p.score = 0
        llama_spm.pieces.append(new_p)

# 保存合并后的词表
output_dir = 'chinese_llama_tokenizer'
os.makedirs(output_dir, exist_ok=True)
with open(output_dir + '/chinese_llama.model', 'wb') as f:
    f.write(llama_spm.SerializeToString())
tokenizer = LlamaTokenizer(vocab_file=output_dir + '/chinese_llama.model')
tokenizer.save_pretrained(output_dir)

合并效果对比：

模型	"白日依山尽，黄河入海流。"分词结果	token数量
原生LLaMA	['▁', '白', '日', '<0xE4>', '<0xBE>', ...	约30+
中文适配后	['▁白日', '依山', '尽', '，', ...	约20

中文词表合并后，分词粒度更合理，显著减少token数量。

4. 模型Embedding调整

合并词表后需要调整模型的输入嵌入层和输出层：

python

from transformers import AutoConfig, AutoModelForCausalLM

config = AutoConfig.from_pretrained(...)
tokenizer = LlamaTokenizer.from_pretrained(...)
model = AutoModelForCausalLM.from_pretrained(..., config=config)

# 调整词表大小，新增token随机初始化
model.resize_token_embeddings(len(tokenizer))

如果要保留原有token的Embedding，新增token初始化：

找到新旧词表的id映射
原有token复用原始Embedding
新增token使用模型默认初始化方式，通常是normal_(mean=0, std=config.initializer_range)

二、中文预训练数据准备

扩充词表后，新增中文token的Embedding是随机初始化的，需要通过继续预训练让模型学习中文知识。

数据预处理流程

继续预训练的数据预处理与普通LM训练类似：

python

# 核心步骤：将所有文本拼接，按block_size切分
block_size = 512

def tokenize_function(examples):
    return tokenizer(examples["text"])

def group_texts(examples):
    # 将所有文本拼接
    concatenated_examples = {
        k: list(chain(*examples[k])) for k in examples.keys()
    }
    total_length = len(concatenated_examples[list(examples.keys())[0]])
    # 按block_size切分，丢弃末尾不足block_size的部分
    total_length = (total_length // block_size) * block_size
    result = {
        k: [t[i : i + block_size] for i in range(0, total_length, block_size)]
        for k, t in concatenated_examples.items()
    }
    # 语言模型任务，labels等于input_ids
    result["labels"] = result["input_ids"].copy()
    return result

处理后每个样本是长度为block_size的连续中文文本，模型训练目标仍然是自回归语言建模（根据上文预测下一个token）。

继续预训练实践要点

参数高效微调：通常使用LoRA等PEFT方法减少显存占用，只需要训练少数参数

bash
1# 示例启动命令 2torchrun --nnodes 1 --nproc_per_node 1 run_clm_pt_with_peft.py \ 3 --deepspeed ds_zero2_no_offload.json \ 4 --model_name_or_path base_model_path \ 5 --tokenizer_name_or_path tokenizer_path \ 6 --dataset_dir data \ 7 --per_device_train_batch_size 32 \ 8 --learning_rate 2e-4 \ 9 --max_steps 2500 \ 10 --lora_rank 8 \ 11 --lora_alpha 32 \ 12 --modules_to_save transformer.wte,lm_head \ 13 --block_size 512 \ 14 --output_dir output_dir
关键注意点：
- 新增的word token embedding（transformer.wte）和输出层（lm_head）需要全量训练，不能只训练LoRA
- 使用Gradient Checkpointing节省显存
- 混合精度训练加速

三、继续预训练 + 指令微调

在继续预训练让模型学好中文后，需要进行指令微调（Supervised Fine-Tuning，SFT）让模型对齐人类指令。

指令数据格式

指令数据一般包含三个字段：

instruction：任务指令描述
input：可选，用户输入/问题上下文
output：期望模型输出的回答

示例：

json

[
  {
    "instruction": "什么是大语言模型?",
    "input": "",
    "output": "大语言模型是一种基于Transformer架构的大规模预训练语言模型..."
  }
]

不同模型的输入构造差异

不同模型的Prompt模板和输入构造方式不同，需要特别注意：

Alpaca格式:

Below is an instruction that describes a task. 
Write a response that appropriately completes the request.

### Instruction:
{instruction}{input}

### Response:

ChatGLM格式: ChatGLM需要特殊的[gMASK]标记：

python

# instruction + input 拼接得到source
# output 添加bos/eos
source = instruction + ("\n" + input if input else "")
target = f"{tokenizer.bos_token}{output}{tokenizer.eos_token}"
# 构造input_ids: source_ids + [gmask] + sop + target_ids + eos
input_ids = source_ids + [gmask_id] + [sop_id] + target_ids + [eos_id]
# labels: source部分全设为-100，只计算target部分损失
labels = [IGNORE_INDEX] * len(source_ids) + [gmask_id] + [sop_id] + target_ids + [eos_id]

关键标签构造规则：

输入（instruction+input）部分的标签全部设为-100，损失计算时会被忽略
只对输出部分计算损失
不同模型特殊标记不同，需要查阅对应文档

指令微调启动示例（以Baichuan为例）

全量微调（需要多卡A100）：

bash

deepspeed --num_gpus=8 src/train_bash.py \
  --stage sft \
  --model_name_or_path baichuan-inc/Baichuan-13B-Base \
  --do_train \
  --dataset alpaca_gpt4_en,alpaca_gpt4_zh \
  --finetuning_type full \
  --output_dir path_to_your_sft_checkpoint \
  --per_device_train_batch_size 4 \
  --learning_rate 5e-5 \
  --num_train_epochs 2.0 \
  --fp16 \
  --deepspeed deepspeed.json

LoRA微调（单卡A100即可）：

bash

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
  --stage sft \
  --model_name_or_path baichuan-inc/Baichuan-13B-Base \
  --do_train \
  --dataset alpaca_gpt4_en,alpaca_gpt4_zh \
  --finetuning_type lora \
  --lora_rank 8 \
  --output_dir path_to_your_sft_checkpoint \
  --learning_rate 5e-5 \
  --num_train_epochs 2.0 \
  --fp16

四、中文评测基准

适配完成后需要在中文基准上评测效果，常用中文评测数据集：

评测集	简介	类型
C-Eval	覆盖52个学科的中小学到大学难度选择题	知识理解
CMMLU	中文语言理解测评，覆盖更多领域	综合能力
MMLU-ZH	MMLU中文翻译版	知识问答
GSM8K-ZH	小学数学应用题	数学推理
HumanEval-X	多语言代码生成，含中文	代码能力

面试常见问题

如何让一个预训练好的英文大模型更好支持中文？
- 第一步：扩充词表，使用SentencePiece在大规模中文语料上训练中文tokenizer，合并中英文词表
- 第二步：继续预训练，在中文语料上继续训练，让新增token获得正确的Embedding，学习中文知识
- 第三步：指令微调，使用中文指令数据微调，让模型对齐中文对话和指令遵循能力
为什么原生LLaMA对中文支持不好？
- 原生LLaMA训练语料以英文为主，中文占比少
- 原生词表对中文覆盖不足，很多中文词汇会被拆分成单个字节，导致同一个汉字占用多个token
- 序列变长，效率降低，也影响语义学习
合并词表后如何处理模型Embedding层？
- 调用model.resize_token_embeddings(len(tokenizer))自动调整
- 原有token保留训练好的Embedding权重
- 新增token使用模型默认初始化（通常是正态分布随机初始化）
- 继续预训练阶段学习这些新增token的表示
指令微调中labels怎么构造？为什么输入部分要设为-100？
- labels中输入部分（instruction+input）全部设为-100，只保留输出部分的真实标签
- 因为计算损失时，-100会被PyTorch忽略，模型只需要学习预测输出，不需要预测输入
- 这是因果语言模型训练的标准做法
不同大模型的指令数据构造有什么差异？
- 核心思想一致：只计算输出部分损失
- 差异主要在于特殊标记使用和Prompt模板：
  - Alpaca使用固定模板，没有特殊标记
  - ChatGLM需要添加[gMASK]、sop等特殊标记
  - 不同模型的bos_token/eos_token位置可能不同
中文适配中，继续预训练的目的是什么？能不能直接指令微调？
- 继续预训练的主要目的：让新增的中文token学习到合理的Embedding表示，让模型学习中文的语法、语义知识
- 如果直接指令微调，新增token是随机初始化，模型很难学习，效果会很差
- 如果只是少量扩展词表，原词表已经覆盖大部分中文，也可以尝试直接指令微调，但一般来说继续预训练效果更好

中文大模型适配策略

概述

一、中文Tokenizer构建

为什么需要重新构建中文词表？

原生英文模型的词表对中文覆盖不足，中文通常会被拆分成单个字节，导致：

中文序列长度爆炸，相同文字占用更多token
模型无法学习到中文的语义信息，效果变差
推理效率降低，更长的序列意味着更多计算

因此，第一步需要扩展词表，增加中文词汇。

训练中文词表的实践步骤

1. 数据预处理

首先收集中文语料，并进行清洗过滤：

python

# 示例：预处理《斗破苍穹》小说语料
sentences = []
with open("data/raw.txt", "r", encoding="utf-8") as fp:
    for line in fp:
        line = line.strip()
        # 过滤无效内容
        if "===" in line or len(line) == 0 or "来自:" in line:
            continue
        sentences.append(line)

with open("data/corpus.txt", "w", encoding="utf-8") as fp:
    fp.write("\n".join(sentences))

2. 使用SentencePiece训练中文词表

SentencePiece是Google开源的子词分词工具，适合训练多语言词表：

python

import sentencepiece as spm

spm.SentencePieceTrainer.train(
    input='data/corpus.txt',
    model_prefix='tokenizer',
    vocab_size=50000,
    character_coverage=1.0,  # 1.0表示覆盖所有字符
    model_type="bpe",
)

主要参数说明：

vocab_size：设置词表大小，中文通常建议50k-60k
character_coverage：中文建议设为1.0，保证所有中文字符都被覆盖
model_type：可选unigram或bpe，BPE更常用

运行后得到tokenizer.model和tokenizer.vocab两个文件。

3. 合并中英文词表

将训练好的中文词表与原英文模型词表合并：

python

from transformers import LlamaTokenizer
from sentencepiece import sentencepiece_model_pb2 as sp_pb2_model
import sentencepiece as spm

# 加载原有LLaMA词表
llama_tokenizer = LlamaTokenizer.from_pretrained("original_llama_tokenizer")
llama_spm = sp_pb2_model.ModelProto()
llama_spm.ParseFromString(llama_tokenizer.sp_model.serialized_model_proto())

# 加载新训练的中文词表
chinese_sp = spm.SentencePieceProcessor()
chinese_sp.Load("tokenizer.model")
chinese_spm = sp_pb2_model.ModelProto()
chinese_spm.ParseFromString(chinese_sp.serialized_model_proto())

# 合并词表：添加原有词表中没有的中文词
llama_spm_tokens = set(p.piece for p in llama_spm.pieces)
for p in chinese_spm.pieces:
    piece = p.piece
    if piece not in llama_spm_tokens:
        new_p = sp_pb2_model.ModelProto().SentencePiece()
        new_p.piece = piece
        new_p.score = 0
        llama_spm.pieces.append(new_p)

# 保存合并后的词表
output_dir = 'chinese_llama_tokenizer'
os.makedirs(output_dir, exist_ok=True)
with open(output_dir + '/chinese_llama.model', 'wb') as f:
    f.write(llama_spm.SerializeToString())
tokenizer = LlamaTokenizer(vocab_file=output_dir + '/chinese_llama.model')
tokenizer.save_pretrained(output_dir)

合并效果对比：

模型	"白日依山尽，黄河入海流。"分词结果	token数量
原生LLaMA	['▁', '白', '日', '<0xE4>', '<0xBE>', ...	约30+
中文适配后	['▁白日', '依山', '尽', '，', ...	约20

中文词表合并后，分词粒度更合理，显著减少token数量。

4. 模型Embedding调整

合并词表后需要调整模型的输入嵌入层和输出层：

python

from transformers import AutoConfig, AutoModelForCausalLM

config = AutoConfig.from_pretrained(...)
tokenizer = LlamaTokenizer.from_pretrained(...)
model = AutoModelForCausalLM.from_pretrained(..., config=config)

# 调整词表大小，新增token随机初始化
model.resize_token_embeddings(len(tokenizer))

如果要保留原有token的Embedding，新增token初始化：

找到新旧词表的id映射
原有token复用原始Embedding
新增token使用模型默认初始化方式，通常是normal_(mean=0, std=config.initializer_range)

二、中文预训练数据准备

扩充词表后，新增中文token的Embedding是随机初始化的，需要通过继续预训练让模型学习中文知识。

数据预处理流程

继续预训练的数据预处理与普通LM训练类似：

python

# 核心步骤：将所有文本拼接，按block_size切分
block_size = 512

def tokenize_function(examples):
    return tokenizer(examples["text"])

def group_texts(examples):
    # 将所有文本拼接
    concatenated_examples = {
        k: list(chain(*examples[k])) for k in examples.keys()
    }
    total_length = len(concatenated_examples[list(examples.keys())[0]])
    # 按block_size切分，丢弃末尾不足block_size的部分
    total_length = (total_length // block_size) * block_size
    result = {
        k: [t[i : i + block_size] for i in range(0, total_length, block_size)]
        for k, t in concatenated_examples.items()
    }
    # 语言模型任务，labels等于input_ids
    result["labels"] = result["input_ids"].copy()
    return result

处理后每个样本是长度为block_size的连续中文文本，模型训练目标仍然是自回归语言建模（根据上文预测下一个token）。

继续预训练实践要点

参数高效微调：通常使用LoRA等PEFT方法减少显存占用，只需要训练少数参数

bash
1# 示例启动命令 2torchrun --nnodes 1 --nproc_per_node 1 run_clm_pt_with_peft.py \ 3 --deepspeed ds_zero2_no_offload.json \ 4 --model_name_or_path base_model_path \ 5 --tokenizer_name_or_path tokenizer_path \ 6 --dataset_dir data \ 7 --per_device_train_batch_size 32 \ 8 --learning_rate 2e-4 \ 9 --max_steps 2500 \ 10 --lora_rank 8 \ 11 --lora_alpha 32 \ 12 --modules_to_save transformer.wte,lm_head \ 13 --block_size 512 \ 14 --output_dir output_dir
关键注意点：
- 新增的word token embedding（transformer.wte）和输出层（lm_head）需要全量训练，不能只训练LoRA
- 使用Gradient Checkpointing节省显存
- 混合精度训练加速

三、继续预训练 + 指令微调

在继续预训练让模型学好中文后，需要进行指令微调（Supervised Fine-Tuning，SFT）让模型对齐人类指令。

指令数据格式

指令数据一般包含三个字段：

instruction：任务指令描述
input：可选，用户输入/问题上下文
output：期望模型输出的回答

示例：

json

[
  {
    "instruction": "什么是大语言模型?",
    "input": "",
    "output": "大语言模型是一种基于Transformer架构的大规模预训练语言模型..."
  }
]

不同模型的输入构造差异

不同模型的Prompt模板和输入构造方式不同，需要特别注意：

Alpaca格式:

Below is an instruction that describes a task. 
Write a response that appropriately completes the request.

### Instruction:
{instruction}{input}

### Response:

ChatGLM格式: ChatGLM需要特殊的[gMASK]标记：

python

# instruction + input 拼接得到source
# output 添加bos/eos
source = instruction + ("\n" + input if input else "")
target = f"{tokenizer.bos_token}{output}{tokenizer.eos_token}"
# 构造input_ids: source_ids + [gmask] + sop + target_ids + eos
input_ids = source_ids + [gmask_id] + [sop_id] + target_ids + [eos_id]
# labels: source部分全设为-100，只计算target部分损失
labels = [IGNORE_INDEX] * len(source_ids) + [gmask_id] + [sop_id] + target_ids + [eos_id]

关键标签构造规则：

输入（instruction+input）部分的标签全部设为-100，损失计算时会被忽略
只对输出部分计算损失
不同模型特殊标记不同，需要查阅对应文档

指令微调启动示例（以Baichuan为例）

全量微调（需要多卡A100）：

bash

deepspeed --num_gpus=8 src/train_bash.py \
  --stage sft \
  --model_name_or_path baichuan-inc/Baichuan-13B-Base \
  --do_train \
  --dataset alpaca_gpt4_en,alpaca_gpt4_zh \
  --finetuning_type full \
  --output_dir path_to_your_sft_checkpoint \
  --per_device_train_batch_size 4 \
  --learning_rate 5e-5 \
  --num_train_epochs 2.0 \
  --fp16 \
  --deepspeed deepspeed.json

LoRA微调（单卡A100即可）：

bash

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
  --stage sft \
  --model_name_or_path baichuan-inc/Baichuan-13B-Base \
  --do_train \
  --dataset alpaca_gpt4_en,alpaca_gpt4_zh \
  --finetuning_type lora \
  --lora_rank 8 \
  --output_dir path_to_your_sft_checkpoint \
  --learning_rate 5e-5 \
  --num_train_epochs 2.0 \
  --fp16

四、中文评测基准

适配完成后需要在中文基准上评测效果，常用中文评测数据集：

评测集	简介	类型
C-Eval	覆盖52个学科的中小学到大学难度选择题	知识理解
CMMLU	中文语言理解测评，覆盖更多领域	综合能力
MMLU-ZH	MMLU中文翻译版	知识问答
GSM8K-ZH	小学数学应用题	数学推理
HumanEval-X	多语言代码生成，含中文	代码能力

面试常见问题

如何让一个预训练好的英文大模型更好支持中文？
- 第一步：扩充词表，使用SentencePiece在大规模中文语料上训练中文tokenizer，合并中英文词表
- 第二步：继续预训练，在中文语料上继续训练，让新增token获得正确的Embedding，学习中文知识
- 第三步：指令微调，使用中文指令数据微调，让模型对齐中文对话和指令遵循能力
为什么原生LLaMA对中文支持不好？
- 原生LLaMA训练语料以英文为主，中文占比少
- 原生词表对中文覆盖不足，很多中文词汇会被拆分成单个字节，导致同一个汉字占用多个token
- 序列变长，效率降低，也影响语义学习
合并词表后如何处理模型Embedding层？
- 调用model.resize_token_embeddings(len(tokenizer))自动调整
- 原有token保留训练好的Embedding权重
- 新增token使用模型默认初始化（通常是正态分布随机初始化）
- 继续预训练阶段学习这些新增token的表示
指令微调中labels怎么构造？为什么输入部分要设为-100？
- labels中输入部分（instruction+input）全部设为-100，只保留输出部分的真实标签
- 因为计算损失时，-100会被PyTorch忽略，模型只需要学习预测输出，不需要预测输入
- 这是因果语言模型训练的标准做法
不同大模型的指令数据构造有什么差异？
- 核心思想一致：只计算输出部分损失
- 差异主要在于特殊标记使用和Prompt模板：
  - Alpaca使用固定模板，没有特殊标记
  - ChatGLM需要添加[gMASK]、sop等特殊标记
  - 不同模型的bos_token/eos_token位置可能不同
中文适配中，继续预训练的目的是什么？能不能直接指令微调？
- 继续预训练的主要目的：让新增的中文token学习到合理的Embedding表示，让模型学习中文的语法、语义知识
- 如果直接指令微调，新增token是随机初始化，模型很难学习，效果会很差
- 如果只是少量扩展词表，原词表已经覆盖大部分中文，也可以尝试直接指令微调，但一般来说继续预训练效果更好

大模型面试

大模型面试

中文大模型适配策略

中文大模型适配策略

概述

一、中文Tokenizer构建

为什么需要重新构建中文词表？

训练中文词表的实践步骤

1. 数据预处理

2. 使用SentencePiece训练中文词表

3. 合并中英文词表

4. 模型Embedding调整

二、中文预训练数据准备

数据预处理流程

继续预训练实践要点

三、继续预训练 + 指令微调

指令数据格式

不同模型的输入构造差异

指令微调启动示例（以Baichuan为例）

四、中文评测基准

面试常见问题

中文大模型适配策略

中文大模型适配策略

概述

一、中文Tokenizer构建

为什么需要重新构建中文词表？

训练中文词表的实践步骤

1. 数据预处理

2. 使用SentencePiece训练中文词表

3. 合并中英文词表

4. 模型Embedding调整

二、中文预训练数据准备

数据预处理流程

继续预训练实践要点

三、继续预训练 + 指令微调

指令数据格式

不同模型的输入构造差异

指令微调启动示例（以Baichuan为例）

四、中文评测基准

面试常见问题