模型蒸馏技术

概述

知识蒸馏（Knowledge Distillation，KD） 是一种模型压缩技术，通过让小模型（学生）学习大模型（教师）的"暗知识"，提升小模型的性能，使得小模型能够接近大模型的准确率，同时保持小模型推理快、内存占用小的优势。

核心原理

基本思想

知识蒸馏的核心思想：用一个训练好的大模型（教师模型）来指导小模型（学生模型）训练，让小模型不仅学习原始标签，还学习教师模型输出的软分布中包含的知识。

为什么需要知识蒸馏

大模型准确率高，但参数多、推理慢、内存占用大，难以部署在端侧设备
小模型推理快、占地小，但准确率低
知识蒸馏希望兼得：得到小模型的速度，接近大模型的准确率

软标签 vs 硬标签

硬标签：原始的one-hot标签，比如分类问题中正确类别是1，其他都是0
软标签：教师模型输出的概率分布，包含了不同类别之间的相似性信息，这就是"暗知识"

例如，在图像分类中，模型判断一张猫的图片："猫"概率90%，"狗"概率5%，"虎"概率3%。这个分布告诉我们猫和狗、虎在特征空间上比较相似，这些信息是硬标签没有的。

蒸馏损失

标准的知识蒸馏损失是硬损失和软损失的加权组合：

Loss = α * Loss_hard(y_true, y_student) + (1-α) * Loss_soft(p_teacher, p_student)

其中：

Loss_hard：学生预测和真实标签之间的交叉熵
Loss_soft：学生输出的软标签和教师输出的软标签之间的交叉熵
α：超参数，权衡两种损失

温度参数

为了让软标签的分布更平滑，通常会引入温度T对logits进行缩放：

p_i = exp(z_i / T) / Σ exp(z_j / T)

T=1：就是普通的softmax
T>1：分布变得更平滑，小概率类别也会得到更大的概率，暗知识更明显
T越大，分布越平滑

蒸馏训练时用T，推理时T恢复为1。温度越高，越能提取教师模型的暗知识。

知识蒸馏的分类

离线蒸馏 (Offline Distillation)

教师模型已经训练好，冻结参数，指导学生训练
学生的损失是：学生预测和真实标签的损失 + 学生预测和教师预测的蒸馏损失
最常见的蒸馏方式

在线蒸馏 (Online Distillation)

教师和学生一起训练，不需要预训练好教师
或者互相学习，共同进化
例如：最近邻蒸馏，利用训练好的学生 checkpoint 作为下一轮的教师

自蒸馏 (Self-Distillation)

教师和学生是同一个模型，或者用同一个模型的不同版本
将训练好的模型作为教师，蒸馏自己得到更小的版本
甚至可以在训练过程中，用early stopping得到的模型蒸馏自己

半监督蒸馏

利用教师模型为无标注数据生成伪标签，再用这些伪标签训练学生
适合标注数据少的场景

经典知识蒸馏模型

Hinton 原始蒸馏 (2015)

最经典的知识蒸馏：

预训练好大教师模型
训练小学生模型，拟合教师的软标签和真实硬标签
引入温度T平滑软分布

FitNets

不仅让学生拟合教师的输出层，还拟合教师的中间层特征
让学生的中间层特征和教师的中间层特征匹配，得到更细粒度的知识迁移
比只蒸馏输出层效果更好

Born-Again Network (BAN)

用一个已经训练好的模型作为教师，重新初始化一个相同结构的学生模型，然后蒸馏训练
结果：学生模型比教师模型准确率更高！
说明知识蒸馏可以提炼知识，消除噪声，即使相同大小也能提升

TinyBERT

针对BERT的知识蒸馏
蒸馏attention权重、隐藏层状态、输出层logits
得到的TinyBERT比原BERT小很多，推理快很多，性能下降不多

蒸馏对抗网络

在知识蒸馏基础上加入对抗训练，让学生分布更接近教师分布，提高鲁棒性。

蒸馏损失设计

对数匹配 (Logits Matching)

最常见：最小化学生logits和教师logits之间的MSE或者KL散度。

特征匹配 (Feature Matching)

不仅匹配输出，还匹配中间层特征，让学生学习教师的分层特征表示。FitNets就是这种方法。

关系蒸馏 (Relation Distillation)

不匹配单个样本的特征，匹配样本对之间的关系。让学生学习样本间的相对关系，而不是绝对特征。

注意力蒸馏

蒸馏Transformer中的注意力权重分布，让学生学习教师的注意力模式。TinyBERT用到了这个。

知识蒸馏在大模型中的应用

大模型蒸馏到小模型

这是最常见的应用：

教师：大语言模型（如GPT-3、LLaMA-70B）
学生：小语言模型（如7B、1B级别）
效果：小模型保留了大模型大部分能力，但推理速度提升很多，部署成本降低

对齐蒸馏

将ChatGPT的对齐知识蒸馏到开源 base 模型：

ChatGPT回答了很多问题
用这些回答作为软标签，训练开源小模型
使得开源小模型也具备对齐能力，这就是很多开源Chat模型的做法

集成蒸馏

将多个模型集成的知识蒸馏到单个学生模型，用单个模型达到集成效果，推理时只用一个学生模型。

模型压缩和加速相关技术对比

知识蒸馏是模型压缩方法之一，常见的模型压缩加速方法：

方法	原理	作用
知识蒸馏	大模型教小模型	压缩模型，保持性能
剪枝	删除冗余参数/神经元	减少参数量，加速推理
量化	将32位浮点转为8位整数/16位浮点	减少内存占用，加速推理
低秩分解	将大权重矩阵分解为两个小矩阵	减少参数量和计算
权重共享	多个神经元共享相同权重	减少参数量

知识蒸馏和其他方法可以结合使用：

蒸馏 + 量化：效果更好，压缩更彻底
剪枝 + 蒸馏：剪枝后蒸馏恢复精度
结构化剪枝其实就是得到小模型，也可以看成一种蒸馏

面试常见问题

**什么是知识蒸馏？讲讲基本原理 知识蒸馏是模型压缩技术，用一个训练好的大模型（教师）指导小模型（学生）训练，让学生不仅学习硬标签，还学习教师输出的软标签，软标签中包含类别相似性等暗知识，帮助学生更好学习，最终小模型能达到接近大模型的准确率，同时保持小模型速度快、占地小的优势。
**什么是软标签？为什么软标签比硬标签好？ 硬标签是one-hot，只有正确类别是1，其他都是0，只告诉学生哪个对，不告诉为什么对，也不告诉类别之间的关系。软标签是教师模型输出的概率分布，它包含了不同类别之间的相似性信息，比如猫的图，狗概率比车高，说明猫更像狗不像车，这些暗知识能帮助学生更好学习泛化。
**温度参数T的作用是什么？为什么要用T？ 温度T用来软化教师输出的概率分布，T越大分布越平滑，原本概率小的类别概率变大，使得这些类别包含的暗知识更容易被学生学习。如果T=1，正确类别概率接近1，其他接近0，就和硬标签差不多了，失去了暗知识。所以蒸馏需要较大的T来提取暗知识。推理时T改回1。
**离线蒸馏和在线蒸馏的区别？ 离线蒸馏：教师预训练好冻结，只训练学生，简单稳定，最常用。在线蒸馏：教师和学生一起训练，不需要预训练教师，有时候可以互相学习，适合半监督场景，但训练更复杂。
**自蒸馏是什么？ 自蒸馏是教师和学生来自同一个模型，比如用训练到一半的模型蒸馏后续训练，或者用训练好的模型蒸馏自己，甚至相同结构蒸馏后准确率更高。自蒸馏不需要额外训练教师，方便，还有一定正则化效果。
**为什么知识蒸馏能提升小模型的性能？ 因为大模型学到的知识不仅仅是哪个正确，还包含输入空间中类别之间的关系、泛化边界等暗知识，这些信息编码在软输出中，小模型通过学习软标签，能更好地学到这些泛化信息，因此性能比只用硬标签训练更好。
**知识蒸馏一定需要大模型比小模型大吗？可以多个教师蒸馏一个学生吗？ 通常教师比学生大，大模型知识多效果好。但也可以多个教师一起蒸馏一个学生，集成多个教师的知识，效果比单个教师更好。
**知识蒸馏和数据蒸馏有什么区别？ 知识蒸馏是模型压缩，大模型教小模型。数据蒸馏是选择信息量大的样本训练，减少训练数据量，不是一回事。
**在大语言模型中，知识蒸馏有哪些应用？
- 将大模型（如GPT-3、LLaMA-70B）蒸馏成小模型（7B、1B），方便部署
- 将ChatGPT的对齐知识蒸馏到开源base模型，得到对齐的对话模型
- 集成多个大模型的知识蒸馏到单个小模型，降低推理成本
**模型压缩有哪些方法？知识蒸馏和剪枝、量化的区别？ 常见模型压缩方法：知识蒸馏、剪枝、量化、低秩分解、权重共享。
- 剪枝：删除冗余参数，减少参数量
- 量化：降低参数比特数，减少内存占用
- 知识蒸馏：通过知识迁移让大模型知识压缩到小模型，不限制压缩方式，可以和剪枝量化结合使用三种方法目标都是压缩模型，可以组合使用，效果更好。
**FitNets和原始Hinton蒸馏的区别是什么？ 原始Hinton蒸馏只蒸馏输出层的logits。FitNets不仅蒸馏输出层，还蒸馏中间层的特征，让学生匹配教师的中间特征，迁移更细粒度的知识，能训练更深更小的学生，效果更好。
**知识蒸馏一定能提升效果吗？什么情况下效果不好？ 如果教师模型本身准确率很低，蒸馏效果肯定不好。如果教师和学生差距太大，学生学不会教师的复杂知识，效果也会打折扣。蒸馏是锦上添花，不是雪中送炭，教师好才能教出好学生。

模型蒸馏技术

概述

核心原理

基本思想

为什么需要知识蒸馏

大模型准确率高，但参数多、推理慢、内存占用大，难以部署在端侧设备
小模型推理快、占地小，但准确率低
知识蒸馏希望兼得：得到小模型的速度，接近大模型的准确率

软标签 vs 硬标签

硬标签：原始的one-hot标签，比如分类问题中正确类别是1，其他都是0
软标签：教师模型输出的概率分布，包含了不同类别之间的相似性信息，这就是"暗知识"

蒸馏损失

标准的知识蒸馏损失是硬损失和软损失的加权组合：

Loss = α * Loss_hard(y_true, y_student) + (1-α) * Loss_soft(p_teacher, p_student)

其中：

Loss_hard：学生预测和真实标签之间的交叉熵
Loss_soft：学生输出的软标签和教师输出的软标签之间的交叉熵
α：超参数，权衡两种损失

温度参数

为了让软标签的分布更平滑，通常会引入温度T对logits进行缩放：

p_i = exp(z_i / T) / Σ exp(z_j / T)

T=1：就是普通的softmax
T>1：分布变得更平滑，小概率类别也会得到更大的概率，暗知识更明显
T越大，分布越平滑

蒸馏训练时用T，推理时T恢复为1。温度越高，越能提取教师模型的暗知识。

知识蒸馏的分类

离线蒸馏 (Offline Distillation)

教师模型已经训练好，冻结参数，指导学生训练
学生的损失是：学生预测和真实标签的损失 + 学生预测和教师预测的蒸馏损失
最常见的蒸馏方式

在线蒸馏 (Online Distillation)

教师和学生一起训练，不需要预训练好教师
或者互相学习，共同进化
例如：最近邻蒸馏，利用训练好的学生 checkpoint 作为下一轮的教师

自蒸馏 (Self-Distillation)

教师和学生是同一个模型，或者用同一个模型的不同版本
将训练好的模型作为教师，蒸馏自己得到更小的版本
甚至可以在训练过程中，用early stopping得到的模型蒸馏自己

半监督蒸馏

利用教师模型为无标注数据生成伪标签，再用这些伪标签训练学生
适合标注数据少的场景

经典知识蒸馏模型

Hinton 原始蒸馏 (2015)

最经典的知识蒸馏：

预训练好大教师模型
训练小学生模型，拟合教师的软标签和真实硬标签
引入温度T平滑软分布

FitNets

不仅让学生拟合教师的输出层，还拟合教师的中间层特征
让学生的中间层特征和教师的中间层特征匹配，得到更细粒度的知识迁移
比只蒸馏输出层效果更好

Born-Again Network (BAN)

用一个已经训练好的模型作为教师，重新初始化一个相同结构的学生模型，然后蒸馏训练
结果：学生模型比教师模型准确率更高！
说明知识蒸馏可以提炼知识，消除噪声，即使相同大小也能提升

TinyBERT

针对BERT的知识蒸馏
蒸馏attention权重、隐藏层状态、输出层logits
得到的TinyBERT比原BERT小很多，推理快很多，性能下降不多

蒸馏对抗网络

在知识蒸馏基础上加入对抗训练，让学生分布更接近教师分布，提高鲁棒性。

蒸馏损失设计

对数匹配 (Logits Matching)

最常见：最小化学生logits和教师logits之间的MSE或者KL散度。

特征匹配 (Feature Matching)

不仅匹配输出，还匹配中间层特征，让学生学习教师的分层特征表示。FitNets就是这种方法。

关系蒸馏 (Relation Distillation)

不匹配单个样本的特征，匹配样本对之间的关系。让学生学习样本间的相对关系，而不是绝对特征。

注意力蒸馏

蒸馏Transformer中的注意力权重分布，让学生学习教师的注意力模式。TinyBERT用到了这个。

知识蒸馏在大模型中的应用

大模型蒸馏到小模型

这是最常见的应用：

教师：大语言模型（如GPT-3、LLaMA-70B）
学生：小语言模型（如7B、1B级别）
效果：小模型保留了大模型大部分能力，但推理速度提升很多，部署成本降低

对齐蒸馏

将ChatGPT的对齐知识蒸馏到开源 base 模型：

ChatGPT回答了很多问题
用这些回答作为软标签，训练开源小模型
使得开源小模型也具备对齐能力，这就是很多开源Chat模型的做法

集成蒸馏

将多个模型集成的知识蒸馏到单个学生模型，用单个模型达到集成效果，推理时只用一个学生模型。

模型压缩和加速相关技术对比

知识蒸馏是模型压缩方法之一，常见的模型压缩加速方法：

方法	原理	作用
知识蒸馏	大模型教小模型	压缩模型，保持性能
剪枝	删除冗余参数/神经元	减少参数量，加速推理
量化	将32位浮点转为8位整数/16位浮点	减少内存占用，加速推理
低秩分解	将大权重矩阵分解为两个小矩阵	减少参数量和计算
权重共享	多个神经元共享相同权重	减少参数量

知识蒸馏和其他方法可以结合使用：

蒸馏 + 量化：效果更好，压缩更彻底
剪枝 + 蒸馏：剪枝后蒸馏恢复精度
结构化剪枝其实就是得到小模型，也可以看成一种蒸馏

面试常见问题

**什么是知识蒸馏？讲讲基本原理 知识蒸馏是模型压缩技术，用一个训练好的大模型（教师）指导小模型（学生）训练，让学生不仅学习硬标签，还学习教师输出的软标签，软标签中包含类别相似性等暗知识，帮助学生更好学习，最终小模型能达到接近大模型的准确率，同时保持小模型速度快、占地小的优势。
**什么是软标签？为什么软标签比硬标签好？ 硬标签是one-hot，只有正确类别是1，其他都是0，只告诉学生哪个对，不告诉为什么对，也不告诉类别之间的关系。软标签是教师模型输出的概率分布，它包含了不同类别之间的相似性信息，比如猫的图，狗概率比车高，说明猫更像狗不像车，这些暗知识能帮助学生更好学习泛化。
**温度参数T的作用是什么？为什么要用T？ 温度T用来软化教师输出的概率分布，T越大分布越平滑，原本概率小的类别概率变大，使得这些类别包含的暗知识更容易被学生学习。如果T=1，正确类别概率接近1，其他接近0，就和硬标签差不多了，失去了暗知识。所以蒸馏需要较大的T来提取暗知识。推理时T改回1。
**离线蒸馏和在线蒸馏的区别？ 离线蒸馏：教师预训练好冻结，只训练学生，简单稳定，最常用。在线蒸馏：教师和学生一起训练，不需要预训练教师，有时候可以互相学习，适合半监督场景，但训练更复杂。
**自蒸馏是什么？ 自蒸馏是教师和学生来自同一个模型，比如用训练到一半的模型蒸馏后续训练，或者用训练好的模型蒸馏自己，甚至相同结构蒸馏后准确率更高。自蒸馏不需要额外训练教师，方便，还有一定正则化效果。
**为什么知识蒸馏能提升小模型的性能？ 因为大模型学到的知识不仅仅是哪个正确，还包含输入空间中类别之间的关系、泛化边界等暗知识，这些信息编码在软输出中，小模型通过学习软标签，能更好地学到这些泛化信息，因此性能比只用硬标签训练更好。
**知识蒸馏一定需要大模型比小模型大吗？可以多个教师蒸馏一个学生吗？ 通常教师比学生大，大模型知识多效果好。但也可以多个教师一起蒸馏一个学生，集成多个教师的知识，效果比单个教师更好。
**知识蒸馏和数据蒸馏有什么区别？ 知识蒸馏是模型压缩，大模型教小模型。数据蒸馏是选择信息量大的样本训练，减少训练数据量，不是一回事。
**在大语言模型中，知识蒸馏有哪些应用？
- 将大模型（如GPT-3、LLaMA-70B）蒸馏成小模型（7B、1B），方便部署
- 将ChatGPT的对齐知识蒸馏到开源base模型，得到对齐的对话模型
- 集成多个大模型的知识蒸馏到单个小模型，降低推理成本
**模型压缩有哪些方法？知识蒸馏和剪枝、量化的区别？ 常见模型压缩方法：知识蒸馏、剪枝、量化、低秩分解、权重共享。
- 剪枝：删除冗余参数，减少参数量
- 量化：降低参数比特数，减少内存占用
- 知识蒸馏：通过知识迁移让大模型知识压缩到小模型，不限制压缩方式，可以和剪枝量化结合使用三种方法目标都是压缩模型，可以组合使用，效果更好。
**FitNets和原始Hinton蒸馏的区别是什么？ 原始Hinton蒸馏只蒸馏输出层的logits。FitNets不仅蒸馏输出层，还蒸馏中间层的特征，让学生匹配教师的中间特征，迁移更细粒度的知识，能训练更深更小的学生，效果更好。
**知识蒸馏一定能提升效果吗？什么情况下效果不好？ 如果教师模型本身准确率很低，蒸馏效果肯定不好。如果教师和学生差距太大，学生学不会教师的复杂知识，效果也会打折扣。蒸馏是锦上添花，不是雪中送炭，教师好才能教出好学生。

大模型面试

大模型面试

模型蒸馏技术

模型蒸馏技术

概述

核心原理

基本思想

为什么需要知识蒸馏

软标签 vs 硬标签

蒸馏损失

温度参数

知识蒸馏的分类

离线蒸馏 (Offline Distillation)

在线蒸馏 (Online Distillation)

自蒸馏 (Self-Distillation)

半监督蒸馏

经典知识蒸馏模型

Hinton 原始蒸馏 (2015)

FitNets

Born-Again Network (BAN)

TinyBERT

蒸馏对抗网络

蒸馏损失设计

对数匹配 (Logits Matching)

特征匹配 (Feature Matching)

关系蒸馏 (Relation Distillation)

注意力蒸馏

知识蒸馏在大模型中的应用

大模型蒸馏到小模型

对齐蒸馏

集成蒸馏

模型压缩和加速相关技术对比

知识蒸馏和其他方法可以结合使用：

面试常见问题

模型蒸馏技术

模型蒸馏技术

概述

核心原理

基本思想

为什么需要知识蒸馏

软标签 vs 硬标签

蒸馏损失

温度参数

知识蒸馏的分类

离线蒸馏 (Offline Distillation)

在线蒸馏 (Online Distillation)

自蒸馏 (Self-Distillation)

半监督蒸馏

经典知识蒸馏模型

Hinton 原始蒸馏 (2015)

FitNets

Born-Again Network (BAN)

TinyBERT

蒸馏对抗网络

蒸馏损失设计

对数匹配 (Logits Matching)

特征匹配 (Feature Matching)

关系蒸馏 (Relation Distillation)

注意力蒸馏

知识蒸馏在大模型中的应用

大模型蒸馏到小模型

对齐蒸馏

集成蒸馏

模型压缩和加速相关技术对比

知识蒸馏和其他方法可以结合使用：

面试常见问题