知识蒸馏
定义
知识蒸馏(Knowledge Distillation)是一种模型压缩技术,通过将大型教师模型(teacher model)的知识迁移到小型学生模型(student model)中,使学生模型在保持较小规模的同时获得接近教师模型的性能。其核心思想是利用教师模型的软标签(soft labels)或中间表示来指导学生模型的学习,而不仅仅是使用硬标签(hard labels)。在大语言模型时代,知识蒸馏已成为模型部署和能力迁移的关键技术。
关键文献与发现
PRISM: 黑箱在线策略蒸馏的预对齐方法
Wang et al. (2026). PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning. arXiv:2604.28123v1
PRISM 揭示了标准 LMM 训练流程(SFT→RLVR)中的一个关键问题:监督微调(SFT)会引入分布漂移(distribution drift),导致模型既不能保留预训练能力,也无法忠实匹配监督分布。在多模态推理场景中,这一问题被进一步放大——感知错误和推理失败遵循不同的漂移模式,并在后续 RL 阶段复合。
方法:PRISM 提出三阶段训练管道(SFT→对齐→RLVR),在 SFT 和 RLVR 之间插入显式分布对齐阶段。对齐阶段基于在线策略蒸馏(OPD)原理,将策略与一个 MoE 判别器之间的交互建模为黑盒响应级对抗博弈。判别器包含专门的感知专家和推理专家,从不同维度提供解耦的纠正信号。该方法无需访问教师模型的 logits,仅需响应级别的交互即可工作。为此,作者从 Gemini 3 Flash 策划了 11.3 万条高保真演示。
发现:在 Qwen3-VL 上,PRISM 在 GRPO、DAPO、GSPO 等多种 RL 算法和多模态基准测试中持续改进了下游 RLVR 性能,验证了分布对齐阶段对减轻 SFT 漂移的有效性。
知识蒸馏的文献脉络
PRISM 的工作建立在知识蒸馏领域的长期研究基础上:
- 基础理论(2006–2015):Caruana 等人(2006)首次提出模型压缩概念;Hinton 等人(2014)正式定义了温度缩放的软标签和蒸馏损失函数;FitNets(2015)提出通过中间层表示进行更深的蒸馏。
- 白箱蒸馏(2016–2020):Attention Transfer(2016)迁移注意力分布;TinyBERT(2019)等探索了 Transformer 架构的专项蒸馏方法。
- 黑箱蒸馏兴起(2020–2024):ChatGPT 发布后,通过 API 输出进行知识蒸馏成为热潮。Alpaca、Vicuna 等开源模型展示了黑箱蒸馏在 LLM 中的实践效果。
- 在线策略蒸馏(2024–2026):PRISM 等工作进一步提出黑箱在线策略蒸馏(Black-box OPD),解决了离线蒸馏中分布偏移的根本问题。
技术图景
蒸馏范式
- 白箱蒸馏:访问教师模型的完整权重和中间表示,进行深层知识迁移
- 黑箱蒸馏:仅通过教师模型的 API 输出(概率分布或文本)进行蒸馏(PRISM 采用此范式)
- 在线蒸馏:教师和学生同时训练,动态更新知识(PRISM 的 OPD 属于此类)
- 离线蒸馏:先训练教师模型,再用其输出训练学生模型
蒸馏目标
- logit 蒸馏:匹配教师和学生模型的输出概率分布
- 特征蒸馏:对齐中间层的特征表示
- 关系蒸馏:保持样本间关系结构的一致性
- 策略蒸馏:在强化学习中迁移教师的决策策略(PRISM 的核心关注)
在线策略蒸馏(OPD)
PRISM 提出的黑箱 OPD 是当前蒸馏技术的前沿方向:
- 学生模型在自身策略分布上采样,并从教师模型获取反馈
- 避免离线蒸馏中的分布偏移(distribution shift)
- 无需访问教师权重,仅需响应级别的交互
研究前沿
基于 PRISM 及现有文献,以下问题仍待解决:
- 蒸馏税:学生模型在蒸馏后可能出现能力退化,如何最小化性能损失仍是核心挑战
- 分布偏移:PRISM 虽缓解了离线蒸馏中的分布偏移,但在线蒸馏的理论保证仍不完善
- 可扩展性:对于超大模型,完全蒸馏所有知识的计算成本依然很高
- 评估标准:如何全面评估蒸馏后模型的能力保持程度仍缺乏统一标准
- 安全性:蒸馏可能转移教师模型的安全对齐问题,如何保证蒸馏后的安全性
- 法律与伦理:通过 API 输出蒸馏商业模型可能涉及知识产权问题
- 多任务蒸馏:同时从多个教师模型蒸馏不同能力的挑战
相关论文
相关概念