跳转至

AI Post Traning: On-Policy Distillation, OPD

导言

最近一堆OPD的文章推给我

在策略蒸馏(On-Policy Distillation, OPD)是近年来在大模型(特别是推理模型)训练和蒸馏中备受瞩目的一种高级对齐与知识传递策略。

1. 这是什么策略?

简单来说,OPD 结合了强化学习(自我探索)监督微调/传统蒸馏(密集反馈)的优势。

  • 传统蒸馏(Off-Policy SFT):学生模型只看教师模型生成的“标准答案”进行学习。这就像学生只读教科书,但自己做题时一旦出错(偏离了分布),就不知道怎么纠正。
  • 传统强化学习(RL,如 PPO/GRPO):学生自己做题(生成 Rollout),然后得到一个最终的对错评分(Reward)。这解决了分布偏移问题,但反馈太“稀疏”,试错成本极高。
  • 在策略蒸馏(On-Policy Distillation):学生模型自己在环境中做题(On-policy Rollout),而在它做题的每一步,教师模型都在“背后盯着它”,为学生生成的每一个 Token 提供概率分布作为指导。这相当于“结对编程”或“手把手教学”:即便学生走了一条不同于标准答案的解题路径,教师依然能在当前路径上告诉它下一步的最佳选择概率。

机制层面的体现: 正如你所描述的,它在实现上与具体的优势估计器(Advantage Estimator,如 PPO、GRPO、REINFORCE++)是完全正交的。模型仍然可以通过环境(或判别器)获取标量 Reward 来计算 Advantage,但在计算策略更新的 Loss 时,会叠加一个与教师模型 Token 级 log-prob 对齐的 KL 散度惩罚项。这样既能利用 RL 寻找正确答案,又能迫使学生的推理逻辑、语言风格和内部置信度与强大的教师模型保持一致,且有效缓解了 RL 过程中的“灾难性遗忘”和“能力崩塌”。


2. 有论文基础吗?

有非常扎实的论文基础,这一概念最早在强化学习和知识蒸馏的交叉领域被提出,但在 LLM 时代被重新发扬光大并大规模应用。相关的核心文献和工业界报告包括:

1. 理论奠基与早期探索 * MiniLLM: Knowledge Distillation of Large Language Models (Gu et al., ICLR 2024) 这篇论文是 LLM 领域较早探索 On-Policy Distillation 的代表作。传统蒸馏最小化的是 Reverse KL(基于教师生成的数据),而 MiniLLM 提出应该让学生模型自己生成数据,然后最小化 Forward KL。这解决了学生和教师模型之间的分布不匹配(Distribution Shift)问题。 * On-Policy Distillation (Agarwal et al., 2023/2024) 学术界在这期间系统性地提出了将大模型作为评估器,对小模型自身生成的轨迹进行 Token 级别或轨迹级别反馈的理论框架。

2. 工业界的最新大规模验证(2024-2025) 近期,OPD 已经成为顶尖大模型突破微调瓶颈的“工业标准”: * Qwen3 / Qwen2.5-Math / DeepSeek 相关技术报告: 在最新的开源顶尖模型中,OPD 被大规模用于弥合 RL 和 SFT 之间的鸿沟。例如,在注入垂直领域知识(如内部代码、私有文档)或进行强化学习时,模型很容易遗忘通用的指令遵循能力。报告中证明,使用相同规模或更大的 Teacher 模型在 Student 自身的 Rollout 上进行 Token 级 OPD,可以完美恢复并拓展模型的能力边界,而不需要将海量通用数据重新拿来训练。 * OpenOneRec Technical Report (快手, 2025/2026): 在构建生成式推荐大模型时,快手团队明确使用了多阶段训练,其中重要的一环就是 On-Policy Distillation。由于 SFT 会导致通用推理能力退化,他们通过让学生模型自己生成推理轨迹,同时使用原始基座大模型(Teacher)对其进行在线蒸馏,成功恢复了通用推理能力,随后再用 GRPO 进行特定任务的强化学习。 * Thinking Machines Lab 报告:On-Policy Distillation (2025): 这是一篇近期在社区引起轰动的报告,明确指出 OPD 是一种极具性价比的训练方式。报告中生动地将其比作“Senior Engineer 盯着 Junior Engineer 写代码”,它使得模型的训练成本降低了十几倍(因为所需的试错步数大幅减少),同时避免了灾难性遗忘。

总结

在策略蒸馏(OPD)是目前打通“模仿学习(SFT)”与“试错学习(RL)”的最佳桥梁。它不是一个单一的新算法,而是一个组合框架,将“教师指导(Knowledge Distillation)”作为连续且密集的奖励(以 KL 惩罚项的形式),叠加在一切 On-policy RL 框架(如 GRPO)之上。这一策略正从学术界的论文走向 DeepSeek、Qwen、Meta 等公司的工程实践核心。

评论