AI Post Traning: On-Policy Distillation, OPD

导言

最近一堆OPD的文章推给我

在策略蒸馏（On-Policy Distillation, OPD）是近年来在大模型（特别是推理模型）训练和蒸馏中备受瞩目的一种高级对齐与知识传递策略。

1. 这是什么策略？¶

简单来说，OPD 结合了强化学习（自我探索）和监督微调/传统蒸馏（密集反馈）的优势。

传统蒸馏（Off-Policy SFT）：学生模型只看教师模型生成的“标准答案”进行学习。这就像学生只读教科书，但自己做题时一旦出错（偏离了分布），就不知道怎么纠正。
传统强化学习（RL，如 PPO/GRPO）：学生自己做题（生成 Rollout），然后得到一个最终的对错评分（Reward）。这解决了分布偏移问题，但反馈太“稀疏”，试错成本极高。
在策略蒸馏（On-Policy Distillation）：学生模型自己在环境中做题（On-policy Rollout），而在它做题的每一步，教师模型都在“背后盯着它”，为学生生成的每一个 Token 提供概率分布作为指导。这相当于“结对编程”或“手把手教学”：即便学生走了一条不同于标准答案的解题路径，教师依然能在当前路径上告诉它下一步的最佳选择概率。

机制层面的体现：正如你所描述的，它在实现上与具体的优势估计器（Advantage Estimator，如 PPO、GRPO、REINFORCE++）是完全正交的。模型仍然可以通过环境（或判别器）获取标量 Reward 来计算 Advantage，但在计算策略更新的 Loss 时，会叠加一个与教师模型 Token 级 log-prob 对齐的 KL 散度惩罚项。这样既能利用 RL 寻找正确答案，又能迫使学生的推理逻辑、语言风格和内部置信度与强大的教师模型保持一致，且有效缓解了 RL 过程中的“灾难性遗忘”和“能力崩塌”。

2. 有论文基础吗？¶

有非常扎实的论文基础，这一概念最早在强化学习和知识蒸馏的交叉领域被提出，但在 LLM 时代被重新发扬光大并大规模应用。相关的核心文献和工业界报告包括：

1. 理论奠基与早期探索 * MiniLLM: Knowledge Distillation of Large Language Models (Gu et al., ICLR 2024) 这篇论文是 LLM 领域较早探索 On-Policy Distillation 的代表作。传统蒸馏最小化的是 Reverse KL（基于教师生成的数据），而 MiniLLM 提出应该让学生模型自己生成数据，然后最小化 Forward KL。这解决了学生和教师模型之间的分布不匹配（Distribution Shift）问题。 * On-Policy Distillation (Agarwal et al., 2023/2024) 学术界在这期间系统性地提出了将大模型作为评估器，对小模型自身生成的轨迹进行 Token 级别或轨迹级别反馈的理论框架。

2. 工业界的最新大规模验证（2024-2025） 近期，OPD 已经成为顶尖大模型突破微调瓶颈的“工业标准”： * Qwen3 / Qwen2.5-Math / DeepSeek 相关技术报告：在最新的开源顶尖模型中，OPD 被大规模用于弥合 RL 和 SFT 之间的鸿沟。例如，在注入垂直领域知识（如内部代码、私有文档）或进行强化学习时，模型很容易遗忘通用的指令遵循能力。报告中证明，使用相同规模或更大的 Teacher 模型在 Student 自身的 Rollout 上进行 Token 级 OPD，可以完美恢复并拓展模型的能力边界，而不需要将海量通用数据重新拿来训练。 * OpenOneRec Technical Report (快手, 2025/2026)：在构建生成式推荐大模型时，快手团队明确使用了多阶段训练，其中重要的一环就是 On-Policy Distillation。由于 SFT 会导致通用推理能力退化，他们通过让学生模型自己生成推理轨迹，同时使用原始基座大模型（Teacher）对其进行在线蒸馏，成功恢复了通用推理能力，随后再用 GRPO 进行特定任务的强化学习。 * Thinking Machines Lab 报告：On-Policy Distillation (2025)：这是一篇近期在社区引起轰动的报告，明确指出 OPD 是一种极具性价比的训练方式。报告中生动地将其比作“Senior Engineer 盯着 Junior Engineer 写代码”，它使得模型的训练成本降低了十几倍（因为所需的试错步数大幅减少），同时避免了灾难性遗忘。

总结¶

在策略蒸馏（OPD）是目前打通“模仿学习（SFT）”与“试错学习（RL）”的最佳桥梁。它不是一个单一的新算法，而是一个组合框架，将“教师指导（Knowledge Distillation）”作为连续且密集的奖励（以 KL 惩罚项的形式），叠加在一切 On-policy RL 框架（如 GRPO）之上。这一策略正从学术界的论文走向 DeepSeek、Qwen、Meta 等公司的工程实践核心。

AI Post Traning: On-Policy Distillation, OPD

1. 这是什么策略？¶

2. 有论文基础吗？¶

总结¶

评论