导言
快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点
AI调研真实性问题以及应对:
- 问题:现在的 Arxiv 时代,处于“狂野西部”状态。迭代极快,但也伴随着刷榜(SOTA-chasing)、数据污染、甚至直接编造数据。
- 应对:
- 看竞场:对于大模型,唯一的真理是“盲测竞技场 lmarena”的排名,而不是论文里的表格。
- 看时间:AI论文日新月异,要注意发布时间;
- 看落地:已有模型使用的方法,至少能证明方案是可行和正向有效的;
- 看出身:是 Meta/Google/DeepMind 吗?是知名教授吗? -> 是,则细读。
- 看开源:Hugging Face 上有模型吗?GitHub 有星吗? -> 有,可信度 +50%。
- 看复现:Issue、Twitter 和 Reddit 上有人复现成功吗? -> 有,纳入核心趋势。
- 看引用:如果这篇论文刚出不久就被很多高质量论文引用,说明其思路已被同行关注。
时刻关注前沿:
强化学习相对于监督学习比我们想象的要更加低效
当然为了更高效,RL领域一方面设计的复杂reward、课程学习、和分段reward;另一方面加速推理,简化流程来产出早期可评估信号。
多模态理解模型+RL井喷¶
GRPO出现之后,基于GRPO及其变种(DAPO、VAPO)井喷出一系列模型。1
RL算法趋势¶
在强化学习(RL)的应用中,特别是在多模态大语言模型(MLLMs)的理解能力增强中,常常提到两种主要的RL训练范式:价值模型无关的方法(value-model-free methods)和价值模型相关的方法(value-model-based methods)1。这两种方法的主要区别在于它们是否依赖于价值函数的显式建模。
价值模型无关的方法¶
(value-model-free methods)这类方法不依赖于价值函数或者模型来估计未来奖励。它们直接通过策略梯度(policy gradient)来优化策略,即通过直接评估策略(policy)对应的行为(action)的概率分布,并根据奖励信号来调整这个分布。这种方法的代表算法是Group Relative Policy Optimization (GRPO)11。
- GRPO:在GRPO中,策略的更新不依赖于价值函数的估计,而是通过比较组内不同的输出响应(samples)来计算优势函数(advantage function),然后基于这个优势函数来更新策略。这种方法的优势在于实现简单,不需要额外的价值模型训练,能够稳定地进行策略优化。
下表的主体内容来自14:
| Method | Year | Objective Type | Clip | KL Penalty | Key Mechanism | Signal | Link | Resource |
|---|---|---|---|---|---|---|---|---|
| GRPO family | ||||||||
| GRPO | 2025 | Policy gradient under group-based reward | Yes | Yes | Group-based relative reward to eliminate value estimates | Group-based reward | Paper | - |
| DAPO | 2025 | Surrogate of GRPO's | Yes | Yes | Decoupled clip + dynamic sampling | Dynamic group-based reward | Paper | Code Model Website |
| GSPO | 2025 | Surrogate of GRPO's | Yes | Yes | Sequence-level clipping, rewarding, optimization | Smooth group-based reward | Paper | - |
| GMPO | 2025 | Surrogate of GRPO's | Yes | Yes | Geometric mean of token-level rewards | Margin-based reward | Paper | Code |
| ProRL | 2025 | Same as GRPO's | Yes | Yes | Reference policy reset | Group-based reward | Paper | Model |
| Posterior-GRPO | 2025 | Same as GRPO's | Yes | Yes | Reward only successful processes | Process-based reward | Paper | - |
| Dr.GRPO | 2025 | Unbiased GRPO objective | Yes | Yes | Eliminate bias in optimization | Group-based reward | Paper | Code Model |
| Step-GRPO | 2025 | Same as GRPO's | Yes | Yes | Rule-based reasoning rewards | Step-wise reward | Paper | Code Model |
| SRPO | 2025 | Same as GRPO's | Yes | Yes | Two-staged history-resampling | Reward | Paper | Model |
| GRESO | 2025 | Same as GRPO's | Yes | Yes | Pre-rollout filtering | Reward | Paper | Code Website |
| StarPO | 2025 | Same as GRPO's | Yes | Yes | Reasoning-guided actions for multi-turn interactions | Group-based reward | Paper | Code Website |
| GHPO | 2025 | Policy gradient | Yes | Yes | Adaptive prompt refinement | Reward | Paper | Code |
| Skywork R1V2 | 2025 | GRPO with hybrid reward signal | Yes | Yes | Selective sample buffer | Multimodal reward | Paper | Code Model |
| ASPO | 2025 | GRPO with shaped advantage | Yes | Yes | Clipped bias to advantage | Group-based reward | Paper | Code Model |
| TreePo | 2025 | Same as GRPO's | Yes | Yes | Self-guided rollout, reduced compute burden | Group-based reward | Paper | Code Model Website |
| EDGE-GRPO | 2025 | Same as GRPO's | Yes | Yes | Entropy-driven advantage + error correction | Group-based reward | Paper | Code Model |
| DARS | 2025 | Same as GRPO's | Yes | No | Multi-stage rollout for hardest problems | Group-based reward | Paper | Code Model |
| CHORD | 2025 | Weighted GRPO + SFT | Yes | Yes | Auxiliary supervised loss | Group-based reward | Paper | Code |
| PAPO | 2025 | Surrogate of GRPO's | Yes | Yes | Implicit Perception Loss | Group-based reward | Paper | Code Model Website |
| Pass@k Training | 2025 | Same as GRPO's | Yes | Yes | Pass@k metric as reward | Group-based reward | Paper | Code |
| IGPO | 2025 | Same as GRPO's | Yes | Yes | 在dLLM(扩散语言模型)里引入生成片段(Inpainting-Guided Policy Optimization)来避免GRPO低正确率时的奖励稀疏问题 | Group-based reward | Paper | |
| CPPO | 2025 | Same as GRPO's | Yes | Yes | Completion Pruning | Group-based reward | Paper |
CPPO 通过分析发现,并不是所有的完成对于策略训练都有相同的贡献,其贡献程度与它们的相对优势有关。因此,CPPO 提出了一种基于绝对优势的完成剪枝策略,大幅减少了梯度计算和更新所需的完成数量。
价值模型相关的方法¶
与价值模型无关的方法不同,价值模型相关(value-model-based methods)的方法会估计一个价值函数来预测未来的累积奖励。这种方法通常会结合价值函数和策略梯度来更新策略,能够提供更为精确的奖励估计,从而优化策略。代表性的算法包括Proximal Policy Optimization (PPO)7。
- PPO:PPO是一种结合了价值函数和策略梯度的算法。它通过优化一个代理的价值函数来估计当前策略下的状态值,并结合这个价值估计来更新策略。PPO的关键在于通过一个辅助的价值函数来稳定训练过程,并提高训练的样本效率。
下表的主体内容来自14:
| Method | Year | Objective Type | Clip | KL Penalty | Key Mechanism | Signal | Link | Resource |
|---|---|---|---|---|---|---|---|---|
| PPO family | ||||||||
| PPO | 2017 | Policy gradient | Yes | No | Policy ratio clipping | Reward | Paper | - |
| PF-PPO | 2024 | Policy gradient | Yes | Yes | Policy filtration | Noisy reward | Paper | Code |
| VinePPO | 2024 | Policy gradient | Yes | Yes | Unbiased value estimates | Reward | Paper | Code |
| PSGPO | 2024 | Policy gradient | Yes | Yes | Process supervision | Process Reward | Paper | - |
| ORZ. | 2025 | |||||||
| VC-PPO. | 2025 | |||||||
| VAPO | 2025 | Policy gradient | Yes | Adaptive | Adaptive KL penalty + variance control | Reward + variance signal | Paper | - |
两种方法各有优势,适用于不同的场景和任务。价值模型无关的方法通常更加简单直接,适合于那些难以建模价值函数的复杂任务。而价值模型相关的方法则在奖励信号较为稀疏或者需要更精确的奖励预测时表现出色,能够更有效地引导模型学习。在实际应用中,选择哪种方法往往取决于具体任务的特性、可用数据的质量以及计算资源的限制。
当前应用:GRPO-family一家独大¶
注:
- online policy mirror descent (OPMD) 基于2021的Mirror Descent Policy Optimization一文。
- RLOO 是2024年提出的PPO算法的变种15
- 统计:GRPO 30;RLOO 2;OPMD 2;PPO 1;GRPO变种(GRPO-SSB、Fast-GRPO、T-GRPO、GRPO-SSR、GRPO-D、StepGRPO、GFlowNet、GRPO&PTST) 各一个
多模态理解¶
高效奖励机制设计¶
奖励设计很影响效果48
问题描述:当前方法主要依赖最终任务级别的标量奖励(如答案正确率、分类准确率),这些奖励仅反映最终结果,而无法对推理路径中的中间步骤提供反馈,导致模型无法纠正早期推理错误,并容易出现“过度思考”现象,即生成过长、冗余或包含无关信息的推理链。尽管已有研究尝试引入过程奖励或分阶段训练,但仍存在依赖人工设计、难以跨任务与跨模态泛化等问题。
未来方向:为了解决稀疏奖励的问题,未来的研究可能会集中在以下几个方面:
- 奖励分解(避免稀疏奖励):将复杂任务分解为多个子任务,并为每个子任务提供密集的奖励信号,以便模型能够更容易地学习到正确的行为。
- 奖励共享:在多任务学习中,允许不同任务之间共享奖励信号,以增加奖励的频率和多样性。
- RLAIF6其中上下文感知的奖励模型(Context-Aware Reward Modeling):通过将视频细分成多个片段,并为每个片段生成详细的描述,然后将这些描述整合到奖励模型中,以提供更清晰的视频内容理解。

- RLAIF6其中上下文感知的奖励模型(Context-Aware Reward Modeling):通过将视频细分成多个片段,并为每个片段生成详细的描述,然后将这些描述整合到奖励模型中,以提供更清晰的视频内容理解。
- 分层奖励建模:开发更复杂的奖励模型,能够在不同的抽象层次上提供奖励,从而引导模型进行更深层次的学习。
高效跨模态理解¶
问题描述:(Inefficient Cross-Modal Reasoning)
- 跨模态理解涉及到整合和协调来自不同感官通道(如文本、图像、音频和视频)的信息。当前的MLLMs在处理跨模态数据时可能会效率低下,因为它们需要理解和融合来自不同模态的复杂信息。
- 多模态超越文本的挑战:与纯文本数据相比,多模态数据的质量和数量不足,导致模型在视频内容的对齐上表现不佳。
未来方向:为了提高跨模态理解的效率,未来的研究可能会探索以下策略:
多模态融合技术¶
开发更有效的多模态融合机制,以便更好地整合和协调不同模态的信息。
GFlowVLM36 通过模拟非马尔可夫决策过程,能够更好地捕捉到任务完成所需的长期依赖关系。
NoisyRollout 是一种数据增强方法,用于提高视觉语言模型(VLM)在强化学习(RL)中的视觉推理能力,通过混合干净和轻微失真的图像轨迹来增强策略探索,同时采用噪声退火调度来平衡探索与稳定性。
视觉引导理解链 think with images¶
利用视觉信息来引导和构建理解链,提高理解过程中的逻辑连贯性和效率。
MM-CoT 由于目前大多数主流的多模态大语言模型(MLLMs)在生成图像或其他模态方面仍存在困难,近期基于强化学习(RL)的推理进展主要集中在纯文本形式的思维链(CoT)生成上。
-
视觉决策领域:Praxis-VLM18通过文本驱动的强化学习就能实现了复杂的视觉决策能力。文本驱动的推理学习:Praxis-VLM 通过文本描述的情境学习推理能力,这表明推理和决策能力可以在没有直接多模态经验的情况下通过语言表示学习。
- 视觉搜索(Retrieval-Augmented Generation, RAG)领域:Mini-o317通过构建 Visual Probe 数据集、采集冷启动数据和引入 over-turn masking 策略(鼓励更多轮回答) 来提升基于图像的工具使用和推理能力,能够在测试时自然扩展到数十个回合,从而在挑战性的视觉搜索任务中实现最先进的性能。阿里VRAG-RL 20
减少无效训练¶
Skywork R1V2 通过SSB筛选出那些具有显著优势信号的样本来进行训练
MixGRPO/FlowGRPO 也有类似的思路。
多模态生成¶
为什么多模态理解常用 RL,但生成少用 RL
奖励信号难设计。理解任务(比如对/错、准确率)有明确标量奖励。图像/视频/音频生成的好坏很主观,难做成稳定的数值奖励。
高维输出空间。生成任务输出是像素或连续潜空间,动作空间巨大。RL(尤其基于采样的策略梯度)在高维连续空间中方差大、收敛慢。
样本效率差 & 计算贵。RL 需要大量交互样本。训练生成模型本身就很费算力,叠加 RL 成本太高。RL训练本身计算成本高昂,而多模态生成模型(尤其是扩散模型)已经需要巨大的计算资源。在资源有限的情况下,研究者更倾向于使用监督微调、DPO等更高效的替代方法来优化生成模型,而不是采用计算密集型的RL方法。
现有监督方法效果很好。扩散模型、score-based、条件生成、对比学习等,在视觉/多模态生成上已经给出很强的结果,用监督/最大似然就能学到高质量样本。多模态生成领域已经发展出其他有效的优化方法。扩散模型特别适合条件数据生成,可以通过分类器引导等方式实现高质量生成,无需复杂的RL训练。此外,像DPO(Direct Preference Optimization)这样的方法在文本到图像生成任务中也能有效利用人类反馈,且训练更加稳定高效。
稳定性问题。RL 易出现模式崩溃、训练不稳定。生成模型若用 RL 容易破坏已学到的分布特性(例如图像细节、风格一致性)。
评价难以自动化。生成质量常需人类评价(主观),自动指标(FID、IS、CLIP score)各有偏差,作为单一 reward 很容易引入偏差/作弊行为。
Generate-CoT¶
首次实现了将思维链(CoT)推理技术有效应用于图像生成场景(设计了有CoT的奖励模型PARM37),显著提升了生成质量(在GenEval基准上超越Stable Diffusion 3达15%)。
GoT 40 通过将多模态大语言模型的推理能力与视觉生成任务结合,提出了一种名为“生成思维链”(GoT)的新范式,实现了语义-空间联合推理驱动的可控图像生成与编辑。(图像坐标?)
ThinkSound41 音频CoT
- 基础拟音生成(Foundation Foley Generation)
CoT作用:模型分析视频内容,生成结构化推理链,明确声音事件的语义和时间关系(如“猫跳上桌子→发出轻敲声”)。 示例:输入视频为“雨中街道”,CoT推理链可能为: “雨滴落在屋顶(高频持续声)→ 雨滴击打树叶(中频随机声)→ 远处雷声(低频滚动声)”,指导模型分层生成环境音。
- 交互式对象聚焦优化(Interactive Object-Centric Refinement)
CoT作用:用户点击视频中的特定对象(如点击“汽车”),模型生成针对该对象的CoT,细化其声音属性(材质、运动状态)。 示例:用户点击行驶中的汽车,CoT可能为: “轮胎摩擦路面(中频持续声)→ 发动机轰鸣(低频振动声)→ 刹车时金属摩擦(高频尖锐声)”,模型据此增强汽车相关音效。
- 指令式音频编辑(Instruction-Based Audio Editing)
CoT作用:将自然语言指令(如“添加鸟鸣声”)转化为操作步骤,指导模型在特定时间段插入或修改声音。 示例:指令为“在5秒处添加狗吠声”,CoT分解为: “定位时间戳5秒→ 识别背景环境(公园)→ 插入短促高频吠叫声→ 调整音量匹配环境”。
视频 CoT 42 也是图片的思路,CoT来跟踪对象的移动坐标
DPO-family¶
基于偏好的强化学习方法,称为 Reward Preference Optimization (RPO),用于主题驱动的文本到图像生成任务,通过引入 λ-Harmonic 奖励函数和 Bradley-Terry 偏好模型,实现了有效的模型训练和早停,提高了图像生成的质量和效率。9
Improving Video Generation with Human Feedback21构建一个大规模的人类偏好数据集,引入一个多维度视频奖励模型(VideoReward),并提出了三种对流基础的视频对齐算法(Flow-DPO、Flow-RWR 和 Flow-NRG),以提高视频生成的视觉质量、运动质量和文本对齐。
OPA-DPO 总结了之前的DPO缺点(效果或效率差),提出四步走在线DPO。
GRPO-family¶
T2I-R1¶
T2I-R139 的新型文本到图像生成模型,其核心特点是通过引入双层级推理机制(语义级和标记级思维链)并结合强化学习框架(BiCoT-GRPO),显著提升了生成图像的质量和语义对齐能力。
DanceGRPO 2505¶
DanceGRPO22 的框架,它通过适应 Group Relative Policy Optimization (GRPO) 算法来提高视觉生成任务的性能,特别是在文本到图像、文本到视频以及图像到视频的生成任务中。相对于之前的DPO方法有提升。
Flow-GRPO 2505 快手¶
Flow-GRPO19,将 GRPO集成到文生图的 Flow Matching 模型中。
涉及的两个主要难点及其策略:
- 难点:Flow 模型依赖于基于 ODE 的确定性 (Deterministic) 生成过程,意味着它们在推理过程中无法随机采样。但是,RL 依靠随机 (Stochastic) 抽样来探索环境,通过尝试不同的 Action 并根据 Reward 改进来学习。换句话讲,RL 对于随机性的需求,与 Flow Matching 模型的确定性相冲突。
- 策略:ODE-to-SDE 转化:把确定性 ODE 转化为对应的 SDE,保持住原始模型的边缘分布。同时,也引入了随机性。允许 RL Exploration 的采样。
- 难点:Online RL 依赖于有效的采样来收集训练数据,但 Flow 模型通常需要许多迭代步骤来生成每个样本,对效率很不利。这个问题在大模型中更为明显。为了使 RL 适用于图像或视频生成等任务,提高采样效率必不可少。
- 策略:一种去噪策略 (Denoising Reduction Strategy):目的是提升 Online RL 的采样效率。降低训练时 denoising steps,维持推理 steps。在不牺牲性能的前提下,大幅提升了采样效率。实验表明,使用更少的步骤可以保持性能,同时显著地降低数据生成成本。
并且KL约束是必须的,避免过度优化导致的模糊和风格单一,在对比图中可感知。
ODE 与 SDE 的采样策略
在扩散模型中,生成图像的过程可以看作是从噪声逐步去噪得到清晰图像。这个过程可以用两种数学工具描述:
- ODE(常微分方程):确定性过程。给定一个初始噪声,每一步去噪都是确定的、可重复的。优点是稳定、计算效率高;缺点是缺乏探索性,容易陷入局部最优。
- SDE(随机微分方程):随机过程。每一步去噪都加入一点随机扰动,使得路径更多样。优点是能更好地探索不同生成路径,有助于优化对人类偏好的拟合;缺点是计算开销大、训练不稳定。
MixGRPO 2507 腾讯混元¶
MixGRPO23 针对问题:
FlowGRPO的效率仍是个问题,因其需要采样和优化所有的推理的步骤denoising steps。
通过在滑动窗口内使用 SDE 采样和 GRPO 引导优化,在窗口外使用 ODE 采样,减少了优化的复杂度和训练时间。实验结果表明,与 DanceGRPO 相比,MixGRPO 在多个人类偏好对齐的维度上获得了显著的性能提升,并且在训练时间上减少了近 50%,而 MixGRPO-Flash 变体进一步减少了 71% 的训练时间。
MixGRPO 的“混合”+窗口策略:
- 在 滑动窗口内(比如最后几步去噪过程),使用 SDE:因为这些步骤对最终图像质量影响最大,需要精细优化和更强的探索能力。
- 在 窗口外(早期去噪步骤),使用 ODE:因为早期步骤相对粗糙,用确定性过程更快、更省资源。
这就像“抓大放小”:关键步骤精细调优(用 SDE + RL 优化),非关键步骤快速跳过,不更新参数(用 ODE 生成)。作者发现窗口大小 、移位间隔 和窗口步幅都是关键的超参数。当超参为(25,4,25,1)时, 实现了最佳性能。
类比理解(通俗版)
想象你在画一幅油画: - 传统 GRPO:每画一笔(哪怕只是打底色)都要请专家评审,反复修改,非常慢。 - MixGRPO:前期打草稿时自己快速画(ODE,不请专家),只在最后精细刻画人脸、光影时才请专家指导并反复调整(SDE + GRPO 优化)。这样又快又好。
BranchGRPO 2509 北大字节¶
BranchGRPO 通过在扩散反演过程中引入分叉(branching)与剪枝(pruning),让多个轨迹共享前缀、在中间步骤分裂,并通过逐层奖励融合实现稠密反馈,和剪枝的加速。
TEMPFLOW-GRPO 2510 浙大微信¶
TEMPFLOW-GRPO 不仅意识到了MixGRPO的SDE和ODE的关系,还对更早的SDE分支赋予更高的奖励权重:
Pair-GRPO 2506 浙大蚂蚁¶
Pair-GRPO44 算法为解决细粒度语义对齐问题(如“说红出蓝”)而设计,其核心是在传统 GRPO 框架中引入课程学习机制(Curriculum Learning):
- 初期(探索阶段):以概率 p=1.0 注入真实图像对(标注数据),作为“正确示例”与“反例”,引导模型聚焦局部语义差异(如颜色、位置);
- 后期(利用阶段):渐进衰减 p 至 0.0 ,移除标注数据,鼓励模型自主生成差异化输出,实现从依赖标注到自主探索的动态平衡。
奖励模型设计¶
Unified Reward 模型38 针对现有的奖励模型往往针对特定任务,限制了其在多样化视觉应用中的适应性的问题。通过在构建的大规模人类偏好数据集上进行训练,涵盖了图像和视频生成 / 理解任务,克服了这一限制。该数据集包含了约 236K 的数据,涵盖了多种视觉任务。
SUDER45 基于理解任务(I2T)和生成任务(T2I)是对偶任务,设计了双向自奖励机制:
- 视觉理解优化:给定输入图像,模型采样多个文本描述。然后,将输入-输出对调,计算每个描述作为条件时生成原始图像的似然度(即 R_U(Y_T | X_V) = log π_θ(X_V | Y_T))。这个似然度作为该描述的自奖励,反映了描述与图像内容的匹配程度
- 文本到图像生成优化:给定文本提示,模型采样多个生成的图像。然后,将输入-输出对调,计算每个生成图像作为条件时生成原始文本提示的似然度(即 R_G(Y_V | X_T) = log π_θ(X_T | Y_V))。这个似然度作为该图像的自奖励,反映了图像与文本语义的保真度
图形修复:使用GRPO的变种算法来实现SOTA的被天气干扰的图像修复10
落地实例(后训练)¶
理解模型¶
2505 DeepEyesV2 小红书¶
DeepEyes论文48 提出了一种利用强化学习使模型具备“think with images”(以图辅助思考)能力的方法:
- 该方法通过端到端的强化学习,模型推理能力自发涌现,无需额外的 SFT(监督微调)过程。(但是DeepEyes基于 Qwen2.5-VL 实现,难道 Qwen2.5-VL 没有SFT过吗?)
- 模型内置图像定位能力,能够主动调用“图像放大工具”:在推理过程中,模型会自动选取图片中的具体区域进行放大和裁剪,将处理后的区域信息进行进一步推理,实现视觉与文本的链式推理。
- RL 使用的 GRPO
2511 DeepEyesV2 小红书¶
DeepEyesV2 49是首个将代码执行与网页搜索深度整合到统一推理循环中的智能体多模态模型。其核心突破在于:
- 动态工具调用:模型主动决策何时调用工具(如图像裁剪、数值计算、网页搜索),并将结果迭代融入后续推理。
- 双阶段训练:
- 冷启动阶段:通过高质量数据集(含感知、推理、搜索三类任务)建立基础工具使用模式。(论文说直接用强化学习(Reinforcement Learning, RL)来“硬教”效果并不好。你这不是打自己脸)
- 强化学习阶段:使用 DAPO , 仅用准确率与格式两个简单奖励信号,优化复杂工具组合能力。
2508 InternVL3.5¶
在预训练阶段之后,我们采用了包括三个阶段的后训练策略:
- 监督式精调(SFT),该阶段保持与预训练相同的训练目标,但利用更高质量的对话数据进一步提升模型能力。
- 级联强化学习(Cascade RL),结合离线和在线强化学习方法的优势,以促进推理能力的发展。
- 在离线RL阶段,我们采用混合偏好优化(MPO)来对模型进行微调。
- 在线RL阶段,我们采用GSPO作为在线RL算法
- 视觉一致性学习(ViCO),旨在将视觉分辨率路由器(ViR)整合进InternVL3.5,构建InternVL3.5-Flash,通过最小化不同视觉压缩率的输出差异来实现。
MPO是DPO的改进,理解领域也有DPO的应用!!!
- 问题:DPO的局限性:单独使用DPO时,模型在CoT推理任务中表现退化(CoT准确率72.7 vs. 直接回答75.8)。
- 出身:MPO也是InternVL的上海AI实验室做的。
- MPO:在DPO基础上引入混合优化策略,结合三种损失函数:
- 偏好损失(Lₚ):类似DPO,学习正负样本的相对偏好。
- 质量损失(L_q):通过二元分类器评估单个响应的绝对质量(如BCO算法)。
- 生成损失(L_g):监督微调(SFT)损失,确保模型掌握生成高质量响应的过程。
- 效果:MPO的优越性:混合损失使CoT性能提升至79.1(+6.4)
2509 Qwen3VL¶
后训练分为 三个阶段, 这和qwen3是一样的
- 第一阶段:监督微调(SFT)。赋予模型基础的指令跟随能力并激活潜在推理能力。训练分为两个步骤:先在32k上下文长度下训练,随后扩展到256k以处理长文档和长视频。数据被分为“普通模式”和显式建模推理过程的“思维链(CoT)模式”。
- 第二阶段:强弱蒸馏(Strong-to-Weak Distillation)。利用强大的教师模型通过纯文本数据对学生模型的Backbone进行微调,有效提升文本和多模态任务中的推理能力。
- 第三阶段:强化学习(RL)。分为“推理RL”和“通用RL”还有个think with images,在大规模文本和多模态领域(如数学、OCR、Grounding)上进一步提升细粒度能力。
推理型强化学习(Reasoning RL)¶
任务覆盖数学、编程、逻辑、视觉谜题等,所有答案均可通过规则或代码执行器确定性验证。
数据准备:
- 使用 Qwen3-VL-235B-A22B 初版模型为每条查询生成 16 个回答,仅保留至少有一个正确回答的查询;
- 剔除改进潜力低的数据源,最终保留约 3 万条 RL 查询;
- 训练时过滤通过率 >90% 的简单样本,并按任务难易比例混合构建批次。
奖励系统:
- 统一框架支持多任务,统一的奖励设计考虑了不同的任务类型。
- 任务专用提示( task-specific format prompts)确保输出格式合规,避免依赖格式奖励;(是避免奖励格式吗?)
- 若回答语言与提问语言不一致,施加惩罚以抑制语言混杂。
算法:采用 SAPO(Smooth and Adaptive Policy Optimization)算法,在不同模型规模和架构上均表现稳定。(VeRL 已有PR)qwen3使用的GRPO
SAPO与GRPO的关系
2507 阿里 提出 GRPO改良版 :组序列策略优化(Group Sequence Policy Optimization, GSPO),设计动机是为了解决 GRPO 算法序列级别的 reward 与 token 级别的重要性采样值颗粒度不对齐导致的不稳定性问题。
GSPO 算法的改进点为把重要性采样部分调整为序列级别,带来了两点优势:
- 降低 token 方差,训练过程更为稳定,用几何均值计算序列重要性采样,能够有效缩小 token 的方差,使训练过程更加稳定。
- 对于 MoE 架构模型,不再需要 routing replay,因为序列重要性天然包含对专家路由的边缘积分,专家路由与生成模型的联合概率分布变为边缘概率分布,可以直接进行重要性采样。
251125 阿里提出比GSPO的更适合MOE的 SAPO,来解决训练崩溃问题。
作为对比实验的GRPO-R2 (GRPO with Routing Replay) (路由回放):
- 针对 MoE 模型中路由机制导致的训练-推理差异,GRPO-R2 引入 路由回放技术 :
- 在推理阶段缓存专家路由分布(如 Token 分配到各专家的概率);
- 训练时重放这些路由路径,强制训练与推理的路由一致性,减少动态偏差。
- 应该是为了训练稳定,GRPO-R2稳定性肯定比基础版GRPO好。
SAPO核心通过创新的软门控机制(替换掉了clip)和不对称温度设计,解决了GRPO/GSPO因硬裁剪导致的训练崩溃问题:
通用强化学习(General RL)¶
目标:提升泛化能力、纠正 SFT 阶段形成的错误先验、抑制不良行为(如语言混杂、重复、格式错误)。
双维度优化:
- 指令遵循:评估对内容、格式、长度、结构化输出(如 JSON)等约束的满足程度;
- 偏好对齐:在开放性任务中优化有用性、事实准确性与风格适切性。
错误纠正策略:
- 构建专门数据集,包含易引发错误的样本(如反直觉计数、复杂钟表识别),通过 RL 覆盖错误认知;
- 针对低频不良行为,构造高密度触发样本,施加高频惩罚以高效抑制。
混合奖励机制:
- 规则奖励:用于可验证任务,提供高精度、抗“奖励欺骗”的反馈;
- 模型奖励:由 Qwen2.5-VL-72B-Instruct 或 Qwen3 作为评判模型,多维度打分,避免因格式非常规而误判有效回答。
Thinking with Images智能体训练¶
采用两阶段范式训练具备工具调用与环境交互能力的视觉智能体:
- 第一阶段:合成约 1 万条简单两轮 VQA 任务(如属性识别),在 Qwen2.5-VL-32B 上进行 SFT,模拟“思考→行动→分析反馈→作答”流程,并辅以多轮工具集成 RL(multi-turn, tool-integrated reinforcement learning (RL))。
- 第二阶段:将训练好的智能体蒸馏为约 12 万条多轮交互数据,和之前1万的数据用于 Qwen3-VL 的后训练(a cold-start SFT and tool-integrated RL pipeline)。
RL 奖励信号:
- 答案准确奖励:由 Qwen3-32B 判断最终答案是否正确;
- 多轮推理奖励:由 Qwen2.5-VL-72B 评估是否合理利用工具反馈并进行连贯推理;
- 工具调用奖励:将实际调用次数与专家预估目标(由 Qwen2.5-VL-72B 离线生成)对比,鼓励任务自适应的工具探索。原因是为防止模型“偷懒”仅调用一次工具以满足前两项奖励,显式引入工具调用奖励以对齐任务复杂度。
生成模型¶
生图:
- HunyuanImage 3.0 (250928) : 后训练 DPO + MixGRPO + SRPO + ReDA
- Qwen-image43 (250804)后训练包括SFT+RL; 其中大部分RL使用DPO,精细微调使用Flow-GRPO(魔改后增加随机性)
- Self-forcing++ (251009) GRPO 引入基于光学流幅度的奖励函数,抑制长视频中的突兀场景切换(ps 光学流幅度(Optical Flow Magnitude)是计算机视觉中的一个重要概念,通过计算视频中连续帧之间的像素位移矢量(即光学流场)的模长得到的标量值。它量化了物体在时间维度上的运动强度, 用于描述视频序列中物体运动的速度和方向)
生视频
- wan系列,完全没讲后训练的方法
- HunyuanVideo 1.5 使用 On-Policy Alignment (OPA)-DPO
竞技场(截止251128):混元image3 排名第二,Qwen Image 10名左右
全模态¶
2509 Qwen3-Omni¶
Thinker 后训练:
- 监督微调(SFT):使用包含文本、视觉、音频和混合模态的对话数据进行初步指令对齐。
- 蒸馏(Distillation):采用「强 - 弱」蒸馏流程,使用更强大的教师模型(如 Qwen3-235B)的输出来指导学生模型(Qwen3-Omni)学习,提升其推理能力。
- GSPO:一种基于强化学习的优化方法,使用基于规则的奖励(用于数学、代码等可验证任务)和基于模型的奖励(LLM-as-a-judge,用于开放性任务)来全面提升模型在所有模态上的能力和稳定性。
Talker 后训练:
- 基础训练与持续预训练(Continual Pretraining, CPT):使用数亿条带有多模态上下文的语音数据进行训练,建立从多模态表示到语音的映射。然后使用高质量数据进行 CPT,以减少幻觉并提升音质。
- ps. Continual Pretraining (持续预训练): 是在第一阶段预训练结束后,模型在高质量、特定领域或更近期的数据上进行的第二轮预训练。
- 直接偏好优化(DPO):构建多语言语音样本的偏好对,使用 DPO 来提升多语言语音生成的稳定性和泛化能力。
- 说话人微调(Speaker Fine-tuning):在特定说话人的数据上进行微调,使 Talker 能够模仿特定音色,并提升语音的自然度、表现力和可控性。
OCR¶
2511 HunyuanOCR¶
首次在业界证明了强化学习(Reinforcement Learning, RL)策略能显著提升OCR任务的性能:
- 强化学习算法使用GRPO
- 对于文字定位、文档解析这类有明确答案的任务,他们使用可验证奖励的强化学习(Reinforcement learning with verifiable rewards,RLVR);
- 对于翻译、问答这类开放性任务,则采用“LLM-as-a-judge”的方式,让一个更强的语言模型来当“裁判”打分。
- 从训练动态图中可以看到,模型的平均奖励值在训练过程中稳步提升,证明模型确实“学进去了”。
轻量级RL框架¶
设计更加轻量级的RL框架,以减少计算资源的消耗,并提高模型在处理跨模态任务时的响应速度。
多模态应用¶
强化学习赋能多模态大语言模型(RL-based MLLM)的三大核心应用方向:
具身智能(3D/视频推理)¶
MLLM在3D/视频环境中实现感知-推理-行动闭环,典型应用包括物体操作、时序因果推理和自动驾驶:
MetaSpatial26 是一个基于强化学习的框架,旨在增强视觉 - 语言模型(VLM)在三维空间推理方面的能力,使其能够在没有后处理的情况下实时生成更加一致和真实的 3D 场景布局。
Video-R125 模型,作为首次系统探索在多模态大语言模型(MLLMs)中强化视频推理能力的尝试。该模型通过提出的 T-GRPO 算法,鼓励模型利用视频中的时间信息进行推理,并通过构建两个数据集 Video-R1-CoT-165k 和 Video-R1-260k 来支持训练。实验结果表明,Video-R1 在多个视频推理基准测试中取得了显著改进。
Embodied-R(清华) 27 是一个基于大规模视觉语言模型(VLM)和小规模语言模型(LM)的协作框架,通过强化学习(RL)激活胶囊视觉空间推理能力,在有限的计算资源下提高了多模态推理模型在视频模态下的空间推理性能。
智能体系统¶
MLLM作为主动智能体,在GUI等交互环境中实现目标导向的规划与执行,强调动作空间建模与反思式推理;RL为此提供了天然框架,将推理与交互建模为序列决策过程。
在GUI任务执行等交互场景中:
UI-R1(ViVo) 28 通过联合优化动作类型预测、参数选择与输出格式的奖励,使模型学会执行操作序列,对齐人类意图;
GUI-R1(中科院) 29 将动作类型、输入文本与点击坐标统一到标准化动作空间,提升MLLM在复杂真实GUI任务中的能力;
InfiGUI-R1 30 采用两阶段RL框架,推动GUI智能体从“反应式执行”迈向“深思熟虑式推理”,通过子目标引导与反思修正增强规划与错误恢复能力。第一阶段是 “推理注入”,通过空间推理蒸馏技术,将教师模型的空间推理能力传递给 MLLMs,使其能够在行为生成之前,整合 GUI 的视觉空间信息与逻辑推理。第二阶段是 “推理增强”,利用强化学习(RL)进一步细化基础推理者,引入了两种关键的技术:子目标指导和错误恢复场景构建,以提高代理的规划能力和自我纠正能力。最终实现参数量以小打大。
专业领域应用¶
除了通用具身与智能体能力,RL驱动的多模态推理正广泛应用于对感知与决策要求极高的专业领域,如医疗健康与人本交互。这些领域依赖结构化奖励与序列学习框架,推动MLLM从静态理解走向动态、上下文敏感的行为。
医疗健康¶
医疗领域对高风险推理、可解释性与泛化能力要求极高,RL通过过程监督与结构化奖励,提升临床推理的准确性与可解释性;RL多模态方法已在医学视觉问答和临床决策支持中取得进展:
- MedVLM-R1 31 通过奖励(GRPO)结构化推理路径,提升多选题答案的可验证性;
- ChestX-Reasoner(上交) 2 采用过程监督的强化学习,利用放射科报告中的监督信号对齐临床工作流,增强推理链的事实性、完整性与诊断相关性,并提升疾病分类、异常检测和时序比较等任务的准确性。reward设计(RadRScore计算的目标是事实性(生成推理的正确性)、完整性(涵盖临床发现的全面性)和有效性(诊断过程的必要性和相关性)。)
情感设计¶
社会人本交互:融合多模态信号理解人类情感与行为,构建共情与自适应AI系统。
- R1-Omni (阿里通义)33 融合音频、视频与文本,通过RL提升情感识别能力,实现结构化社会情感推理;
- R1-AQA (Xiaomi)32 训练MLLM解读声学信号以进行听觉推理。通过强化学习(RL)而非监督微调(SFT),展示了大型音频语言模型(LALMs)在音频问答(AQA)任务上的性能优势,实现了在 MMAU Test-mini 基准测试上的最先进结果。尽管在 AQA 任务上取得了进展,但 LALMs 在音频语言推理方面仍然远远落后于人类,这指向了未来研究的方向,即如何进一步提升模型的推理和理解能力。
多智能体RL¶
Agent RL 可以从一般是从LLM RL调整过来16
且一般专注于六大能力维度的提升,并结合环境的工具调用来实现16:
不同于多模态RL以GRPO family为主,Agent-RL 算法更加百花齐放16:
实例¶
通过RL来训练出不同差异的agent,在联合作答中取得SOTA3
MAPoRL使用了多智能体 PPO(Proximal Policy Optimization)算法来更新每个代理的策略。这个算法通过最大化每个代理的价值函数来进行训练,价值函数是基于累积奖励定义的。通过这种方式,每个代理都能学习如何在与其他代理的交互中最大化其长期奖励。4
商业落地¶
金融场景的多agent RL实践。5
限制、挑战与未来方向¶
限制与挑战¶
限制¶
尽管 RL 驱动的推理方法在提升多模态大模型(MLLMs)方面取得显著进展,但当前研究仍面临若干结构性与理论性限制,阻碍了模型的泛化能力与可扩展性。
(1)奖励信号稀疏。 当前方法主要依赖最终任务级别的标量奖励(如答案正确率、分类准确率),这些奖励仅反映最终结果,而无法对推理路径中的中间步骤提供反馈,导致模型无法纠正早期推理错误,并容易出现“过度思考”现象,即生成过长、冗余或包含无关信息的推理链。尽管已有研究尝试引入过程奖励或分阶段训练,但仍存在依赖人工设计、难以跨任务与跨模态泛化等问题。
(2)评测范式局限。 现有评测体系高度依赖静态、基准化的数据集,覆盖范围有限。模型往往在狭窄任务范围内训练和评估,导致在动态环境或新模态(如音频、3D 场景)中的迁移能力弱。
(3)缺乏实时自适应与交互能力。 大多数强化信号来自离线场景,假设输入输出静态映射。然而实际应用(如具身智能体、交互助手)需要持续反馈、推理自我修正及响应用户纠偏。目前 MLLMs 在这方面仍严重不足,无法有效弥合模拟训练与开放世界推理间的差距。
挑战¶
除了结构性限制外,MLLM + RL 的训练流程还面临以下挑战:
(1)跨模态对齐困难。 真实任务中图像、文本、音频、空间信息之间往往缺乏强监督,奖励难以覆盖复杂的跨模态映射关系,尤其在开放式任务中更难设计。
(2)推理轨迹具有非马尔可夫性。 多模态推理解耦于传统 RL 的状态转移假设,需要长期一致性,导致优化不稳定、梯度噪声大、信用分配困难。
(3)训练与推理不一致。 训练阶段采用固定提示和确定性奖励,而真实推理中输入不可预测、推理长度变化、结果具有歧义性,造成性能退化。
未来方向¶
为应对上述限制与挑战,可以从以下方向推进 MLLM 中的 RL 机制发展:
(1)统一与层级化奖励框架。 未来应构建多层次奖励体系,将最终正确性、推理结构质量、跨模态一致性等纳入综合奖励,以提升样本效率、可解释性与训练稳定性。
(2)跨模态可泛化的奖励机制。 通过模块化或可学习的奖励函数,使其能在图像、视频、音频、3D 等不同模态中迁移。可探索元学习奖励或“奖励 Transformer”等自动化奖励估计方式,以减少人工设计需求。
(3)轻量化与可扩展的强化优化方法。 开发适用于更小模型的低成本 RL,如课程学习、KL 正则化的离线策略优化、对比式奖励估计等,使 RL 能在资源受限场景更广泛应用。
(4)基于用户交互的实时强化学习。 在推理过程中引入用户偏好、纠错与示范,实现模型在线、自适应优化,突破离线奖励的限制。
(5)面向具身与空间场景的多模态 RL。 在机器人或 AR/VR 等空间环境中,需要融入物理约束、因果关系与时间动态,例如空间一致性检查、碰撞检测、可供性建模等,用于强化奖励设计。
待学习¶
PPT和总结:
- 多模态RL新应用场景(除开传统的理解和生成)
- 理解的奖励设计:准确性,逻辑性(分阶段和层次化),模态质量(视觉分析IoU或者音频质量)
- 总结趋势
待读:
- 已发布模型的RL设计
- EMU3.5
- LongCat-flash-omini
- GLM4.5
- vace
- bagel
- 生成RL
- 如何解释 DPO和RL的关系
- RL里除了grpo-family就没有了吗
- 生成实例里的: HunyuanImage 3.0 (250928) : 后训练 DPO + MixGRPO + SRPO + ReDA 没看完
- 华为PPT剩余部分的论文
- 稼先文章速览
- RL算法
- FAPO
- DRPO
- RL系统优化(组网等):
- 类似ViT复用计算:

- Medusa 提升推理/采样效率, 类似deepseek的投机采样
- 评论家模型从 RM 加载参数,复用训练集群的计算分数,避免精度下降;
- InternVl 3.5

- 类似ViT复用计算:
趋势:
- Latent Space Reasoning
- “test-time scaling”(测试时间缩放)呢?简单来说,就是在模型已经训练好的情况下,通过在测试阶段增加一些额外的计算资源(比如让模型多思考一会儿),来提升模型的输出质量。这种方法不需要重新训练模型,只需要在测试时多花一点时间或者计算资源,就能让模型表现得更好。
综述:
Reinforcement Learning: An Overview8
Next 待适配¶
VeRL
- 推理部分的加速, 适配vllm-Omni推理后端
- 多模态生成RL
- 生成模型支持
- flowgrpo、mixgrpo
- 全模态Omini RL
- qwen 2.5/ 3 omni
- 多模态 agent RL
- deepeyes + deepeyes2
- verl + agent
response 长度不能作为衡量模型好坏的指标
CoT模型的论文,都说越长说明思考越多;但是DeepeysV2,又说越短说明思考越简练。反正都是win-win是吧~
参考文献¶
-
Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models ↩↩↩↩
-
ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification ↩↩
-
ACL25: Advancing Collaborative Debates with Role Differentiation through Multi-agent Reinforcement Learning ↩
-
ACL25: MAPoRL2: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning ↩
-
ACL25: FLAG-TRADER: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading ↩
-
ACL24: Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback ↩
-
NeurIPS 2024: Subject-driven Text-to-Image Generation via Preference-based Reinforcement Learning ↩
-
NeurIPS 2025: Real-World Adverse Weather Image Restoration via Dual-Level Reinforcement Learning with High-Quality Cold Start ↩
-
DeepSeekMath: Pushing the limits of mathematical reasoning in open language models ↩
-
DAPO: An Open-Source LLM Reinforcement Learning System at Scale ↩
-
https://github.com/changyeyu/LLM-RL-Visualized ↩
-
https://github.com/xhyumiracle/Awesome-AgenticLLM-RL-Papers/blob/main/README.md ↩↩
-
Back to basics: Revisiting reinforce style optimization for learning from human feedback in llms. ↩
-
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey ↩↩↩↩
-
Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search ↩
-
NeurIPS 2025: Praxis-VLM: Vision-Grounded Decision Making via Text-Driven Reinforcement Learning ↩
-
NeurIPS 2025: Flow-GRPO: Training Flow Matching Models via Online RL ↩
-
VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning ↩
-
NeurIPS 2025: Improving Video Generation with Human Feedback ↩
-
DanceGRPO: Unleashing GRPO on Visual Generation ↩
-
MIXGRPO: UNLOCKING FLOW-BASED GRPO EFFICIENCY WITH MIXED ODE-SDE ↩
-
Fine-Grained GRPO for Precise Preference Alignment in Flow Models ↩
-
Video-R1: Reinforcing Video Reasoning in MLLMs ↩
-
MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse. ↩
-
Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning. ↩
-
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning. ↩
-
GUI-R1: A Generalist R1-Style Vision-Language Action Model For GUI Agents. arXiv preprint ↩
-
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners ↩
-
Medvlm-r1: Incentivizing medical reasoning capability of vision-language models (vlms) via reinforcement learning. ↩
-
Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering ↩
-
R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcing Learning. ↩
-
Boosting the Generalization and Reasoning of Vision Language Models with Curriculum Reinforcement Learning ↩
-
R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization ↩
-
GFlowVLM: Enhancing Multi-step Reasoning in Vision-Language Models with Generative Flow Networks ↩
-
Can We Generate Images with CoT? Let’s Verify and Reinforce Image Generation Step by Step ↩
-
Unified Reward Model for Multimodal Understanding and Generation ↩
-
T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT ↩
-
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing ↩
-
ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing ↩
-
C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation ↩
-
FocusDiff: Advancing Fine-Grained Text-Image Alignment for Autoregressive Visual Generation through RL ↩
-
SUDER: Self-Improving Unified Large Multimodal Models for Understanding and Generation with Dual Self-Rewards ↩
-
https://www.dwarkesh.com/p/bits-per-sample ↩
-
https://www.tobyord.com/writing/inefficiency-of-reinforcement-learning ↩
-
DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning ↩↩




















































