跳转至

Agentic RL

导言

Agentic RL 和 memory 是2026年的发展方向。本文将调研 Agentic RL 在多模态的发展潜力。

智能体的等级和发展

OpenAI 24年7🈷️就提出 5种水平的AI。

  • 一级:聊天机器人,这是能以对话语言和人类互动的AI。
  • 二级:推理者,这种AI可以解决人类级别的问题。
  • 三级:智能体,这种AI是可以采取行动的系统。
  • 四级:创新者,这是可以帮助发明创造的AI。
  • 五级:组织,这种AI可以完成一个组织的工作。

Agent 大火,就是第二级到第三级到体现。

25年年中,有论文细化了该智能体的分类:受汽车工程师协会(SAE)自动驾驶六级分类的启发,智能体也根据其功能和能力被划分为以下层级:

  • L0——无 AI,具备工具(有感知能力)和行动;
  • L1——使用基于规则的 AI;
  • L2——用基于模仿学习(IL)/强化学习(RL)的 AI 替代基于规则的 AI,增加推理和决策能力;
  • L3——应用基于大型语言模型(LLM)的AI 替代基于 IL/RL 的 AI,并设置记忆和反思功能;
  • L4——在 L3 的基础上,实现自主学习和泛化能力;
  • L5——在 L4 的基础上,增加个性(情感 + 性格)和协作行为(多智能体)。

可以见得后续的发展方向:记忆、反思、自主学习、泛化、个性和协作。

AI Infra的新形态

作为Ascend的一员,我们理应牵头设计统一的AI Infra核心,避免客户各自为战,让Ascend的适配压力巨大。但同时AI发展迅速,我们需要拨云见日,看清AI Infra的长期形态,和我们应该构筑的长期竞争力。

与当前商业模式的结合

作为训练开发部的一员,在现场的几点局点待过后,客户可以分成几类:

  • 有大型基础模型需求的:(有训练的完整流程:数据处理、预训练、SFT、RL)
    • 这些客户多数是GPU为主:ZJ智创、电信、浦江。
    • 这些客户Agentic RL的流程算法,有专门的算法团队(10人+),基本在GPU就设计好了/边设计边迁移到NPU。
    • 基本没有Ascend方主导的空间。
  • 业务面还有垂类模型需求的:(也有训练的完整流程,但是数据集规模和参数量会小一个数量级)
    • 这些客户多数是NPU为主,新浪、ZJ电商
    • 多模态理解这边都是围绕应用审核场景;生成也是围绕将不合规的图片改成合规之类的。
    • 这些客户的算法团队往往只有1人,Agentic RL的流程算法也是需要摸索的,如果Ascend方有可信的方案,客户比较容易接受。
  • 更小的微调场景:版本能力基本覆盖了。

核心指标

为了减少不同框架迁移的成本,将从下面的维度评价不同的开源框架:

  • 场景覆盖度:agent有很多子类场景:code、gui 控制等。
  • 算法支持情况
  • 新模型接入难度:
  • 新算法接入难度:
  • Agent逻辑复杂度
  • Agent优化点(RL效率)
  • 可复现性

目标是面向自身方案不明晰的客户,能针对其业务特性,快速打通一套有效的agent rl的通路。

开源实现对比

基于25年3月版本。

TODO

评论