Agentic RL
导言
Agentic RL 和 memory 是2026年的发展方向。本文将调研 Agentic RL 在多模态的发展潜力。
智能体的等级和发展¶
OpenAI 24年7🈷️就提出 5种水平的AI。
- 一级:聊天机器人,这是能以对话语言和人类互动的AI。
- 二级:推理者,这种AI可以解决人类级别的问题。
- 三级:智能体,这种AI是可以采取行动的系统。
- 四级:创新者,这是可以帮助发明创造的AI。
- 五级:组织,这种AI可以完成一个组织的工作。
Agent 大火,就是第二级到第三级到体现。
25年年中,有论文细化了该智能体的分类:受汽车工程师协会(SAE)自动驾驶六级分类的启发,智能体也根据其功能和能力被划分为以下层级:
- L0——无 AI,具备工具(有感知能力)和行动;
- L1——使用基于规则的 AI;
- L2——用基于模仿学习(IL)/强化学习(RL)的 AI 替代基于规则的 AI,增加推理和决策能力;
- L3——应用基于大型语言模型(LLM)的AI 替代基于 IL/RL 的 AI,并设置记忆和反思功能;
- L4——在 L3 的基础上,实现自主学习和泛化能力;
- L5——在 L4 的基础上,增加个性(情感 + 性格)和协作行为(多智能体)。
可以见得后续的发展方向:记忆、反思、自主学习、泛化、个性和协作。
AI Infra的新形态¶
作为Ascend的一员,我们理应牵头设计统一的AI Infra核心,避免客户各自为战,让Ascend的适配压力巨大。但同时AI发展迅速,我们需要拨云见日,看清AI Infra的长期形态,和我们应该构筑的长期竞争力。
与当前商业模式的结合¶
作为训练开发部的一员,在现场的几点局点待过后,客户可以分成几类:
- 有大型基础模型需求的:(有训练的完整流程:数据处理、预训练、SFT、RL)
- 这些客户多数是GPU为主:ZJ智创、电信、浦江。
- 这些客户Agentic RL的流程算法,有专门的算法团队(10人+),基本在GPU就设计好了/边设计边迁移到NPU。
- 基本没有Ascend方主导的空间。
- 业务面还有垂类模型需求的:(也有训练的完整流程,但是数据集规模和参数量会小一个数量级)
- 这些客户多数是NPU为主,新浪、ZJ电商
- 多模态理解这边都是围绕应用审核场景;生成也是围绕将不合规的图片改成合规之类的。
- 这些客户的算法团队往往只有1人,Agentic RL的流程算法也是需要摸索的,如果Ascend方有可信的方案,客户比较容易接受。
- 更小的微调场景:版本能力基本覆盖了。
核心指标¶
为了减少不同框架迁移的成本,将从下面的维度评价不同的开源框架:
- 场景覆盖度:agent有很多子类场景:code、gui 控制等。
- 算法支持情况
- 新模型接入难度:
- 新算法接入难度:
- Agent逻辑复杂度
- Agent优化点(RL效率)
- 可复现性
目标是面向自身方案不明晰的客户,能针对其业务特性,快速打通一套有效的agent rl的通路。
开源实现对比¶
基于25年3月版本。
TODO