Agentic RL

导言

Agentic RL 和 memory 是2026年的发展方向。本文将调研 Agentic RL 在多模态的发展潜力。

智能体的等级和发展¶

OpenAI 24年7🈷️就提出 5种水平的AI。

Agent 大火，就是第二级到第三级到体现。

25年年中，有论文细化了该智能体的分类：受汽车工程师协会（SAE）自动驾驶六级分类的启发，智能体也根据其功能和能力被划分为以下层级：

可以见得后续的发展方向：记忆、反思、自主学习、泛化、个性和协作。

作为Ascend的一员，我们理应牵头设计统一的AI Infra核心，避免客户各自为战，让Ascend的适配压力巨大。但同时AI发展迅速，我们需要拨云见日，看清AI Infra的长期形态，和我们应该构筑的长期竞争力。

作为训练开发部的一员，在现场的几点局点待过后，客户可以分成几类：

有大型基础模型需求的：（有训练的完整流程：数据处理、预训练、SFT、RL）
- 这些客户多数是GPU为主：ZJ智创、电信、浦江。
- 这些客户Agentic RL的流程算法，有专门的算法团队（10人+），基本在GPU就设计好了/边设计边迁移到NPU。
- 基本没有Ascend方主导的空间。
业务面还有垂类模型需求的：（也有训练的完整流程，但是数据集规模和参数量会小一个数量级）
- 这些客户多数是NPU为主，新浪、ZJ电商
- 多模态理解这边都是围绕应用审核场景；生成也是围绕将不合规的图片改成合规之类的。
- 这些客户的算法团队往往只有1人，Agentic RL的流程算法也是需要摸索的，如果Ascend方有可信的方案，客户比较容易接受。
更小的微调场景：版本能力基本覆盖了。

为了减少不同框架迁移的成本，将从下面的维度评价不同的开源框架：

目标是面向自身方案不明晰的客户，能针对其业务特性，快速打通一套有效的agent rl的通路。

基于25年3月版本。

TODO