Frontier Model RL
导言
这篇文章用于持续梳理前沿 LLM/VLM 模型的 RL recipe:它们在什么 RL 框架下训练,经历了哪几个 RL 阶段,每个阶段使用什么算法,以及这些设计到底想解决什么问题。
这里的核心原则是 evidence-first:只把官方博客、技术报告、模型卡、开源仓库中明确披露的内容写成结论;如果资料只披露能力提升而没有披露训练阶段,就标注为“未公开”,不反推、不补脑。
Reading Boundary
未公开 RL recipe 不等于没有使用 RL。前沿模型通常会公开 benchmark、模型结构和推理形态,但不会完整公开 post-training 数据、奖励、rollout、框架和超参。因此本文的“未公开”只表示截至记录日期没有找到可引用的一手资料。
Evidence Level¶
我先把资料可信度分成三档,后续新增模型时也按这个标准维护:
- A: Technical Report 论文或技术报告直接写出 RL 阶段、算法、奖励或系统设计,可以拆成 recipe。
- B: Official Blog / Model Card 官方博客、模型卡或仓库披露了部分 RL 方向、框架或系统,但不足以完整还原训练流程。
- C: Release Only 只公开模型能力、benchmark、部署方式或推理特性,没有披露 RL 细节。
flowchart LR
P["Pretrain / Midtrain"] --> S["SFT / Distillation"]
S --> R1["Reasoning RL"]
R1 --> R2["Agentic / Tool RL"]
R2 --> R3["General / Preference RL"]
R3 --> O["OPD / Distillation / Merge"]
R2 --> V["VLM / Omni RL"]
V --> O
Summary Table¶
| Model | Evidence | RL framework / system | Public RL stages and algorithms | Design intention | Current judgment |
|---|---|---|---|---|---|
| Qwen3.5 | B | 官方披露为 scalable asynchronous RL framework,采用训练-推理解耦,支持 text、multimodal、multi-turn 和 million-scale agent environments。1 | 没有找到可复现的阶段数和算法名;官方只披露 RL scaling、agent scaffolds、rollout router replay、multi-turn rollout locking 等系统侧设计。 | 目标是把 RL 从窄 benchmark 推到更复杂、更泛化的 agent 环境,同时兼顾多模态训练吞吐、训推一致性和容错。 | 可以写“Qwen3.5 公开了异步 RL infra 方向”,但不能写成完整 recipe。 |
| Qwen3.6 | C | 未披露官方训练框架。Qwen3.6 仓库只公开模型发布、能力定位和推理/微调建议。2 | 未公开。仓库建议用户微调可使用 SFT、DPO、GRPO 等框架,但这不代表官方训练 recipe。 | 公开目标是稳定性、真实开发体验、agentic coding、thinking preservation。 | 只能记录“未公开 RL 阶段”;不要把 Qwen3.5 的异步 RL 框架直接外推到 Qwen3.6。 |
| MiniMax M3 | B / A | 通用 M3 训练 recipe 未公开;数学证明方向的 MaxProof 公开了 proof-oriented RL 和 test-time scaling。MiniMax 博客还提到 proof RL 使用 forge 训练框架。34 | 通用 M3:未公开。MaxProof:Proof Expert 使用 CISPO with std-threshold filter;Verifier Expert 做 aligned error finding;Fixer Expert 用 rejection-sampling fine-tune;测试时使用 population-level search 和 tournament selection。5 | MaxProof 的核心不是简单提高答题正确率,而是降低证明 verifier 的假阳性、抑制 reward hacking,并把生成、验证、修复、排序合成一个证明系统。 | 通用模型 recipe 不足;数学证明方向可以作为 M3 系列 RL 专项案例单独记录。 |
| Kimi K2.6 | C | 官方未公开训练框架。模型页和技术博客突出 long-horizon coding、agent swarm、proactive agents 和工程能力。67 | 未公开。官方博客提到 RL infra team 用 K2.6-backed agent 做 5 天自治 dogfooding,这是应用/验证,不是训练 recipe。 | 公开目标是长程编码、并行 agent swarm、视觉到代码、真实软件工程任务完成。 | 只能和 K2.5 的 PARL 主线建立“能力延续”的观察,不能写成已公开 PARL 训练流程。 |
| Kimi K2.7 Code | C | 未公开训练框架。模型卡显示它是基于 Kimi K2.6 的 coding-focused agentic model。8 | 未公开。模型卡只披露 coding、long-horizon workflow、thinking-token usage 下降等结果。 | 公开目标是提升真实长程代码任务、复杂软件工程 workflow 和 token efficiency。 | 记录为“K2.6 之上的代码专项后训练结果”,但 RL 阶段、奖励和算法均未公开。 |
| GLM-5 | A | slime。GLM-5 报告和 slime 仓库互相印证:slime 是 GLM-5/5.2 等模型背后的 RL scaling 框架,连接 Megatron 与 SGLang。910 | 公开 pipeline 包含 Reasoning RL、Agentic RL、General RL 和 OPD。Reasoning RL 使用 GRPO + IcePop 并移除 KL;Agentic RL 使用 group-wise policy optimization、异步 RL、TITO 和 Direct Double-sided Importance Sampling;OPD 用于跨阶段蒸馏。9 | Reasoning RL 强化数学、科学、代码和 TIR;Agentic RL 解决长程 coding/search rollout 的 GPU 空转、off-policy 和重分词错位;General RL 做事实性、指令遵循与风格;OPD 缓解多阶段后训练的能力遗忘。 | 当前公开资料中最适合拆解为完整 RL recipe 的模型之一。 |
| GLM-5.2 | B | slime。官方博客和 HF 博客披露了 slime 支撑 agentic RL、long-horizon RL 和并行 OPD。1112 | 披露关键升级而非完整论文级 recipe:Agentic RL / OPD 支持 white-box rollout、black-box rollout、compact trajectory、sub-agent workflow;long-horizon RL 从 group-wise optimization 转向 critic-based PPO;加入 anti-hack 模块。 | critic-based PPO 面向长程任务中长度不一、数量不一的 sub-trace;anti-hack 面向 coding RL 中读取隐藏测试、抄参考答案、抓取目标源码等 reward hacking。 | 可信度高于普通博客,但还缺少 GLM-5 那种完整技术报告,需要后续补论文或仓库细节。 |
Reference Lines¶
上面的主表里有不少“未公开”,这不是信息量不够,而是前沿模型的公开节奏如此。为了避免文章只剩否定结论,下面把同一厂商已经公开得更充分的 recipe 作为参考线,帮助判断新模型可能沿着什么方向演化。
| Lineage | Public recipe | Why it matters |
|---|---|---|
| Qwen3 | 四阶段 post-training:Long-CoT cold start、Reasoning RL、thinking-mode fusion、General RL;报告说明 Reasoning RL 使用 rule-based rewards,但未披露具体训练框架。13 | 给 Qwen3.5/3.6 的“thinking + general + agent”路线提供背景,但不能替代新模型 recipe。 |
| Qwen3.5-Omni | Thinker 包含 specialist distillation、OPD、interaction-aligned RL;Talker 包含 DPO、rule-based rewards、GSPO 等后训练设计。14 | Omni 模型把 RL 从文本推理扩展到语音、音视频交互和 streaming speech stability。 |
| Kimi K2 | 公开 general RL framework:RLVR + self-critique rubric reward,并在 joint RL stage 中处理 agentic 任务。15 | Kimi 系列的核心是把可验证任务和开放式任务放进同一个 agentic RL 框架。 |
| Kimi K2.5 | 公开 joint text-vision RL、Outcome-Based Visual RL、PARL、token-efficient RL。16 | K2.6/K2.7 的 agent swarm 能力更像沿着 K2.5 的 PARL 方向扩展,但新模型的训练细节未披露。 |
| MiniMax-M1 | 大规模 RL + CISPO,面向数学推理、真实 sandbox 软件工程和长上下文任务。17 | M3/MaxProof 的 CISPO 可以追溯到 M 系列的长程 RL scaling 传统。 |
| GLM-V / GLM-4.5V | 公开 RLCS、GRPO、RLVR/RLHF 和多域 reward system;官方还开源了 VLM reward system。18 | VLM RL 的难点不是只有算法,而是不同视觉任务的 verifier、reward hacking 和课程采样。 |
| GLM-5V-Turbo | 公开 30+ task joint RL、Unified VLM RL Gym、rollout/reward/batch/weight transfer 解耦等系统设计,但未完整披露 PPO/GRPO 等优化算法名。19 | 说明 VLM agent 的 RL 已经从单任务能力增强,转向 perception、STEM、GUI、coding、tool use 的协同优化。 |
Design Pattern¶
Main Observation
前沿模型的 RL 不再只是“选一个 PPO/GRPO 算法跑数学题”。更准确的说法是:不同能力域需要不同 rollout 环境、reward 形态、采样策略和后处理蒸馏方式。
Reasoning RL¶
Reasoning RL 仍然是最稳定、最容易公开的部分,因为数学、代码、逻辑题常常能构造明确 verifier。常见设计包括:
- Rule-based reward / RLVR:答案可验证,reward 噪声低,适合早期放大推理能力。
- GRPO family / CISPO / PPO variants:核心差异在于 advantage 构造、clip 位置、是否引入 critic、是否承受长 response 的稀疏反馈。
- 难度采样和过滤:过易样本没有梯度,过难样本全错,也没有有效信号。RLCS、std-threshold filter、curriculum sampling 都是在解决这个问题。
Agentic RL¶
Agentic RL 的关键难点是 trajectory 长、工具多、环境慢、反馈延迟高。所以它经常从算法问题变成系统问题:
- rollout 成本:长程 coding/search 会让 GPU 等待环境,异步 RL、training-inference disaggregation、sub-agent workflow 都是为了解这个瓶颈。
- credit assignment:最终任务成败很晚才出现,PARL、self-critique reward、verifier alignment 都在尝试给中间行为更稳定的学习信号。
- 训推一致性:多轮工具调用容易出现重分词、状态压缩、policy lag、环境不一致。GLM-5 的 TITO 和 Qwen3.5 的 multi-turn rollout locking 都属于这一类问题。
Common Pitfall
不要把“模型支持 agent”直接等价为“公开了 agentic RL recipe”。很多模型卡会展示 agent 能力,但不披露 rollout 环境、reward、训练算法和系统框架。
VLM and Omni RL¶
VLM/Omni 模型的 RL 更难标准化,因为 reward 来源不是一个统一的文本 verifier:
- 视觉 grounding / OCR / GUI / video 需要不同 verifier,很多任务只能用模型评判或弱规则。
- 语音和音频交互 还要处理稳定性、自然度、语言切换、说话人一致性和时间对齐。
- 联合优化 容易出现 see-saw effect:视觉提升可能伤害代码或文本推理,单任务 RL 容易把能力推向局部最优。
因此,GLM-5V-Turbo 的 30+ task joint RL、Qwen3.5-Omni 的 Thinker/Talker 分治、Kimi K2.5 的 joint text-vision RL,本质上都是在寻找 跨模态能力不互相破坏 的训练配方。
OPD and Consolidation¶
多阶段 RL 之后的模型往往不是简单地“越训越强”。不同阶段会互相覆盖,特别是 reasoning、agent、style、safety、multilingual 和 multimodal 能力之间存在冲突。
OPD、distillation、model merge、expert consolidation 这些步骤的设计初心是:
- 防遗忘:避免后一个 RL 阶段覆盖前一个阶段学到的技能。
- 统一行为分布:让多个 expert 或多个能力模式汇入同一个 deployment model。
- 压缩推理成本:把长思考或多 agent 的能力蒸馏回更可部署的模型行为。
Maintenance Notes¶
后续更新这张表时,建议按下面的顺序补充:
- 先补模型卡和官方博客:记录发布日期、模型定位、是否直接提到 RL。
- 再查技术报告:只有报告写出阶段、算法、reward 或系统设计时,才升级到 A 级证据。
- 单独记录专项 recipe:例如 MiniMax M3 通用模型没有公开完整 recipe,但 MaxProof 是数学证明专项 recipe,应单独成行说明。
- 不要外推版本号:K2.5 公开 PARL,不代表 K2.6/K2.7 公开 PARL;Qwen3.5 公开异步 RL infra,不代表 Qwen3.6 的阶段和算法已经公开。
- 保留负结论:对前沿模型来说,“未公开”本身也是重要信息,可以防止后来写文章时把社区猜测误写成事实。
参考文献¶
-
MiniMax M3: Frontier Coding, 1M Context, Native Multimodality ↩
-
MaxProof: Scaling Mathematical Proof with Generative-Verifier RL and Evolutionary Search ↩
-
MaxProof: Scaling Mathematical Proof with Generative-Verifier RL and Population-Level Test-Time Scaling ↩
-
MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention ↩
-
GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents ↩