Frontier Model RL

导言

这篇文章用于持续梳理前沿 LLM/VLM 模型的 RL recipe：它们在什么 RL 框架下训练，经历了哪几个 RL 阶段，每个阶段使用什么算法，以及这些设计到底想解决什么问题。

这里的核心原则是 evidence-first：只把官方博客、技术报告、模型卡、开源仓库中明确披露的内容写成结论；如果资料只披露能力提升而没有披露训练阶段，就标注为“未公开”，不反推、不补脑。

Reading Boundary

未公开 RL recipe 不等于没有使用 RL。前沿模型通常会公开 benchmark、模型结构和推理形态，但不会完整公开 post-training 数据、奖励、rollout、框架和超参。因此本文的“未公开”只表示截至记录日期没有找到可引用的一手资料。

Evidence Level¶

我先把资料可信度分成三档，后续新增模型时也按这个标准维护：

A: Technical Report 论文或技术报告直接写出 RL 阶段、算法、奖励或系统设计，可以拆成 recipe。
B: Official Blog / Model Card 官方博客、模型卡或仓库披露了部分 RL 方向、框架或系统，但不足以完整还原训练流程。
C: Release Only 只公开模型能力、benchmark、部署方式或推理特性，没有披露 RL 细节。

flowchart LR
  P["Pretrain / Midtrain"] --> S["SFT / Distillation"]
  S --> R1["Reasoning RL"]
  R1 --> R2["Agentic / Tool RL"]
  R2 --> R3["General / Preference RL"]
  R3 --> O["OPD / Distillation / Merge"]
  R2 --> V["VLM / Omni RL"]
  V --> O

Summary Table¶

Model	Evidence	RL framework / system	Public RL stages and algorithms	Design intention	Current judgment
Qwen3.5	B	官方披露为 scalable asynchronous RL framework，采用训练-推理解耦，支持 text、multimodal、multi-turn 和 million-scale agent environments。¹	没有找到可复现的阶段数和算法名；官方只披露 RL scaling、agent scaffolds、rollout router replay、multi-turn rollout locking 等系统侧设计。	目标是把 RL 从窄 benchmark 推到更复杂、更泛化的 agent 环境，同时兼顾多模态训练吞吐、训推一致性和容错。	可以写“Qwen3.5 公开了异步 RL infra 方向”，但不能写成完整 recipe。
Qwen3.6	C	未披露官方训练框架。Qwen3.6 仓库只公开模型发布、能力定位和推理/微调建议。²	未公开。仓库建议用户微调可使用 SFT、DPO、GRPO 等框架，但这不代表官方训练 recipe。	公开目标是稳定性、真实开发体验、agentic coding、thinking preservation。	只能记录“未公开 RL 阶段”；不要把 Qwen3.5 的异步 RL 框架直接外推到 Qwen3.6。
MiniMax M3	B / A	通用 M3 训练 recipe 未公开；数学证明方向的 MaxProof 公开了 proof-oriented RL 和 test-time scaling。MiniMax 博客还提到 proof RL 使用 forge 训练框架。³⁴	通用 M3：未公开。MaxProof：Proof Expert 使用 CISPO with std-threshold filter；Verifier Expert 做 aligned error finding；Fixer Expert 用 rejection-sampling fine-tune；测试时使用 population-level search 和 tournament selection。⁵	MaxProof 的核心不是简单提高答题正确率，而是降低证明 verifier 的假阳性、抑制 reward hacking，并把生成、验证、修复、排序合成一个证明系统。	通用模型 recipe 不足；数学证明方向可以作为 M3 系列 RL 专项案例单独记录。
Kimi K2.6	C	官方未公开训练框架。模型页和技术博客突出 long-horizon coding、agent swarm、proactive agents 和工程能力。⁶⁷	未公开。官方博客提到 RL infra team 用 K2.6-backed agent 做 5 天自治 dogfooding，这是应用/验证，不是训练 recipe。	公开目标是长程编码、并行 agent swarm、视觉到代码、真实软件工程任务完成。	只能和 K2.5 的 PARL 主线建立“能力延续”的观察，不能写成已公开 PARL 训练流程。
Kimi K2.7 Code	C	未公开训练框架。模型卡显示它是基于 Kimi K2.6 的 coding-focused agentic model。⁸	未公开。模型卡只披露 coding、long-horizon workflow、thinking-token usage 下降等结果。	公开目标是提升真实长程代码任务、复杂软件工程 workflow 和 token efficiency。	记录为“K2.6 之上的代码专项后训练结果”，但 RL 阶段、奖励和算法均未公开。
GLM-5	A	slime。GLM-5 报告和 slime 仓库互相印证：slime 是 GLM-5/5.2 等模型背后的 RL scaling 框架，连接 Megatron 与 SGLang。⁹¹⁰	公开 pipeline 包含 Reasoning RL、Agentic RL、General RL 和 OPD。Reasoning RL 使用 GRPO + IcePop 并移除 KL；Agentic RL 使用 group-wise policy optimization、异步 RL、TITO 和 Direct Double-sided Importance Sampling；OPD 用于跨阶段蒸馏。⁹	Reasoning RL 强化数学、科学、代码和 TIR；Agentic RL 解决长程 coding/search rollout 的 GPU 空转、off-policy 和重分词错位；General RL 做事实性、指令遵循与风格；OPD 缓解多阶段后训练的能力遗忘。	当前公开资料中最适合拆解为完整 RL recipe 的模型之一。
GLM-5.2	B	slime。官方博客和 HF 博客披露了 slime 支撑 agentic RL、long-horizon RL 和并行 OPD。¹¹¹²	披露关键升级而非完整论文级 recipe：Agentic RL / OPD 支持 white-box rollout、black-box rollout、compact trajectory、sub-agent workflow；long-horizon RL 从 group-wise optimization 转向 critic-based PPO；加入 anti-hack 模块。	critic-based PPO 面向长程任务中长度不一、数量不一的 sub-trace；anti-hack 面向 coding RL 中读取隐藏测试、抄参考答案、抓取目标源码等 reward hacking。	可信度高于普通博客，但还缺少 GLM-5 那种完整技术报告，需要后续补论文或仓库细节。

Reference Lines¶

上面的主表里有不少“未公开”，这不是信息量不够，而是前沿模型的公开节奏如此。为了避免文章只剩否定结论，下面把同一厂商已经公开得更充分的 recipe 作为参考线，帮助判断新模型可能沿着什么方向演化。

Lineage	Public recipe	Why it matters
Qwen3	四阶段 post-training：Long-CoT cold start、Reasoning RL、thinking-mode fusion、General RL；报告说明 Reasoning RL 使用 rule-based rewards，但未披露具体训练框架。¹³	给 Qwen3.5/3.6 的“thinking + general + agent”路线提供背景，但不能替代新模型 recipe。
Qwen3.5-Omni	Thinker 包含 specialist distillation、OPD、interaction-aligned RL；Talker 包含 DPO、rule-based rewards、GSPO 等后训练设计。¹⁴	Omni 模型把 RL 从文本推理扩展到语音、音视频交互和 streaming speech stability。
Kimi K2	公开 general RL framework：RLVR + self-critique rubric reward，并在 joint RL stage 中处理 agentic 任务。¹⁵	Kimi 系列的核心是把可验证任务和开放式任务放进同一个 agentic RL 框架。
Kimi K2.5	公开 joint text-vision RL、Outcome-Based Visual RL、PARL、token-efficient RL。¹⁶	K2.6/K2.7 的 agent swarm 能力更像沿着 K2.5 的 PARL 方向扩展，但新模型的训练细节未披露。
MiniMax-M1	大规模 RL + CISPO，面向数学推理、真实 sandbox 软件工程和长上下文任务。¹⁷	M3/MaxProof 的 CISPO 可以追溯到 M 系列的长程 RL scaling 传统。
GLM-V / GLM-4.5V	公开 RLCS、GRPO、RLVR/RLHF 和多域 reward system；官方还开源了 VLM reward system。¹⁸	VLM RL 的难点不是只有算法，而是不同视觉任务的 verifier、reward hacking 和课程采样。
GLM-5V-Turbo	公开 30+ task joint RL、Unified VLM RL Gym、rollout/reward/batch/weight transfer 解耦等系统设计，但未完整披露 PPO/GRPO 等优化算法名。¹⁹	说明 VLM agent 的 RL 已经从单任务能力增强，转向 perception、STEM、GUI、coding、tool use 的协同优化。

Design Pattern¶

Main Observation

前沿模型的 RL 不再只是“选一个 PPO/GRPO 算法跑数学题”。更准确的说法是：不同能力域需要不同 rollout 环境、reward 形态、采样策略和后处理蒸馏方式。

Reasoning RL¶

Reasoning RL 仍然是最稳定、最容易公开的部分，因为数学、代码、逻辑题常常能构造明确 verifier。常见设计包括：

Rule-based reward / RLVR：答案可验证，reward 噪声低，适合早期放大推理能力。
GRPO family / CISPO / PPO variants：核心差异在于 advantage 构造、clip 位置、是否引入 critic、是否承受长 response 的稀疏反馈。
难度采样和过滤：过易样本没有梯度，过难样本全错，也没有有效信号。RLCS、std-threshold filter、curriculum sampling 都是在解决这个问题。

Agentic RL¶

Agentic RL 的关键难点是 trajectory 长、工具多、环境慢、反馈延迟高。所以它经常从算法问题变成系统问题：

rollout 成本：长程 coding/search 会让 GPU 等待环境，异步 RL、training-inference disaggregation、sub-agent workflow 都是为了解这个瓶颈。
credit assignment：最终任务成败很晚才出现，PARL、self-critique reward、verifier alignment 都在尝试给中间行为更稳定的学习信号。
训推一致性：多轮工具调用容易出现重分词、状态压缩、policy lag、环境不一致。GLM-5 的 TITO 和 Qwen3.5 的 multi-turn rollout locking 都属于这一类问题。

Common Pitfall

不要把“模型支持 agent”直接等价为“公开了 agentic RL recipe”。很多模型卡会展示 agent 能力，但不披露 rollout 环境、reward、训练算法和系统框架。

VLM and Omni RL¶

VLM/Omni 模型的 RL 更难标准化，因为 reward 来源不是一个统一的文本 verifier：

视觉 grounding / OCR / GUI / video 需要不同 verifier，很多任务只能用模型评判或弱规则。
语音和音频交互 还要处理稳定性、自然度、语言切换、说话人一致性和时间对齐。
联合优化 容易出现 see-saw effect：视觉提升可能伤害代码或文本推理，单任务 RL 容易把能力推向局部最优。

因此，GLM-5V-Turbo 的 30+ task joint RL、Qwen3.5-Omni 的 Thinker/Talker 分治、Kimi K2.5 的 joint text-vision RL，本质上都是在寻找 跨模态能力不互相破坏 的训练配方。

OPD and Consolidation¶

多阶段 RL 之后的模型往往不是简单地“越训越强”。不同阶段会互相覆盖，特别是 reasoning、agent、style、safety、multilingual 和 multimodal 能力之间存在冲突。

OPD、distillation、model merge、expert consolidation 这些步骤的设计初心是：

防遗忘：避免后一个 RL 阶段覆盖前一个阶段学到的技能。
统一行为分布：让多个 expert 或多个能力模式汇入同一个 deployment model。
压缩推理成本：把长思考或多 agent 的能力蒸馏回更可部署的模型行为。

Maintenance Notes¶

后续更新这张表时，建议按下面的顺序补充：

先补模型卡和官方博客：记录发布日期、模型定位、是否直接提到 RL。
再查技术报告：只有报告写出阶段、算法、reward 或系统设计时，才升级到 A 级证据。
单独记录专项 recipe：例如 MiniMax M3 通用模型没有公开完整 recipe，但 MaxProof 是数学证明专项 recipe，应单独成行说明。
不要外推版本号：K2.5 公开 PARL，不代表 K2.6/K2.7 公开 PARL；Qwen3.5 公开异步 RL infra，不代表 Qwen3.6 的阶段和算法已经公开。
保留负结论：对前沿模型来说，“未公开”本身也是重要信息，可以防止后来写文章时把社区猜测误写成事实。