RL Weekly News

导言

RL 相关的洞察: 算法趋势、热点模型策略、框架优化、实验规律、流派观点。

AI prompt

一段话总结，介绍作者,标题，核心观点（稍微展开，浅显易懂），效果（介绍对照组配置，并数值说明效果），应用。保证简洁和学术性

当前分析到

阿里总结的这份LLM-RL稳定训练指南，太香了

260211¶

[算法趋势] 香港科技大学何浩然博士生于快手可灵团队主导的研究《GARDO: Reinforcing Diffusion Models without Reward Hacking》，提出了一种解决扩散模型强化学习后训练中“reward hacking”问题的新范式。其核心观点是摒弃传统“一刀切”的KL正则化，转而采用一种精准、自适应的调控策略：通过“门控”机制仅对高风险样本施加约束以保安全，通过动态更新参考模型以促进探索，并引入多样性奖励以避免模式坍塌，从而在提升奖励的同时保障生成质量与多样性。实验表明，在相同基线（如GRPO）和训练步数（2000步）下，GARDO取得了显著优势：在优化特定任务（如OCR识别率从基线0.58提升至0.96）的同时，在未见过的综合指标上（如Aesthetic Score, PickScore）也全面优于对照组，有效避免了基线模型（如β=0时）出现奖励高但图像质量崩坏的情况。该框架作为一种通用插件，可与其他前沿方法（如DiffusionNFT）叠加，共同增强扩散模型的指令跟随与审美能力，具有广泛的应用前景。
[模型策略]：Kimi K2.5采用联合文本-视觉强化学习（Joint Text-Vision RL）策略，在训练中引入专门设计的PARL奖励机制（包含任务完成质量、并行启动激励和子任务完成率奖励），使模型在强化学习后不仅提升了多模态任务表现，还意外带来了文本能力的跨模态增强（如MMLU-Pro提升1.7%），同时智能体集群（Agent Swarm）在复杂任务中实现3-4.5倍的加速效果。
[算法趋势]：训推一致性一直影响RL的效果，NVIDIA提出 Jet-RL 框架。它的核心亮点在于大道至简的“统一精度流”思想——强制训练的前向传播与 Rollout 阶段共享完全一致的 FP8 量化行为。这种设计不仅从图论和算子层面从根本上消除了 Off-policy 隐患，更在工程实现上做到了极致的细粒度优化（Per-block Weight + Per-group Activation）。最终，Jet-RL 不仅在 8B 模型上实现了 1.16x 的端到端加速，更重要的是在 DeepMATH 等高难度基准上展现了极佳的鲁棒性，甚至还能带来轻微的精度提升。
[算法趋势]：苏黎世联邦理工学院发布的论文《抛弃Reward Model！SDPO开启自蒸馏RL新范式》提出了SDPO（自蒸馏策略优化）算法，其核心观点是无需依赖传统的奖励模型，而是让大模型直接利用环境提供的丰富文本反馈（如编译器报错信息）进行自我反思与改进。该方法通过将模型在反馈信息下的“事后诸葛亮”式输出作为监督信号，蒸馏回模型自身参数，实现了高效的信用分配。实验表明，SDPO相对于GRPO能将样本效率提升4倍，并生成更简洁、准确的推理链，在代码生成、数学推理等需要精确验证的任务中具有广阔的应用前景。

260204¶

[算法趋势]：DeepSeek-R1 补充版提到：罕见披露"失败尝试":PRMI(过程奖励模型)为何失效：PRM:想把解题过程拆成一步步打分，结果既标不准又容易被模型钻空子，还得不断重训，得不偿失。MCTS:想像AIphaGo那样用树搜索找最优解，可文本搜索空间太大，值模型也训不好，最终只能放弃。
[算法趋势]：通义实验室与高德联合发布的论文《ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking》提出了一种解决开放域智能体强化学习奖励建模问题的新范式。其核心观点是：在缺乏明确答案的复杂任务（如旅行规划）中，传统的绝对评分法会因高质量轨迹间差异微小而产生“判别崩塌”，导致信噪比过低；ArenaRL 通过引入基于锦标赛的相对排序机制来替代点式评分，即让组内生成的多个解决方案进行过程感知的成对比较，从而稳定、高效地提取细微的质量差异作为奖励信号。实验效果显示，在以SFT、GRPO和GSPO为基线的对比中，ArenaRL在Open-Travel基准上的平均胜率从基线的约16-17%显著提升至41.8%，证明了其卓越的优化能力。该方法已成功应用于高德地图的智能行程规划等实际业务场景，有效提升了对用户复杂、模糊意图的理解与满足能力。
[算法趋势]：浙江大学等单位合作完成的论文《Replay Failures as Successes: Sample-Efficient Reinforcement Learning for Instruction Following》提出了一种高效的强化学习（RL）方法HiR。其核心创新在于将训练中的“失败”样本转化为有效的学习信号：具体而言，当模型生成的响应未能完全满足复杂指令的所有约束时，该方法并非简单地将其丢弃，而是通过一种“选择-重写”机制，逆向推演出一个该响应能够完美满足的、约束更少的“新指令”，从而将原本的失败案例重构为一个新的“成功”样本来供模型学习。这种方法巧妙地缓解了RL在指令跟随任务中面临的奖励稀疏和模糊问题。实验结果表明，在Llama-3.2-3B、Qwen2.5-7B等多个轻量级基座模型上，HiR的性能显著优于标准的SFT、DPO以及两种RL基线方法（RL-IR, RL-CR）；例如，在IFBench基准上，HiR使Qwen3-4B模型的准确率从29.9%提升至40.5%（+10.6%），最终让这些参数量仅数十亿的模型在多个基准上达到了与GPT-4.1等前沿大模型相媲美甚至更优的指令跟随能力。该研究为提升小规模模型的复杂任务处理能力和RL训练样本效率提供了实用且有效的新路径，具有广泛的应用前景。

260128¶

[算法趋势]： TRAPO方法核心在于打破传统"先SFT后RL"的两阶段训练范式，通过在单个训练样本内部交错执行监督学习和强化学习来实现专家知识内化与自我探索的统一：具体而言，该方法让模型在每个数学问题上先尝试无指导的自主推理，当表现不佳时逐步引入更长的专家解答前缀作为提示，随后对专家前缀部分采用新提出的Trust-Region SFT目标函数进行梯度更新——该函数通过在信任区域内最小化前向KL散度、区域外自动转向反向KL散度来避免标准SFT的分布混合问题，同时对模型自主生成的解答部分则采用强化学习进行优化，后期又自然过渡到以自主推理为主，最终在数学推理基准上显著超越传统串行训练方法。
[算法趋势]：阿里联合香港科技大学、苏州大学提出强化学习方法 R³L ，该方法引入了语言引导探索、关键点信用分配（Pivotal Credit Assignment）和正向信号增强（Positive Amplification）机制。在智能体任务和复杂推理任务上的实验表明，R³L 相较基线方法取得了 5% 至 52% 的相对性能提升，同时保持了训练的稳定性。
[模型策略] Yuan3.0 Flash的技术实践表明，在大模型具备足够推理能力（思维链 CoT）后，真正稀缺的是“让它知道什么时候该停”。通过DAPO+RIRM和RAPO，Yuan3.0 Flash在不牺牲能力的前提下，实现了更低成本、更高效率的智能系统。RIRM（反思抑制奖励机制）：通过奖励“思考过程”优化模型训练，引导模型在保持推理能力的同时，学会在恰当的时间停下来。具体来说，RIRM在训练过程中定位模型推理里“首次得出正确答案”的节点，并对后续反思行为进行价值判定，抑制低价值的反思行为。RAPO（反思感知自适应策略优化）：通过自适应采样、梯度稳定性控制等机制，显著减少强化学习阶段的过度数据采样，抑制训练过程的梯度波动，提升训练效率。

260121¶

[实验规律] NIPS25唯一满分论文：Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? 揭示传统观点认为RL训练能够赋予LLMs超越基础模型的全新推理能力，但本文通过系统性实验证明：RL训练并未真正扩展模型的根本推理能力边界，而主要是提高了模型在已有能力范围内采样到正确推理路径的效率。（RL将pass@k的能力压缩到了pass@1；但是在k很大时，RL后的模型甚至打不过基模）
[实验规律] Meta提出的一个名为ScaleRL的强化学习框架，旨在解决LLM强化学习阶段缺乏可预测性的问题。文章介绍了利用S型曲线预测计算量与性能关系的分析框架，详细阐述了包含PipelineRL异步设置、CISPO损失函数等核心组件的ScaleRL训练配方，并总结了关于性能上限、计算效率及大规模验证的核心洞见：
- RL性能可拟合成：sigmod曲线，有收敛上限；
- 性能上限非普适：不同RL配方的性能上限A差异巨大，需通过实验识别。
- RL领域的“苦涩教训”：在低计算量下表现更优的方法，在扩展到高计算量时，其性能可能更差。例如，在对比不同批次大小时，较小的批次在训练初期性能增长更快，但其性能上限却低于较大的批次。这印证了「苦涩的教训」——最终胜出的是那些充分利用计算资源、具有更好伸缩性的方法，而非那些为小规模计算而优化的「捷径」。S 型曲线框架的价值正在于，它能帮助我们透过早期的效率表象，识别出那些拥有更高性能上限、真正「可伸缩」的方法。
- 干预措施的作用：许多被认为能提升性能的常见技巧，如优势归一化、数据课程、长度惩罚等，其主要作用是调节计算效率，而非改变性能上限。
[算法趋势]: The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning的论文由陈丹琦团队撰写，主要探讨了在大型语言模型（LLM）推理任务中，仅使用负样本强化（Negative Sample Reinforcement, NSR）这一被忽视的学习范式的显著效果。
[算法趋势]：DiffusionNFT通过其创新的前向过程优化和流匹配方法，在扩散模型的强化学习微调领域实现了训练效率和性能的双重重大突破，为扩散模型的优化提供了一种更快速、更有效且更通用的新路径。在GenEval任务上，DiffusionNFT仅用约1.7k步就达到0.94分，而对比方法FlowGRPO需要超过5k步且依赖CFG才达到0.95分。这表明DiffusionNFT的训练效率比FlowGRPO快约25倍。

260114¶

[模型策略] Step3-VL-10B 通过力大砖飞的RL，实现10B参数媲美100B模型智能的效果：RLVR：600 次迭代 + RLHF：300 次迭代 + PaCoRe Training：500 次迭代。
[模型策略] GLM-Image： 1.算法上，在训练后阶段，GLM-Image采用解耦强化学习策略，分别优化其自回归生成器和扩散解码器，从而提升语义对齐和视觉细节质量。这两个模块均使用GRPO优化进行训练。对于扩散解码器，GLM-Image采用flow-GRPO。2. 奖励设计上，自回归模块专注于低频奖励，以指导语义一致性和美学，从而提高指令遵循性和艺术表现力。它结合了多个奖励来源，包括用于美学评分的HPSv3、用于增强文本渲染精度的OCR，以及用于生成内容整体语义正确性的VLM。解码器模块则针对高频奖励，以细化细节保真度和文本精确度。它利用LPIPS提升感知纹理和细节相似度，整合OCR信号进一步增强文本准确性，并采用专门的打分模型来提高生成手部的正确性。
[模型策略] HY-Motion 1.0: (没论文，介绍页说) 引入 RLHF 机制，通过引入人类反馈与显式奖励模型（针对语义匹配度与物理约束），实现了模型在文本指令遵循与动作物理质量上的双重优化。
[算法趋势] Open-Reasoner-Zero/Open Vision Reasoner ：传统观点认为，要提升模型的推理能力需要复杂的训练方法。但这项研究却发现：1）使用最基础的PPO算法；2）采用简单的规则化奖励函数 3）不需要任何KL正则化。就能实现模型性能和响应长度的持续提升。这个发现颠覆了我们的认知，印证了"苦涩教训"(bitter lesson)：真正重要的是训练数据、模型规模和训练次数的规模，而不是设计的复杂度。
[算法趋势] GDPO 指出当前业界常用的 Group Relative Policy Optimization (GRPO) 在处理多奖励（Multi-reward）场景时存在理论缺陷：直接对加和后的总奖励进行组内归一化（Group-wise Normalization），会导致不同奖励组合在归一化后坍缩为相同的优势值（Advantage），从而丢失训练信号的粒度，导致收敛次优甚至训练失败。为此，论文提出了 GDPO（Group reward-Decoupled Normalization Policy Optimization）。该方法的核心在于“先归一化，后聚合”，即对每个独立的奖励分量分别进行组内归一化，然后再求和，最后辅以 Batch-wise 的归一化以稳定数值范围。实验表明，GDPO 在工具调用、数学推理和代码生成等任务上，无论是在正确率还是约束满足度上，均一致优于 GRPO。

260107¶

[算法趋势]: Bottom-up Policy Optimization (BuPO): 由中科院自动化所与腾讯AI Lab联合完成，首次揭示了大语言模型（LLM）内部存在多级可优化的“内部策略”，并据此提出自底向上策略优化（BuPO）方法，通过分阶段优化底层策略与全局策略，在数学推理等复杂任务上显著提升模型性能（如Qwen3-4B的AIME24得分提升4.69%）。参考文档
- 其最重要特点是 RL算法不再是和模型分离的概念，而是将奖励的获取深入到模型结构里，这对RL框架的设计是很大的挑战。

251231¶

[模型策略] Kling-Omni 快手：RL 只使用 DPO，嫌弃GRPO慢
[模型策略] NextStep1.1 阶跃星辰: 没有技术报告，但是github readme提到使用了Flow-based RL
[模型策略] QwenLong-L1.5 通义文档智能团队：基于 Qwen3-30B-A3B 打造，通过三大技术创新（“数据合成 + RL 优化 + 记忆管理” ）解决长文本推理的核心难题；RL部分使用1. 任务均衡采样：强制混合多领域任务数据，避免批次内分布偏移。 2. 自适应熵控制（AEPO）：动态屏蔽高熵状态下的错误惩罚，保护探索行为，解决长文本信用分配难题。AEPO实现了超过GRPO更好的效果。
[实验规律]: Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning 论文揭示了许多基于 Qwen2.5 全系列模型（0.5B 至 72B）的系统性实验，研究团队得出了以下核心结论：1. 学习效率与模型规模正相关：大模型在计算（Compute）和数据（Data）指标上均表现出更高的学习效率。2. 幂律关系显著：测试损失（Test Loss）、计算量与数据量之间遵循可预测的幂律关系，该规律在 Base 模型和 Instruct 模型中均成立。3. 效率饱和效应：虽然大模型效率更高，但学习效率系数随模型增大呈现饱和趋势，不会无限增长。4. 数据复用的有效性：在数据受限场景下，对高质量数据的重复使用（Data Reuse）是有效的。最终性能主要取决于优化总步数，而非样本的唯一性。
[流派观点]: RL越强，AGI越远: 知名科技博主Dwarkesh Patel犀利在视频中指出，各大实验室通过RL（强化学习），耗资数十亿美元让大模型“排练”Excel、网页操作等技能，恰恰暴露其距真正AGI仍远。若AI真接近类人智能，就该像人类一样从经验中自主学习，而非依赖“可验证奖励训练”。而真正突破在于“持续学习”能力，这一过程或需5-10年才能完善。

RL Weekly News

260211¶

260204¶

260128¶

260121¶

260114¶

260107¶

251231¶

参考文献¶

评论