RL Weekly News
导言
RL 相关的洞察: 算法趋势、热点模型策略、框架优化、实验规律、流派观点
260128¶
- 算法趋势 TRAPO方法核心在于打破传统"先SFT后RL"的两阶段训练范式,通过在单个训练样本内部交错执行监督学习和强化学习来实现专家知识内化与自我探索的统一:具体而言,该方法让模型在每个数学问题上先尝试无指导的自主推理,当表现不佳时逐步引入更长的专家解答前缀作为提示,随后对专家前缀部分采用新提出的Trust-Region SFT目标函数进行梯度更新——该函数通过在信任区域内最小化前向KL散度、区域外自动转向反向KL散度来避免标准SFT的分布混合问题,同时对模型自主生成的解答部分则采用强化学习进行优化,后期又自然过渡到以自主推理为主,最终在数学推理基准上显著超越传统串行训练方法。
- 算法趋势 阿里联合香港科技大学、苏州大学提出强化学习方法 R³L ,该方法引入了语言引导探索、关键点信用分配(Pivotal Credit Assignment)和正向信号增强(Positive Amplification)机制。在智能体任务和复杂推理任务上的实验表明,R³L 相较基线方法取得了 5% 至 52% 的相对性能提升,同时保持了训练的稳定性。
- [模型策略] Yuan3.0 Flash的技术实践表明,在大模型具备足够推理能力(思维链 CoT)后,真正稀缺的是“让它知道什么时候该停”。通过DAPO+RIRM和RAPO,Yuan3.0 Flash在不牺牲能力的前提下,实现了更低成本、更高效率的智能系统。RIRM(反思抑制奖励机制):通过奖励“思考过程”优化模型训练,引导模型在保持推理能力的同时,学会在恰当的时间停下来。具体来说,RIRM在训练过程中定位模型推理里“首次得出正确答案”的节点,并对后续反思行为进行价值判定,抑制低价值的反思行为。RAPO(反思感知自适应策略优化):通过自适应采样、梯度稳定性控制等机制,显著减少强化学习阶段的过度数据采样,抑制训练过程的梯度波动,提升训练效率。
260121¶
- [实验规律] NIPS25唯一满分论文:Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? 揭示传统观点认为RL训练能够赋予LLMs超越基础模型的全新推理能力,但本文通过系统性实验证明:RL训练并未真正扩展模型的根本推理能力边界,而主要是提高了模型在已有能力范围内采样到正确推理路径的效率。(RL将pass@k的能力压缩到了pass@1;但是在k很大时,RL后的模型甚至打不过基模)
- [实验规律] Meta提出的一个名为ScaleRL的强化学习框架,旨在解决LLM强化学习阶段缺乏可预测性的问题。文章介绍了利用S型曲线预测计算量与性能关系的分析框架,详细阐述了包含PipelineRL异步设置、CISPO损失函数等核心组件的ScaleRL训练配方,并总结了关于性能上限、计算效率及大规模验证的核心洞见:
- RL性能可拟合成:sigmod曲线,有收敛上限;
- 性能上限非普适:不同RL配方的性能上限A差异巨大,需通过实验识别。
- RL领域的“苦涩教训”:在低计算量下表现更优的方法,在扩展到高计算量时,其性能可能更差。例如,在对比不同批次大小时,较小的批次在训练初期性能增长更快,但其性能上限却低于较大的批次。这印证了「苦涩的教训」——最终胜出的是那些充分利用计算资源、具有更好伸缩性的方法,而非那些为小规模计算而优化的「捷径」。S 型曲线框架的价值正在于,它能帮助我们透过早期的效率表象,识别出那些拥有更高性能上限 、真正「可伸缩」的方法。
- 干预措施的作用:许多被认为能提升性能的常见技巧,如优势归一化、数据课程、长度惩罚等,其主要作用是调节计算效率,而非改变性能上限。
- 算法趋势: The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning的论文由陈丹琦团队撰写,主要探讨了在大型语言模型(LLM)推理任务中,仅使用负样本强化(Negative Sample Reinforcement, NSR) 这一被忽视的学习范式的显著效果。
260114¶
- [模型策略] Step3-VL-10B 通过力大砖飞的RL,实现10B参数媲美100B模型智能的效果:RLVR:600 次迭代 + RLHF:300 次迭代 + PaCoRe Training:500 次迭代。
- [模型策略] GLM-Image: 1.算法上,在训练后阶段,GLM-Image采用解耦强化学习策略,分别优化其自回归生成器和扩散解码器,从而提升语义对齐和视觉细节质量。这两个模块均使用GRPO优化进行训练。对于扩散解码器,GLM-Image采用flow-GRPO。2. 奖励设计上,自回归模块专注于低频奖励,以指导语义一致性和美学,从而提高指令遵循性和艺术表现力。它结合了多个奖励来源,包括用于美学评分的HPSv3、用于增强文本渲染精度的OCR,以及用于生成内容整体语义正确性的VLM。解码器模块则针对高频奖励,以细化细节保真度和文本精确度。它利用LPIPS提升感知纹理和细节相似度,整合OCR信号进一步增强文本准确性,并采用专门的打分模型来提高生成手部的正确性。
- [模型策略] HY-Motion 1.0: (没论文,介绍页说) 引入 RLHF 机制,通过引入人类反馈与显式奖励模型(针对语义匹配度与物理约束),实现了模型在文本指令遵循与动作物理质量上的双重优化。
- 算法趋势 Open-Reasoner-Zero/Open Vision Reasoner :传统观点认为,要提升模型的推理能力需要复杂的训练方法。但这项研究却发现:1)使用最基础的PPO算法;2)采用简单的规则化奖励函数 3)不需要任何KL正则化。就能实现模型性能和响应长度的持续提升。这个发现颠覆了我们的认知,印证了"苦涩教训"(bitter lesson):真正重要的是训练数据、模型规模和训练次数的规模,而不是设计的复杂度。
- 算法趋势 GDPO 指出当前业界常用的 Group Relative Policy Optimization (GRPO) 在处理多奖励(Multi-reward)场景时存在理论缺陷:直接对加和后的总奖励进行组内归一化(Group-wise Normalization),会导致不同奖励组合在归一化后坍缩为相同的优势值(Advantage),从而丢失训练信号的粒度,导致收敛次优甚至训练失败。为此,论文提出了 GDPO(Group reward-Decoupled Normalization Policy Optimization)。该方法的核心在于“先归一化,后聚合”,即对每个独立的奖励分量分别进行组内归一化,然后再求和,最后辅以 Batch-wise 的归一化以稳定数值范围。实验表明,GDPO 在工具调用、数学推理和代码生成等任务上,无论是在正确率还是约束满足度上,均一致优于 GRPO。
260107¶
- 算法趋势: Bottom-up Policy Optimization (BuPO): 由中科院自动化所与腾讯AI Lab联合完成,首次揭示了大语言模型(LLM)内部存在多级可优化的“内部策略”,并据此提出自底向上策略优化(BuPO)方法,通过分阶段优化底层策略与全局策略,在数学推理等复杂任务上显著提升模型性能(如Qwen3-4B的AIME24得分提升4.69%)。参考文档
- 其最重要特点是 RL算法不再是和模型分离的概念,而是将奖励的获取深入到模型结构里,这对RL框架的设计是很大的挑战。
251231¶
- [模型策略] Kling-Omni 快手:RL 只使用 DPO,嫌弃GRPO慢
- [模型策略] NextStep1.1 阶跃星辰: 没有技术报告,但是github readme提到使用了Flow-based RL
- [模型策略] QwenLong-L1.5 通义文档智能团队:基于 Qwen3-30B-A3B 打造,通过三大技术创新(“数据合成 + RL 优化 + 记忆管理” )解决长文本推理的核心难题;RL部分使用1. 任务均衡采样:强制混合多领域任务数据,避免批次内分布偏移。 2. 自适应熵控制(AEPO):动态屏蔽高熵状态下的错误惩罚,保护探索行为,解决长文本信用分配难题。AEPO实现了超过GRPO更好的效果。
- [实验规律]: Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning 论文揭示了许多 基于 Qwen2.5 全系列模型(0.5B 至 72B)的系统性实验,研究团队得出了以下核心结论:1. 学习效率与模型规模正相关:大模型在计算(Compute)和数据(Data)指标上均表现出更高的学习效率。2. 幂律关系显著:测试损失(Test Loss)、计算量与数据量之间遵循可预测的幂律关系,该规律在 Base 模型和 Instruct 模型中均成立。3. 效率饱和效应:虽然大模型效率更高,但学习效率系数 随模型增大呈现饱和趋势,不会无限增长。4. 数据复用的有效性:在数据受限场景下,对高质量数据的重复使用(Data Reuse)是有效的。最终性能主要取决于优化总步数,而非样本的唯一性。
- [流派观点]: RL越强,AGI越远: 知名科技博主Dwarkesh Patel犀利在视频中指出,各大实验室通过RL(强化学习),耗资数十亿美元让大模型“排练”Excel、网页操作等技能,恰恰暴露其距真正AGI仍远。若AI真接近类人智能,就该像人类一样从经验中自主学习,而非依赖“可验证奖励训练”。而真正突破在于“持续学习”能力,这一过程或需5-10年才能完善。