训练一层顶替全参数RL?这个反常结论先打个问号

核心摘要 Summary

一篇标注为2607.01232的论文宣称,在Qwen系列模型的RL后训练里,只训练一个transformer中间层,就能追平甚至超过全参数训练的效果。
结论如果成立,是对当下RLHF/RLVR工程惯例的一记警钟,但论文本身的发表时间戳和检索到的细节都带着推测性措辞,值得先核实再采信。

内容导图 Mind Map

单层RL

反常结论待核实

核心结论

中间单层追平全参

层间规律

RL增益集中中层

机制缺口

负收益来源未解释

可信度风险

时间戳与细节异常

验证门槛

需复现与跨架构验证

一篇编号为2607.01232的arXiv论文抛出一个反常识结论:给一个大语言模型做强化学习后训练时,只训练其中一个transformer层,冻结其余所有参数,效果居然能追平、甚至在部分任务上超过训练全部参数的做法。

这几乎是在说,当下RLHF/RLVR训练里烧掉的大部分算力,可能都花在了不该花的地方。

layer contribution:一个数字说明问题出在哪层

论文提出一个量化指标叫layer contribution:单独训练某一层,能恢复全参数RL训练带来多少增益的比例。数值等于1,说明这一层单独训练就能拿到全部效果;大于1,说明单层训练比全参数训练还好;如果是负值,说明单独训练这一层反而拖累了模型。

研究覆盖Qwen3、Qwen2.5两个家族共七个模型,用了GRPO、GiGPO、Dr. GRPO三种RL算法,任务横跨数学推理、代码生成和agentic决策。跨这么多组合,论文观察到一个稳定现象:RL带来的增益高度集中在少数层,很多情况下集中在单独一层。

更扎眼的是层的位置规律——高贡献层始终出现在transformer堆栈的中间部分,越靠近输入端和输出端,贡献越低。这个排序在不同数据集、任务、模型家族、算法之间保持很强的相关性,不是偶然巧合。

以Qwen3+GRPO这组实验为例,检索到的具体配置是:训练数据用NuminaMath-CoT经去污染后下采样到5万条,学习率5×10⁻⁶,group size为4,KL系数0.001,clip range 0.2。这套超参数中规中矩,没有明显异常,至少说明实验不是随手糊弄的。

检索还给出了更具体的猜测:28层的Qwen3-1.7B,高贡献区间大致在第11到15层;36层的Qwen3-4B/8B,大致在第15到19层。但这类具体索引来自检索工具的推断而非论文原文直接摘录,带着明显的推测性措辞,拿它当操作指南照搬之前,最好去核对一下原始PDF。

中间层为什么重要,论文没说清楚

Transformer里浅层通常处理表层特征,深层贴近输出决策,中间层承担更多语义整合和抽象表示的工作——这是可解释性研究里比较通行的认知。RL后训练的增益集中在中间层,和这套认知能对上号,但论文本身没有给出机制解释,只是给出了一个反复出现的现象。

真正该被追问的是另一句更劲爆的话:单层训练在部分情况下超过全参数训练。这等于说,全参数RL训练里,除了那个关键层之外,其他层的更新可能是负收益的,拉低了整体表现。这个推论比"效率优化"劲爆得多,可惜论文只是一笔带过,没有展开负迁移的来源和机制。

古人讲"多算胜,少算不胜",打仗讲的是算力用在刀刃上。如果RL训练也是这个道理,那全参数微调很可能是在用大炮打蚊子,顺带还打碎了几扇窗户。

先核实,再采信

这篇论文的发表时间戳标注为2026年7月,对应arXiv编号2607.01232——如果按现在的时间坐标看,这是一个尚未到来的日期,属于明显异常。加上检索结果里反复出现"likely""presumably""given the paper framing"这类推测性措辞,说明部分细节可能是检索工具在推断,而不是原文直接给出的表述。

提醒.在核实论文真实存在、编号无误、且具体层索引经过原文确认之前,不建议把"第11到15层"这类数字当成可直接复现的操作指南。

目前的证据也全部来自Qwen系列,同一个家族内部结论稳定,不代表能推广到LLaMA、Mistral这类架构不同的模型。跨架构验证,是判断这个结论是不是普适规律的第一道门槛。

如果这个结论最终被独立复现证实,对RLHF/RLVR工程实践是实打实的利好:显存和算力开销可能大幅下降,中小团队也有机会跑得起RL后训练。可解释性研究者也多了一条证据,支持"中间层承载核心语义变换"这个老假说在RL场景下依然成立。

但在独立团队复现、跨架构验证、机制解释这三件事都补齐之前,这更像是一个值得关注的信号,而不是可以直接抄作业的结论。

锐评 Commentary

结论越反常识,越该先问真伪;层的秘密没解开前,别急着把预算砍在一层上。

参考来源 References

arxiv.orghttps://arxiv.org/abs/2607.01232
doi.orghttps://doi.org/10.48550/arXiv.2607.01232
arxiv.orghttps://arxiv.org/abs/2505.10978
arxiv.orghttps://arxiv.org/abs/2412.15115

强化学习后训练大语言模型RLHFRLVRQwen3Qwen2.5transformer层layer contributionGRPOarXiv论文