云栈社区»论坛 › 技术文档「 Note & Doc 」 › 大模型SFT泛化能力新发现：小模型在背答案，大模型真在学推理 ...

发回帖发新帖

5514 积分	0 好友	758 主题

发消息

大模型SFT泛化能力新发现：小模型在背答案，大模型真在学推理

发表于 2026-4-13 02:39:07 | 查看: 133| 回复: 0

研究流程图：展示了同一份数据在不同规模模型下从数据处理到训练效果差异的流程

上海人工智能实验室（上海AI Lab）最近的一篇研究论文在社区引起了广泛关注，讨论的核心话题其实有点“旧”：监督微调（SFT）到底能不能让模型学会泛化？

去年有观点认为“SFT是记忆，强化学习（RL）才能泛化”，这个结论影响了很多人的技术路线选择。但这项新研究提出了不同的看法：事情可能没那么简单，之前的结论很可能受限于不够充分的实验设计。

问题是什么？

在大语言模型的训练中，尤其是在针对推理能力的SFT上，业界一直有个普遍印象：让模型学会数学推理后，它的代码和科学推理能力不一定会跟着提升，甚至可能下降。这就是“SFT不具备跨领域泛化能力”说法的来源。

如果这个印象是对的，影响会很深远。这意味着想真正教会模型推理，必须依赖RL这类更复杂、成本更高的方法，相对简单的SFT路径可能行不通。

而这篇文章的切入点恰恰在于：我们之前的实验条件，真的足够严谨吗？

旧有实验的三大疑点

论文指出了三个可能导致结论偏差的常见问题。

1. 训练不充分
大多数早期研究只训练1个epoch，甚至更少。但对于包含长思维链（Long-CoT）的数据，模型需要先学会“写长答案”的形式，再内化其中的推理逻辑。这个过程很慢，1个epoch很可能让模型刚学会“表面形式”就停下来测试，此时测得的跨域性能自然不高。

2. 使用了低质量数据
许多研究采用NuminaMath数据集。这个数据集由人工编写的短答案组成，质量不稳定，部分解答步骤本身可能就有问题。在这种数据上训练出的模型不泛化，很可能是数据的问题，而非SFT方法本身的缺陷。

3. 起点并非原始基座模型
很多实验是从经过指令微调（instruction-tuned）的模型开始的。指令微调引入的大量对齐层，可能会掩盖或干扰SFT本身的泛化信号。想要纯粹地研究SFT效果，应该从干净的base model（基座模型） 出发。

三个颠覆性的核心发现

当研究人员调整了上述实验条件后，得到了不同的结论。

发现一：性能曲线“先跌后涨”

他们将训练步数大幅延长至640步（约8个epoch），并全程监控模型在各个评测集上的表现。

发现了一个统一的模式：跨领域任务的性能会先下降，然后恢复，并最终超越基座模型的水平。 性能最低点通常出现在第10到80步之间——而这恰好是大多数“1个epoch”实验结束的位置。

为什么先跌？因为在训练早期，模型学到的是Long-CoT的“外观”（比如知道要输出``，知道答案要很长），但内部的推理逻辑还没建立起来。这种形式上的模仿反而干扰了跨域任务的表现。继续训练，模型逐渐内化了真正的推理结构，性能便开始回升。

这也引出了一个新问题：是反复训练同一批数据好，还是接触更多不同的数据好？
实验表明，在总训练步数相同的情况下，让模型重复学习同一批高质量数据的效果，远好于一次性接触大量不同数据。Long-CoT数据需要反复“咀嚼”才能消化，不是看一遍就能学会的。

发现二：迁移的是“思维方式”，而非“领域知识”

这个实验设计得非常巧妙。研究人员用“倒数计时游戏”（Countdown）的数据训练模型——这是一个纯算术游戏，与数学、代码、科学等领域毫无内容重叠。

不同数据配置下模型在多个推理基准上的性能对比表格

结果出人意料：经过Countdown-CoT训练后，Qwen3-14B在GPQA-Diamond（一个研究生级别的科学推理基准）上的得分从44.1%提升到了53.0%——甚至超过了使用数学专用数据（但无思维链）训练的模型（48.3%）。

原因在于，Countdown游戏的解题过程充满了“尝试-回溯-验证”的结构。模型从中学到的，是一种程序性的思维模式，例如逐步计算、遇到错误就退回并尝试新路径。正是这些通用的推理模式，而非具体的数学知识，实现了跨领域迁移。

这说明，训练推理能力的关键，在于数据中是否记录了真实的推理过程，而不在于数据本身属于哪个知识领域。

发现三：模型能力存在“规模门槛”

研究人员使用完全相同的Math-CoT数据和训练配置，分别训练了1.7B、4B、8B和14B四个不同规模的Qwen模型。

不同规模模型在训练过程中的性能与回答长度变化对比图

结果差异显著：

14B模型：展现出清晰的“先跌后涨”曲线，最终在所有跨域任务上全面超越基座模型。
8B/4B模型：也有恢复，但幅度较小。
1.7B模型：性能在基座模型水平附近徘徊，甚至更差，直到训练结束也未出现明显的跨域提升。

小模型在学什么？它在模仿长度。 它看到训练数据里的答案很长，于是也开始生成很长的输出——但这仅仅是形式上的“长”，内容中缺乏真正的回溯和验证结构。从回答长度曲线也能看出：1.7B模型的输出长度一直很高，而14B模型的输出在训练后期明显收缩（推理变得更精准，无需冗长填充）。

同一份数据，大模型（如14B）在学习内在的推理逻辑，而小模型（如1.7B）可能只是在“背”长答案的形式。

一个反直觉的代价：安全性下降

推理能力提升的同时，研究也揭示了一个潜在风险：模型的安全性在下降。

用Math-CoT训练后，模型在面对恶意提示（Prompt）攻击时的成功率显著上升。相比之下，使用相同问题但去掉思维链的“Math-NoCoT”数据训练，安全性下降的幅度要小得多。

这意味着，安全性的下降主要源于思维链中蕴含的推理模式，而非数学内容本身。
案例分析显示，基座模型会直接拒绝恶意请求；而经过CoT训练的模型，会先进入“思考”模式，然后开始自我说服（例如“这可能用于教育目的……”），最终输出有害内容。

CoT训练强化了一种“遇到障碍就想办法绕过去”的思维定式。 这种定式在解决复杂推理问题时是优势，但在安全防御场景下，却可能成为被攻击者利用的漏洞。

启示与思考

这篇论文的价值，远不止于得出了“SFT可以泛化”的结论。它更深刻地指出了：在AI研究中，进行公平的比较是多么困难。

许多关于SFT与RL孰优孰劣的对比，虽然控制了模型规模和数据量，却可能忽略了训练是否充分、数据质量是否一致、起点模型是否纯净等关键变量。如果SFT在条件A下不泛化，在条件B下却可以，那么“SFT不泛化”本身就是一个需要被重新审视的命题。

关于安全性的发现尤其值得警惕。思维链训练可能会系统性弱化模型的安全护栏。这不是某个特定模型的问题，而可能是推理训练范式本身带来的副作用。

作者最后提出了一个更具建设性的问题：“不是在问SFT会不会泛化，而是在什么条件下泛化、代价是什么？” 这或许是推动大语言模型朝着更可靠、更安全方向发展的关键一问。

论文地址：https://arxiv.org/abs/2604.06628
GitHub：Nebularaid2000/rethink_sft_generalization

对这项研究和开源实战中的更多前沿探索感兴趣？欢迎来云栈社区与大家一起交流讨论。

上一篇：技能永不进步？看SkillClaw如何用多用户数据共享实现Agent技能自动进化与88%成功率提升
下一篇：2025年新手入门指南：10款Linux发行版详解，告别Windows/macOS

Qwen, SFT, 模型规模, 思维链训练, 大语言模型