
最近几年,大模型的竞争堪比一场军备竞赛。无论是开源还是闭源领域,为了在各项评测指标上领先,大家似乎都在遵循一个简单粗暴的定律:卷参数规模、卷算力消耗。模型体积膨胀的速度令人咋舌。
回想当年,GPT-2 约 1.5B 的参数规模在今天已属于“小模型”范畴。如今,业内普遍估计 GPT-4 的参数量是 GPT-3 的十倍,至少达到了万亿级别,更不用说未来的 GPT-5。开源世界同样如此,参数超过 600B 的模型已比比皆是。
看看 2026 年前两个月发布的开放权重模型,Kimi K2.5 和 Ling 2.5 都达到了万亿参数,模型结构也日益复杂,而参数小巧的模型却变得凤毛麟角。

2026 年 1 月和 2 月发布的 10 个开放权重模型。图源 Sebastian Raschka:𝕏 @rasbt
但模型参数越大,能力就一定越强吗?这个曾经被视为金科玉律的 Scaling Law 早已开始动摇。
前段时间,一个“50米外洗车,该走路去还是开车去”的问题在网络上引发了广泛讨论,竟然难倒了一众大模型,包括参数量庞大的 GPT-5.3 Thinking。

然而,一个仅有 3B 参数的小模型却在此问题上脱颖而出。在这个连万亿参数模型都未能正确推理的场景中,它准确地抓住了“洗车必须开车前往”的核心逻辑。

图源:Huggingface 产品负责人 Victor M:𝕏 @victormustar
在效率与成本方面,小模型具备不可替代的优势。那么,是否存在一种可能:让一个小模型实现“越级挑战”,完成那些通常需要大量参数才能驾驭的复杂推理、编程和搜索任务,甚至在某些方面超越大模型的表现?
来自 BOSS 直聘南北阁实验室的 Nanbeige4.1-3B 给出了一个极具冲击力的答案。这个小模型的目标是成为“全能选手”,在一个紧凑的 3B 参数规模内,集成通用问答、复杂推理、代码生成和深度搜索能力。

从评测结果来看,Nanbeige4.1-3B 不仅显著超越了同规模的开源小模型(如 Qwen3-4B、Qwen3-8B),其综合指标甚至优于参数量大10倍的 Qwen3-32B 与 Qwen3-30B-A3B。这不禁让人感叹其技术实力之强。

更值得关注的是,在 Qwen 团队发布备受好评的 Qwen 3.5 小模型系列后,Nanbeige4.1-3B 与参数规模相近的 Qwen3.5-4B 进行了直接对比。在六大核心评测指标中,Nanbeige4.1-3B 依然保持了整体领先,展现了其稳健的技术优势。
模型发布后迅速引起社区关注,登上了 HuggingFace 趋势榜单前列,一度拿下文本模型趋势榜第一,并冲进全球模型总榜前三,在小模型赛道掀起了一波讨论热潮。

HuggingFace 文本模型趋势榜第一
这样一个参数量小、推理速度快、部署成本低的模型,却能在核心能力上媲美甚至超越部分大模型,无疑为大模型应用开发者带来了新的可能性,也让未来AI在更广泛场景下的落地充满了想象空间。

技术解析:当 3B 挑战 32B ,如何实现“小而全”?
我们对小模型常有一些刻板印象。由于参数量的限制,许多小模型的长板和短板都异常突出,难以做到“通用”。专注于解题的模型可能在长程交互(如深度搜索)上表现不佳;而专精于代码或智能体的模型,又往往缺乏扎实的通用推理和对齐能力。
这正是 Nanbeige4.1-3B 在小模型领域显得如此重磅的原因。它致力于成为一个 “小而全”的统一通用模型。其核心突破在于“统一性”——系统性地将通用问答、复杂推理、代码能力与深度搜索智能体能力整合进 3B 参数规模之内。
为了实现这种不可思议的能力压缩,研究团队采用了一种分阶段、分领域的精细化优化策略,在确保模型在各领域保持专长的同时,维持了不同能力之间的平衡。
通用能力基石:高质量的 SFT 与双阶段 RL
在一个模型的完整训练链路中,监督微调(SFT)数据构建和强化学习(RL)训练是两大支柱。许多人可能误以为模型的通用能力主要来自后期的 RL 强化。但实际上,对于小模型而言,SFT 阶段决定了其能力天花板的高度。如果基础数据分布没学好,后续用 RL 修补只会事倍功半。
为了在有限的模型规模下获取更强的推理深度,Nanbeige4.1-3B 首先调整了指令数据的结构比例:
- 提高代码类样本的占比。
- 增加数学难题和复杂推理任务。
- 引入更多跨领域的综合性问题。
这种数据策略对 3B 模型尤为重要——它没有足够的冗余参数,必须在数据分布上提前强化逻辑建模能力。当模型在训练中频繁接触复杂结构问题时,其参数空间会更倾向于学习深层逻辑关系。
提升推理能力的第二个关键点是上下文长度。上一代模型采用从 32K 扩展到 64K 的两阶段课程,而 Nanbeige4.1-3B 则进一步增加到三阶段:32K → 64K → 256K。这种渐进式的扩展,通过课程学习的方式让模型更稳定地适应并掌握长距离的注意力依赖结构。
第三项优化聚焦于提升回复质量与推理链的连贯性。许多模型在推理任务中虽然能给出正确答案,但其思维链(Chain-of-Thought)往往存在逻辑跳步、不连贯,甚至可能是事后补写的解释,这种现象在小模型上更为明显。
为了解决这个问题,Nanbeige4.1-3B 升级了 Solution Refinement(解答精炼) 与 CoT Reconstruction(思维链重构) 两套框架。

前者通过增加解答的迭代优化轮次,让模型在生成初步答案后进行多轮自我批判与修正,从而减少逻辑漏洞、提升推理完整性。后者则通过训练一个更强的思维链重构模型,使生成的推理路径更加忠实、一致。
实验结果表明,采用上述三点 SFT 阶段的改进后,Nanbeige4.1-3B 相比前代模型 Nanbeige4-3B 的性能产生了巨大飞跃,在编码和数学领域的基准测试上提升尤为显著。

在让模型更好地拟合人类偏好、减少错误回答方面,强化学习(RL)扮演着关键角色。在参数规模有限的情况下,RL 对重塑模型行为偏好的作用会被进一步放大。
有趣的是,南北阁团队创新地将整个 RL 过程拆分为两个阶段:
- Point-wise RL:核心目标是提升单条回答的质量。通过引入通用奖励模型(Reward Model)对回答进行评分,显著降低了回复中的冗长、重复与格式错误。
- Pair-wise RL:让模型进入“竞技场”,与其他模型的回答进行PK。对于同一个问题,由 Pair-wise 奖励模型判断哪一个回答更优,并给出奖励信号,让模型在真实的竞争环境中迭代进化。

这是 Nanbeige4.1-3B 在通用强化学习阶段最核心的设计之一。可以这样理解:Point-wise RL 提升了“智能的整洁度”,而 Pair-wise RL 则提升了“智能的锋利度”,让模型既能在单点评分上进步,也能在对抗性评测中获得收益。
实验发现,加入 Point-wise RL 后,模型在 Arena-Hard V2 上的表现显著提升,并且 LiveCodeBench-v6 的格式错误率从 5.27% 降至 0.38%。在 Point-wise RL 的基础上进一步引入 Pair-wise RL,不仅能提升 Arena-Hard V2(Pair-wise 打分)的成绩,对 Multi-Challenge(Point-wise 打分)也带来了明显收益。
编码能力:先确保正确,再追求高效
编码能力出众的小模型本就不多,其中相当一部分还是专为编码设计的。要想在一个全能通用的小模型上实现同等强悍的编码性能,需要深刻的工程思维。
Nanbeige4.1-3B 在代码能力训练中,采用了两阶段 RL 策略,巧妙地解决了代码正确性与时间复杂度之间的矛盾:
- 第一阶段,专注于优化正确率。奖励(pass-rate reward)定义为每个问题通过的测试用例比例。此阶段目标是确保模型能可靠地解决问题。
- 第二阶段,在确保答案完全正确的前提下,引入时间复杂度奖励。评判系统通过在线比较模型输出的预测时间复杂度与参考最优边界来提供反馈。奖励公式设计如下:


这种“门控式”设计至关重要,它避免了模型在尚未掌握正确解法时就盲目追求运行效率。训练曲线显示,模型在第二阶段的时间复杂度奖励显著提升,同时保持了稳定的正确率。

两阶段代码强化学习的训练动态。结果显示,从第一阶段到第二阶段,各项指标均呈现出稳定且持续的提升。
这种训练思路,与近期代码强化学习领域的主流趋势高度一致。
深度搜索:将智能体能力“压缩”进小模型
深度搜索任务本质上是长上下文、多跳推理、工具调用与信息整合的复合场景,多数小模型在此类任务上往往“力不从心”。而这恰恰是 Nanbeige4.1-3B 区别于其他通用小模型的一大特色。
为了增强模型的搜索能力,团队构建了一个大规模、高质量的复杂搜索数据集。该数据集包含从维基百科实体关系图中衍生的多跳问答对,以及经过严格多阶段过滤的高质量长程搜索轨迹。这使得训练数据天然具备结构复杂性和可验证性。
在训练阶段,系统引入了轮次级(turn-level)的质量控制机制。模型在每一次搜索交互(如调用一次搜索工具)中的行为都会被独立评估,而不仅仅关注最终答案。
一个批判模型会从三个维度进行判定:推理过程是否逻辑自洽、工具调用是否准确、以及该轮操作是否带来有效的信息增益。若某一轮未达到标准,在 SFT 阶段不会参与损失计算;在 RL 阶段则会触发负向奖励。

用于深度搜索的数据构建流程,包括复杂多跳问答样本的采样,以及长程推理轨迹的合成。
整体来看,这一设计的核心是训练模型形成稳定的 “检索 — 判断 — 再检索” 的循环思考结构。通过结构化数据生成与过程级奖励约束,即便在 3B 规模下,模型也能逐步学会规划搜索路径、控制误差传播,并在长上下文条件下保持推理一致性。这让它在深度搜索基准上达到了专业搜索智能体的水平。
实验结果:越级挑战与实战检验
在综合基准测试中,Nanbeige4.1-3B 显著超越了所有同规模对比模型,并在多数测试上超过了参数规模大10倍以上的模型。

更值得注意的是,在与规模显著更大的 Qwen3-Next-80B-A3B 模型对比中,Nanbeige4.1-3B 依然保持强劲竞争力,在各个指标上互有胜负。
Nanbeige4.1-3B 在深度搜索任务上的表现尤为亮眼:

模型在 xBench-DeepSearch-2505 上达到 75分,在 GAIA(仅文本)上达到 69.90分,这一成绩已接近专为搜索打造的智能体小模型 AgentCPM-Explore-4B。
正如前文所述,研究团队将 Nanbeige4.1-3B 与发布时间晚约三周、参数规模相近的 Qwen3.5-4B 进行了直接对比。结果显示,Nanbeige4.1-3B 在多数指标上依然保持领先。

真实任务的评测比静态基准测试更具说服力。在模型发布后,研究团队特意选取了全新的现实世界竞赛,让 Nanbeige4.1-3B 与 Qwen3.5 小模型系列同台竞技。
在代码领域的 LeetCode 周赛(第489-491场)与数学领域的 HMMT 2026年2月赛(哈佛-麻省理工数学竞赛)中,Nanbeige4.1-3B 的表现不仅显著优于 Qwen3.5-4B,甚至超过了参数量更大的 Qwen3.5-9B。


这些竞赛均在模型发布后举办,完全排除了数据记忆的干扰,有力地证明了 Nanbeige4.1-3B 具备极强的泛化能力与深刻的逻辑推理水平,真正经得起实战检验。
总结:小模型时代正在加速
Nanbeige4.1-3B 的意义,在于展示了在通用能力上“以小博大”的可能性。它标志着小模型不再仅仅是大模型的“轻量替代品”,而是在精细化训练方法的加持下,能够形成独立的、通用的能力体系。
参数规模的差距正在被训练范式的创新逐步弥补。与此同时,原本被认为严重依赖大模型规模优势的智能体能力与复杂推理能力,也开始“下沉”到更具部署友好性的小规模模型上。
当 3B 大小的模型就可以稳定处理复杂推理、代码生成与深度搜索任务时,企业侧的 AI 部署范式很可能被重写。移动端、边缘设备、本地化与私有化部署的应用场景想象空间随之被极大地打开。这不仅仅是技术上的突破,更是推动 人工智能 真正融入千行百业的关键一步。
未来,BOSS 直聘南北阁实验室团队表示将持续探索小模型在复杂代码生成、科研辅助及真实工业环境中的能力边界,同时通过深度学习架构层面的创新进一步释放小模型潜力。从训练机制到模型结构,小模型的能力上限远未触顶。
大模型的边界仍在扩张,但小模型的效率革命已然发生。或许,未来真正决定 AI 应用广度与深度的,不再是参数的绝对数量,而是小参数模型所能释放的“智能密度”。小模型的时代,才刚刚拉开序幕。