找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3431

积分

0

好友

469

主题
发表于 7 天前 | 查看: 28| 回复: 0

你见过7B模型在拼图推理上性能超越GPT-5吗?

这并非依靠堆砌参数或海量数据,而是掌握了一项关键能力:学会「在合适的时机调用合适的工具」。

当前大多数「工具增强」模型遵循一个固定模式:遇到任务X → 调用预设工具Y → 希望结果正确。一旦场景稍有变化,模型便开始不知所措——它不知道何时该用什么工具,何时不该用。

AdaReasoner 致力于解决这个更本质的问题:将 what / when / how(用什么工具、何时用、怎么用)作为核心的推理能力进行学习。

AdaReasoner论文标题页

这项研究恰好与工业界的最新趋势相呼应。近期,Google宣布为其轻量级模型 Gemini 3 Flash 引入名为「Agentic Vision」(代理视觉)的新能力。这标志着多模态AI处理图像的方式发生了根本转变:从传统的静态识别,升级为具备「思考(Think)、行动(Act)、观察(Observe)」循环的主动调查模式。

在此之前,包括GPT在内的大多数前沿多模态模型处理图像的方式更接近于人类的“匆匆一瞥”:模型接收图像,进行一次性处理并输出答案。这种方式在面对需要细致观察的任务时,常因细节丢失而产生“幻觉”或猜测。

Agentic Vision的工作机制如下:Gemini 3 Flash能够像人类调查员一样进行多轮推理:

  • 思考(Think)——分析用户指令和图像的初步内容,制定调查计划。
  • 行动(Act)——自动生成并执行Python代码来操作图像(如缩放、裁剪特定区域、绘制辅助线)。
  • 观察(Observe)——检查代码执行后的新视图或数据,获取更精确的视觉证据。

这个过程可以迭代多次,直到模型收集到足够确凿的证据来回答问题。

有趣的是,AdaReasoner的研究与Agentic Vision的理念殊途同归,它同样实现并验证了几乎相同的范式。

AdaReasoner与Google Agentic Vision核心能力对比

工业界与学术界同时押注「主动工具使用」,说明这一方向正成为多模态推理的主流范式。而AdaReasoner的独特价值在于:它不仅验证了该范式的有效性,更提出了一套让开源小模型也能习得此种能力的可复现训练方法。

核心痛点:为何多模态推理总在细节上“猜”?

在多模态推理中,“看清细节”与“多步推理”常常互相制约。
感知不够精确 → 证据不足 → 再漂亮的推理也容易沦为“有指导的猜测”。
反之,如果能用工具(如定位、裁剪、路径规划)查出、画出、验证出关键证据,模型就能将宝贵的算力集中于真正的判断与规划上。

工具不应被视为外挂,而是将推理从“猜”拉回“查”的关键路径。

AdaReasoner:将工具使用训练为“通用推理技能”

AdaReasoner本质上是一个训练范式,旨在让模型不仅会“调用工具”,更学会做出三类关键决策:

  1. 选择:该用哪个工具?是否需要组合多个工具?
  2. 时机:什么时候该用?什么时候不该用?
  3. 鲁棒性:工具调用失败或返回无用结果时怎么办?是否回退或切换策略?

AdaReasoner自适应工具调用示意图
AdaReasoner 将「工具使用」作为推理技能来学习:会采纳有用工具、丢弃无关工具,并按任务需求调节调用频率。

三大关键设计

1. Tool Cold Start:将“犯错-修正”循环写入训练数据

我们并非只给模型展示“完美工具调用路径”,而是刻意在监督微调数据中引入两类真实世界场景:

  • 反思与回溯:尝试调用 → 检查结果 → 若不对则撤回或更换方案。
  • 工具失败处理:工具返回错误或无效信息 → 及时止损 → 回退到模型自身的推理能力。

定性案例:多轮工具规划与反思纠错
定性案例展示:通过多轮工具规划、组合工具与反思纠错,完成复杂的视觉推理任务。

2. Tool-GRPO:优化“多轮工具编排”

多模态工具推理往往不是“一次调用定胜负”,而是“观察 → 调用 → 再观察 → 再调用 → 最终回答”的多回合过程。Tool-GRPO 专门针对这种多轮场景进行强化学习优化,并使用自适应奖励机制,使工具使用成为“不确定时的可靠后备方案”,而非强制流程。

3. Adaptive Learning:迫使模型理解工具“语义”而非记忆“名称”

为避免模型死记硬背特定工具名称(如看到“Point”就条件反射式调用),我们做了两件事:

  • 随机化:在训练中随机化工具名称和参数名称,剥离字面提示。
  • 改写:对工具的功能描述进行同义改写,保持语义不变,改变表达形式。

随机化训练直观示意
随机化训练(ADL)的直观示意图,迫使模型理解工具功能而非记忆名称。

AdaReasoner框架总览
AdaReasoner 框架总览:Tool Cold Start → Tool-GRPO → Adaptive Learning。

硬核证据:小模型何以“跨级挑战”?

核心结论:经过AdaReasoner训练的7B模型,相对于基础模型在多个基准上实现了显著提升(在选取的8个Benchmark上平均提升+24.9%),并在结构化推理任务上接近满分。

AdaReasoner主实验结果对比表
主实验结果:在VSP、Jigsaw、GUIQA等任务上,AdaReasoner-7B相比基础模型和现有工具规划方法均有显著提升。

更重要的是,性能提升并非源于“工具越多越好”,而是由正确的训练配方决定。例如在单任务设置下:

  • VSP(导航): 基础模型 28.09 → 仅用TC 64.91 → 仅用TG 73.18 → TC+TG组合 97.64
  • Jigsaw(拼图): 基础模型 45.70 → 仅用TC 84.20 → TC+TG组合 96.60(超过GPT-5的80.10

性能瓶颈迁移示意图
当工具规划能力足够强时,性能瓶颈从“模型规模”部分迁移至“工具效用与工具规划能力”。

智能涌现:模型自学而成的三种自适应行为

这是AdaReasoner最像“智能体”的部分:我们没有编写任何规则,模型在强化学习过程中自行学会了以下行为:

行为1:会“采纳”有用的新工具
将A*路径规划工具在强化学习阶段才引入(监督微调阶段未见过),模型会逐步提高对其的调用频率并稳定掌握其用法,从而将VSP导航任务的准确率从44.83提升至96.33。

导航任务示意与A*工具调用演化
导航任务示意图:模型通过多轮调用Point、A、Draw2DPath等工具完成路径查找。*

A*工具调用频率随训练步数演化
A工具调用频率随强化学习训练的演化过程。*

行为2:会“丢弃”无关工具
关键在于,A工具对“路径验证”任务并无用处,甚至是干扰项。在“仅在推理时提供A工具”的设定中,验证任务性能会从94.20下降至80.00。而在强化学习训练后,模型学会了压制对A*的不必要调用,使验证任务性能维持在接近满分的99.20。模型不仅学会了用工具,更学会了“不乱用”工具。

行为3:会“调节”工具调用频率
工具使用并非简单的开或关。模型会根据当前子任务类型动态“调频”。例如,Point工具在导航任务中更为关键(约3.2次调用/样本),而在验证任务中则调用得更为克制(约1.0次调用/样本)。

Point工具调用频率调频示意图
Point工具调用频率的“调频”现象:在Navigation任务中更关键,在Verification任务中更克制。

泛化与稳健性:即使更换工具说明书也能用

现实部署中最常见的失败场景是:工具的定义、参数名或描述文案一旦改变,模型就“不会用了”。AdaReasoner通过ADL(随机化+改写)训练,将“工具规划”能力从具体的文本表面形式中解耦出来。

一个直观证据来自工具使用统计数据:

  • 在Jigsaw任务上,达到平均3.54次调用/样本,工具执行成功率高达98.50%,最终任务准确率达88.60%。
  • 在更开放的VStar视觉问答任务上,模型仍能主动调用工具(1.47次调用/样本)并取得70.68的准确率。

工具使用统计与性能关系表
工具使用统计数据(调用次数、成功率)与最终任务性能的关系。

此外,采用ADL训练的模型,其习得的智能体规划能力更容易迁移到新任务上。实验表明,仅使用Jigsaw一个任务的监督微调数据,在三个任务上进行强化学习,采用ADL的版本能在另外两个未见过的任务上带来效果提升。

ADL能力迁移实验结果
ADL训练能够将单个任务上学到的智能体规划能力,迁移到监督微调阶段未见过的其他任务上。

核心结论

多模态推理的进阶,远不止是“更努力地思考”。更关键的一步在于:actively seeing, verifying, and planning with tools(主动地观察、验证并用工具进行规划)。

当工具编排能力被充分掌握后,性能瓶颈会发生迁移:从依赖模型规模,转向依赖工具效用与工具规划能力。这对于参数有限的小模型尤为重要——“善用工具”成为最直接的能力放大器。

从趋势来看,Google通过Agentic Vision将Think-Act-Observe范式内置到产品级模型中,而学术界则通过AdaReasoner验证了该范式在开源模型上的可行性与高效训练方法。两条路径共同印证了“主动工具使用”的巨大价值。对于希望在自己的数据或场景中复现此类能力的研究者与开发者而言,AdaReasoner提供了一套完整、开源的实践方案。




上一篇:Unity财报指引不及增长预期,股价再度承压波动分析
下一篇:开源免费方案ProxyBridge:在受限网络中让任意程序走代理教程
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-23 07:33 , Processed in 0.523029 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表