找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3851

积分

0

好友

503

主题
发表于 昨天 23:18 | 查看: 51| 回复: 0

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

Fable 5并非高不可攀。

DeepSeek、Kimi与Gemini三款模型强强联手,足以与其正面抗衡。

OpenRouter日前进行了一项引人注目的实验——让不同大型语言模型组队协作,结果颇有看点。

多种AI模型在DRACO基准测试93项任务中的得分对比条形图

最新测试结果表明,模型抱团之后实力显著攀升:

Opus 4.8 + GPT-5.5 > Fable 5
Kimi K2.6 + DeepSeek V4 Pro + Gemini 3 Flash ≈ Fable 5

不仅性能追平,开销还直接减半。

根据官方定价,相较于Fable 5,Kimi K2.6、DeepSeek V4 Pro与Gemini 3 Flash这套平价组合,理论成本降幅接近80%。在本轮测试中,即使计入平台调度与内容融合等附加开销,该组合的单任务花费依然仅为Fable 5的50%——性价比不言而喻。

OpenRouter官方发布Fusion API宣传推文截图

多个模型组成评审团,完胜单打独斗

此次测试的核心,是OpenRouter的 Fusion多模型融合方案

当用户向Fusion发送指令后,系统会将任务并行分发给多个模型,所有模型均支持网页检索与内容抓取。随后,判定模型逐一分析各家的回复,梳理出共识观点、矛盾之处、信息缺口、独到见解与认知盲区,并基于这份交叉分析生成最终答案。整套流程在服务端完成,调用体验与使用单模型几乎别无二致。

Model Fusion (beta) 界面截图,展示多模型并行运行与结果融合设置面板

为检验模型们的综合实力,团队选用了 DRACO深度研究基准测试集。这套题库由Perplexity AI精心打造,专门衡量模型处理复杂任务的真实水平。

100道实战题目覆盖学术、金融、法律、医疗、技术等十大领域,高度还原职场办公与专业调研中的实战场景。评分规则尤为严格,共设39项加权标准,从事实准确性、分析深度与广度、排版呈现质量、引用规范性四大维度进行综合评判。

最特别的是,它还加入了一套扣分机制:一旦回答出错、给出不当建议或通篇废话,都会被直接扣分。模型若想靠堆砌文字来蒙混过关,几乎行不通。

DRACO评估体系概览:包含任务与评分标准、评估系统、LLM评委和最终结果四大板块

从测试数据来看,多模型协同的整体表现明显优于单一模型。

多款高端模型组合后均有显著提升。例如Fable 5与GPT-5.5搭档,以69.0%的最高成绩夺魁,轻松超越两模型单独参赛的分数。Opus 4.8、GPT-5.5、Gemini 3.1等高端模型无论两两配对还是三人组队,结果全部优于其各自的单体状态。

不过,本次测试的最大惊喜是:Kimi K2.6、DeepSeek V4 Pro与Gemini 3 Flash这个“草根组合”,几乎追平了Claude Fable 5。

不同模型组合类型与对应DRACO得分的详细数据表

Fable 5(平价替代版)

Claude Fable 5单独运行时,在DRACO测试中的标准化得分为65.3%。
(因内容安全过滤,该模型仅完成了100道任务中的93道)

而Kimi K2.6、DeepSeek V4 Pro与Gemini 3 Flash三款模型组成的融合阵容,综合得分达到64.7%。两者分差仅有0.6个百分点,性能几乎持平。在此前提下,成本优势便成了这套组合最锋利的杀手锏。

根据官方公开定价,Claude Fable 5的收费十分高昂:每百万输入token需10美元,每百万输出token更是高达50美元,比上一代Opus 4.8翻了一倍。对于日均调用量较大的企业、工作室和个人开发者而言,长期使用无疑是一笔不小的开支。

而组合中的三款模型,均为典型的高性价比选手:
DeepSeek V4 Pro经过永久降价后,每百万输入token仅需0.44美元,输出为0.87美元;
Gemini 3 Flash主打轻量低成本,每百万输入约0.5美元、输出3美元;
Kimi K2.6采用缓存计费机制,首次处理内容按0.95美元/百万token计费,重复使用同一上下文时,输入成本可降至0.16美元/百万token,输出为4美元/百万token。

三款模型组成融合阵容后,综合调用成本相较Claude Fable 5降幅接近80%。

不过,从本次测试的实际开销来看,不同组合的花费差异明显。表现优于Fable的组合受调用方式影响,整体开销也略高;而三人组即使在计入平台调度与内容融合等附加成本后,单任务总花费依然低于Claude Fable 5,是全场性价比最优的解决方案。

OpenRouter Fusion性能与成本散点图,展示各模型组合在DRACO评分与单任务成本间的分布

此外,测试中还有一个有趣的现象:即使是单一模型进行“自我融合”,也能实现性能跃升。例如Opus 4.8自身组合后,得分从单体的58.8%提升至65.5%。这从侧面印证了,Fusion方案的增益不仅来自不同模型的能力互补,答案整合与逻辑梳理这一流程本身就足以优化输出质量——同一指令交由同一模型多次运行,会产生不同的推理路径、工具调用逻辑与信息筛选结果,再经过整合优化,最终内容会更加完善。

那么,这套“平替打法”究竟怎么实现?

OpenRouter针对不同使用人群,提供了网页版与API两种方式。在网页端,可直接选择预设组合一键启用,也可按需自由搭配模型。

OpenRouter模型搜索与Fusion模型详情面板界面截图

如果需要自动化调用,只需使用API接口并在参数中指定模型即可。

调用Fusion模型的JSON代码示例,展示默认调用与自定义专家模型面板两种方式

调用Fusion模型,默认只需一行model参数:

{
  "model": "openrouter/fusion",
  "messages": [
    {
      "role": "user",
      "content": "What are the strongest arguments for and against"
    }
  ]
}

你还可以自定义参与分析的专家模型列表,以匹配特定任务风格:

{
  "model": "openrouter/fusion",
  "messages": [
    {
      "role": "user",
      "content": "..."
    }
  ],
  "plugins": [
    {
      "id": "fusion",
      "model": "google/gemini-3-flash-preview",
      "analysis_models": [
        "google/gemini-3-flash-preview",
        "moonshtai/kimi-k2.6",
        "deepseek/deepseek-v4-pro"
      ]
    }
  ]
}

感兴趣的朋友不妨亲自上手一试,毕竟用多模型智能组队来平替旗舰方案,确实让人直呼“真香”。

参考链接:
[1] https://openrouter.ai/blog/announcements/fusion-beats-frontier/
[2] https://x.com/OpenRouter/status/2065856860435988482

对于热衷追踪前沿AI应用与性价比方案的开发者而言,这种多模型协作的范式无疑开启了一条全新的优化路径。如果你想深入探索这类工程化技巧,或是获取更多实测数据,不妨到云栈社区与众多同道中人一起交流挖潜。




上一篇:马斯克:特斯拉AI6芯片或创单晶圆算力纪录,2028下半年投产
下一篇:AI截走产能致车规存储涨180%:新能源汽车遭遇供应链“降级”危机
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-15 19:53 , Processed in 0.790825 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表