云栈社区»论坛 › 开源实战「 OpenSource 」 › Kimi K2.5 Agent群解析：延迟降低4.5倍，性能提升6%的并行智能框 ...

3227 积分	0 好友	425 主题

发消息

[Python] Kimi K2.5 Agent群解析：延迟降低4.5倍，性能提升6%的并行智能框架

发表于 2026-3-17 03:37:28 | 查看: 141| 回复: 0

开源代码已放出：https://github.com/MoonshotAI/Kimi-K2.5

还在为你的AI Agent处理复杂任务时“慢如蜗牛”而头疼吗？传统的顺序思考模式，在面对需要广泛信息收集和深度推理的复杂场景时，效率瓶颈日益凸显。

今天，一个颠覆性的思路出现了：为什么不让一群Agent同时为你工作？

Kimi团队开源的K2.5模型，不仅实现了文本与视觉能力的深度融合，更提出了“Agent群”这一创新框架。它让一个主Agent像导演一样，动态分解任务，同时指挥多个子Agent并行工作。在测试中，该系统将广泛搜索任务的延迟降低至单Agent的1/4.5，关键性能指标（Item-F1）还从72.8%逆势提升至79.0%。

这不仅是一次速度的飞跃，更是对AI顺序执行范式的重构。接下来，我们将深入剖析“Agent群”如何实现智能的并行化编排，以及K2.5如何通过反直觉的“视觉强化文本”策略实现联合优化。

❓ 核心痛点：为什么顺序Agent走到了尽头？

我们早已习惯了AI Agent的工作模式：接收指令 → 思考 → 调用工具 → 观察结果 → 继续思考… 如此循环。

这套“顺序执行”范式在简单任务上尚可，但一旦面对需要广泛信息收集、多分支深度推理的复杂场景，瓶颈立刻显现：

延迟爆炸：步骤数线性增长，完成时间长得令人无法接受。
上下文臃肿：漫长的思考链和工具调用历史会塞满模型的上下文窗口，导致信息丢失或被迫截断。
能力天花板：单个Agent的“思维带宽”和“工具调用带宽”有限，难以驾驭超大规模、异构的子问题。

现有的优化方案，如“丢弃历史”等上下文管理技巧，本质上是被动、损失性的压缩，治标不治本。问题的根源在于架构——我们是否必须让一个“大脑”处理所有事情？

Kimi K2.5的答案是否定的。它通过“Agent群”与“文本-视觉联合优化”两大核心设计，从根本上规避了传统方案的缺陷。其核心技术架构如下图所示：

Kimi K2.5核心技术架构思维导图，展示文本视觉联合优化与Agent群两大支柱

图：Kimi K2.5核心技术架构思维导图，清晰展示了“文本-视觉联合优化”与“Agent群”两大支柱及其协同关系

接下来，我们逐层拆解图中的关键模块，探究其实现智能“降本增效”的奥秘。

🧠 第一支柱：文本-视觉联合优化，何以实现“1+1>2”？

传统多模态模型常被诟病“偏科”：视觉能力上去了，文本能力就受损。K2.5却通过一套精妙的“联合优化”组合拳，让两种模态相互增强。

💡 反直觉的预训练策略：早期融合胜于后期猛补

多模态预训练有个经典难题：在固定的总计算预算下，何时、以多大比例混合视觉数据效果最好？

传统思路认为，应该先让大语言模型学好语言，后期再高比例注入视觉数据。但K2.5的实验结果颠覆了这一认知。

不同视觉-文本联合训练策略的性能对比表格

表：不同视觉比例和融合时机下的性能对比，早期低比例融合表现更优

核心发现：在总Token数固定的前提下，视觉比例对最终性能影响极小，但融合时机至关重要。早期就以恒定、适中的比例混合视觉数据，让模型从一开始就学习跨模态表征，效果远好于后期“恶补”。

这就好比学一门外语，从婴儿时期就沉浸在双语环境（早期融合），远比成年后再报突击班（后期融合）更自然、更扎实。K2.5采用的正是这种“原生多模态预训练”策略。

💡 零视觉SFT：用纯文本数据激活视觉能力

预训练后的模型还不会基于视觉使用工具。通常需要人工标注大量“看图说话”的指令数据来微调，成本高、多样性差。

K2.5提出了一个巧妙的“零视觉监督微调”方法：仅使用纯文本的指令数据进行微调。在这个阶段，所有对图像的操作（如“裁剪”、“识别图中文字”）都被描述为IPython中的编程操作。

神奇的是，经过这种纯文本“培训”后，模型竟然能泛化到真实的视觉任务上，如物体定位、计数和OCR。这说明联合预训练已经建立了极强的跨模态对齐，语言指令能直接“唤醒”视觉推理能力。

💡 视觉强化学习，竟能反哺文本性能？

在零视觉监督微调之后，模型还需要通过强化学习来优化其视觉推理的可靠性和精确性。通常，大家会担心专门优化视觉任务会损害文本能力。

但K2.5带来了第二个反直觉的发现：基于结果的视觉强化学习，竟然显著提升了纯文本基准测试的成绩！

视觉强化学习后，纯文本基准测试性能提升对比表格

表：视觉强化学习后，MMLU-Pro、GPQA-Diamond等纯文本基准测试性能均得到提升

如上表所示，在视觉强化学习之后，MMLU-Pro从84.7%提升至86.4%，GPQA-Diamond从84.3%提升至86.4%。视觉训练让模型在需要结构化信息提取和精确推理的文本任务上，变得更加“严谨”和“校准”。

这彻底打破了“模态冲突”的魔咒，证明了深度联合优化下，模态间可以实现真正的能力迁移和增强。基于此，K2.5最终采用了联合多模态强化学习，让模型在不同能力的维度上共同进化。

这个“视觉强化文本”的发现，或许意味着在未来多模态模型的训练中，视觉数据将成为提升通用推理能力的“催化剂”。

🚀 第二支柱：Agent群——从“流水线工人”到“导演与剧组”

如果说联合优化是“修炼内功”，那么Agent群就是“革新生产关系”的外功。它让AI从“单线程思考”跃迁至“并行化协作”。

💡 核心架构：解耦的编排器与冻结的子Agent

Agent群的核心是一个可训练的协调器（导演） 和多个从固定预训练权重实例化的、冻结的子Agent（演员）。

为什么要“冻结”子Agent？这是为了规避多智能体强化学习中两大顽疾：信用分配模糊（最终结果好，不代表每个子步骤都完美）和训练不稳定。

通过解耦，协调器只学习高层任务分解与调度策略，将子Agent的输出视为环境反馈。这大大降低了学习难度，实现了稳定收敛。训练时，先用小尺寸子Agent快速训练协调器，再切换到大模型，极大提升了训练效率。

💡 三重奖励设计：防躺平、防作弊、保效果

训练一个聪明的“导演”绝非易事。K2.5为并行Agent强化学习设计了精妙的PARL奖励函数：

性能奖励 (R_perf)：评估最终解决方案的质量，这是核心目标。
并行奖励 (R_para)：专门激励协调器去创建子Agent，防止它偷懒，永远只用一个Agent干活（局部最优的“串行崩溃”）。
完成奖励 (R_done)：奖励成功完成的子任务，防止协调器为了刷“并行指标”而疯狂创建大量不做实事的子Agent（“虚假并行”）。

超参数 λ_para 和 λ_done 会在训练中逐渐衰减至零，确保模型最终专注于核心任务性能。

💡 关键步骤：衡量真正的时间成本

在并行世界中，步骤总数不再等于耗时。K2.5引入了“关键步骤”这一核心指标，它类比于计算图中的关键路径：关键步骤数 = 阶段1最慢子Agent耗时 + 阶段2最慢子Agent耗时 + ...

这个公式意味着，一个阶段的耗时取决于该阶段内最慢的那个子Agent。协调器会被引导去均衡各个子任务的工作量，以缩短关键路径，而不是盲目增加并发数。这才是真正优化端到端延迟的智能调度。

PARL训练过程中，训练准确率与平均并行度随步骤变化趋势图

图：PARL训练过程中，累积奖励平稳上升，协调器成功学会了有效的并行化策略

📊 实验验证：数据不说谎，群殴就是强

理论再美，还需实战检验。K2.5在涵盖推理、编码、视觉、Agent任务等数十个权威基准测试中进行了全面评估。

🏆 全能战士：各项指标全面领先

在需要深度推理的数学竞赛、知识问答、复杂编码、长视频理解乃至真实的计算机使用任务中，K2.5均达到了与顶级闭源模型媲美甚至超越的水平。

Kimi K2.5在多项基准测试中与顶尖专有及开源模型的对比结果表格

表：Kimi K2.5在多项基准测试中与顶尖专有及开源模型的对比结果，表现全面领先

尤其值得称道的是其自主Agent能力。在需要多步搜索、信息综合的BrowseComp任务中，单Agent K2.5准确率已达60.6%，而启用Agent群后，准确率提升至78.4%，显著超过了其他模型。

🔬 Agent群的威力：又快又好

Agent群的终极价值，在于其“降本增效”的能力。在WideSearch基准测试中，效果展现得淋漓尽致。

性能提升：Item-F1分数从单Agent的72.7%提升至79.0%，绝对提升达6.3%。

延迟骤降：如下图所示，随着任务目标难度（Item-F1值）从30%提升到70%，单Agent的耗时呈线性急剧增长。而Agent群始终保持低延迟，最高将延迟降低至单Agent的1/4.5！

Agent Swarm与Single Agent在不同Target Item-F1值下的执行时间对比折线图

图：在WideSearch任务中，Agent群（蓝线）相比单Agent（红线）能大幅降低达到相同性能目标所需的执行时间

🔬 动态与主动：智能的体现

Agent群的智能还体现在其动态性和主动性上。

展示协调器动态创建异构子Agent组的词云图

图：协调器在任务执行过程中动态创建异构的子Agent组，进行并行调度

如上图所示，协调器并非预先设定好固定数量的子Agent，而是根据任务进展动态实例化不同类型、不同数量的专家Agent，实现真正的自适应分解。

更重要的是，Agent群本身就是一种主动的上下文管理策略。它通过将长任务分解为独立的子任务，让每个子Agent在有限的局部上下文中工作，只将关键结果汇报给协调器。这避免了全局上下文的无限膨胀，实现了“上下文分片”，相比被动“丢弃历史”的方法，在效率和准确性上都有显著优势。

Agent群与Discard-all上下文管理策略在BrowseComp任务中的性能对比折线图

图：在BrowseComp任务中，Agent群（主动上下文管理）在准确率和效率上均优于“全部丢弃”的被动策略

⚖️ 客观评价

毫无疑问，Kimi K2.5及其“Agent群”框架是Agent进化路径上的一次里程碑式突破。它不仅在工程上实现了高效的并行训练与推理，更在理念上为处理超复杂任务提供了可扩展的架构蓝图。

局限性：

协调器训练成本：虽然冻结子Agent降低了难度，但训练一个高效的协调器本身仍需大量的强化学习交互，成本不菲。
子Agent通信开销：在极度细粒度的任务分解下，子Agent间的结果同步与协调器决策可能带来额外的通信与计算开销，需要精细权衡。
任务普适性：目前展示的优势主要集中在信息检索、研究类任务上，对于强时序依赖、步骤间耦合极紧的任务，并行化的收益可能有限。

🌟 价值升华与行动号召

总结来看，Kimi K2.5带来了三重启示：

架构革新：智能的瓶颈可能不在“脑容量”，而在“工作模式”。从“顺序执行”到“并行编排”的范式转变，打开了性能与效率的新空间。
模态共生：“文本-视觉联合优化”证明，深度对齐的多模态训练可以实现真正的相互增强，而非此消彼长的权衡。
开源引领：将如此强大的模型权重在GitHub开源，极大地降低了社区研究和应用前沿Agent技术的门槛，将加速整个领域的发展。

Kimi K2.5的“Agent群”框架，向我们展示了未来智能系统协作与并行化的清晰蓝图。你认为这项技术最可能率先颠覆哪个应用场景？是自动化科研、超级个人助理，还是复杂的软件工程项目管理？欢迎在技术社区分享你的见解。

参考
KIMI K2.5: VISUAL AGENTIC INTELLIGENCE

上一篇：C++高性能文件读取：mmap、io_uring与SSD多线程架构实战
下一篇：腾讯光子AI基建五年复盘：Light AI如何重塑游戏美术生产流程？

Kimi-K2．5, 智能体群, 多模态模型, 强化学习, 智能体框架