云栈社区»论坛 › 开发者广场「Dev Plaza」 › Kimi K2.5智能体Agent深度测试：从视觉编程到一体化模型路线解析 ...

发回帖发新帖

3895 积分	0 好友	505 主题

发消息

Kimi K2.5智能体Agent深度测试：从视觉编程到一体化模型路线解析

发表于 2026-1-31 05:48:12 | 查看: 264| 回复: 0

前天，月之暗面公司旗下的 Kimi 毫无征兆地发布了其旗舰模型 K2.5[1]，事前没有任何风声。

Kimi K2.5 模型官方介绍图

在国内，Kimi 向来比较低调，公众关注度可能不如其他大厂。但它的产品实力其实并不弱。半年前，K2 模型一鸣惊人，在全球范围内获得了极高的评价，稳居第一梯队。因此，新版本 K2.5 甫一发布，便迅速成为科技新闻热点，在 Hacker News、Twitter（X）等平台引发了广泛讨论。

知名开发者 Simon Willison 当天就撰写了一篇详细的介绍文章[2]。

Simon Willison 博客关于 Kimi K2.5 的报道截图

不过，这次发布最引人深思的地方，或许不在于模型本身的进步，而在于 Kimi 所做出的一个战略选择。

二、不只是模型：Kimi K2.5 的“双响炮”

毫无疑问，K2.5 在性能上全面超越了 K2。官方发布说明[3]中展示的各项评测跑分，K2.5 基本都位列全球前三，甚至在部分榜单上拿到了第一。

以衡量编码能力的 LMArena（现更名为 arena.ai）榜单[4]为例，Kimi K2.5 在所有开源模型中排名第一，总榜上也仅次于 Claude 和 Gemini 系列。

Kimi K2.5 在 LMARENA.AI 编程榜单上的排名

然而，最大的亮点并非模型本身，而是 Kimi 同步发布了一个基于 K2.5 模型的 Agent（智能体）。换言之，这是一次“模型”与“应用”的联合发布。K2.5 是底层的处理引擎，而 K2.5 Agent 则是直接面向最终用户、集成了多种能力的网络应用。

AI 模型与 AI 代理的核心区别示意图

在我的印象里，这似乎是首次有大模型公司采取这种“一体化”的发布策略。以往大家关注的焦点往往是模型本身，鲜有将底层模型与上层应用如此紧密捆绑、同时推向台前的案例。

这标志着一个明确的信号：Kimi 正在探索大模型与应用一体化的道路。

三、路线之争：分层开发 vs. 一体化

我们可以这样理解大模型与 Agent 的关系：大模型是底层的“大脑”，负责思考与生成；Agent 则是上层的“手脚”，利用模型能力去执行具体任务。两者的关系，本质上可以归结为两种开发模式：分层开发和一体化。

前不久被 Meta 高价收购的 Manus，就是分层开发的绝佳范例。

Manus 应用界面截图，背景隐约可见 Meta 标志

Manus 自身并不研发底层模型，它选择在 Anthropic 的 Claude 模型之上，构建了一个功能强大的独立智能体。它的成功证明了，即使不拥有庞大的算力与数据去训练模型，专注于应用层的创新同样能创造巨大价值，这极大地鼓舞了广大开发者投身于智能体生态的建设。

而 Kimi 这次的尝试，则迈向了另一个方向。作为一家拥有自研大模型能力的公司，它将模型与 Agent 深度整合，自己来做“最后一公里”的事。这样做的好处显而易见：模型能力可以更直接、更顺畅地转化为用户体验，有利于快速占领市场，建立更稳固的生态护城河。

很难武断地评判这两种路线孰优孰劣。这有点像手机生态：苹果的 iOS 与自带应用深度融合，体验流畅统一；而安卓的开放生态则催生了百花齐放的外部应用，更能满足用户的个性化需求。两种模式各有拥趸，也各有其生存和发展的空间。对 AI 领域感兴趣的开发者，也可以在云栈社区的技术论坛找到更多相关的深度讨论。

四、K2.5 Agent 的核心功能

关于模型的评测已经很多，我更感兴趣的是这个全新的 K2.5 Agent。从官方发布说明[5]就能看出，Kimi 对 Agent 投入了巨大心血，介绍篇幅远超模型本身。

其中一些功能属于“标配”：

Kimi Office Agent：专家级的 Word、Excel、PowerPoint 文件生成与处理。
Kimi Code：对标 Claude Code 的命令行工具，专注于代码生成与相关任务。
长程操作：宣称可一次性完成最多1500步的复杂操作，这显然是在向以多步骤、强规划能力著称的 Manus 看齐。

而我更关注的是下面两个颇具新意的功能，在其他主流产品中并不多见：

视觉编程：利用模型的多模态视觉理解能力，直接解析图片或视频，并生成对应的代码。例如，上传设计稿或网页演示视频，就能自动生成可运行的网页。
蜂群功能：当面对极其复杂的任务时，Agent 内部可以自动调度最多100个“子智能体”组成集群，并发执行任务，例如进行海量信息搜索、并发内容生成等。

限于篇幅，我将重点测试一下“视觉编程”功能，看看它的实际表现究竟如何。

五、实战测试：从动画到网页

首先，打开 Kimi 官网，K2.5 系列模型已经上线，可以直接使用。

Kimi 官网界面，已切换至 K2.5 Agent 模式

注意，需要手动将模型切换到 “K2.5 Agent” 模式。

模型选择下拉菜单，红框标注已选中 K2.5 Agent

测试一：动画效果还原
我的第一个测试是动效生成。我准备了一个使用 Lottie 库制作的、橘猫玩小球的简单动画。

橘猫玩小球的原始 Lottie 动画

上传视频后，我在对话框中输入提示：“视频里面的动画效果，一模一样地在网页上还原出来”。
模型很快识别出这是“橘猫玩球”的动画，并且出人意料地执行了细致的分析——它竟然将动画逐帧截图，用于理解和还原。

Kimi Agent 对动画进行逐帧分析的过程截图

最终，它使用 Python 生成了一个 SVG 格式的动画文件。

由 Kimi Agent 生成的 SVG 动画效果截图

最终效果上，小猫尾巴的摆动、眼球的转动以及小球的滚动轨迹都得到了正确的还原。不足之处在于，主体的小猫是由多个基础的 SVG 几何形状（圆形、椭圆形等）拼接而成，在形象逼真度上还有提升空间。
你可以访问这个链接查看生成的结果和网页代码。

测试二：网站视频还原
第二个测试更具挑战性：上传一个真实网站的视频，让模型“无中生有”地生成这个网站。我随手在 B 站找了一个设计师个人网站的介绍视频。

原始网站是艺术家 Mia-Lu 的个人主页[10]，设计风格温馨、手绘感强烈。

原始艺术家网站 Mia-Lu 的首页截图

我将视频上传给 Kimi Agent，并给出指令：“把视频里面的网站还原出来”。生成的结果完全超出了我的预期，还原度非常高，几乎达到了可直接上线的水准。

由 Kimi Agent 生成的网站首页，高度还原原设计
由 Kimi Agent 生成的网站 “About” 页面，包含完整图文

生成的网站不仅包含了首页的布局和主要视觉元素，甚至连“About”页面详尽的图文内容也一并生成，结构化做得相当不错。你可以访问这个链接查看生成结果。

六、总结：一体化路线的初步成功

经过简单的上手测试，我的结论是：Kimi K2.5 Agent 的“视觉编程”能力并非营销噱头。它确实具备了较强的多模态理解与代码生成能力，能够产出具有实际使用价值的成果。

目前看来，Kimi 这次“模型 + Agent”一体化尝试取得了初步成功。一方面，强大的 Agent 作为一个绝佳的应用界面，充分释放了底层 K2.5 模型的潜力，让普通用户也能便捷地调用复杂的模型能力。另一方面，通过 Agent 定义和实现的各种新颖用例（如视觉编程、蜂群任务），反向为模型吸引了更广泛的用户群体，形成了良性循环。

最后，在当前复杂的国际竞争环境下，这种一体化路线还有一个额外的战略优势。正如前文提到的 Manus，其成功建立在第三方模型（Claude）之上，这或许也是其最终选择被收购、并在海外发展的考量之一。而 Kimi 的底层模型完全自研且开源，从技术到应用实现了自主可控，从根本上避免了潜在的“卡脖子”风险。

参考文献


[1] 旗舰模型 K2.5: https://www.kimi.com/blog/kimi-k2-5.html
[2] 详细介绍: https://simonwillison.net/2026/Jan/27/kimi-k25/
[3] 发布说明: https://www.kimi.com/blog/kimi-k2-5.html
[4] 榜单: https://x.com/arena/status/2016294725813465114
[5] 发布说明: https://www.kimi.com/blog/kimi-k2-5.html
[6] Kimi 官网: https://www.kimi.com/
[7] Lottie 库: https://lottiefiles.com/free-animation/cat-playing-animation-1cwXJbHzz7
[8] 动画还原结果: https://64iapat2s7a4k.beta-ok.kimi.link/
[9] 设计师网站的视频: https://www.bilibili.com/video/BV1kerYBeE6H
[10] 原始网站: https://www.mialumialu.com/
[11] 网站生成结果: https://rlxxxmcrekvqm.beta-ok.kimi.link/

上一篇：C语言函数指针详解：从声明到调用，理解回调机制与多态基础
下一篇：AI辅助测试实战：如何将3天用例编写工作压缩到1天

Kimi, 大型语言模型, Agent, 视觉编程, 模型评测