找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1064

积分

0

好友

140

主题
发表于 昨天 04:49 | 查看: 0| 回复: 0

前两天,月之暗面发布了新一代的开源大模型 Kimi K2.5。作为Kimi模型的长期用户,我之前主要用它来解决YOLO识别不准的问题,在YOLO模型识别的基础上,再接入一个零样本的视觉大模型做二次判断。当时用的就是 moonshot-v1-8k-vision 模型,所以这次发布后,我立刻对相关能力进行了测试。

Perception AI: 少样本YOLO+零样本VLM场景识别流程

本次发布的 Kimi K2.5 在 Kimi K2 的基础上,使用了约 15T 混合视觉和文本标记进行预训练。如今的 K2.5 是一个原生多模态模型,同时具备编码、图片视频理解以及强大的 智能体 能力,从各项评测指标看,已成为新的SOTA。

Kimi K2.5与其他主流模型性能对比柱状图

虽然月之暗面已经在 HuggingFace 上开源了权重文件,但总体积高达595GB,自行部署的可能性不大。因此,我还是选择老老实实地使用在线环境和API进行测试。

Hugging Face上的moonshotai/Kimi-K2.5模型页面

我个人在使用过程中,其实不太关心抽象的指标SOTA。我更看重的是模型能否解决我实际工作中的需求。因此,我围绕几个具体的应用场景对K2.5进行了实测。

一、Agent网站模式:快速生成原型页面

我的日常工作除了写代码,还负责项目和产品的原型绘制。过去通常使用墨刀等工具绘制原型,评审后再交由UI制作高保真图。但现在,得益于大模型工具的进步,原型和UI设计完全可以用一个工具串联完成。我们甚至已经开始直接使用编码大模型根据需求生成前端页面,然后在前端页面上进行调整。

当前,我手头正好有一个需求:一家做机器狗的公司希望合作,将他们的机器狗按我们现有无人机平台的功能模块整合进系统,使其具备巡检能力。同时,我们自己的产品也缺少一个总览大屏页面。于是,我尝试用 Kimi K2.5 的 Agent 网站模式来快速生成这个原型页面。

我的初始提示词是:“我现在要为一个无人机和无人狗智慧校园AI巡检平台创建一个大屏页面,AI巡检平台包括:设备管理、航线管理、AI算法管理、事件管理、巡检任务管理,基于这些信息总结同步生成一个带地图的大屏页面,网站风格使用蓝黑科技风格”。

向Kimi描述无人机无人狗巡检平台大屏需求的对话界面

Kimi 会根据提示词进行任务拆解和功能模块的细化设计。

Kimi拆解出的项目概述与核心功能模块

从具体执行过程看,这里使用的是 AI Coding 中常见的 Agent 模式。可以看到,K2.5 读取了 SKILL.md 文件,理论上它采用了最新的 SKILLS 标准来组织工具。为了保证工具运行环境的一致性,它使用了 Ubuntu 虚拟机,为每个用户提供纯净的环境,有效避免了因本地环境不一致导致工具无法调用的问题,这一点非常必要。

Kimi Agent执行过程:读取技能文件、初始化React项目

经过两轮微调,我得到了一张符合要求的大屏原型。最关键的是,这个页面由系统自动部署和托管好了,其他人拿到链接即可直接访问,总体满足了我的需求,后续可以直接上会讨论细化方案。

生成的智慧校园AI巡检平台大屏页面效果

在使用过程中,我还发现这种 Agent 模式的一个优势:它会自动调用图像生成大模型,生成符合要求的设备及事件图像。这非常方便,省去了自己上网搜寻图片的麻烦,同时也规避了后期推广可能面临的图片侵权问题。

Kimi为实时监控事件自动生成符合描述的缩略图

二、Kimi Code 模式:代码生成前端页面

除了 Agent 产品,Kimi 在本次还推出了 Kimi Code。前面提到,我们现在常用编码大模型来绘制原型页面。正好,我用同样的需求来测试 Kimi Code 的生成能力。安装过程主要有两个步骤:

  1. 先安装 Kimi CLI,然后在 CLI 中通过 /login 进行 Kimi Code 的授权,以及 /setup 进行模型服务地址的配置。
  2. 安装 Kimi Code For VS Code 插件,之后就可以在编辑器中输入提示词进行开发。

在VS Code中使用Kimi Code插件编写前端页面

最终,它生成了这样一个前端大屏页面。从原型角度看,效果也不错,布局与 Agent 网站模式生成的有所不同。但相对于后者,Kimi Code 模式不具备生成图片的能力,图标多用一些卡通符号替代。

由Kimi Code生成的无人机无人狗AI巡检平台界面

三、视觉图片理解:赋能“快慢检测”模式

我现在项目上的一个需求是,希望在目标检测时构建“快慢检测”模式。现在需要验证使用 Kimi K2.5 作为“慢检测”模型的效果。

我们的无人机平台已经支持在地图上绘制 ROI(感兴趣区域),平台会自动将 ROI 逆投影到视频画面中,再使用逆投影后的 ROI 与检测到的目标进行地理围栏判断。

无人机巡检任务监控界面,显示航线与算法详情

但有时会出现目标检测不准的问题。为了减少误报,最好能通过视觉大模型结合 ROI 进行进一步分析。我输入的测试需求是:让 K2.5 判断「红框中的人是否都佩戴头盔和反光背心」。

待分析的施工现场俯拍图片,红框标出人员区域

Kimi分析图片中人员安全装备的对话界面

Kimi 输出的检测结果清晰准确,并将结果绘制在了原始图片上:两名人员均未佩戴安全帽和反光背心。

Kimi输出的分析结果图,标注出两名未合规人员

接着,我又让它检测:「红框中是否有车辆停放,如果有将车辆绘制到图片上」。它同样比较准确地检测到了三辆车,并进行了标识。

Kimi检测并标注出图片中的三辆车辆

Kimi完成车辆检测并输出带标注图片的对话过程

为了进一步增加难度,我决定测试一下 GIS 领域最常见的最短路径规划问题,但这次不是基于结构化的矢量数据,而是直接基于地图截图进行规划。我的指令是:「在图上绘制出以红色五角星为起点,以蓝色五角星为终点的最短路径,不要查询第三方的路径规划接口,直接进行图像识别出道路之后进行规划」。

包含起终点标记的无锡市区域地图

接下来 K2.5 的推理过程有点让我震惊。过去的模型推理多为文字链式思考,很少展示调用视觉工具的详细过程。而在处理这个需求时,K2.5 开始自己调用 Python 工具:首先提取输入图片中的起点和终点坐标;接着,识别并提取图中的道路网络;最后,基于提取出的道路网络,进行最短路径规划!

Kimi调用代码提取道路网络并进行A*路径规划的过程

在降采样道路网格上规划出的最短路径示意图

将规划路径映射回原始地图后的最终效果图

四、Agent PPT 模式:一键美化演示文稿

这也是本次 K2.5 推出的一个新功能。对我而言,一个关键痛点是:如何把 PPT 做得既美观又专业。以前在公司,每次做产品或解决方案的 PPT 都会交由美工设计美化。现在没这个条件了,自己做出来的 PPT 往往不够精致。因此,这是我的一个现实需求。

待美化的“基于时空智能融合的无人机巡检解决方案”PPT首页

Kimi Agent PPT读取文件并分析内容结构的任务界面

以下是最终美化得到的效果,提升非常显著,瞬间感觉高大上了许多。而且,它还在我原始 PPT 没有的基础上,自动添加了一个团队介绍的页面,并生成了对仗的口号:“看见未来 · 看懂数据,融合时空 · 行动智能”。

美化后的PPT首页,风格现代专业

美化后的PPT内容页,展示完整业务流程

美化后的PPT总结页,突出核心价值与指标

五、Agent深度研究:辅助行业研究与产品规划

最后一个测试,聚焦于我日常工作中很重要的一部分:行业研究和产品规划。主要需求是探索如何将现有的无人机管理平台,转化为一个更具行业属性的 AI 巡检平台。

我的需求描述是:「目前我需要将我们的无人机管理平台(包含设备管理、航线管理、飞行任务、算法管理通用模块)转换为AI巡检平台,期望在航线模式以及算法上能够和应用场景更加贴近,针对特定的行业提供固定的范式的选择,减少用户的操作门槛,帮我搜集资料分析确定三个高价值行业的巡检需求,进而得到对应AI巡检平台设计详细的模块功能说明」。

向Kimi提出行业深度研究需求的对话界面

提出需求后,我就去处理其他工作了,让 Kimi 自行运行。晚上有空时,我才去查看它生成的研究报告。报告为我筛选了三个高价值的目标行业:电力能源、石油化工以及交通基础设施。

深度研究报告目录及电力能源行业分析部分

在航线规划模式上,它针对性地总结了这些行业常用的巡检航线飞行模式,例如输电通道的带状航线、杆塔的部件级精细化航线、储罐的螺旋上升航线等。

深度研究报告中关于智能航线规划模块的行业模板总结

在算法层面,报告参考了相关行业的技术规范,归纳出每个行业巡检需要重点关注的问题和技术指标。这对于我们后续的产品规划具有切实的参考价值。

深度研究报告中关于各行业AI算法类别与技术指标的总结

总结

本次对 Kimi K2.5 的测试,基本集中在我日常工作中高频发生的几类任务上。总体感觉,本次月之暗面推出的 K2.5 版本非常有诚意,带来了多个硬核的产品形态。其在视觉理解与 Agent 能力上的表现尤为突出,无论是对于快速原型构建、复杂视觉任务分析,还是辅助研究与决策,都提供了强大的支持。对于从事相关领域开发和产品工作的朋友,非常值得一试。如果你对这类 开源 AI 模型的实际应用有更多想法,欢迎在技术社区交流探讨。




上一篇:央美汽车设计教育发展历程专访:原院长王敏谈拓荒之路
下一篇:技术前瞻:高通详解Wi-Fi 8标准,物理层与MAC层创新如何实现超高可靠性
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-1 00:15 , Processed in 1.405100 second(s), 47 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表