云栈社区»论坛 › 回收站「 Recycle Bin 」 › 实测MiniMax M2.7 Cowork Agent：自进化的AI同事是如何炼成的 ...

3806 积分	0 好友	494 主题

发消息

实测MiniMax M2.7 Cowork Agent：自进化的AI同事是如何炼成的

发表于 2026-3-20 13:24:07 | 查看: 165| 回复: 0

大家最近用各种Agent产品的体验怎么样？

有没有感觉心累？你为它精心配置了一大堆技能，结果它经常“偏科”，调用不到正确的技能，白忙活一场。更让人头疼的是，它时不时就理解错你的真实意图，导致你不得不花大量时间去纠正和引导。

这种由模型原生协作能力不足引发的“断片”现象，让很多AI助手只能停留在玩具阶段，难以胜任严肃的生产力任务。

最近，我深度体验了MiniMax新发布的M2.7模型，它带来的变化是颠覆性的，终于解决了长期困扰Agent的“笨拙感”。内测阶段就收获了一片好评，如今在许多技术社群里，已经能看到不少朋友开始将其应用于实际工作流中。我必须说，它确实是目前国内表现最出色的Cowork Agent模型之一。

强大得有些“离谱”。最直观的感受是，它的技能调用命中率极高，几乎能精准匹配任务需求。而更底层、更硬核的进化在于，它初步具备了自进化的能力。

Agent Harness：模型自己搭建的脚手架

什么是Agent Harness？你可以把它理解为模型干活时用的脚手架和工具箱。在过去，这套基础设施需要程序员手动搭建和维护，费时费力。

而M2.7最突破性的能力之一，便是它能为自己设计和优化这套Harness。官方披露了一个令人印象深刻的研发细节：在开发M2.7的过程中，技术团队尝试让模型自主去优化一套用于软件开发的脚手架系统。

MiniMax M2.7 核心能力：构建复杂Agent Harness

M2.7独立运行了超过100轮的“分析-改进-评估”循环：分析失败轨迹、修改代码、运行测试、对比结果。最终，它硬生生将这套系统的性能表现提升了30%。这意味着，M2.7能够编写新的Skill来迭代自身，实现“自我内卷”，因此它会越用越顺手，越用越强大。

M2* Model Iteration System 架构流程图

高技能密度下的稳健表现

在日常复杂场景中，一个成熟的Agent可能需要调度几十甚至上百个技能。很多模型在面对超过一定数量的技能后，指令遵循率会断崖式下跌。但M2.7在极端测试中，面对40个复杂技能，依然保持了高达97%的遵循率。

对于使用者而言，看到Agent精准地调用预设技能来完成工作，才是真正获得安全感和信任的时刻。M2.7在这方面做得非常出色，用起来确实很“爽”。

它甚至能产出具有不错审美的前端页面。
由M2.7生成的前端页面效果展示

向下兼容：征服办公场景

不知你是否留意过，很少有模型能真正“玩转”Office办公套件。让AI精准地调整Word文档格式，或者在Excel中处理复杂的逻辑公式，一直以来都是难题。

M2.7针对Office场景做了特殊优化，堪称是“向下兼容”的典范。它能很好地理解并操作这些经典办公软件。

来看看M2.7生成的Word文档效果：
M2.7生成的Word文档教程内容

逻辑清晰，格式规范，这表现相当惊艳。

再看看它制作的Excel表格：
M2.7生成的Excel数据表格

数据呈现的质感和逻辑性，已经超越了大部分人工处理的效果。

真正的Coworker：从查Bug到开发工具

M2.7被称为“最强Cowork”，是因为它真的能像同事一样，系统性解决生产效率问题。例如，当系统出现告警，它可以自动查阅日志、检索数据库、定位故障根因，并直接提交修复代码补丁。

最近我遇到一个实际需求：需要下载一些网站上的演示视频，但很多网站的视频下载流程复杂，且可能涉及加密流。于是，我让M2.7帮我开发一个CLI工具，并封装成Skill，以后就可以直接把视频链接丢给它处理。

我的核心要求是：这个工具能自动嗅探并下载各种网页上的视频（包括复杂的m3u8流），能自行查看运行日志和标准输出来排查问题，并通过不断测试迭代来完善代码。

我的需求输入：

我希望完成一个抓取视频的cli 能够帮我抓取一切网站的视频并下载到本地，能抓取复杂的网页上的视频 比如m3u8那种复杂的 抓取到之后能合并成mp4 之类的帮我设计好这个cli，使用rust来开发，并且自己运行查看运行的日志，排查中间出现的各种问题，不断迭代，最终交付我一个能解析下载一切网站视频的cli

视频下载CLI工具开发需求描述