云栈社区»论坛 › 开发者广场「Dev Plaza」 › MiniMax M2.7模型评测：Agent Harness、代码与办公能力全面进化 ...

发回帖发新帖

3965 积分	0 好友	519 主题

发消息

MiniMax M2.7模型评测：Agent Harness、代码与办公能力全面进化

发表于 2026-3-21 02:33:55 | 查看: 271| 回复: 0

年后这波AI更新潮，节奏真有点失控。

OpenClaw的热度还没完全过去，各路宣称年度最强的模型又开始排队涌现。而某个熟悉的蓝色小鲸鱼，却一度没了动静，这让我倍感疑惑。好在昨天打开邮件时，忽然看到一条推送——MiniMax终于更新了，发布了全新的旗舰模型：M2.7。

好，我最看好的性价比卷王，这次你又带来了什么新东西？

打开更新文档，更新内容还真不少！

两位人物惊讶地看着一份文件，背景有水印“MINIMAX”

文档提到了“Agent Harness”这个概念，宣称能让AI代理进行自主优化，核心包括短时记忆、自反馈以及自优化模块。说实话，本以为这次的M2.7只是个常规小迭代，毕竟距离上一版才过去一个多月。

MiniMax M2.7官网宣传页面截图

但看到官网那句“开启模型的自我进化”，我的好奇心被彻底勾了起来。这次更新的含金量到底有多高？

终端对话界面，询问并回答当前使用的是MiniMax-M2.7模型

所以今天，我们来一起深入看看，MiniMax M2.7究竟藏了什么大招。

基础能力更新

这次M2.7的更新覆盖了六个主要方向。

首先是Agentic指令遵循能力。官方表示M2.7对此做了专项优化，即使面对包含50多个技能、60-150项功能的复杂清单，它也能稳扎稳打，一步步将任务分解执行完毕。说人话就是：多步骤、长流程的任务，它也能跑完不翻车。

其次是代码能力的持续增强，可以看作是M2.5基础上的二次迭代和升级。

多组AI模型基准测试横向条形图对比

据官方介绍，此次优化还覆盖了日志分析、Bug定位、代码重构、代码安全、机器学习、安卓开发等多个具体方向。

看到这里，可能有人会说，这不就是常规的参数迭代吗？但在我看来，M2.7是站在一个本就不低的起点上，又向上迈进了一步。 要知道，它的前代M2.5在SWE-Bench Verified（真实世界软件工程基准）测试中，已经达到了行业第一梯队的水平。

编程能力对比条形图，显示MiniMax M2.5等模型的得分

当然，肯定还会有人说：那还是不如Claude啊。但需要认清一个事实：MiniMax的M2系列，激活参数量仅为10B（百亿）。它没有大厂动辄千亿的训练数据堆砌，本就不是一个量级的选手。这就好比让一个60公斤级的拳手，硬上擂台去打120公斤级的比赛，然后说他不“行”。

熊猫头表情包配文“你去给我打宿傩”

因此，判断的维度不应该是“有没有赢过Claude”。便宜、好用、够用，这三个条件若能同时满足，对大多数开发者和用户而言，就已经足够了。

Agent Harness：模型自我进化的操作系统

然后是官方本次主推的Agent Harness能力。在深入之前，有必要先厘清这个概念，否则很容易看不懂MiniMax在说什么。

什么是Agent Harness？

可以做个简单类比：模型是引擎，那么Harness就是整辆车。你也可以将整个AI系统理解为一台电脑——大模型相当于CPU，提供核心计算能力；上下文窗口等同于内存，容量有上限；而Agent则是你桌面上的各种应用，负责完成具体任务。

那么，Agent Harness就是操作系统，是底层架构，负责调度资源、管理进程、确保程序顺利运行。 它决定了模型能“看到”什么、能调用什么工具、以及执行失败后该如何应对。没有操作系统，再强的CPU也只是一块无法工作的硅片。

不过，目前行业内对于Agent Harness尚无统一标准，各家都在“造自己的车”。

AI代理开发工具演进路径示意图

例如，Claude Code（Anthropic）的思路是让模型自身来控制执行循环，而非由外部代码驱动；Cursor选择将一切抽象映射为文件，并针对不同底层模型专门优化其Harness；而Manus则死磕KV缓存效率，旨在让大模型能够更高效地调用常驻工具。

那么MiniMax这次的思路是什么？答案是：让模型自己来构建Harness，然后用这个Harness像套娃一样，反过来优化模型自身。

俄罗斯套娃图片

简单说，就是人类负责定方向，模型负责造工具，造好的工具再加速模型自身的成长。一个颇具说服力的案例是：仅用1个人、4天时间、零人工编码，M2.7以解决方案架构师的身份，自主搭建了一个完整的开发Agent系统，涵盖了持续集成（CI）、代码审查、测试的全流程。

M2*模型迭代系统架构与工作流示意图

在衡量模型自我进化能力的MLE-bench Lite基准测试中，M2.7的表现令人意外地与几家海外大厂模型持平。

M2.7模型在24小时迭代中奖牌获取率变化折线图

在MLE Lite涵盖的22道高难度竞赛题目中，MiniMax M2.7一举拿下了9枚金牌。

MLE Lite竞赛详情数据表格截图

从这些成绩来看，MiniMax这次在推动模型自我进化训练方面，确实是下了真功夫。

Office复杂任务处理实测

官方主推的另一个亮点是复杂Office任务处理能力，尤其是Excel，宣称能支持复杂数据操作、竞赛题型乃至金融分析任务。

M2.7模型环境交互能力说明文本截图

既然官方如此自信，我自然要实测一番。我直接祭出了一份数据量巨大的Excel表：山东省2022年至2024年的高考专业录取分数线记录，总计超过34000行数据。

山东高考志愿填报大数据表格截图

我将这个文件直接扔给M2.7，要求它：“帮我分析趋势，出图，并告诉我哪些专业分数线在上涨。”

向AI提出分析Excel数据需求的对话截图

说实话，我心里并没抱太高期望，毕竟这份表格在我自己的电脑上打开都会卡顿片刻。但结果出乎意料：它不仅完成了分析，还顺手生成了一份包含可视化图表的分析报告网页。

Claude Code生成的数据分析报告核心发现截图

专业分数线涨幅与跌幅排行榜截图

它直接整理并分析了超过21000条专业数据，输出了核心统计、平均分趋势以及涨幅最大的专业排名。这个表现，确实有点东西。

山东高考分数线趋势分析报告可视化图表

专业分数变化排名的部分数据表格截图

网页开发与“马嘉祺”事件

前一阵子，M2.5版本在网上有一个广为流传的“Bug”：MiniMax的模型认不出“马嘉祺”这三个字。 甚至有人调侃，以后在OpenRouter上遇到匿名模型，如果它不认识“马嘉祺”，那大概率就是MiniMax家的。

关于MiniMax模型不认识“马嘉祺”的社交媒体讨论截图

M2.7版本官方宣称已对此问题做了专项优化。实测发现，它现在确实认识了。

AI正确回答“马嘉祺是谁”的对话截图

但之前“不认识偶像”的抽象操作，无疑对马嘉祺粉丝造成了极大的心理伤害。所以，我决定让M2.7来亲手制作一个向马嘉祺粉丝“道歉”的网站，要求诚意满满，具备完整的交互功能。

向AI提出制作粉丝网站需求的详细说明截图

生成网站的第一眼观感还不错，页面设计、视觉风格都算过关。

生成的马嘉祺粉丝网站首页设计截图

网站人物介绍模块的六宫格布局截图

但当我打开“影像画廊”页面时，发现了一个小插曲：MCP（模型控制程序）在联网抓取图片时似乎用错了图源，导致画廊里出现了一些无关图片。

首次生成的网站影像画廊页面，图片有误

不过这属于小问题，让它重新修正后，效果就非常不错了。画廊采用干净的瀑布流布局，图片支持点击放大，交互动画也很细腻。

修正后的网站影像画廊页面

画廊中单张马嘉祺舞台照片

当然，还有整个“道歉”网站的灵魂——一个巨大的、会动的“忏悔爱心”。用户每点击一次，爱心数字就会暴涨，并触发粒子爆炸动画。

动漫角色跪地，面前有“MINIMAX”道歉横幅

对不起，嘉祺粉丝，这次MiniMax看起来是认真在反省了！

角色扮演与性价比优势

最后聊聊角色扮演。说句真心话，这是我最认可MiniMax的一个方向，没有之一。

因为角色扮演比拼的从来不是“有多聪明”，而是“有多入戏”——能不能记住角色设定、接住人物对话、在长程交互中保持人格稳定。在这些场景下，我用MiniMax跑测试，还从未失望过。

多角色文字聊天对话界面截图

而且，它还有一个最硬核的优势：价格。每月最低仅需29元。 29元，现在一杯品牌咖啡都不止这个价了。这种“好用不贵”的性价比，确实很难让人拒绝。

MiniMax M2.7模型不同档位订阅套餐价格图

流泪猫猫头表情包配文“你真的！我哭死！”

够用，好用，用完还不心疼——这大概就是很多开发者选择它的核心原因。

顺带一提，官方这次还发布了一个开源彩蛋项目：OpenRoom。这是一个可以本地部署的沉浸式UI互动空间，接入M2.7的API后即可进行交互。它内置了音乐播放器、国际象棋、五子棋、个人日记、新闻聚合等多个“房间”，对话即驱动，角色甚至能主动与环境互动。结合M2.7原生的Agent能力、长期记忆和代码扩展性，你可以在其中构建完全属于自己的人工智能交互体验。感兴趣的朋友，不妨去云栈社区或开源平台搜索“OpenRoom”试试看。

总而言之，MiniMax M2.7这次的迭代，在Agent自主进化（Harness）、复杂任务处理（如Office分析）和性价比优势这几个核心点上，表现得相当扎实。它或许不是参数最大的模型，但在其设定的赛道内，确实称得上是一位实力强劲的“卷王”。

上一篇：Web3开发者如何备战EthCC 2026？一份涵盖安全审计与高效社交的参会指南
下一篇：OpenAI战略重组：将ChatGPT、Codex、Atlas合并为桌面端企业级AI助手

MiniMax, 大模型, AI代理, 智能办公, 机器学习