年后这波AI更新潮,节奏真有点失控。
OpenClaw的热度还没完全过去,各路宣称年度最强的模型又开始排队涌现。而某个熟悉的蓝色小鲸鱼,却一度没了动静,这让我倍感疑惑。好在昨天打开邮件时,忽然看到一条推送——MiniMax终于更新了,发布了全新的旗舰模型:M2.7。
好,我最看好的性价比卷王,这次你又带来了什么新东西?
打开更新文档,更新内容还真不少!

文档提到了“Agent Harness”这个概念,宣称能让AI代理进行自主优化,核心包括短时记忆、自反馈以及自优化模块。说实话,本以为这次的M2.7只是个常规小迭代,毕竟距离上一版才过去一个多月。

但看到官网那句“开启模型的自我进化”,我的好奇心被彻底勾了起来。这次更新的含金量到底有多高?

所以今天,我们来一起深入看看,MiniMax M2.7究竟藏了什么大招。
基础能力更新
这次M2.7的更新覆盖了六个主要方向。
首先是Agentic指令遵循能力。官方表示M2.7对此做了专项优化,即使面对包含50多个技能、60-150项功能的复杂清单,它也能稳扎稳打,一步步将任务分解执行完毕。说人话就是:多步骤、长流程的任务,它也能跑完不翻车。
其次是代码能力的持续增强,可以看作是M2.5基础上的二次迭代和升级。

据官方介绍,此次优化还覆盖了日志分析、Bug定位、代码重构、代码安全、机器学习、安卓开发等多个具体方向。
看到这里,可能有人会说,这不就是常规的参数迭代吗?但在我看来,M2.7是站在一个本就不低的起点上,又向上迈进了一步。 要知道,它的前代M2.5在SWE-Bench Verified(真实世界软件工程基准)测试中,已经达到了行业第一梯队的水平。

当然,肯定还会有人说:那还是不如Claude啊。但需要认清一个事实:MiniMax的M2系列,激活参数量仅为10B(百亿)。它没有大厂动辄千亿的训练数据堆砌,本就不是一个量级的选手。这就好比让一个60公斤级的拳手,硬上擂台去打120公斤级的比赛,然后说他不“行”。

因此,判断的维度不应该是“有没有赢过Claude”。便宜、好用、够用,这三个条件若能同时满足,对大多数开发者和用户而言,就已经足够了。
Agent Harness:模型自我进化的操作系统
然后是官方本次主推的Agent Harness能力。在深入之前,有必要先厘清这个概念,否则很容易看不懂MiniMax在说什么。
什么是Agent Harness?
可以做个简单类比:模型是引擎,那么Harness就是整辆车。你也可以将整个AI系统理解为一台电脑——大模型相当于CPU,提供核心计算能力;上下文窗口等同于内存,容量有上限;而Agent则是你桌面上的各种应用,负责完成具体任务。
那么,Agent Harness就是操作系统,是底层架构,负责调度资源、管理进程、确保程序顺利运行。 它决定了模型能“看到”什么、能调用什么工具、以及执行失败后该如何应对。没有操作系统,再强的CPU也只是一块无法工作的硅片。
不过,目前行业内对于Agent Harness尚无统一标准,各家都在“造自己的车”。

例如,Claude Code(Anthropic)的思路是让模型自身来控制执行循环,而非由外部代码驱动;Cursor选择将一切抽象映射为文件,并针对不同底层模型专门优化其Harness;而Manus则死磕KV缓存效率,旨在让大模型能够更高效地调用常驻工具。
那么MiniMax这次的思路是什么?答案是:让模型自己来构建Harness,然后用这个Harness像套娃一样,反过来优化模型自身。

简单说,就是人类负责定方向,模型负责造工具,造好的工具再加速模型自身的成长。一个颇具说服力的案例是:仅用1个人、4天时间、零人工编码,M2.7以解决方案架构师的身份,自主搭建了一个完整的开发Agent系统,涵盖了持续集成(CI)、代码审查、测试的全流程。

在衡量模型自我进化能力的MLE-bench Lite基准测试中,M2.7的表现令人意外地与几家海外大厂模型持平。

在MLE Lite涵盖的22道高难度竞赛题目中,MiniMax M2.7一举拿下了9枚金牌。

从这些成绩来看,MiniMax这次在推动模型自我进化训练方面,确实是下了真功夫。
Office复杂任务处理实测
官方主推的另一个亮点是复杂Office任务处理能力,尤其是Excel,宣称能支持复杂数据操作、竞赛题型乃至金融分析任务。

既然官方如此自信,我自然要实测一番。我直接祭出了一份数据量巨大的Excel表:山东省2022年至2024年的高考专业录取分数线记录,总计超过34000行数据。

我将这个文件直接扔给M2.7,要求它:“帮我分析趋势,出图,并告诉我哪些专业分数线在上涨。”

说实话,我心里并没抱太高期望,毕竟这份表格在我自己的电脑上打开都会卡顿片刻。但结果出乎意料:它不仅完成了分析,还顺手生成了一份包含可视化图表的分析报告网页。


它直接整理并分析了超过21000条专业数据,输出了核心统计、平均分趋势以及涨幅最大的专业排名。这个表现,确实有点东西。


网页开发与“马嘉祺”事件
前一阵子,M2.5版本在网上有一个广为流传的“Bug”:MiniMax的模型认不出“马嘉祺”这三个字。 甚至有人调侃,以后在OpenRouter上遇到匿名模型,如果它不认识“马嘉祺”,那大概率就是MiniMax家的。

M2.7版本官方宣称已对此问题做了专项优化。实测发现,它现在确实认识了。

但之前“不认识偶像”的抽象操作,无疑对马嘉祺粉丝造成了极大的心理伤害。所以,我决定让M2.7来亲手制作一个向马嘉祺粉丝“道歉”的网站,要求诚意满满,具备完整的交互功能。

生成网站的第一眼观感还不错,页面设计、视觉风格都算过关。


但当我打开“影像画廊”页面时,发现了一个小插曲:MCP(模型控制程序)在联网抓取图片时似乎用错了图源,导致画廊里出现了一些无关图片。

不过这属于小问题,让它重新修正后,效果就非常不错了。画廊采用干净的瀑布流布局,图片支持点击放大,交互动画也很细腻。


当然,还有整个“道歉”网站的灵魂——一个巨大的、会动的“忏悔爱心”。用户每点击一次,爱心数字就会暴涨,并触发粒子爆炸动画。

对不起,嘉祺粉丝,这次MiniMax看起来是认真在反省了!
角色扮演与性价比优势
最后聊聊角色扮演。说句真心话,这是我最认可MiniMax的一个方向,没有之一。
因为角色扮演比拼的从来不是“有多聪明”,而是“有多入戏”——能不能记住角色设定、接住人物对话、在长程交互中保持人格稳定。在这些场景下,我用MiniMax跑测试,还从未失望过。

而且,它还有一个最硬核的优势:价格。每月最低仅需29元。 29元,现在一杯品牌咖啡都不止这个价了。这种“好用不贵”的性价比,确实很难让人拒绝。


够用,好用,用完还不心疼——这大概就是很多开发者选择它的核心原因。
顺带一提,官方这次还发布了一个开源彩蛋项目:OpenRoom。这是一个可以本地部署的沉浸式UI互动空间,接入M2.7的API后即可进行交互。它内置了音乐播放器、国际象棋、五子棋、个人日记、新闻聚合等多个“房间”,对话即驱动,角色甚至能主动与环境互动。结合M2.7原生的Agent能力、长期记忆和代码扩展性,你可以在其中构建完全属于自己的人工智能交互体验。感兴趣的朋友,不妨去云栈社区或开源平台搜索“OpenRoom”试试看。
总而言之,MiniMax M2.7这次的迭代,在Agent自主进化(Harness)、复杂任务处理(如Office分析)和性价比优势这几个核心点上,表现得相当扎实。它或许不是参数最大的模型,但在其设定的赛道内,确实称得上是一位实力强劲的“卷王”。