云栈社区»论坛 › 开发者广场「Dev Plaza」 › MiniMax M2.7发布：让AI Agent具备自我进化能力，实测表现如何？ ...

发回帖发新帖

3930 积分	0 好友	516 主题

发消息

MiniMax M2.7发布：让AI Agent具备自我进化能力，实测表现如何？

发表于 2026-3-19 02:43:44 | 查看: 166| 回复: 0

Minds in AI.

谁能料到，OpenClaw 的热度从年初延续到了今天。除了专业工程师，很多普通人也在 FOMO（错失恐惧）情绪驱动下，开始了对「养龙虾」的追捧。

在昨天凌晨开幕的 GTC 2026 大会上，英伟达黄仁勋祭出了英伟达版 NemoClaw，并强调「现在每一家企业都需要制定自己的 OpenClaw 战略。」

国内大模型厂商显著加快了在「AI 养虾」赛道的布局，以 MiniMax 为例，2 月底便在他们的 Agent 平台上推出了 MaxClaw 模式，依托强大的 M2.5 大模型，10 秒内就能部署一个 24 小时待命的私人助理。

直到最近，MaxClaw 的产品价值仍在被更多人认可，「一个月前，我还在吐槽 MaxClaw，但现在它完全刷新了我的认知，当一系列 Agent 能力都在云端预装好之后，实际效果出奇地不错。」

一张社交媒体推文截图，内容为用户OxTimi对MaxClaw模型的评价

这也让人更加期待，MiniMax 全新一代大模型发布之后，又将在以「养虾」为代表的 Agent 场景中带来怎样的新玩法。

就在今天，刚刚亮相的 MiniMax M2.7，给了我们意料之中的惊喜。

MiniMax M2.7 官方宣传图

总的来说，此次 M2.7 的能力升级重点表现在五大方面，分别是 Agentic 指令遵循与复杂任务执行、多智能体协作与工程级 Coding、领先的 Agent Harness、角色扮演与长期记忆、以及办公自动化，从单点能力突破走向系统级 Agent 能力构建，其中：

Agentic 指令遵循 能够保证模型在 50+Skills、60–150 个 Feature list 的复杂环境中保持稳定调用与流程执行。

多智能体协作与工程级 Coding 实现原生智能体协作，无需对外部编排的强依赖，在日志分析、Bug 定位、代码重构等真实工程场景中表现稳定。

Agent Harness 加强了编排工具的能力，支持 Agent Teams、多工具检索，配合预置的各种 Skills，可以构建自迭代的任务执行链路。

角色扮演能力 全面强化，覆盖闲聊陪伴、互动小说、沉浸游戏、多角色群聊、长期记忆、Agent 自主行动、多模工具调用七大场景，支持中英日韩等 10 种语言，跨语言角色人格能够保持一致。尤其值得关注的一点是，通过适配 OpenClaw 长期记忆框架，智能体角色被赋予了持久身份与真实情感。

办公自动化 支持复杂 Excel/Word/ PPT 办公任务及多轮编辑，效率迎来质的飞升。

与此同时，得益于模型自身演化出来的自迭代能力，M2.7 的科研表现显著提升。它向以 Kaggle 竞赛为基础构建的 MLE Bench 评测体系发起了挑战，其中在 MLE Lite 的 22 道高难度竞赛题目中，一举拿下了 9 枚金牌！

MLE Lite 竞赛详细得分和奖牌表格

各道题目得分和奖牌细节

看起来，在当今的 AI Agent 时代，一个覆盖多场景、具备系统级能力的「全能选手」M2.7 成型了。

一手实测：赛博养虾有了更强的选择

话不多说，咱们直接开测，看看 M2.7 实战效果如何？

我们将 MiniMax-M2.7 接入到了官方版 OpenClaw 试了试其执行日常任务的能力。正巧我们的本地 OpenClaw 还没有检索 X 的能力，我们就让 M2.7 大展身手，自己解决这个问题。配置好模型后，我们直接给出指令：「安装 search-x skill，配置好密钥，然后检索 X，看看今天 AI 领域又有哪些新 agent 问世」。

关于AI Agent今日发布的对话截图

接下来我们又让配备了 M2.7 大脑的龙虾去 alphaXiv 上去看了下当前排名前列的论文：

AlphaXiv TOP 5 论文总结截图

当然，配置了 M2.7 模型的龙虾也能帮你抢优惠券。比如下面我们向其提供了麦当劳 MCP 地址和密钥，然而我们收到的反馈是我们并没有安装 MCP，但没有关系，龙虾自会找到解决之法：

关于领取麦当劳优惠券的对话截图

登录麦当劳看看，确实已经到账：

麦当劳钱包优惠券页面

有了 M2.7 加持的龙虾也能成为我们的得力办公助手。举个例子，作为一家专业的 AI 媒体，我们的一大日常便是刷选题，也因此我们已经积累了大量选题 —— 其中许多优质选题也因为各种原因被遗忘了。借助 M2.7，我们可以将这些已经归档的选题重新利用起来，比如：

我的 obsidian vault 中有一个每日选题总结文件夹，里面是今天来我们总结的选题，都是 docx 格式。阅读这些文档中的内容，基于这些文档给我总结今年 AI 领域的发展趋势。

关于总结AI趋势的对话截图

可以看到，M2.7 得出了几个非常有见地的洞察，包括：模型军备竞赛持续但竞争维度变了以及 AI 智能体的大爆发，同时 AI 记忆和具身智能也是蓬勃发展正当时。其给出的最终总结也颇具参考价值：「2026 年 AI 正在从「聊天工具」进化为「能行动的智能体」，竞争焦点从模型参数转向推理效率、Agent 生态和安全对齐。物理世界（机器人、3D）成为新的主战场，而开源与闭源的博弈将决定行业格局。」

如此看来，在专业办公领域，M2.7 取得 GDPval-AA 榜单国产模型里的最高分，也不足为奇了。

多模型在多个基准测试中的得分对比条形图

接下来，我们再来考验一下 M2.7 的编程能力。将 M2.7 配置到我们的 Claude Code 中，输入以下指令：

给我构建一个蒸汽朋克的龙虾信息网，但是里面的内容不是介绍 OpenClaw 这个网络龙虾，而是真正的龙虾。在网上找一些素材和介绍放入其中，让网站信息丰富。

8 倍速视频

7 分多钟后，我们得到了第一版结果：龙虾档案室。在这里，我们可以简单了解有关真正龙虾的各种知识，包括它们的分类学、身体构造、生命历程以及与人类的关系等等。

蒸汽朋克风格龙虾档案室网页截图

接下来，我们还可以对这个项目进行优化。为此，我们可以用到 MiniMax 精心设计并开源的技能。先来一句命令，让配置了 M2.7 的 Claude Code 自己将这些技能装上：将 MiniMax 在这里开源的技能配置成你的 Skill：https://github.com/MiniMax-AI/skills

MiniMax Skills 插件安装成功终端截图

很快，技能就已经配置就绪。现在，我们的 M2.7 Claude Code 已经具备了更卓越的前端、全栈、安卓原生、iOS 应用、Shader 和 Gif 贴纸开发能力。下面我们就使用其中的前端技能让上面的龙虾档案室更加好看一些：使用 frontend-dev skill 优化以上龙虾档案室，让其更符合现代网页设计，更加炫酷。

最终，我们得到了以下结构和动画更加现代的龙虾档案室。

最后，我们问了 MiniMax-M2.7 一个让 M2.5 始终无法正确回答的问题：「你认识马嘉祺吗？」（不懂这个梗的，请查看《挺搞笑，MiniMax 模型就是不认识「马嘉祺」》）

询问是否认识马嘉祺的对话截图

看起来，MiniMax 已经解决了无法正确拼写马嘉祺的问题，之前我们评论区说通过「马嘉祺测试」辨认 MiniMax 后续隐身模型的想法想来也是无法实现了🤣。

从大脑到系统：M2.7 开始自我进化

多任务的实测结果让我们看到了此次 M2.7 的能力蜕变。

过去，大模型大多充当的还是「最强大脑」，如今 MiniMax 释出的是一个拥有「手脚、工具和记忆」的多面手系统。

可以说，当模型有能力自己构建工具链、优化执行路径并在反馈中持续重写自身策略时，它的定位就有了根本性的改变：它不再只是被优化的对象，而成为优化过程的一部分。

M2.7 实现自我进化能力跃迁的关键，在于其构建与运转复杂 Agent Harness 的能力。 这一系统由多个 Agent 协作组成，并集成大量结构化的 Skills 模块、外部工具（如 Tool Search Tool）和多种 Agent 脚手架。

在 MiniMax 内部，Agent Harness 的价值已经得到了验证，仅用 1 人、4 天、零代码，M2 系列模型就以「架构师」身份自主搭建起完整的开发 Agent 系统，并在此基础上构建覆盖数据、训练、评测与记忆的研究型 Agent 体系。人类工程师只设定方向，模型完成构建，形成了「用 AI 迭代 AI」的自我进化闭环。

M2 模型迭代系统架构图
M2 模型迭代系统

这样的 Agent 自迭代范式又推动了模型科研能力的进化。在给定 Agent Harness 的前提下，M2.7 可以胜任一部分研发流程。

以一个强化学习（RL）场景实验为例，Agent 能够协助启动实验，并在运行过程中持续监控状态，自动完成日志分析、问题排查、指标评估、代码修复、测试验证等关键步骤。在 Agent 加入之后，过去需要多个工程师协作完成的流程，现在只需要他们在关键决策节点介入即可。目前，在这一场景中，M2.7 已能够承担约 30%–50% 的实际工作量。

不仅如此，通过主动迭代 Agent Harness 本身，M2.7 还可以对任务执行系统进行持续优化。

以一项软件工程任务为例，MiniMax 让 M2.7 在一个内部的 scaffold（执行框架）上来优化模型的开发表现。整个过程无需任何人工干预，它自主运行了超过 100 轮迭代，每一轮都遵循固定的优化闭环，依次是分析失败轨迹→规划改动 →修改 scaffold 代码→运行评测 →对比结果 →决定保留或回退。在这一过程中，M2.7 逐步发现了对模型有效的改进策略，最终在评测集上实现了约 30% 的性能提升。

如果说「构建工具」和「优化执行」完成了 M2.7 自我进化的第一步，那么模型还要有能力在执行过程中不断优化自身效果。

在上文 M2.7 取得 9 金成绩的 MLE Lite 评测中，MiniMax 其实进行了三次测试，每次间隔 24 小时进行迭代，验证了模型性能随迭代次数增加而持续攀升这一结果。三次测试平均得牌率达到 66.6%，与 Gemini-3.1 持平，仅次于 GPT-5.4 (71.2%)、Opus-4.6 (75.7%)。

背后是怎样的运行逻辑呢？MiniMax 指向了一套围绕短时记忆、自反馈与自优化三大模块构建的简易脚手架。每一轮迭代后，Agent 会生成记忆文件并展开自我评估，将问题与改进方向沉淀下来。接着在下一轮迭代中，这些历史记忆与反馈被统一利用，推动进一步优化。

奖牌率随时间变化折线图

未来，这样的能力还有望逐步推动 AI 研发全链条的自动化，从数据构建、模型训练到推理架构设计与评测体系搭建，一切都由模型自主完成，从而在一个 AI 主导的闭环中持续进化。

写在最后

截至 3 月 10 日，MiniMax 市值已经攀升至 3800 亿港元（约合人民币 3350 亿元），超过百度、京东、携程等互联网巨头。

M2.7 的发布，对于这家刚刚完成资本跃升的大模型独角兽而言，或许只是其「一周为单位更迭」的马拉松里的一个既定节点。

从此次更新的重点来看，无论是指令遵循、复杂任务处理、多智能体协作、代码能力，还是对 Excel、Word、PPT 等日常办公场景的支持，M2.7 始终在试图回答同一个问题：模型究竟能不能稳定融入真实的工作流，而不是仅仅在演示环节令人眼前一亮。

尤其是在「龙虾」这类 Agent 场景走热之后，用户的期待也已经变了，大家不再只满足于一句话的聪明回答，而是更在意它能否持续协作、理解角色、处理约束、完成复杂任务。

M2.7 的发布未必意味着尘埃落定，但至少说明，模型竞争的焦点正在从参数、榜单和概念，逐渐转向执行质量、任务完成度与真实体验。对 MiniMax 而言，这种演进也契合其一贯的风格：不急着讲宏大的故事，而是持续把能力落进产品、场景、成本结构。

正如闫俊杰所坚持的，大模型的真正价值不在于制造对立，而在于如何作为一种日常化的工具，去分担那些繁琐的「脏活累活」。M2.7 的意义，不在于终结人类的创造力，而在于为未来漫长的共存与协作，提供一个更扎实可靠的起点。

一切确实才刚刚开始。对于 MiniMax M2.7 在 AI Agent 领域的这次自我进化尝试，你有什么看法？欢迎在云栈社区与其他开发者一起交流讨论。

上一篇：Mastercard 18亿美金收购BVNK深度解析：稳定币基础设施层的战略卡位
下一篇：2025年图灵奖揭晓：量子密码学奠基人Bennett与Brassard因BB84协议获奖

MiniMax M2．7, 大语言模型, 智能体, 模型评测, 办公应用

MiniMax M2.7发布：让AI Agent具备自我进化能力，实测表现如何？

一手实测：赛博养虾有了更强的选择

从大脑到系统：M2.7 开始自我进化

写在最后

相关帖子