找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2260

积分

0

好友

304

主题
发表于 2 小时前 | 查看: 2| 回复: 0

MiniMax M2.7 庆祝与介绍

最近,MiniMax M2.7 模型的发布在全球开发者社区中引发了广泛关注。其展示出的多智能体原生协作与自我进化能力,成为讨论的焦点。海外开发者社区的反馈尤为热烈。

社交媒体讨论截图1
社交媒体讨论截图2
社交媒体讨论截图3

有开发者分享体验,称用其构建智能体应用的成本仅为使用同类顶级模型的十分之一,性价比突出。
社交媒体讨论截图4

在技术指标上,有分析指出,开源模型的能力正快速逼近闭源模型。例如,MiniMax M2.7 的幻觉率相比前代大幅降低,这一进步速度引人注目。
幻觉率数据分析截图

在近期公布的 PinchBench 榜单上,MiniMax M2.7 取得了全球第四、国产模型第一的成绩。
PinchBench 排行榜截图

这股热度与其前代模型 M2.5 发布时的情景相似。根据 OpenRouter 平台数据,全球大模型的 Token 年化吞吐量已突破千万亿级别,而 MiniMax M2.5 曾连续数周位居使用量前列。
OpenRouter 模型使用量排名

近期,随着 OpenClaw 生态受到更多关注,作为其底层算力支持厂商之一的 MiniMax 推出的 M2.7,因其复杂的任务执行与智能体协作能力,显得恰逢其时。它给用户的感觉,更像是一个能够参与自我迭代的“团队成员”。


多智能体协同:原生协作的 Cowork Agent

MiniMax M2.7 的一个重要特性是原生的多智能体协作能力。模型需要能稳定锚定不同角色身份,在复杂流程中自主决策,这些能力已内化为模型的一部分。

多智能体协作开发界面

为了测试这一点,可以让模型构建一个多 Agent 狼人杀模拟系统。这是一个复杂的工程问题,考验模型的长链路任务规划、多 Agent 建模、角色一致性、推理博弈等综合能力。模型需要设计出包含主持人、狼人、预言家、女巫等独立 Agent 的系统,每个 Agent 需具备独立的记忆、推理和决策能力。

狼人杀多Agent系统文档
狼人杀游戏界面 v1

为了进一步测试模型整合外部技能的能力,可以向其提供开源的 UI Skills 资源。模型在学习这些 开源项目 后,能够生成视觉效果显著提升的新版本,同时保持底层多 Agent 协作逻辑的稳定。
技能列表截图
学习开源技能的对话截图
狼人杀游戏新增功能列表
狼人杀游戏界面 v2

这种“实践-总结-分享”的能力链路,也在 MiniMax 的 MaxClaw 产品中进行了验证。官方已开源数个核心 Skills,并计划将上万个“专家”以 Skills 形式开放,潜力巨大。
专家社区界面
GitHub Skills 仓库
Skills 介绍界面

以社区中热门的“多Agent投研团队”为例,可以测试其协作能力。当询问“英伟达近期的市场情绪和新闻面”时,多个 Agent 会分工协作,从新闻分析师、情绪分析师等不同视角处理信息。
多Agent投研团队界面
对话开始截图
Agent分工执行截图
分项报告输出

最后,由“团队领导者”整合输出一份更为全面的综合分析报告,体现了多智能体协作相较于单一智能体的优势。
整合分析报告

(注:本段示例不构成任何投资建议)


工程与编码能力:从写代码到解决问题

在真实的工程场景中,M2.7 展现出优秀的综合推理与问题解决能力,而不仅仅是代码生成。

例如,给定一个电商系统“创建订单接口”的部分关键代码和线上错误日志,要求分析下单失败的根本原因。模型能迅速定位问题:PriceService.get_price() 对不存在的 SKU(如 SKU-1003)返回 None,而 create_order 函数未做空值检查直接使用,导致 TypeError
代码问题分析报告

另一个测试是设计一个名为《龙虾逃脱计划》的互动网页游戏。用户需通过网页操作帮助一只龙虾做决策,最终达成不同结局(如逃回大海、被做成菜肴等)。模型能够独立完成该应用的代码编写与部署。
游戏介绍与链接
游戏界面截图


复杂办公自动化:以金融分析为例

M2.7 在 Office 文件处理,尤其是金融分析场景下的能力也得到增强。给定某上市公司近三年的财务数据,要求完成财务分析、预测及估值。

模型能够创建包含盈利能力、收益能力、财务结构、现金流、估值分析及未来预测的专业财务分析报告,对金融从业者具有实用价值。
原始财务数据表格
财务分析报告结果


自我进化的探索:模型驱动模型迭代

除了应用层能力,MiniMax 团队在 M2.7 上尝试构建了一个“模型驱动模型进化”的体系,核心是一个研究型 Agent Harness。团队让模型以解决方案架构师身份,用极低的人力成本自主搭建了包含 CI、测试、代码审查的开发环境。
M2*模型迭代系统架构图

在这个系统中,人类研究员提出方向(如一个强化学习实验方法),模型则承担从文献调研、实验方案设计到数据流水线搭建、实验执行与监控、日志分析、问题排查乃至代码修改与提交的大部分工作流。据称,模型承担了相关流程中 30% 到 50% 的工作。

更进一步的尝试是让 M2.7 直接参与优化其自身的开发脚手架(scaffold)。模型自主运行了“分析失败轨迹 → 规划改动 → 修改代码 → 运行评测 → 对比结果 → 决定保留或回退”的迭代循环超过 100 轮,并发现了有效优化,最终在评测集上效果提升了 30%。

在科研能力验证上,团队基于一个包含短时记忆、自反馈与自优化模块的简易脚手架,让 M2.7 在 MLE Bench Lite 的 22 个机器学习任务中持续迭代。
奖牌获取率随时间变化图表

实验结果显示,M2.7 的表现随时间持续提升,最佳成绩与部分顶级模型持平,验证了其在闭环系统中通过记忆与反馈机制持续优化自身表现的能力。
MLE Lite竞赛详细数据表

这次 M2.7 的发布,不仅展示了其在多智能体协作、复杂任务执行方面的强大能力,更重要的是为 人工智能 模型的“自我进化”提供了一种实践范例。对于开发者而言,这意味着一个更高效、更具性价比的智能体构建工具的出现。想了解更多前沿的 AI 技术动态和开发者实践,欢迎关注 云栈社区 的相关讨论。

参考资料:
MiniMax M2.7: 开启模型的自我进化




上一篇:OpenAI计划推出整合ChatGPT与Codex的桌面超级应用
下一篇:Anthropic 8万人AI调研报告:生产力提升与认知衰退的双重现实
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-21 03:03 , Processed in 0.653566 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表