找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2414

积分

0

好友

322

主题
发表于 1 小时前 | 查看: 1| 回复: 0

年后这波AI更新潮,节奏真有点失控。

OpenClaw的热度还没完全过去,各路宣称年度最强的模型又开始排队涌现。而某个熟悉的蓝色小鲸鱼,却一度没了动静,这让我倍感疑惑。好在昨天打开邮件时,忽然看到一条推送——MiniMax终于更新了,发布了全新的旗舰模型:M2.7。

好,我最看好的性价比卷王,这次你又带来了什么新东西?

打开更新文档,更新内容还真不少!

两位人物惊讶地看着一份文件,背景有水印“MINIMAX”

文档提到了“Agent Harness”这个概念,宣称能让AI代理进行自主优化,核心包括短时记忆、自反馈以及自优化模块。说实话,本以为这次的M2.7只是个常规小迭代,毕竟距离上一版才过去一个多月。

MiniMax M2.7官网宣传页面截图

但看到官网那句“开启模型的自我进化”,我的好奇心被彻底勾了起来。这次更新的含金量到底有多高?

终端对话界面,询问并回答当前使用的是MiniMax-M2.7模型

所以今天,我们来一起深入看看,MiniMax M2.7究竟藏了什么大招。

基础能力更新

这次M2.7的更新覆盖了六个主要方向。

首先是Agentic指令遵循能力。官方表示M2.7对此做了专项优化,即使面对包含50多个技能、60-150项功能的复杂清单,它也能稳扎稳打,一步步将任务分解执行完毕。说人话就是:多步骤、长流程的任务,它也能跑完不翻车。

其次是代码能力的持续增强,可以看作是M2.5基础上的二次迭代和升级。

多组AI模型基准测试横向条形图对比

据官方介绍,此次优化还覆盖了日志分析、Bug定位、代码重构、代码安全、机器学习、安卓开发等多个具体方向。

看到这里,可能有人会说,这不就是常规的参数迭代吗?但在我看来,M2.7是站在一个本就不低的起点上,又向上迈进了一步。 要知道,它的前代M2.5在SWE-Bench Verified(真实世界软件工程基准)测试中,已经达到了行业第一梯队的水平。

编程能力对比条形图,显示MiniMax M2.5等模型的得分

当然,肯定还会有人说:那还是不如Claude啊。但需要认清一个事实:MiniMax的M2系列,激活参数量仅为10B(百亿)。它没有大厂动辄千亿的训练数据堆砌,本就不是一个量级的选手。这就好比让一个60公斤级的拳手,硬上擂台去打120公斤级的比赛,然后说他不“行”。

熊猫头表情包配文“你去给我打宿傩”

因此,判断的维度不应该是“有没有赢过Claude”。便宜、好用、够用,这三个条件若能同时满足,对大多数开发者和用户而言,就已经足够了。

Agent Harness:模型自我进化的操作系统

然后是官方本次主推的Agent Harness能力。在深入之前,有必要先厘清这个概念,否则很容易看不懂MiniMax在说什么。

什么是Agent Harness?

可以做个简单类比:模型是引擎,那么Harness就是整辆车。你也可以将整个AI系统理解为一台电脑——大模型相当于CPU,提供核心计算能力;上下文窗口等同于内存,容量有上限;而Agent则是你桌面上的各种应用,负责完成具体任务。

那么,Agent Harness就是操作系统,是底层架构,负责调度资源、管理进程、确保程序顺利运行。 它决定了模型能“看到”什么、能调用什么工具、以及执行失败后该如何应对。没有操作系统,再强的CPU也只是一块无法工作的硅片。

不过,目前行业内对于Agent Harness尚无统一标准,各家都在“造自己的车”。

AI代理开发工具演进路径示意图

例如,Claude Code(Anthropic)的思路是让模型自身来控制执行循环,而非由外部代码驱动;Cursor选择将一切抽象映射为文件,并针对不同底层模型专门优化其Harness;而Manus则死磕KV缓存效率,旨在让大模型能够更高效地调用常驻工具。

那么MiniMax这次的思路是什么?答案是:让模型自己来构建Harness,然后用这个Harness像套娃一样,反过来优化模型自身。

俄罗斯套娃图片

简单说,就是人类负责定方向,模型负责造工具,造好的工具再加速模型自身的成长。一个颇具说服力的案例是:仅用1个人、4天时间、零人工编码,M2.7以解决方案架构师的身份,自主搭建了一个完整的开发Agent系统,涵盖了持续集成(CI)、代码审查、测试的全流程。

M2*模型迭代系统架构与工作流示意图

在衡量模型自我进化能力的MLE-bench Lite基准测试中,M2.7的表现令人意外地与几家海外大厂模型持平。

M2.7模型在24小时迭代中奖牌获取率变化折线图

在MLE Lite涵盖的22道高难度竞赛题目中,MiniMax M2.7一举拿下了9枚金牌。

MLE Lite竞赛详情数据表格截图

从这些成绩来看,MiniMax这次在推动模型自我进化训练方面,确实是下了真功夫。

Office复杂任务处理实测

官方主推的另一个亮点是复杂Office任务处理能力,尤其是Excel,宣称能支持复杂数据操作、竞赛题型乃至金融分析任务。

M2.7模型环境交互能力说明文本截图

既然官方如此自信,我自然要实测一番。我直接祭出了一份数据量巨大的Excel表:山东省2022年至2024年的高考专业录取分数线记录,总计超过34000行数据。

山东高考志愿填报大数据表格截图

我将这个文件直接扔给M2.7,要求它:“帮我分析趋势,出图,并告诉我哪些专业分数线在上涨。”

向AI提出分析Excel数据需求的对话截图

说实话,我心里并没抱太高期望,毕竟这份表格在我自己的电脑上打开都会卡顿片刻。但结果出乎意料:它不仅完成了分析,还顺手生成了一份包含可视化图表的分析报告网页。

Claude Code生成的数据分析报告核心发现截图

专业分数线涨幅与跌幅排行榜截图

它直接整理并分析了超过21000条专业数据,输出了核心统计、平均分趋势以及涨幅最大的专业排名。这个表现,确实有点东西。

山东高考分数线趋势分析报告可视化图表

专业分数变化排名的部分数据表格截图

网页开发与“马嘉祺”事件

前一阵子,M2.5版本在网上有一个广为流传的“Bug”:MiniMax的模型认不出“马嘉祺”这三个字。 甚至有人调侃,以后在OpenRouter上遇到匿名模型,如果它不认识“马嘉祺”,那大概率就是MiniMax家的。

关于MiniMax模型不认识“马嘉祺”的社交媒体讨论截图

M2.7版本官方宣称已对此问题做了专项优化。实测发现,它现在确实认识了。

AI正确回答“马嘉祺是谁”的对话截图

但之前“不认识偶像”的抽象操作,无疑对马嘉祺粉丝造成了极大的心理伤害。所以,我决定让M2.7来亲手制作一个向马嘉祺粉丝“道歉”的网站,要求诚意满满,具备完整的交互功能。

向AI提出制作粉丝网站需求的详细说明截图

生成网站的第一眼观感还不错,页面设计、视觉风格都算过关。

生成的马嘉祺粉丝网站首页设计截图

网站人物介绍模块的六宫格布局截图

但当我打开“影像画廊”页面时,发现了一个小插曲:MCP(模型控制程序)在联网抓取图片时似乎用错了图源,导致画廊里出现了一些无关图片。

首次生成的网站影像画廊页面,图片有误

不过这属于小问题,让它重新修正后,效果就非常不错了。画廊采用干净的瀑布流布局,图片支持点击放大,交互动画也很细腻。

修正后的网站影像画廊页面

画廊中单张马嘉祺舞台照片

当然,还有整个“道歉”网站的灵魂——一个巨大的、会动的“忏悔爱心”。用户每点击一次,爱心数字就会暴涨,并触发粒子爆炸动画。

动漫角色跪地,面前有“MINIMAX”道歉横幅

对不起,嘉祺粉丝,这次MiniMax看起来是认真在反省了!

角色扮演与性价比优势

最后聊聊角色扮演。说句真心话,这是我最认可MiniMax的一个方向,没有之一。

因为角色扮演比拼的从来不是“有多聪明”,而是“有多入戏”——能不能记住角色设定、接住人物对话、在长程交互中保持人格稳定。在这些场景下,我用MiniMax跑测试,还从未失望过。

多角色文字聊天对话界面截图

而且,它还有一个最硬核的优势:价格。每月最低仅需29元。 29元,现在一杯品牌咖啡都不止这个价了。这种“好用不贵”的性价比,确实很难让人拒绝。

MiniMax M2.7模型不同档位订阅套餐价格图

流泪猫猫头表情包配文“你真的!我哭死!”

够用,好用,用完还不心疼——这大概就是很多开发者选择它的核心原因。

顺带一提,官方这次还发布了一个开源彩蛋项目:OpenRoom。这是一个可以本地部署的沉浸式UI互动空间,接入M2.7的API后即可进行交互。它内置了音乐播放器、国际象棋、五子棋、个人日记、新闻聚合等多个“房间”,对话即驱动,角色甚至能主动与环境互动。结合M2.7原生的Agent能力、长期记忆和代码扩展性,你可以在其中构建完全属于自己的人工智能交互体验。感兴趣的朋友,不妨去云栈社区或开源平台搜索“OpenRoom”试试看。

总而言之,MiniMax M2.7这次的迭代,在Agent自主进化(Harness)、复杂任务处理(如Office分析)和性价比优势这几个核心点上,表现得相当扎实。它或许不是参数最大的模型,但在其设定的赛道内,确实称得上是一位实力强劲的“卷王”。




上一篇:Web3开发者如何备战EthCC 2026?一份涵盖安全审计与高效社交的参会指南
下一篇:OpenAI战略重组:将ChatGPT、Codex、Atlas合并为桌面端企业级AI助手
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-21 04:05 , Processed in 0.516579 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表