过去这两天,国内大模型领域的焦点,不再是哪家又刷了榜单或者堆了参数,而是两家公司几乎在同一时间窗口,抛出了两套旗帜鲜明却又相互竞争的 Agent 叙事。
一套来自 MiniMax。
它在 2026 年 3 月 18 日发布了 MiniMax M2.7,核心叙事不是“更强的聊天模型”,而是“第一个深度参与自身迭代的模型”。它想证明的不是自己会答题,而是能否进入研发闭环,去帮团队做实验、改脚手架、优化训练流程、推动模型继续变强。换句话说,MiniMax 想把 M2.7 塑造成一个“会参与创造下一代模型的模型”。
另一套来自小米。
小米在 2026 年 3 月 18 日上线 MiMo-V2-Pro 官方页,并在 3 19 日被中文科技媒体集中报道。它的叙事更加直接,也更像产品经理语言:总参数超 1T,激活参数 42B,1M 上下文,面向 Agent 场景深度优化,已经可以做 OpenClaw 这类通用 Agent 框架的原生大脑。而且它没有只停留在“官宣”,还把此前在 OpenRouter 上匿名走红的 Hunter Alpha 认领成了 MiMo-V2-Pro 的测试版本。
这两场发布放在一起看,意义非常大。
因为它们共同说明了一件事:2026 年的大模型竞争,中心已经不是 Chat,而是 Agent;不是“回答得像不像人”,而是“能不能稳定完成长链路任务”;不是 demo 漂不漂亮,而是能不能在真实脚手架里跑完一件事”。
但更有意思的是,虽然它们都喊着 Agent,这两家真正下注的方向并不一样。
- MiniMax 的重点是“模型如何参与组织和模型自己的进化”
- 小米的重点是“模型如何成为通用 Agent 基础设施中的高性价比生产引擎”
所以,这篇文章不打算复述新闻,而是想回答 5 个更关键的问题:
- MiniMax M2.7 和 MiMo-V2-Pro 到底分别发布了什么?
- 它们各自最强的点,究竟是技术点、产品点,还是叙事点?
- 两家的 benchmark 到底哪些已经比较扎实,哪些还需要更多时间验证?
- 如果你真要把它们接进 Agent 框架,哪个更值得现在上手?
- 这两场发布,对中国大模型公司接下来一年的竞争意味着什么?
为了先把最容易比较的硬信息看清,我们可以先看一张总览表:
| 维度 |
MiniMax M2.7 |
小米 MiMo-V2-Pro |
| 首发时间 |
2026-03-18 |
2026-03-18 |
| 官方核心定位 |
自进化导向的 Agent 模型 |
面向真实 Agent 工作负载的旗舰基座模型 |
| 上下文 |
约 200K |
1M |
| 参数信息 |
官方新闻页未集中披露;OpenRouter 侧主打能力与价格 |
总参数超 1T,激活参数 42B |
| 价格 |
输入 $0.30/M,输出$1.20/M |
输入 $1/M,输出$3/M 起 |
| 主要卖点 |
自进化、研究 Agent harness、Office 交付、复杂 Skill 协同 |
长上下文、Hybrid Attention、OpenClaw 适配、真实调用验证 |
| 更适合关注的人 |
关注 AI-native 组织与知识工作 Agent 的人 |
关注 OpenClaw / Cline / OpenCode 等生产框架接入的人 |
第一部分:MiniMax M2.7 到底在卖什么?
如果只看标题,MiniMax M2.7 最抓人的地方是那句:“Early Echoes of Self-Evolution”。
这是个很聪明的命名。因为它没有直接说“我们已经实现了完全自治的自我进化”,而是说“我们已经听到了自进化的回声”。这实际上是在同时完成两件事:
- 一方面,它把想象空间拉得很高,让人直接联想到“AI 参与训练 AI”
- 另一方面,它又给自己保留了工程上非常现实的退路,承认当前阶段仍然是研究员设定目标、人类做关键决策、模型负责大段执行
从官方页面披露的信息看,M2.7 最重要的卖点有四层。
1. 它不是单纯的代码模型,而是一个“组织级 Agent”候选
MiniMax 官方反复强调,M2.7 被用于构建研究 Agent harness,服务于内部多个研究项目组。这个 harness 支持数据流水线、训练环境、基础设施、跨团队协作和持久记忆。官方给出的典型例子,是 RL 团队研究员先和 Agent 讨论实验想法,然后由 Agent 跟踪实验规范、拉数据、启动实验、监控日志、触发调试、做指标分析、修代码、提 MR、跑 smoke test。
官方声称,在这样的工作流里,M2.7 可以承担 30% 到 50% 的流程。
这里最值得注意的,不是这个百分比本身,而是 MiniMax 在讲一件过去很少有公司敢公开强调的事:他们想让模型直接进入“研究生产系统”,而不是停留在“辅助研究员写点脚本”的层面。
这意味着 MiniMax 对 M2.7 的定位,已经不只是“更好的 Claude 替代品”,而是一个面向内部研发组织协作的 agent substrate。
2. 它的 benchmark 叙事,明显朝“真实工程任务”倾斜
官方页给出了一组相当密集的指标:
SWE-Pro:56.22%
VIBE-Pro:55.6%
Terminal Bench 2:57.0%
GDPval-AA Elo:1495
Toolathon:46.3%
MM Claw:62.7%
SWE Multilingual:76.5
Multi SWE Bench:52.7
如果把这些数字整理成表,会更容易看出 M2.7 的发力重心:
| 指标 |
数值 |
更接近哪类能力 |
| SWE-Pro |
56.22% |
真实软件工程 |
| VIBE-Pro |
55.6% |
端到端项目交付 |
| Terminal Bench 2 |
57.0% |
复杂终端与系统理解 |
| SWE Multilingual |
76.5 |
多语言工程能力 |
| Multi SWE Bench |
52.7 |
多项目/多仓库工程能力 |
| GDPval-AA |
1495 Elo |
专业办公与交付能力 |
| Toolathon |
46.3% |
工具调用与环境交互 |
| MM Claw |
62.7% |
面向真实 Agent 任务的综合能力 |
这组指标背后的共同点很明确:尽量绕开纯问答榜单,转向“要不要真的操作环境、要不要真的调工具、要不要真的完成交付”。
这也是我认为 M2.7 这次发布最成熟的一点。MiniMax 没有把全部篇幅花在 MMLU、AIME 这类“智商证明题”上,而是把焦点放在了 live debugging、office deliverables、tool adherence、多轮编辑、复杂 skill 调用上。它想告诉开发者和企业用户:这不是个只会聊天的模型,这是个在终端、Office 套件、复杂 Skill 框架里也能干活的模型。
3. 它把“办公室生产力”提到了和 coding 同等重要的位置
这是 MiniMax 和很多纯 coding 叙事模型很不一样的地方。
M2.7 不只讲代码,还重点讲 Word、Excel、PPT 的复杂编辑与交付能力。官方说它在 GDPval-AA 上拿到 1495 Elo,并能在有 40 个复杂 skills、每个 skill 超过 2000 token 的情况下保持 97% 的 skill adherence rate。同时,官方还给了一个很典型的金融分析例子:基于台积电年报、电话会纪要和研究报告,自动搭建收入模型,再输出 Excel、PPT 和 Word 报告。
这说明 MiniMax 在押一条很明确的路线:Agent 的价值高地不只是写代码,而是进入高价值脑力工作的交付环节。
4. 它还把“情商”和“角色一致性”单独拿出来讲
很多人可能会忽略这一段,但我反而觉得这是 MiniMax 的野心暴露得最明显的地方。
官方明确说,M2.7 在 character consistency 和 emotional intelligence 上有明显增强,并基于此做了一个叫 OpenRoom 的 demo,把 AI 互动从纯文本流搬到 Web GUI 空间里。表面上看,这像是个娱乐化侧项目;但本质上,它是在说:
未来的 Agent,不只是执行器,还是长期交互对象。
这件事一旦成立,模型的竞争维度就会从“任务做没做完”扩展到“用户愿不愿意持续把任务交给它”。也就是说,执行力和人格稳定性会开始耦合。
第二部分:M2.7 真正最强的,不是分数,而是“模型参与模型迭代”这件事
如果让我用一句话概括 M2.7,这句话会是:
它最值得研究的,不是它今天是不是榜单第一,而是它已经在尝试把 agent loop 直接嵌进模型迭代 loop。
官方给了一个很关键的例子:让 M2.7 在一个内部 scaffold 上自主完成“分析失败轨迹 → 规划修改 → 改脚手架代码 → 跑评测 → 比较结果 → 决定保留还是回滚”的循环,而且连续跑了 100 多轮,最终把内部编程评测集上的性能提升了 30%。
这个 30% 的提升幅度未来当然还需要更多外部材料来帮助理解,但这个方向信号本身依然非常值得重视。
因为在 2024、2025 年,大家更多还在讨论“模型能否自己写代码”;到了 2026 年,MiniMax 直接把问题升级成“模型能否自己改提高模型表现的脚手架”。这不是一个量级的事情。
我认为这背后有三个非常重要的含义。
1. Agent 不再只是 inference-time 技巧,而开始反过来塑造 training-time 迭代
过去很多“Agent 很强”的叙事,本质上是推理时外挂:给模型更多工具、更多记忆、更长上下文,让它在执行层更像一个行动者。但 MiniMax 在这里讲的是,Agent 已经开始反过来影响训练流程本身。
一旦这条路跑通,模型公司真正的护城河,可能不只是更好的 base model,而是:
- 更好的 agentic research harness
- 更快的自动实验循环
- 更密集的失败归因与回灌
- 更强的“组织-模型共同进化”速度
这会让模型公司的竞争,从“谁训练得更好”转向“谁构建了更快的 AI-native 研发组织”。
2. 它比“自我训练”更现实,也更值得持续关注
为什么说更现实?因为 MiniMax 并没有声称模型独立完成了数据构造、训练、评估、部署全链路,而是把它放在研究员设定目标的框架下,让模型去承担中间大量高频、结构化、耗时的工作。
为什么说值得持续关注?因为一旦这条路径有效,模型迭代速度就可能被重新定义。以前模型更新可能按季度算,后面有机会按周、按天、甚至按实验环来推进。
MiniMax 这次真正释放的信号,是他们已经不满足于“更强的模型”,而是想要“更快地产生更强模型的系统”。
3. 但这套叙事目前还远没有被充分验证
这一点必须说清楚。
M2.7 的“自进化”是这次发布最亮眼的地方之一,同时也是目前还需要更多公开材料补充的部分。原因也很清楚:
- 它目前主要还是官方叙述
- 外部尚无完整技术报告公开
- 过程性细节很多,但可复现实验很少
- 关键评测集、脚手架设置、回滚准则、性能统计方法并未全部开放
所以,我更愿意把它看成一个非常重要的方向信号,也看成国产大模型公司在前沿路线上的一次积极探索;只是现阶段,还不宜过早把它定义为“已经被行业充分验证的新范式”。
换句话说:
M2.7 这次最惊艳的地方,是“研究路线的前瞻性”大于“产品结论的确定性”。
第三部分:小米 MiMo-V2-Pro 到底在卖什么?
如果说 MiniMax M2.7 代表的是一种更偏“研究组织进化”的 Agent 叙事,那么小米 MiMo-V2-Pro 代表的,就是另一种更偏“生产基础设施落地”的 Agent 叙事。
它最大的特点是:几乎每一个对外信息点,都在服务“这是一个能接进现有 Agent 框架、马上开始跑真实任务的旗舰底座”这件事。
从官方页看,MiMo-V2-Pro 的核心信息量非常集中:
- 总参数量 超过 1T
- 激活参数 42B
- 支持 1M token 上下文
- 继承并升级 Hybrid Attention,混合比例从 5:1 提升到 7:1
- 带轻量级
MTP(Multi-Token Prediction)层
- 在 Artificial Analysis Intelligence Index 上号称 全球第 8、国内第 2
- 在
PinchBench 和 ClawEval 上进入全球前三
- 官方 API 价格为:
<=256K:输入 $1/M,输出 $3/M
256K-1M:输入 $2/M,输出 $6/M
这部分如果做成规格表,横向信息会更直观:
| 项目 |
MiMo-V2-Pro |
| 总参数量 |
超过 1T |
| 激活参数 |
42B |
| 上下文长度 |
1M tokens |
| 注意力架构 |
Hybrid Attention |
| Hybrid 比例 |
从 5:1 升级到 7:1 |
| 生成加速 |
轻量级 MTP |
| 官方榜单表述 |
Artificial Analysis 全球第 8、国内第 2 |
| Agent 相关 benchmark |
PinchBench 81.0,ClawEval 61.5 |
| API 价格(<=256K) |
输入 $1/M,输出$3/M |
| API 价格(256K-1M) |
输入 $2/M,输出$6/M |
如果你对小米之前的 MiMo-V2-Flash 有印象,就会发现这个升级很“工程化”。
MiMo-V2-Flash 开源仓库里披露的是:
- 总参数 309B
- 激活参数 15B
- 256K 上下文
- Hybrid Attention 比例 5:1
- MTP 加速推理
到了 V2-Pro,小米没有推翻这条技术路线,而是顺着它把规模、上下文和 agent-targeted training 一起放大。这其实比“另起炉灶换架构”更说明问题:他们不是在试验一个新玩具,而是在把一个已经验证过的工程方向,往旗舰级产品推。
第四部分:MiMo-V2-Pro 最聪明的一步,不是参数,而是 Hunter Alpha 这步棋
小米这次发布里,最值得玩味的,并不是“1T 参数”这件事本身,而是它对 Hunter Alpha 的认领。
官方页明确写到:一周前,一个匿名模型 Hunter Alpha 在 OpenRouter 上线;它在上线期间调用量持续增长,多日登顶日榜,总使用量超过 1T tokens。而小米现在告诉你,那个神秘模型其实就是 MiMo-V2-Pro 的测试版本。
这一步非常关键。因为它较好地解决了大模型发布里一个长期存在的问题:如何让外界看到不仅有官方结论,也有真实市场环境中的反馈。
传统厂商做发布,通常是:
而如果所有材料都主要来自官方,开发者通常都会自然追问一句:这东西在真实框架里到底跑得怎么样?
小米这次的做法,是先让模型在 OpenRouter 以匿名身份接受真实市场压力测试,再在热度和调用量都跑出来之后“揭榜”。这其实是一种非常强的 GTM(go-to-market)设计:
- 先验证真实需求
- 再完成品牌认领
- 最后借匿名阶段积累“不是光靠品牌带量”的证明
而且这个匿名测试不是纯聊天型验证,而是明确瞄准 Agent / coding 框架生态。官方甚至直接说,MiMo-V2-Pro 正在和 OpenClaw、OpenCode、KiloCode、Blackbox、Cline 等五大 Agent 开发框架合作,为开发者提供一周免费 API 访问。
这意味着什么?
这意味着小米并不是想先成为“一个很强的大模型名字”,而是想先成为“被开发者工作流默认接入的那一个模型”。
这件事的战略意义,其实比很多 benchmark 都大。
因为今天模型竞争里,一个非常重要的变量就是能否进入开发者的默认工作流。一旦进入默认选项,开发者社区会自然帮助模型完成更多分发、测试与长尾场景适配。
从这个角度看,MiMo-V2-Pro 的发布,已经不只是模型发布,而是一场很完整的产品投放。
第五部分:把公开信息分层看,哪些结论已经比较扎实,哪些还值得继续观察?
现在进入最关键的部分:把不同来源的信息分层看待。
这次两家发布都很强,但如果不把证据等级拆开,很容易被“看上去都很强”带偏。
我会把它们的公开信息分成三层。
第一层:相对可信,且已经有外部信号支持的
对 MiMo-V2-Pro 而言
- 官方参数、上下文、价格信息可信度较高,因为这些是实际 API 能力的一部分
Hunter Alpha 在 OpenRouter 上的匿名市场验证,可信度较高,因为这不是纯自报,而是有平台侧页面与使用轨迹背书
- 1M context、42B active、分层定价,这些都属于很容易被开发者快速证伪的指标,所以我倾向于认为可信
对 M2.7 而言
- OpenRouter 页面上的价格和上下文相对可信:
204.8K context,$0.30/M 输入、$1.20/M 输出
- 官方对 live debugging、Office 编辑、复杂 skill adherence 的定位,与它给出的 benchmark 方向是一致的,不像是完全拼凑的营销词
第二层:有一定可信度,但更多属于“官方主张,外部部分可验证”
M2.7
SWE-Pro 56.22%
VIBE-Pro 55.6%
Terminal Bench 2 57.0%
GDPval-AA 1495
Toolathon 46.3%
这些指标听起来都很专业,但问题在于:
- 其中部分 benchmark 不是行业最普及的标准 benchmark
- 评测脚手架、运行配置、重复次数、失败处理策略等细节没有全部公开
- 不同 benchmark 之间不易横比
所以这些数字很适合帮助我们判断模型的能力方向与产品侧重点,但如果要把它们直接当成“绝对稳定的横向排名”,还需要更多统一条件下的复核。
MiMo-V2-Pro
PinchBench 81.0
ClawEval 61.5
- “coding 超过 Sonnet 4.6、体验接近 Opus 4.6”
这里的情况和 M2.7 类似:小米给了不少排名式结论,但真正细致、可复核的评测方法公开得还不算充分。换句话说,它的产品化表达更成熟,而技术细节的公开深度,后续如果能继续补齐,会让外界更容易形成稳定共识。
第三层:目前最适合保持审慎、继续跟踪验证的
M2.7 的“自进化已显著改善模型迭代”
这是最值得关注的方向之一,同时也最适合继续跟踪。因为它涉及长链路实验设计、自动修改系统、评测选择偏差、搜索空间限制等一系列复杂问题。也正因为如此,它更像一个非常有前景的前沿能力,而不是已经完全成熟定型的标准能力。
MiMo-V2-Pro 的“在多数场景超过 Sonnet 4.6”
这类说法如果暂时还缺少更大规模、统一条件下的第三方对照,就容易受到 prompt 选择、框架设置、判分标准影响。尤其 coding / agent 任务高度依赖 scaffold,系统 prompt、工具封装和上下文管理方式都会显著影响结果。
第六部分:真正把两者放在一起比,会发现它们根本不是同一种“强”
这是我看完两边材料之后最大的感受。
很多人会自然把 M2.7 和 MiMo-V2-Pro 理解为“国内两款最新 Agent 大模型正面对打”,但更准确的说法其实是:
它们都在抢 Agent 入口,但抢的不是同一个入口。
1. MiniMax M2.7 更像“AI-native 组织”的模型
M2.7 的关键词是:
- self-evolution
- research harness
- memory
- skill adherence
- office deliverables
- emotional intelligence
这些词放在一起,你会发现 MiniMax 的想象对象并不只是“一个在 IDE 里写代码的模型”,而是“一个在公司内部承担多类知识工作、还能反过来参与模型迭代的 agent 员工”。
所以 M2.7 的发布,更像是在说:
我们不只是在做模型,我们在做未来 AI-native 组织的执行中枢。
2. MiMo-V2-Pro 更像“通用 Agent 框架”的模型
MiMo-V2-Pro 的关键词则是:
- 1T / 42B
- 1M context
- Hybrid Attention 7:1
- MTP
- OpenClaw
- OpenCode / Cline / KiloCode
- Hunter Alpha
- API pricing
这组词非常清楚地指向一件事:把它接进框架,就能跑。
它不是在先讲组织学,不是在先讲 AI 员工哲学,而是在先讲:
- 能不能稳定调工具
- 能不能扛长上下文
- 能不能在真实开发框架里顶住调用量
- 能不能给开发者一个足够诱人的价格
换句话说,MiMo-V2-Pro 更像一台高强度生产引擎。
3. 一个更像“方向感领先”,一个更像“产品化领先”
如果必须给出非常简短的结论,那就是:
- MiniMax M2.7 更像方向感领先
- 小米 MiMo-V2-Pro 更像产品化领先
MiniMax 赢在它抛出了一个比“我又强了”更大的命题:模型如何参与自身进化与组织进化。
小米赢在它把一个 Agent 模型真正包装成了可接入、可计费、可在框架里大规模测试、可借市场匿名验证的基础设施产品。
第七部分:从开发者视角看,谁更值得现在就去用?
这个问题不能抽象回答,只能按场景回答。
场景一:你是 OpenClaw / Cline / OpenCode 这类 Agent 框架的重度用户
我会优先建议你关注 MiMo-V2-Pro。
原因很简单:
- 它的对外信息明显更围绕“框架接入”组织
- 1M context 对复杂 Agent workflow 是实打实的
- 它已经在 OpenRouter 匿名阶段承受过真实调用压力
- 官方显式和多个 Agent 框架做合作,这是很强的生态信号
如果你今天最关心的是“拿来跑项目行不行”,MiMo-V2-Pro 的答案更像“行,先跑起来再说”。
场景二:你在做企业内部知识工作自动化,尤其是文档、表格、PPT、研究流程
我会建议你认真看 MiniMax M2.7。
因为 M2.7 在“office deliverables + 多轮编辑 + 复杂 skill adherence + 专业工作”这条线上明显投入更多表述,而且它把金融分析、复杂文档处理、跨团队研究支持讲得更具体。
如果你关注的是“AI 能不能像一个初级分析师那样,把第一稿真正做出来”,M2.7 的叙事会更吸引人。
场景三:你最看重成本效率
单从 OpenRouter 页面对比,MiniMax M2.7 更便宜:
- M2.7:
$0.30/M 输入,$1.20/M 输出,约 205K 上下文
- MiMo-V2-Pro:
$1/M 输入,$3/M 输出起,1M 上下文
放进表格里会更清楚:
| 模型 |
输入价格 |
输出价格 |
上下文 |
适合的成本视角 |
| MiniMax M2.7 |
$0.30/M |
$1.20/M |
约 205K |
标准 coding / agent loop 更有性价比 |
| MiMo-V2-Pro |
$1/M 起 |
$3/M 起 |
1M |
超长上下文、多工具长链路任务更有优势 |
如果你的任务不真的需要超长上下文,而且主要是标准 coding / agent loop,那么 M2.7 的价格会更有吸引力。
但如果你的场景天然吃长上下文,比如:
- 大仓库级别多文件推理
- 巨量工具日志
- 超长网页 / 文档 / 会话记忆
- 持续多步 Claw 流程
那么 MiMo-V2-Pro 这个价格其实并不离谱,因为它卖的是更大 action space。
场景四:你最在意未来半年谁更可能继续猛进
这题我会给一个不那么稳妥、但我自己的真实判断:
- MiniMax 更可能在“研究速度”上继续给惊喜
- 小米更可能在“开发者生态渗透”上继续给惊喜
MiniMax 的核心变量,是它能不能把“模型参与模型迭代”做成复利。
小米的核心变量,是它能不能借 Hunter Alpha 这套打法,把 MiMo-V2-Pro 快速推进到“默认可用的国产 Agent 底座”位置。
第八部分:我最在意的三个行业信号
抛开模型本身,我认为这两场发布对行业有三个非常大的启示。
信号一:2026 年的主战场,已经从 chat assistant 转向 agent substrate
两家公司的文案、benchmark 和产品落点都高度一致地证明了这一点。
大家不再主要讲:
而是在讲:
- 能不能完成真实任务
- 能不能调复杂工具
- 能不能稳定长链路执行
- 能不能在现有开发框架和办公流程里顶住压力
这说明行业已经从“展示智能”进入“部署智能”阶段。
信号二:中国公司开始更系统地争夺 Agent 时代的默认底座位置
以前很多国产模型发布,给人的感觉更多是“再追一轮基准成绩”。但这次 MiniMax 和小米都明显不只是在追 benchmark,而是在争夺 agent-native 工作流里的关键入口。
MiniMax 抢的是“组织级智能执行系统”的入口。
小米抢的是“通用 Agent 框架默认模型”的入口。
谁一旦抢住,后面拿到的不只是调用量,而是整个生态反馈飞轮。
信号三:评测将越来越靠近“脚手架现实”,而不是“裸模问答”
这是最重要也最容易被忽略的一点。
M2.7 和 MiMo-V2-Pro 的很多主张,都已经离不开脚手架(最近特别火的 Harness Engineering):
- 什么工具
- 什么 memory
- 什么 system prompt
- 什么 skill 长度
- 什么 context 管理
- 什么失败重试机制
- 什么 agent framework
这意味着未来说“某模型比某模型强”,如果不把 scaffold 一起讲清楚,结论会越来越没有意义。
裸模能力仍然重要,但系统能力正在变成真正的产品能力。
结尾:我的最终判断
如果只问一句“这两款模型谁更强”,那其实会把很多重要差异压平。
我更愿意给出下面这个判断:
截至 2026 年 3 月 19 日,MiMo-V2-Pro 是更像“已经准备好进入开发者生产流”的 Agent 基座模型;MiniMax M2.7 则是更像“已经看见下一阶段形态”的 Agent-native 研究型模型。
前者更像一套已经很接近生产落地的工具能力。
后者更像一条值得长期关注的前沿演进路线。
如果你今天就要把模型接进 OpenClaw、Cline、OpenCode 之类的真实框架里跑任务,我会更优先建议关注 MiMo-V2-Pro,因为它的参数、上下文、价格、生态合作、匿名市场验证,全都指向“可立即试用的生产级底座”。
但如果你问我,过去 48 小时哪场发布更让我觉得“未来几年模型公司可能会因此发生结构变化”,我反而会把票投给 MiniMax M2.7。因为它真正刺激人的地方,不是某个分数,而是它已经开始把模型放进“帮助模型变强”的闭环里。
说得更直白一点:
- MiMo-V2-Pro 让我觉得,国产 Agent 大模型已经开始认真抢 Anthropic 的工程场景份额了。
- MiniMax M2.7 让我觉得,下一轮模型战争可能不再只是比模型,而是比谁先长出 AI-native 研发组织。
这两件事,哪一件都不小。
而真正值得期待的,可能不是“谁暂时更强”,而是这两条路线如果都能持续跑通,中国大模型公司的竞争维度,就有机会从“参数、榜单、价格”进一步升级到“组织速度、框架渗透率、真实工作流占领能力”。
这其实也是最让人振奋的地方:无论是 MiniMax 还是小米,这两次发布都已经不再停留在“跟随式追赶”的层面,而是在各自擅长的方向上主动定义 Agent 时代国产模型的打法。哪怕很多结论还需要时间沉淀、更多第三方验证补充,但这种持续逼近前沿、持续把模型推向真实工作流的势头,本身就很值得鼓励。对于这类前沿技术的深入讨论和实践经验分享,欢迎来云栈社区交流探讨。
到那个时候,行业就真的进入下一阶段了。
国产大模型!继续冲!冲!冲!