找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3893

积分

0

好友

547

主题
发表于 17 小时前 | 查看: 2| 回复: 0

未来感科技插画:服务器塔与神经网络

MiniMax 的最新模型 M2.5 正式亮相,其宣传亮点直指性能比肩 Claude Opus 4.6,但价格仅为后者的二十分之一。然而,比起“国产模型赶超硅谷”的叙事,我们更应该思考的是:当 AI 的使用成本降至一个“无需犹豫”的临界点,整个行业会发生哪些根本性的变化?

先说数字:价格到底有多低?

根据官方数据,M2.5 标准版的使用成本大约为每小时 0.3 美元,其“闪电版”约为每小时 1 美元。这一定价与 Claude Opus 4.6(输入 5 美元/百万 token,输出 25 美元/百万 token)相比,便宜了 10 到 20 倍。一个更直观的例子来自 ThursdAI 播客的实测:完成同一个编码任务,M2.5 花费了约 0.15 美元,而 Opus 4.6 则需要大约 3 美元。

实现如此低成本的背后,是 MoE(混合专家)架构在发挥作用。M2.5 总参数高达 2300 亿,但每次推理时仅激活其中的 100 亿参数。这种“按需启用专家”的模式,就像是雇佣了一个庞大的精英团队,但每次只让最相关的少数几位专家工作,账单自然就降下来了。

科技天平:MoE芯片与金条成本对比

Benchmark 的真相:分数背后的故事

不少媒体用“硬刚 Opus 4.6”来形容 M2.5,依据是在 SWE-Bench Verified 基准测试中,M2.5 获得了 80.2% 的得分,仅比 Opus 4.6 的 80.8% 低 0.6 个百分点。

但这个数字需要加一个重要的注脚。SWE-Bench Verified 允许厂商使用自己定制的 Agent 框架来运行测试,不同的框架策略(如提示词工程、工具调用逻辑)可能带来超过 10% 的分数差异。在采用统一标准测试环境的 SWE-rebench 上,M2.5 的得分是 39.6%,排在 Kimi K2 Thinking、GLM-5 和 Qwen3-Coder-Next 之后。

这并非“造假”,而是当前行业的普遍现象——几乎所有厂商都在利用定制框架来优化自己的基准分数。因此,M2.5 的真实编码能力很可能介于 39.6% 和 80.2% 之间,并且高度依赖于配套的 Agent 框架。

AI基准测试分析图

不过,另一个测试结果值得注意:在评估多轮工具调用能力的 BFCL 基准中,M2.5 拿到了 76.8% 的分数,大幅领先于 Opus 4.6 的 63.3%。这表明,在“调用工具、完成任务”这个对 AI Agent 至关重要的维度上,M2.5 确实展现出了独到的优势。

便宜到“不用想”,然后呢?

过去两年,AI 领域的竞争焦点是“谁更聪明”。而 M2.5 似乎正在引导风向转向另一个维度:当一个模型足够聪明且足够便宜时,哪些之前被成本束缚的场景会被真正解锁?

答案就是那些曾经“算过账觉得不划算”的场景。例如,独立开发者可以放心地让 AI 协助维护开源项目,小公司可以为每一位客服人员配备一个不知疲倦的 AI 助手——以往因成本过高而难以落地,现在价格直接下降了一个数量级。

Hacker News 上的一条高赞评论说得很到位:“单 token 成本已经不那么重要了,完成单个任务的总成本才是关键。” M2.5 不仅 token 便宜,还因其在工具调用中减少了约 20% 的轮次,从而能用更少的 token 完成相同的任务。

选择之门:象征不同技术路径的走廊

这不禁让人联想到云计算的早期发展阶段。当 AWS 等云服务商将计算和存储的价格降至某个临界点后,大量前所未有的应用形态如雨后春笋般涌现。M2.5 当前在 AI 领域,或许正在制造一个类似的临界点。

数据洪流大坝:象征成本临界点

108 天的三级跳:快速迭代的背后

在短短 108 天内,MiniMax 完成了从 M2 到 M2.5 的迭代,其在 SWE-Bench 上的分数也从 69.4% 跃升至 80.2%。这背后是名为 “Forge” 的强化学习框架的驱动。与传统的静态数据集训练不同,Forge 在超过 20 万个真实环境(如实际写代码、调用 API、操作浏览器)中对模型进行训练。

Forge 可以接入任何 Agent 框架进行训练,这使得模型学习到的是通用的任务完成能力,而非特定于某个框架的技巧。更有趣的是,MiniMax 甚至将“任务完成时间”也写入了奖励函数——模型不仅要做得对,还要做得快。其结果是,M2.5 似乎学会了“先规划,再动手”的架构师式思维。

火箭迭代图:M2系列性能跃升

春节档的 AI Agent 军备竞赛

M2.5 的发布并非孤立事件。这个春节前后,智谱 AI 的 GLM-5、阿里的 Qwen3-Coder-Next 与 MiniMax 的 M2.5 相继亮剑,不约而同地将竞争焦点对准了 Agent 编码能力。行业的共识正从单纯的“比拼参数规模”转向更务实的“比拼实际营收与场景占领”。

MiniMax 的策略似乎非常明确:通过极具侵略性的低定价和开源策略,抢占未来 AI Agent 生态的入口。据报道,M2.5 API 发布不到 24 小时,全球开发者就已基于其构建了上万个专家应用。

协作机械臂:象征技术融合与竞争

冷静看待:光环下的现实

尽管 M2.5 无疑是一个重要的里程碑,但我们仍需保持清醒。其 100 亿激活参数的设计虽然在编码和工具调用上表现出色,但在需要深度、复杂推理的任务上,其天花板可能仍低于那些密集型的大模型(如 GPT-4、Claude Opus)。它在通用对话、深度创意写作等更广泛领域的能力,仍有待进一步观察。

同时,“开源”二字也需要打上引号。虽然模型权重可获取,但部署一个 2300 亿参数的 MoE 模型门槛不低,本地运行至少需要 128GB 内存及相当的显存支持。此外,极低的定价配合免费试用期的策略,也让人不禁思考其港股上市后所面临的真实盈利压力。

但有一点是确定的:当 1 美元就能雇佣一个“AI 全栈工程师”为你工作一小时,“要不要用 AI”这个问题,正在迅速转变为“不用 AI,你还在等什么?” 这场由成本驱动的变革,或许比我们想象中来得更快,也将在开发者广场引发更多关于未来工作流的讨论与探索。

冰山图:AI表面能力与底层复杂性

关于 AI 成本与 Agent 应用的更多深度讨论,欢迎在云栈社区交流分享。




上一篇:《生化危机:安魂曲》CPU测试:AMD 9850X3D对比Intel 14900KS帧率领先近50%
下一篇:用30个Python单文件深入理解AI算法:告别model.fit()黑盒,应对面试原理题
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-1 22:31 , Processed in 0.491532 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表