找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4459

积分

0

好友

623

主题
发表于 1 小时前 | 查看: 5| 回复: 0

宣传图:一款科技工具,主要功能为文献发现,涵盖自然语言处理和计算机视觉等领域

过去一年,业界大多把精力卷在了外部的 Agent Harness 上,任务编排与工具链越做越重。

但面对真实的复杂业务,外围脚手架搭得再精巧,一旦底层模型的指令遵循率掉链子、长上下文一断档,整个流水线往往在第四步、第五步就会全盘崩溃。

刚刚发布的 MiniMax M2.7,试图从底座层面强行破局。它原生具备多智能体协作能力,把复杂的 Harness 构建逻辑直接内化到了模型内部。

这让它在面对 40 个复杂 Skills 的极端测试时,依然稳稳踩住了 97% 的超高遵循率

多模态基准测试对比图:展示M2.7、GPT-5.4等多款大模型在SWE Bench Pro、VIBE-Pro等多个代码与工程测试集上的得分对比
在软件工程、专业办公及复杂 Agent 评测中,M2.7 综合表现稳居全球第一梯队

当然,在 benchmark 上刷出高分是一回事,能不能扛住真实的工程压力是完全另一回事。

这次我们直接上难度,让 M2.7 接管一套端到端的自动化科研工作流

跑通自动化科研流水线

我们给 M2.7 设定了一个比较宽泛的研究方向:

探索离散扩散模型(Discrete Diffusion Models)在逻辑/算术推理任务中的应用,找出现有研究的痛点,并构思具体的验证实验、跑通基础代码。

Claude Code界面截图:显示技能加载成功,正在启动文献调研阶段

挂载完复杂的 skills 后,模型立刻开始调度。在尝试原生 WebSearch 工具失败时,它迅速改用终端命令(curl + proxy)抓取 arXiv API。

它能自主发散出多个研究方向,并在内部完成了科学量化的打分与排名

项目第二阶段完成报告截图:展示从10个创意中筛选出的3个排名靠前的想法,包含新颖性、风险、预估时间等信息

在筛选 idea 期间,M2.7 调度了预置的 skills,自主拉起了一个第三方大模型,作为“审稿人”进行交叉验证

对话记录截图:显示对大模型生成的离散扩散研究想法进行批判性评估和排名

它还附带了一个成熟的容错机制。如果人类未响应决策询问,它将默认推进评分最高的 idea。

整个科研流水线不会因为人类的离线而陷入无尽等待。

决策选项截图:询问应进一步验证哪些想法,并设置了默认推进规则

最终,它大浪淘沙精炼出了一份包含具体变量的实验路线图

不仅敲定了研究痛点,连 GPU 耗时预估、判别成功的数学指标以及需要手写的脚本清单,都安排得明明白白。

实验计划完整文档:详细描述了研究方法、模型、数据集、GPU环境、运行步骤、评估指标和成功标准
向下滑动,查看完整实验方案

拿到方案后,M2.7 开始编写实验代码并向 GPU 发起部署。

发现底层 LLaDA-8B 模型下载耗时过长,它选择剥离 transformers 库的重度依赖,用原生 PyTorch 搓了一个极简的未经训练的 Transformer(mock 模型),提前验证 pipeline 的 Tensor Shapes(张量维度)连通性。

代码编辑器截图:显示一个用于Mock测试的、随机初始化的小型Transformer模型代码

随后的测试运行不出意外地报错了。

M2.7 完全不需要人工介入,自主抓取终端 traceback 日志,不仅秒修了低级语法错误,还顺藤摸瓜深入核心采样循环内部,精准定位并修复了 torch.multinomial 的维度不匹配逻辑 bug

代码修改截图:显示修复采样逻辑中维度不匹配bug的具体代码改动

跑通 mock 实验后,面对 30%~45% 的准确率结果,它准确判断出这是随机初始化模型的合理基线数据,并未陷入死循环修 bug 的幻觉。

Mock测试结果报告截图:显示随机模型的测试结果均在随机猜测水平,验证了pipeline流程正确

从 idea 探索与方案评审,再到自动化实验部署与代码调试,过去需要多人协作盯盘的流程,现在只用在关键节点点下确认。

一键搜集全网最新面经

毕业季找工作找实习,每天不停刷面经、手动收集各家大厂的面试题非常耗时。

我们依托 MiniMax 的 Agent 平台,让模型自动抓取全网最新大模型算法相关的 100 条帖子,并独立开发一个算法面试题库

LLM面试数据仪表盘界面:包含公司分布、轮次分布、题目分类筛选和具体题目列表

M2.7 渲染出的不仅是可视化的数据看板,更是直接对齐 LeetCode 考题的实用工具箱。

页面直观划分了各家大厂的分布情况、面试轮次和题目分类,还精准提炼了面试题的核心技术点。

文献辅助阅读神器

算法人日常最高频的动作是读论文。常见的 AI 读论文工具通常都是“论文笔记”式,这次我们要求 M2.7 直出一个双栏 QA 交互式文献精读工具

学术论文阅读界面截图:左侧为论文原文,右侧为根据论文内容生成的问答解析,支持高亮联动

右侧生成的 QA 解析,与左侧几万字符原文中的具体短语实现了字符级的精准锚定与多色高亮联动,彻底解决了在超长 PDF 里反复 Ctrl+F 找原文的麻烦

开启自我进化闭环

这些扎实的工作流接管表现,源于 M2.7 强悍的基准测试支撑。

考察核心代码能力的 SWE-Pro (56.22%)、考察端到端项目交付的 VIBE-Pro (55.6%),以及验证终端系统深层工程理解的 Terminal Bench 2 (57.0%)。

但真正让 M2.7 与上一代模型拉开代差的,是它开启了模型的自我进化

在内部的一个 scaffold(执行框架)上,M2.7 在零人工干预的状态下自主运行了超 100 轮迭代。

它严格遵循“分析失败轨迹 → 规划改动 → 修改 scaffold 代码 → 运行评测 → 对比结果 → 决定保留或回退”的闭环,最终在评测集上压榨出了约 30% 的性能提升

在由 Kaggle 历年真实竞赛题目构成的 MLE Lite测试集中,M2.7 首次跑通了全流程,并在独立跑完全部题目后一举拿下 9 枚金牌

MLE Lite竞赛详细数据表格:列出多项竞赛的名称、节点数、耗时、最佳成绩和奖牌情况
MLE Lite Kaggle 奖牌榜

间隔 24 小时的三次独立测试证明,M2.7 的性能会随着迭代次数的增加而持续攀升,三次测试平均得牌率达到了 66.6%。它正在学会用 AI 的逻辑去重构下一代 AI

折线图:展示24小时内,M2.7获取金、银、铜及任何奖牌的比率随时间变化的趋势
24 小时内 M2.7 得牌率变化

从代码工具到最强 Cowork Agent

指令遵循率从 85% 跃升到 97%,在实际研发中意味着真金白银的 token 结余。Agent 每次因为丢上下文导致的失败重试,烧掉的都是巨大的隐性成本。

在 M2.7 的研发阶段,MiniMax 团队已经让 M2 系列模型充当架构师,1 个人 4 天时间、零人工编码,就自主搭建了一套包含 CI、测试、代码审查的完整开发 Agent Harness。

M2*模型迭代系统架构图:展示人类与AI协作的五步工作流及Agent Harness的组件构成
M2.7 模型迭代系统架构

大模型正在彻底告别只能在 IDE 里补全代码的“副驾驶(Copilot)”时代。

M2.7 用实际表现证明了,只要给它一个足够强韧的底座和极简的初始指令,它就能承包你的端到端研发项目。

它不再是一个高级的辅助工具,而是一个能和你一起肝论文、跑实验的 Cowork Agent

M2.7 目前已在 MiniMax 全量上线。如果你想将其接入自己的科研工作流,可通过以下入口直接接入:

MiniMax Agent:agent.minimaxi.com
API 服务:platform.minimaxi.com
Coding Plan 订阅:platform.minimaxi.com/subscribe/coding-plan

本文探讨的自动化科研工作流,正是当前人工智能Python工程化应用的前沿方向。对于想深入了解深度学习和Agent技术的开发者,欢迎来云栈社区交流探讨。

趣味互动图片:文字为“你☆在看吗?”,风格活泼




上一篇:2026年OpenClaw套壳创业,哪个垂直方向更易变现?
下一篇:LLM-PeerReview:利用三元翻转评分实现大模型无监督集成,性能提升超7%
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-20 17:12 , Processed in 0.484870 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表