找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4315

积分

1

好友

591

主题
发表于 1 小时前 | 查看: 2| 回复: 0

前沿 AI 研究曾经是由「肉身计算机」完成的:人们在吃饭、睡觉、娱乐之间抽时间做研究,并且偶尔通过一种名为「组会」的仪式,用声波互联(也就是交谈)来同步信息。那个时代已经一去不复返了。

如今,研究已经完全成为运行在天空中巨型计算集群上的自治 AI Agent 群体的领域。这些 Agent 声称,现在已经是这套代码库的第 10,205 代。至于这个说法到底是否准确,没有人能够判断 —— 因为所谓的「代码」,早已演化为一种不断自我修改的二进制系统,其规模与复杂度已经超出了人类的理解范围。

—— Andrej Karpathy,2026 年 3 月

Karpathy 一向是 AI 领域的思考者与预言家。

从科幻电影到大模型的现实演进,人们似乎总是执着于让智能体(Agent)自己做研究和让人工智能自我迭代这件事。这背后既包含着对效率极限的追求,也潜藏着对失控的隐忧。

春节期间,一个名为 FARS 的自动化研究系统,每隔约 2 小时就有一篇论文产出,共生成 244 个研究假设,「肝」出了 100 篇短论文,展示了自动化研究的惊人潜力。

那么,如果把这种自动化研究的能力,应用在让智能体自己研究、优化其自身的训练代码上,会发生什么?AI 自我迭代的魔盒,是否会在我们眼前打开?

最近,Andrej Karpathy 一直在实验这样一个项目,名为 autoresearch。在这个框架下,人类只需要负责不断迭代提示词(.md 文件),而 AI Agent 就能根据提示,自主地、不断地迭代并优化训练代码(.py 文件)。

Andrej Karpathy关于autoresearch项目的推文截图

Karpathy 表示,这个项目所演示的,正是“人工智能自我迭代的未来,是如何开始的”。

核心思想:让AI在夜间自主实验

这个项目的核心逻辑非常直观:给一个 AI Agent 提供一个规模虽小但真实可用的 LLM 训练环境,然后设置它自主运行

具体流程是:Agent 会分析当前代码和性能,提出修改方案,然后启动一次训练(例如严格运行 5 分钟),接着检查验证集上的结果是否有提升。如果性能变得更好,就保留这次代码修改;如果变差或持平,则丢弃修改,回滚代码。之后,Agent 会基于新的状态(无论是否成功)继续提出下一轮修改建议,循环往复。

理想情况下,当你第二天早上醒来,会看到一份完整的夜间实验记录,以及——一个经过多轮优化后性能更好的模型。

Autoresearch实验进展折线图

上图中的每一个点,都代表一次完整的、严格持续 5 分钟的 LLM 训练运行。绿色圆点代表被保留的有效改进,虚线则展示了性能的优化轨迹。在整个过程中,训练代码基于 Karpathy 之前开源的 nanochat 项目,是其简化版的单 GPU 实现,代码量约 630 行。

新的研究范式:人类设计系统,AI执行实验

与传统研究方式最大的不同在于,研究者在这里的工作重心发生了根本性转变。

你不再需要(或主要不)直接去修改复杂的 Python 训练代码。相反,你编写的是 program.md 这样的 Markdown 文件。这个文件为 AI Agent 提供了完整的研究上下文、目标定义、行动准则和决策逻辑。换句话说,你是在编写和配置一个“自治运行的研究组织”的蓝图

Karpathy 开源的默认 program.md 被刻意保持为一个极简的基础版本。但他指出,真正的挑战和乐趣在于不断迭代这个文件,逐步寻找能够实现最快研究进展的“研究组织代码”,或者在系统中加入更多具有不同角色的 Agent 进行协同。

Karpathy澄清研究基准的推文截图

正如 Karpathy 在推文中所澄清的,未来一个有趣的基准可能是:“哪个研究机构(的代理代码)能在 nanochat 上实现最快的改进?” 这标志着一种新的研究范式和元竞争正在浮现:AI 负责具体执行实验,人类则负责设计和优化驱动实验的研究系统本身

这意味着,未来 AI 研究领域的竞争,可能不再仅仅是模型架构、数据规模或计算资源的竞争,更是“研究组织代码”质量与效率的竞争

技术基础:极简的nanochat训练框架

autoresearch 系统的训练核心,直接来源于 Karpathy 此前开源的项目 nanochat —— 一个追求极致简洁的大模型训练框架。

nanochat 可以看作是一个“可读版”的现代 LLM 全流程实现。它用几千行代码清晰地串起了从 Tokenizer 训练、语言模型预训练、指令微调,到推理服务和聊天界面的完整管线。其目的并非追求极致的性能,而是通过高度简化的架构,将复杂的大模型系统压缩成一个清晰、可理解、可修改的最小实现。

autoresearch项目输出的实验日志截图

正因为其结构轻量、实验启动成本低,nanochat 成为了许多开发者学习 LLM 原理、进行算法尝试,以及开展 AI-for-AI(即用AI优化AI系统) 研究的理想起点。据 Karpathy 透露,nanochat 现在已经可以在单个 8×H100 节点上,仅用约 2 小时就训练出一个具备 GPT-2 能力级别的模型。

autoresearch 项目正是站在 nanochat 这个“肩膀”上,往前迈出了更激进的一步:将代码的迭代权也交给了 AI。它像一个实验性的沙盒,让我们得以窥见,当研究过程本身被自动化、智能化之后,技术进步的轨迹可能会如何演变。

你对这种 AI 驱动 AI 自我迭代的研究模式怎么看?是感到兴奋,还是有所担忧?欢迎在 云栈社区 的相关板块分享你的见解,与其他开发者一起探讨人工智能与开源实战的未来。




上一篇:OpenClaw零基础安装教程:基于Cherry Studio与免费阶跃模型的AI Agent个性化配置
下一篇:北极溪流微生物氮循环基因的时空变异:环境驱动与气候变化启示
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-10 15:59 , Processed in 0.572043 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表