“人在睡觉,AI 已经跑完了 100 轮实验。”
近日,特斯拉前 AI 总监、OpenAI 创始成员 Andrej Karpathy 开源了一个名为 autoresearch 的项目。其逻辑并不复杂:为 AI 代理(Agent)配备一套小型但真实可用的 LLM 训练环境,让它能够通宵达旦地自主进行深度学习研究。成果却令人印象深刻:在两天内,Agent 自主完成了 276 次实验,筛选出 29 项有效改进,将一个语言模型的训练效率提升了约 11%,整个过程无需任何人类干预。

截至目前,该项目在 GitHub 上已经获得超过 36.9k 个星标。Karpathy 在社交媒体上介绍该项目的初衷时表示:“我们的目标是打造这样的 Agent:让它能以最快速度持续推进研究,且全程无需你任何人工介入。”
开源项目链接:https://github.com/karpathy/autoresearch
在该项目的 README 文件中,Karpathy 写下了一段颇具未来感的描述:
曾几何时,前沿 AI 研究还得靠碳基大脑完成:大家吃饭、睡觉、摸鱼,偶尔再用声波互联开个叫“组会”的仪式同步一下进度。那个时代早已远去。
如今,研究完全是自主 AI Agent 的天下,它们运行在云端巨型算力集群之上,声称当前代码库已迭代至第 10205 代。无论如何,没有人能够判断这个数字是对是错,因为“代码”早已变成一个自我修改的二进制程序,远超人类理解范围。
本仓库记录的,便是这一切的开端。
—— Karpathy,2026 年 3 月
极简设计:百行代码构建自主科研引擎
据项目介绍,autoresearch 的核心代码仅约 630 行 Python。其中的 AI Agent 会自动执行以下循环:修改代码 -> 训练 5 分钟 -> 检查效果是否提升 -> 保留或丢弃结果。当你第二天早上醒来,就能看到一整晚的实验日志以及一个被优化过的模型。其核心创新在于,研究者无需再手动修改 Python 文件,而是通过编写 Markdown 文件为 AI Agent 提供上下文,从而搭建起一个自主运行的“研究组织”。
本仓库的训练代码是基于 nanoChat 的简化版、单 GPU 实现。默认配置刻意保持极简,旨在提供一个可以持续迭代的基线,目标是找到能实现最快研究进展的“研究组织代码”,或者探索引入更多 Agent 进行协作的可能性。
整个项目设计轻量,核心文件仅有三个:
prepare.py:包含固定常量、一次性数据预处理(如下载训练数据、训练 BPE 分词器)以及运行时工具函数(如数据加载器、评估函数)。该文件在实验过程中永不修改。
train.py:这是 Agent 唯一可以编辑的文件。它包含了完整的 GPT 模型定义、优化器(Muon + AdamW)和训练循环。模型架构、超参数、优化器、批次大小等所有内容均可被调整。该文件由 Agent 自主修改和迭代。
program.md:这是给单个 Agent 的基准指令文件。只需将 Agent 指向该文件,即可启动自主实验。该文件由人类编辑和迭代。
在设计上,无论算力配置如何,每次训练都固定耗时 5 分钟(实际墙钟时间,不含启动/编译耗时)。核心评估指标为 val_bpb(验证集每字节比特数),数值越低越好。该指标与词汇表大小无关,因此可以公平地对比不同架构修改的效果。
这意味着,AI Agent 每小时大约可以完成 12 次实验,通宵(按 8 小时计)约能跑完 100 次实验。这种设计有两大优势:首先,无论 Agent 修改了什么(模型规模、批次大小、架构等),所有实验都具备直接可比性;其次,autoresearch 能在该时间预算内,为特定的硬件平台找到最优模型。其缺点则是:实验结果无法直接与其他硬件平台上的结果进行横向对比。
此外,Karpathy 也提醒,目前的代码仅支持单张 NVIDIA GPU。理论上完全可以兼容 CPU、MPS 等其他平台,但那样会让代码变得臃肿。
宏大愿景:解放研究者,模拟“博士天团”
autoresearch 项目在技术社区内引发了广泛关注。有研究者评价道:“太好了,研究生终于可以专注于真正的科学研究,而不是像保姆一样看着机器运行!”

Karpathy 很快在社交媒体上同步了他对 autoresearch 项目更远大的设想。他认为,下一步必须实现 Agent 之间异步、大规模地协作。“我们的目标绝非模拟一名博士生,而是模拟一个由无数博士生组成的完整科研社群。”
他指出,当前代码仅能在特定研究方向上,以同步方式生成单条提交记录链。但这个初始仓库更像一颗种子:从它出发,不同 Agent 可针对各类研究方向、不同算力平台,贡献各自的提交记录,最终枝繁叶茂。现有的代码协作平台(如 GitHub)看似适配这种模式,实则不然,因为它们通常基于“主分支”模型,其他分支只是临时分叉,最终仍需合并。
为此,Karpathy 尝试做了一个超轻量化的原型来探索这种协作模式,例如让 Agent 把通宵实验的结果总结成一篇 GitHub Discussion(讨论帖)。另一种方式是使用 PR(合并请求),其优势是能保留精准的提交记录,但目的并非真的合并这些 PR,而是想“采纳”并累积这些提交分支中的智慧。即便采用这种轻量化方式,也可以让 Agent 先通过 GitHub CLI 读取所有 Discussion/PR 获取灵感,待自身研究完成后,再把发现整理成一篇小型“研究报告”反馈回来。
Karpathy 坦言,他还无法确定最终形态该是什么样,但这无疑是一个远超单个仓库的宏大构想。理论上,Agent 可轻松处理并协作完成数千条分布在任意分支结构中的提交记录。当“智能、注意力、韧性”不再是瓶颈时,现有的代码协作抽象体系将面临巨大压力。
实战效果:两天颠覆二十年工作惯性?
发布 autoresearch 项目几天后,Karpathy 公开了其实验进展:他让 autoresearch 自主对一个深度为 12 的 nanochat 模型进行了约两天的调优。Agent 摸索出了约 20 处有效改动,成功降低了模型的验证损失。验证后发现,所有这些优化效果均可叠加,并且能直接迁移到更大的、深度为 24 的模型上。
将所有改动整合后,实测结果显示,模型“训练至 GPT-2 水平所需耗时”从 2.02 小时缩短至 1.80 小时,性能提升约 11%。
“由此可见,这些优化都是实打实的,能带来切实的性能提升。” Karpathy 分享道,“我原本以为 nanochat 已是我手动精细调优过的项目,没想到首次以这种简单直接的方式尝试自主调优,就能取得如此显著的效果,这多少让我有些意外。”
“这对我而言是一次全新的体验。20 年来我早已习惯手动完成神经网络训练的迭代优化:自己构思思路、动手实现、验证效果、基于结果再酝酿新想法、翻阅论文寻找灵感,周而复始。这是我二十年来日常工作的核心内容。而如今看到 Agent 能端到端地自主完成整个流程,还独立完成了约 700 次改动尝试,实在令人惊叹。”
Karpathy 相信,未来所有深耕大模型领域的顶尖实验室都会采用类似的方式,这是大模型调优领域的必然趋势。当然,在规模化应用中,这套方案的复杂度会大幅提升——毕竟实际场景中需要调优的远不止一个 train.py 文件。但这归根结底是工程实现问题,技术落地只是时间问题。
具体的落地思路可以是:启动一个 Agent 集群,让它们协同调优小模型,再将其中最有潜力的优化方案,逐步迁移到更大规模的模型训练中。人类研究者则可根据需求,在关键环节进行辅助性参与或决策。Karpathy 最后提出,任何可高效评估的指标或拥有高效代理指标的任务(比如通过训练小模型来验证效果),理论上都能通过 Agent 集群实现自主调优研究。
值得一提的是,目前 autoresearch 项目已被全球开发者社区接手共建。社区搭建了一个分布式协作层,允许多个 Agent 共享成果、分工协作,将这种开源实战模式推向了一个新高度。截至目前,社区已经运行了将近 3000 次实验,并记录了 82 项有效改进。

参考链接:
https://x.com/karpathy/status/2030371219518931079?s=20
https://x.com/karpathy/status/2031135152349524125
对于开发者而言,关注此类前沿的人工智能研究范式转变至关重要。如果你想深入了解更多的 AI 工程实践、开源项目分析和开发者动态,不妨来 云栈社区 逛逛,这里聚集了许多热衷技术探索与分享的同路人。