云栈社区»论坛 › 开源实战「 OpenSource 」 › Karpathy开源autoresearch：百行Python代码实现AI代理自主语言模 ...

发回帖发新帖

5512 积分	0 好友	764 主题

发消息

[Python] Karpathy开源autoresearch：百行Python代码实现AI代理自主语言模型微调实战

发表于 2026-3-17 01:11:34 | 查看: 117| 回复: 0

“人在睡觉，AI 已经跑完了 100 轮实验。”

近日，特斯拉前 AI 总监、OpenAI 创始成员 Andrej Karpathy 开源了一个名为 autoresearch 的项目。其逻辑并不复杂：为 AI 代理（Agent）配备一套小型但真实可用的 LLM 训练环境，让它能够通宵达旦地自主进行深度学习研究。成果却令人印象深刻：在两天内，Agent 自主完成了 276 次实验，筛选出 29 项有效改进，将一个语言模型的训练效率提升了约 11%，整个过程无需任何人类干预。

Autoresearch自主调优实验进度折线图

截至目前，该项目在 GitHub 上已经获得超过 36.9k 个星标。Karpathy 在社交媒体上介绍该项目的初衷时表示：“我们的目标是打造这样的 Agent：让它能以最快速度持续推进研究，且全程无需你任何人工介入。”

开源项目链接：https://github.com/karpathy/autoresearch

在该项目的 README 文件中，Karpathy 写下了一段颇具未来感的描述：

曾几何时，前沿 AI 研究还得靠碳基大脑完成：大家吃饭、睡觉、摸鱼，偶尔再用声波互联开个叫“组会”的仪式同步一下进度。那个时代早已远去。

如今，研究完全是自主 AI Agent 的天下，它们运行在云端巨型算力集群之上，声称当前代码库已迭代至第 10205 代。无论如何，没有人能够判断这个数字是对是错，因为“代码”早已变成一个自我修改的二进制程序，远超人类理解范围。

本仓库记录的，便是这一切的开端。

—— Karpathy，2026 年 3 月

极简设计：百行代码构建自主科研引擎

据项目介绍，autoresearch 的核心代码仅约 630 行 Python。其中的 AI Agent 会自动执行以下循环：修改代码 -> 训练 5 分钟 -> 检查效果是否提升 -> 保留或丢弃结果。当你第二天早上醒来，就能看到一整晚的实验日志以及一个被优化过的模型。其核心创新在于，研究者无需再手动修改 Python 文件，而是通过编写 Markdown 文件为 AI Agent 提供上下文，从而搭建起一个自主运行的“研究组织”。

本仓库的训练代码是基于 nanoChat 的简化版、单 GPU 实现。默认配置刻意保持极简，旨在提供一个可以持续迭代的基线，目标是找到能实现最快研究进展的“研究组织代码”，或者探索引入更多 Agent 进行协作的可能性。

整个项目设计轻量，核心文件仅有三个：

prepare.py：包含固定常量、一次性数据预处理（如下载训练数据、训练 BPE 分词器）以及运行时工具函数（如数据加载器、评估函数）。该文件在实验过程中永不修改。
train.py：这是 Agent 唯一可以编辑的文件。它包含了完整的 GPT 模型定义、优化器（Muon + AdamW）和训练循环。模型架构、超参数、优化器、批次大小等所有内容均可被调整。该文件由 Agent 自主修改和迭代。
program.md：这是给单个 Agent 的基准指令文件。只需将 Agent 指向该文件，即可启动自主实验。该文件由人类编辑和迭代。

在设计上，无论算力配置如何，每次训练都固定耗时 5 分钟（实际墙钟时间，不含启动/编译耗时）。核心评估指标为 val_bpb（验证集每字节比特数），数值越低越好。该指标与词汇表大小无关，因此可以公平地对比不同架构修改的效果。

这意味着，AI Agent 每小时大约可以完成 12 次实验，通宵（按 8 小时计）约能跑完 100 次实验。这种设计有两大优势：首先，无论 Agent 修改了什么（模型规模、批次大小、架构等），所有实验都具备直接可比性；其次，autoresearch 能在该时间预算内，为特定的硬件平台找到最优模型。其缺点则是：实验结果无法直接与其他硬件平台上的结果进行横向对比。

此外，Karpathy 也提醒，目前的代码仅支持单张 NVIDIA GPU。理论上完全可以兼容 CPU、MPS 等其他平台，但那样会让代码变得臃肿。

宏大愿景：解放研究者，模拟“博士天团”

autoresearch 项目在技术社区内引发了广泛关注。有研究者评价道：“太好了，研究生终于可以专注于真正的科学研究，而不是像保姆一样看着机器运行！”

网友Sebastian Raschka对autoresearch的评论推文截图

Karpathy 很快在社交媒体上同步了他对 autoresearch 项目更远大的设想。他认为，下一步必须实现 Agent 之间异步、大规模地协作。“我们的目标绝非模拟一名博士生，而是模拟一个由无数博士生组成的完整科研社群。”

他指出，当前代码仅能在特定研究方向上，以同步方式生成单条提交记录链。但这个初始仓库更像一颗种子：从它出发，不同 Agent 可针对各类研究方向、不同算力平台，贡献各自的提交记录，最终枝繁叶茂。现有的代码协作平台（如 GitHub）看似适配这种模式，实则不然，因为它们通常基于“主分支”模型，其他分支只是临时分叉，最终仍需合并。

为此，Karpathy 尝试做了一个超轻量化的原型来探索这种协作模式，例如让 Agent 把通宵实验的结果总结成一篇 GitHub Discussion（讨论帖）。另一种方式是使用 PR（合并请求），其优势是能保留精准的提交记录，但目的并非真的合并这些 PR，而是想“采纳”并累积这些提交分支中的智慧。即便采用这种轻量化方式，也可以让 Agent 先通过 GitHub CLI 读取所有 Discussion/PR 获取灵感，待自身研究完成后，再把发现整理成一篇小型“研究报告”反馈回来。

Karpathy 坦言，他还无法确定最终形态该是什么样，但这无疑是一个远超单个仓库的宏大构想。理论上，Agent 可轻松处理并协作完成数千条分布在任意分支结构中的提交记录。当“智能、注意力、韧性”不再是瓶颈时，现有的代码协作抽象体系将面临巨大压力。

实战效果：两天颠覆二十年工作惯性？

发布 autoresearch 项目几天后，Karpathy 公开了其实验进展：他让 autoresearch 自主对一个深度为 12 的 nanochat 模型进行了约两天的调优。Agent 摸索出了约 20 处有效改动，成功降低了模型的验证损失。验证后发现，所有这些优化效果均可叠加，并且能直接迁移到更大的、深度为 24 的模型上。

将所有改动整合后，实测结果显示，模型“训练至 GPT-2 水平所需耗时”从 2.02 小时缩短至 1.80 小时，性能提升约 11%。

“由此可见，这些优化都是实打实的，能带来切实的性能提升。” Karpathy 分享道，“我原本以为 nanochat 已是我手动精细调优过的项目，没想到首次以这种简单直接的方式尝试自主调优，就能取得如此显著的效果，这多少让我有些意外。”

“这对我而言是一次全新的体验。20 年来我早已习惯手动完成神经网络训练的迭代优化：自己构思思路、动手实现、验证效果、基于结果再酝酿新想法、翻阅论文寻找灵感，周而复始。这是我二十年来日常工作的核心内容。而如今看到 Agent 能端到端地自主完成整个流程，还独立完成了约 700 次改动尝试，实在令人惊叹。”

Karpathy 相信，未来所有深耕大模型领域的顶尖实验室都会采用类似的方式，这是大模型调优领域的必然趋势。当然，在规模化应用中，这套方案的复杂度会大幅提升——毕竟实际场景中需要调优的远不止一个 train.py 文件。但这归根结底是工程实现问题，技术落地只是时间问题。

具体的落地思路可以是：启动一个 Agent 集群，让它们协同调优小模型，再将其中最有潜力的优化方案，逐步迁移到更大规模的模型训练中。人类研究者则可根据需求，在关键环节进行辅助性参与或决策。Karpathy 最后提出，任何可高效评估的指标或拥有高效代理指标的任务（比如通过训练小模型来验证效果），理论上都能通过 Agent 集群实现自主调优研究。

值得一提的是，目前 autoresearch 项目已被全球开发者社区接手共建。社区搭建了一个分布式协作层，允许多个 Agent 共享成果、分工协作，将这种开源实战模式推向了一个新高度。截至目前，社区已经运行了将近 3000 次实验，并记录了 82 项有效改进。

autoresearch@home 社区协作平台界面截图