云栈社区»论坛 › 开发者广场「Dev Plaza」 › AI科学家登上Nature：实现从构思到发表的端到端自动化，论文已通 ...

发回帖发新帖

3880 积分	0 好友	514 主题

发消息

AI科学家登上Nature：实现从构思到发表的端到端自动化，论文已通过顶会评审

发表于 2026-3-27 02:51:34 | 查看: 156| 回复: 0

不久前，《自然》（Nature）期刊发表了一项里程碑式的研究，宣布了一个真正意义上的 AI科学家（AI Scientist）的首次实现。该系统由日本Sakana AI（“Transformer八子”之一联合创办）与英国牛津大学、英属哥伦比亚大学的研究团队共同打造，它实现了从研究构思、实验执行到论文撰写与发表的完整端到端自动化。更令人瞩目的是，该系统生成的论文已通过国际顶级会议ICLR 2025的同行评审。这一成就被视为人工智能研究范式的一次重大突破。

被选中的AI论文内容截图

（图：被选中的AI论文节选，来源：Nature）

这项研究的共同第一作者，包括来自英国牛津大学的Chris Lu和英属哥伦比亚大学的Cong Lu。

AI科学家研究团队成员 Chris Lu 和 Cong Lu 照片

（图：从左到右：Chris Lu 和 Cong Lu）

研究中，研究团队构建了一个名为“AI科学家”的系统。该系统完全自主地完成了整个科研流程：从提出研究点子、编写代码、运行实验、分析数据，到撰写完整的学术论文，甚至自己评审自己的论文。更令人惊讶的是，其中一篇完全由AI生成的论文，投递至ICLR 2025的一个研讨会，获得了6分、7分、6分的评审分数，超过了该研讨会的平均录取线。如果研究团队没有主动撤稿，这篇论文大概率会被接收。

AI科学家工作流程及审稿表现评估图

（来源：Nature）

AI科学家如何工作？

“AI科学家”的工作流程被清晰地划分为四个步骤。

第一步是想点子

系统在接收到一个指定的研究领域后，会自主生成一批潜在的研究方向。每个方向都附带标题、研究理由、实验方案，并且系统会自己为每个想法的有趣程度、新颖性和可行性进行评分。随后，它会连接Semantic Scholar学术搜索引擎，过滤掉与已有工作过于相似的点子。

第二步是做实验

实验阶段分为两种模式。

模板模式：研究人员首先提供一段可运行的代码作为起点，AI在这个基础上构思新想法，然后调用名为“Aider”的代码助手来修改代码、运行实验。如果出错，AI会自行查看日志、修复错误，修复后继续执行。
无模板模式：在这种模式下，系统没有任何起点代码，需要从零开始编写。此时，它会进行树形搜索：从一个初始点子衍生出多个分支，每个分支运行不同的参数和设置，完成一轮后选择效果最好的分支继续深入探索。这个过程会并行运行大量节点，择优选取以进行深度挖掘。

AI科学家工作流程示意图：想点子与做实验

第三步是写论文

AI将自己实验过程中记录的笔记和生成的图表，填入一个标准的LaTeX论文模板中，自动撰写引言、方法、结果、结论等章节。当需要撰写“相关工作”部分时，它会再次查询Semantic Scholar，找出相关论文，阅读摘要并正确引用。完成撰写后，AI还会自己编译LaTeX文件，如果报错则自行修改，最多迭代五次，直到生成一份可读的PDF文件。

第四步是自己审稿

研究团队还专门构建了一个自动化审稿器。该审稿器遵循NeurIPS（神经信息处理系统大会）的审稿指南，对生成的论文进行评分，列出优点、缺点和潜在的伦理问题，最后给出接受或拒绝的建议。五份独立的自动化审稿结果汇总后，再由系统扮演“领域主席”的角色进行综合判断。

AI科学家工作流程示意图：写论文与自己审稿

这个自动化审稿器并非随意制作。研究团队使用OpenReview上真实的ICLR会议论文数据对其进行了评估。结果显示，其审稿判断的平衡准确率达到了69%，与人类审稿人66%的水平相当。在衡量评审一致性的F1分数上，它甚至超过了NeurIPS 2021实验中人类审稿人之间的一致性。这意味着自动化审稿器给出的分数，在质量上已接近人类审稿专家。

审稿评估结论说明

团队还专门测试了数据污染问题。由于模型训练数据可能包含2017至2024年的论文，他们又用2025年新发表的论文进行测试，自动化审稿器的平衡准确率下降至66%，仍然与人类水平持平。这表明该审稿器并非单纯记忆训练数据，而是真正具备了独立判断论文质量的能力。

AI科学家研究过程节点与性能关系图

论文质量与哪些因素有关？

研究团队还发现了一些有趣的规律。AI科学家生成的论文质量，与它底层所使用的基础大模型能力密切相关。他们用不同时期发布的模型（从较老的到最新的）运行同一套流程，发现生成的论文评分随着模型更新而持续上涨。这说明随着基础模型越来越强大，AI科学家产出的论文质量也会越来越接近人类水平。

同时，分配给AI科学家的计算资源越多，其产出的论文质量也越高。这好比给予一位研究生更多的时间进行实验，最终成果也可能更佳。这两个趋势叠加在一起意味着，未来AI科学家的能力将随着模型升级和算力增长而持续提升。

AI科学家论文质量与计算资源关系说明

AI科学家已能做到何种程度？

最终被研讨会评审看中的那篇论文，其研究方向是关于深度学习领域的一个“负向结果”，恰好契合了ICBINB研讨会的主题。这篇论文完全由AI科学家在“无模板模式”下生成，从选题、设计实验、编写代码、生成图表到撰写LaTeX论文，全程没有任何人类干预。

Nature期刊论文页面截图

（来源：Nature）

研究团队一共投递了三篇由AI生成的论文，仅有一篇达到了录取线，另外两篇未能达标。这说明目前的AI科学家尚不能保证每次都写出高质量论文，但它已明确证明，AI生成的内容足以“骗过”人类审稿人，让其以为是在评审人类研究者的工作。

当然，AI科学家目前远非完美。它偶尔会想出幼稚的点子，方法论可能不够严谨，编写代码时会出现各种bug，有时还会产生“幻觉”，例如引用错误或重复使用图表。然而，研究团队指出，在机器学习领域，许多技术在诞生初期都不完美，但只要核心流程得以验证，后续通过扩大规模、采用更优的模型和技术，其能力往往会迅速提升，并可能很快超越人类水平。

AI科学家当前能力与局限分析

意义与挑战

这项工作的意义远不止于让AI撰写几篇论文。它首次将整个科学研究流程——从提出想法、执行实验到撰写论文和评审——在计算机中实现了端到端的贯通。未来，这类技术有望加速药物发现、材料设计、气候建模等领域的科研进程，让AI科学家能够7×24小时不间断地探索新方向、运行实验，而人类科学家则可以在关键节点上进行判断和决策。

与此同时，研究团队也在论文最后强调了潜在的风险，例如AI论文洪流可能压垮现有的同行评审系统，或有人利用AI进行论文灌水、批量制造虚假研究。为此，他们主动撤回了所有投出的AI生成论文，并在所有生成的论文中加入了水印以便识别。他们还建议学术界尽快建立相关规范，明确AI生成论文的标注与处理方式。

研究总结与展望

这项研究标志着自动化科研进入了一个新阶段。对于整个科学界和深度学习社区而言，它既是令人兴奋的突破，也提出了亟待思考的伦理与治理新课题。如果你想了解更多关于人工智能前沿进展的深度讨论，欢迎访问云栈社区的人工智能板块，与更多开发者和技术爱好者交流分享。

上一篇：AI检测器误判频发：45年前学术论文被指77%内容为AI生成
下一篇：Google TurboQuant发布：KV Cache压缩6倍加速8倍，撼动存储芯片市场？

人工智能科学家, 自动化科研, 深度学习, 神经网络, Nature