找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2497

积分

0

好友

337

主题
发表于 2 小时前 | 查看: 3| 回复: 0

不久前,《自然》(Nature)期刊发表了一项里程碑式的研究,宣布了一个真正意义上的 AI科学家(AI Scientist)的首次实现。该系统由日本Sakana AI(“Transformer八子”之一联合创办)与英国牛津大学、英属哥伦比亚大学的研究团队共同打造,它实现了从研究构思、实验执行到论文撰写与发表的完整端到端自动化。更令人瞩目的是,该系统生成的论文已通过国际顶级会议ICLR 2025的同行评审。这一成就被视为人工智能研究范式的一次重大突破。

被选中的AI论文内容截图

(图:被选中的AI论文节选,来源:Nature)

这项研究的共同第一作者,包括来自英国牛津大学的Chris Lu和英属哥伦比亚大学的Cong Lu。

AI科学家研究团队成员 Chris Lu 和 Cong Lu 照片

(图:从左到右:Chris Lu 和 Cong Lu)

研究中,研究团队构建了一个名为“AI科学家”的系统。该系统完全自主地完成了整个科研流程:从提出研究点子、编写代码、运行实验、分析数据,到撰写完整的学术论文,甚至自己评审自己的论文。更令人惊讶的是,其中一篇完全由AI生成的论文,投递至ICLR 2025的一个研讨会,获得了6分、7分、6分的评审分数,超过了该研讨会的平均录取线。如果研究团队没有主动撤稿,这篇论文大概率会被接收。

AI科学家工作流程及审稿表现评估图

(来源:Nature)

AI科学家如何工作?

“AI科学家”的工作流程被清晰地划分为四个步骤。

第一步是想点子

系统在接收到一个指定的研究领域后,会自主生成一批潜在的研究方向。每个方向都附带标题、研究理由、实验方案,并且系统会自己为每个想法的有趣程度、新颖性和可行性进行评分。随后,它会连接Semantic Scholar学术搜索引擎,过滤掉与已有工作过于相似的点子。

第二步是做实验

实验阶段分为两种模式。

  1. 模板模式:研究人员首先提供一段可运行的代码作为起点,AI在这个基础上构思新想法,然后调用名为“Aider”的代码助手来修改代码、运行实验。如果出错,AI会自行查看日志、修复错误,修复后继续执行。

  2. 无模板模式:在这种模式下,系统没有任何起点代码,需要从零开始编写。此时,它会进行树形搜索:从一个初始点子衍生出多个分支,每个分支运行不同的参数和设置,完成一轮后选择效果最好的分支继续深入探索。这个过程会并行运行大量节点,择优选取以进行深度挖掘。

AI科学家工作流程示意图:想点子与做实验

第三步是写论文

AI将自己实验过程中记录的笔记和生成的图表,填入一个标准的LaTeX论文模板中,自动撰写引言、方法、结果、结论等章节。当需要撰写“相关工作”部分时,它会再次查询Semantic Scholar,找出相关论文,阅读摘要并正确引用。完成撰写后,AI还会自己编译LaTeX文件,如果报错则自行修改,最多迭代五次,直到生成一份可读的PDF文件。

第四步是自己审稿

研究团队还专门构建了一个自动化审稿器。该审稿器遵循NeurIPS(神经信息处理系统大会)的审稿指南,对生成的论文进行评分,列出优点、缺点和潜在的伦理问题,最后给出接受或拒绝的建议。五份独立的自动化审稿结果汇总后,再由系统扮演“领域主席”的角色进行综合判断。

AI科学家工作流程示意图:写论文与自己审稿

这个自动化审稿器并非随意制作。研究团队使用OpenReview上真实的ICLR会议论文数据对其进行了评估。结果显示,其审稿判断的平衡准确率达到了69%,与人类审稿人66%的水平相当。在衡量评审一致性的F1分数上,它甚至超过了NeurIPS 2021实验中人类审稿人之间的一致性。这意味着自动化审稿器给出的分数,在质量上已接近人类审稿专家。

审稿评估结论说明

团队还专门测试了数据污染问题。由于模型训练数据可能包含2017至2024年的论文,他们又用2025年新发表的论文进行测试,自动化审稿器的平衡准确率下降至66%,仍然与人类水平持平。这表明该审稿器并非单纯记忆训练数据,而是真正具备了独立判断论文质量的能力。

AI科学家研究过程节点与性能关系图

论文质量与哪些因素有关?

研究团队还发现了一些有趣的规律。AI科学家生成的论文质量,与它底层所使用的基础大模型能力密切相关。他们用不同时期发布的模型(从较老的到最新的)运行同一套流程,发现生成的论文评分随着模型更新而持续上涨。这说明随着基础模型越来越强大,AI科学家产出的论文质量也会越来越接近人类水平。

同时,分配给AI科学家的计算资源越多,其产出的论文质量也越高。这好比给予一位研究生更多的时间进行实验,最终成果也可能更佳。这两个趋势叠加在一起意味着,未来AI科学家的能力将随着模型升级和算力增长而持续提升。

AI科学家论文质量与计算资源关系说明

AI科学家已能做到何种程度?

最终被研讨会评审看中的那篇论文,其研究方向是关于深度学习领域的一个“负向结果”,恰好契合了ICBINB研讨会的主题。这篇论文完全由AI科学家在“无模板模式”下生成,从选题、设计实验、编写代码、生成图表到撰写LaTeX论文,全程没有任何人类干预。

Nature期刊论文页面截图

(来源:Nature)

研究团队一共投递了三篇由AI生成的论文,仅有一篇达到了录取线,另外两篇未能达标。这说明目前的AI科学家尚不能保证每次都写出高质量论文,但它已明确证明,AI生成的内容足以“骗过”人类审稿人,让其以为是在评审人类研究者的工作。

当然,AI科学家目前远非完美。它偶尔会想出幼稚的点子,方法论可能不够严谨,编写代码时会出现各种bug,有时还会产生“幻觉”,例如引用错误或重复使用图表。然而,研究团队指出,在机器学习领域,许多技术在诞生初期都不完美,但只要核心流程得以验证,后续通过扩大规模、采用更优的模型和技术,其能力往往会迅速提升,并可能很快超越人类水平。

AI科学家当前能力与局限分析

意义与挑战

这项工作的意义远不止于让AI撰写几篇论文。它首次将整个科学研究流程——从提出想法、执行实验到撰写论文和评审——在计算机中实现了端到端的贯通。未来,这类技术有望加速药物发现、材料设计、气候建模等领域的科研进程,让AI科学家能够7×24小时不间断地探索新方向、运行实验,而人类科学家则可以在关键节点上进行判断和决策。

与此同时,研究团队也在论文最后强调了潜在的风险,例如AI论文洪流可能压垮现有的同行评审系统,或有人利用AI进行论文灌水、批量制造虚假研究。为此,他们主动撤回了所有投出的AI生成论文,并在所有生成的论文中加入了水印以便识别。他们还建议学术界尽快建立相关规范,明确AI生成论文的标注与处理方式。

研究总结与展望

这项研究标志着自动化科研进入了一个新阶段。对于整个科学界和深度学习社区而言,它既是令人兴奋的突破,也提出了亟待思考的伦理与治理新课题。如果你想了解更多关于人工智能前沿进展的深度讨论,欢迎访问云栈社区人工智能板块,与更多开发者和技术爱好者交流分享。




上一篇:AI检测器误判频发:45年前学术论文被指77%内容为AI生成
下一篇:Google TurboQuant发布:KV Cache压缩6倍加速8倍,撼动存储芯片市场?
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-27 05:31 , Processed in 0.535870 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表