找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2444

积分

0

好友

326

主题
发表于 前天 08:56 | 查看: 14| 回复: 0

近日,加州大学圣地亚哥分校(UCSD)的研究团队推出了一款名为 AIBuildAI 的智能体系统。它能够像一支虚拟的AI工程师团队一样,全自动地完成AI模型的构建工作,包括模型设计、代码实现、训练、调参、评估与迭代优化。

开发一个高性能的AI模型向来是一项耗时费力的工程。工程师需要在设计、编码、训练流水线构建、超参数搜索和结果迭代之间反复横跳。这个过程高度依赖专业知识,人力与时间成本巨大。

为了解决这一痛点,UCSD团队开发了 AIBuildAI。用户无需编写任何代码,仅需用自然语言描述任务目标,该系统便能自动完成从设计到部署的完整流程。

AIBuildAI:An AI agent that automatically builds AI models 论文标题页

在极具挑战性的 OpenAI MLE-Bench 基准测试中,AIBuildAI 在75个真实任务上取得了 63.1% 的获奖率,位居榜首,其表现可与经验丰富的AI工程师相媲美,真正实现了从任务描述到可部署模型的端到端自动化。

AIBuildAI任务启动配置界面

AIBuildAI Dashboard 任务监控面板

设计理念:模拟真实AI团队工作流

AIBuildAI 的设计灵感来源于真实的AI研发团队协作模式。在一个典型的项目中,技术负责人统筹全局,研究员提出方案,工程师实现代码,负责人评审结果并分配资源。AIBuildAI 将这一工作流抽象为一个结构化的多智能体搜索过程,通过多个专职智能体的分工协作与统一调度来完成复杂任务。

Claude Opus 4.6多智能体协作流程架构图

核心智能体分工

管理智能体 (Manager Agent)
扮演项目负责人的角色,不直接写代码或训练,而是通过读取磁盘上的实验记录做出决策。它在两种模式间切换:

  • 协调模式:决定下一步调用哪个子智能体。
  • 筛选模式:根据训练信号保留有潜力的方案,终止无效方案以节约资源,并在进展停滞时触发修订或终止流程。

研究员智能体 (Designer Agent)
负责方案的设计与修订。

  • 设计模式:探索数据集特征,提出多个差异化、可行性强的建模计划。
  • 修订模式:诊断失败原因(如过拟合、欠拟合等),并提出具体的改进方案。

编码智能体 (Coder Agent)
负责将设计方案转化为可运行的训练与推理流水线。其核心目标是确保代码的正确性与完整性,完成后会进行短时验证运行,确保流水线能端到端执行,随后将完整训练交给调优器。

调优器智能体 (Tuner Agent)
接管训练过程,专注于性能提升。采用“先快速校准,再决定投入”的策略:先进行简短的热身训练观察学习曲线,再决定是延长训练还是调整超参数,整个过程在固定的计算预算内完成。

系统级关键特性

在系统层面,AIBuildAI 还具备三项重要特征,确保了其高效与可靠:

  1. 并行效率:多条解决方案轨迹在独立工作空间中并发运行,互不干扰,允许系统同时探索多种方法并将资源集中于表现优异的方案。
  2. 可复现性:所有智能体通过存储在磁盘上的产出物(方案文档、配置、日志、检查点)进行协调,而非依赖内存中的临时信息,确保每一步操作都可事后审查与复现。
  3. 安全性:智能体仅被允许写入自身的工作目录,原始数据集以只读方式挂载,每次调用均生成可审计的操作日志。

实验结果:MLE-Bench 榜单第一

AIBuildAI 在 OpenAI MLE-Bench 基准上进行了全面评估。该基准包含来自Kaggle竞赛的75个真实任务,涵盖图像分类、自然语言处理、时序预测等多个类别,要求系统完成从原始数据到可提交模型的全流程自动化AI开发

MLE-Bench性能对比柱状图,AIBuildAI排名第一

目前,AIBuildAI 以 63.1% 的综合获奖率位居 MLE-Bench 总榜第一。上图清晰显示,AIBuildAI(橙色柱)的综合性能在所有对比方法中表现最佳。

AIBuildAI在多个NLP任务上的详细性能对比

上图以详细案例展示了 AIBuildAI 在语言任务上的强大能力。上半部分以“Billion Word Imputation”任务为例,完整呈现了各智能体的协作轨迹:Manager 依次调度 Setup、Designer(提出6个候选方案)、Coder(实现流水线)和 Tuner(迭代调参),最终 Aggregator 生成最优提交文件。下半部分对比显示,AIBuildAI(紫色)在多个不同的自然语言理解与生成任务上均取得了最优成绩,验证了其强大的泛化能力。

总结与展望

AIBuildAI 通过将复杂的AI开发流程解构,分配给设计、编码、调优与协调等专职智能体,并采用基于产出物的状态管理进行紧密协同,实现了真正意义上的端到端自动化AI工程。

与以往以单一代码生成为核心的系统不同,AIBuildAI 显式建模了训练监控、早停机制和超参数调整等关键环节,更贴近真实工程师团队的工作方式。其在 MLE-Bench 上的卓越表现,不仅证明了结构化多智能体协作在自动化复杂工程任务上的可行性,也为迈向能够媲美人类专家的全自动AI系统指明了一条清晰的技术路径。

对这类前沿的AI工程自动化技术和开源项目感兴趣的朋友,可以持续关注云栈社区,获取更多深度解读和技术实践分享。




上一篇:技术干货揭秘:专家角色提示词为何会损害大模型知识准确率
下一篇:上下文窗口越大越好?AI长文本处理的真相与优化策略
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-26 16:14 , Processed in 0.674101 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表