近日,加州大学圣地亚哥分校(UCSD)的研究团队推出了一款名为 AIBuildAI 的智能体系统。它能够像一支虚拟的AI工程师团队一样,全自动地完成AI模型的构建工作,包括模型设计、代码实现、训练、调参、评估与迭代优化。
开发一个高性能的AI模型向来是一项耗时费力的工程。工程师需要在设计、编码、训练流水线构建、超参数搜索和结果迭代之间反复横跳。这个过程高度依赖专业知识,人力与时间成本巨大。
为了解决这一痛点,UCSD团队开发了 AIBuildAI。用户无需编写任何代码,仅需用自然语言描述任务目标,该系统便能自动完成从设计到部署的完整流程。

在极具挑战性的 OpenAI MLE-Bench 基准测试中,AIBuildAI 在75个真实任务上取得了 63.1% 的获奖率,位居榜首,其表现可与经验丰富的AI工程师相媲美,真正实现了从任务描述到可部署模型的端到端自动化。


设计理念:模拟真实AI团队工作流
AIBuildAI 的设计灵感来源于真实的AI研发团队协作模式。在一个典型的项目中,技术负责人统筹全局,研究员提出方案,工程师实现代码,负责人评审结果并分配资源。AIBuildAI 将这一工作流抽象为一个结构化的多智能体搜索过程,通过多个专职智能体的分工协作与统一调度来完成复杂任务。

核心智能体分工
管理智能体 (Manager Agent)
扮演项目负责人的角色,不直接写代码或训练,而是通过读取磁盘上的实验记录做出决策。它在两种模式间切换:
- 协调模式:决定下一步调用哪个子智能体。
- 筛选模式:根据训练信号保留有潜力的方案,终止无效方案以节约资源,并在进展停滞时触发修订或终止流程。
研究员智能体 (Designer Agent)
负责方案的设计与修订。
- 设计模式:探索数据集特征,提出多个差异化、可行性强的建模计划。
- 修订模式:诊断失败原因(如过拟合、欠拟合等),并提出具体的改进方案。
编码智能体 (Coder Agent)
负责将设计方案转化为可运行的训练与推理流水线。其核心目标是确保代码的正确性与完整性,完成后会进行短时验证运行,确保流水线能端到端执行,随后将完整训练交给调优器。
调优器智能体 (Tuner Agent)
接管训练过程,专注于性能提升。采用“先快速校准,再决定投入”的策略:先进行简短的热身训练观察学习曲线,再决定是延长训练还是调整超参数,整个过程在固定的计算预算内完成。
系统级关键特性
在系统层面,AIBuildAI 还具备三项重要特征,确保了其高效与可靠:
- 并行效率:多条解决方案轨迹在独立工作空间中并发运行,互不干扰,允许系统同时探索多种方法并将资源集中于表现优异的方案。
- 可复现性:所有智能体通过存储在磁盘上的产出物(方案文档、配置、日志、检查点)进行协调,而非依赖内存中的临时信息,确保每一步操作都可事后审查与复现。
- 安全性:智能体仅被允许写入自身的工作目录,原始数据集以只读方式挂载,每次调用均生成可审计的操作日志。
实验结果:MLE-Bench 榜单第一
AIBuildAI 在 OpenAI MLE-Bench 基准上进行了全面评估。该基准包含来自Kaggle竞赛的75个真实任务,涵盖图像分类、自然语言处理、时序预测等多个类别,要求系统完成从原始数据到可提交模型的全流程自动化AI开发。

目前,AIBuildAI 以 63.1% 的综合获奖率位居 MLE-Bench 总榜第一。上图清晰显示,AIBuildAI(橙色柱)的综合性能在所有对比方法中表现最佳。

上图以详细案例展示了 AIBuildAI 在语言任务上的强大能力。上半部分以“Billion Word Imputation”任务为例,完整呈现了各智能体的协作轨迹:Manager 依次调度 Setup、Designer(提出6个候选方案)、Coder(实现流水线)和 Tuner(迭代调参),最终 Aggregator 生成最优提交文件。下半部分对比显示,AIBuildAI(紫色)在多个不同的自然语言理解与生成任务上均取得了最优成绩,验证了其强大的泛化能力。
总结与展望
AIBuildAI 通过将复杂的AI开发流程解构,分配给设计、编码、调优与协调等专职智能体,并采用基于产出物的状态管理进行紧密协同,实现了真正意义上的端到端自动化AI工程。
与以往以单一代码生成为核心的系统不同,AIBuildAI 显式建模了训练监控、早停机制和超参数调整等关键环节,更贴近真实工程师团队的工作方式。其在 MLE-Bench 上的卓越表现,不仅证明了结构化多智能体协作在自动化复杂工程任务上的可行性,也为迈向能够媲美人类专家的全自动AI系统指明了一条清晰的技术路径。
对这类前沿的AI工程自动化技术和开源项目感兴趣的朋友,可以持续关注云栈社区,获取更多深度解读和技术实践分享。