4003 积分	0 好友	525 主题

发消息

[Python] UCSD发布AIBuildAI智能体：端到端自动构建AI模型，MLE-Bench榜单第一

发表于 2026-3-24 08:56:58 | 查看: 199| 回复: 0

近日，加州大学圣地亚哥分校（UCSD）的研究团队推出了一款名为 AIBuildAI 的智能体系统。它能够像一支虚拟的AI工程师团队一样，全自动地完成AI模型的构建工作，包括模型设计、代码实现、训练、调参、评估与迭代优化。

开发一个高性能的AI模型向来是一项耗时费力的工程。工程师需要在设计、编码、训练流水线构建、超参数搜索和结果迭代之间反复横跳。这个过程高度依赖专业知识，人力与时间成本巨大。

为了解决这一痛点，UCSD团队开发了 AIBuildAI。用户无需编写任何代码，仅需用自然语言描述任务目标，该系统便能自动完成从设计到部署的完整流程。

AIBuildAI：An AI agent that automatically builds AI models 论文标题页

项目地址：https://github.com/aibuildai/AI-Build-AI
论文链接：https://github.com/aibuildai/AIBuildAI/blob/main/AIBuildAI_Tech_Report.pdf
OpenAI MLE-Bench测评结果：https://github.com/openai/mle-bench/pull/126

在极具挑战性的 OpenAI MLE-Bench 基准测试中，AIBuildAI 在75个真实任务上取得了 63.1% 的获奖率，位居榜首，其表现可与经验丰富的AI工程师相媲美，真正实现了从任务描述到可部署模型的端到端自动化。

AIBuildAI任务启动配置界面

AIBuildAI Dashboard 任务监控面板

设计理念：模拟真实AI团队工作流

AIBuildAI 的设计灵感来源于真实的AI研发团队协作模式。在一个典型的项目中，技术负责人统筹全局，研究员提出方案，工程师实现代码，负责人评审结果并分配资源。AIBuildAI 将这一工作流抽象为一个结构化的多智能体搜索过程，通过多个专职智能体的分工协作与统一调度来完成复杂任务。

Claude Opus 4.6多智能体协作流程架构图

核心智能体分工

管理智能体 (Manager Agent)
扮演项目负责人的角色，不直接写代码或训练，而是通过读取磁盘上的实验记录做出决策。它在两种模式间切换：

协调模式：决定下一步调用哪个子智能体。
筛选模式：根据训练信号保留有潜力的方案，终止无效方案以节约资源，并在进展停滞时触发修订或终止流程。

研究员智能体 (Designer Agent)
负责方案的设计与修订。

设计模式：探索数据集特征，提出多个差异化、可行性强的建模计划。
修订模式：诊断失败原因（如过拟合、欠拟合等），并提出具体的改进方案。

编码智能体 (Coder Agent)
负责将设计方案转化为可运行的训练与推理流水线。其核心目标是确保代码的正确性与完整性，完成后会进行短时验证运行，确保流水线能端到端执行，随后将完整训练交给调优器。

调优器智能体 (Tuner Agent)
接管训练过程，专注于性能提升。采用“先快速校准，再决定投入”的策略：先进行简短的热身训练观察学习曲线，再决定是延长训练还是调整超参数，整个过程在固定的计算预算内完成。

系统级关键特性

在系统层面，AIBuildAI 还具备三项重要特征，确保了其高效与可靠：

并行效率：多条解决方案轨迹在独立工作空间中并发运行，互不干扰，允许系统同时探索多种方法并将资源集中于表现优异的方案。
可复现性：所有智能体通过存储在磁盘上的产出物（方案文档、配置、日志、检查点）进行协调，而非依赖内存中的临时信息，确保每一步操作都可事后审查与复现。
安全性：智能体仅被允许写入自身的工作目录，原始数据集以只读方式挂载，每次调用均生成可审计的操作日志。

实验结果：MLE-Bench 榜单第一

AIBuildAI 在 OpenAI MLE-Bench 基准上进行了全面评估。该基准包含来自Kaggle竞赛的75个真实任务，涵盖图像分类、自然语言处理、时序预测等多个类别，要求系统完成从原始数据到可提交模型的全流程自动化AI开发。

MLE-Bench性能对比柱状图，AIBuildAI排名第一

目前，AIBuildAI 以 63.1% 的综合获奖率位居 MLE-Bench 总榜第一。上图清晰显示，AIBuildAI（橙色柱）的综合性能在所有对比方法中表现最佳。

AIBuildAI在多个NLP任务上的详细性能对比

上图以详细案例展示了 AIBuildAI 在语言任务上的强大能力。上半部分以“Billion Word Imputation”任务为例，完整呈现了各智能体的协作轨迹：Manager 依次调度 Setup、Designer（提出6个候选方案）、Coder（实现流水线）和 Tuner（迭代调参），最终 Aggregator 生成最优提交文件。下半部分对比显示，AIBuildAI（紫色）在多个不同的自然语言理解与生成任务上均取得了最优成绩，验证了其强大的泛化能力。

总结与展望

AIBuildAI 通过将复杂的AI开发流程解构，分配给设计、编码、调优与协调等专职智能体，并采用基于产出物的状态管理进行紧密协同，实现了真正意义上的端到端自动化AI工程。

与以往以单一代码生成为核心的系统不同，AIBuildAI 显式建模了训练监控、早停机制和超参数调整等关键环节，更贴近真实工程师团队的工作方式。其在 MLE-Bench 上的卓越表现，不仅证明了结构化多智能体协作在自动化复杂工程任务上的可行性，也为迈向能够媲美人类专家的全自动AI系统指明了一条清晰的技术路径。

对这类前沿的AI工程自动化技术和开源项目感兴趣的朋友，可以持续关注云栈社区，获取更多深度解读和技术实践分享。

上一篇：技术干货揭秘：专家角色提示词为何会损害大模型知识准确率
下一篇：上下文窗口越大越好？AI长文本处理的真相与优化策略

AIBuildAI, 多智能体系统, MLE-Bench, 自动化AI工程, 机器学习管道