找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3200

积分

1

好友

430

主题
发表于 2025-12-24 11:49:36 | 查看: 58| 回复: 0

在AI领域,传统的智能体评测多集中于静态问答或任务完成,但大模型智能体的进化能力评估一直缺乏有效范式。近期,由AGI-Eval社区联合上海交大与美团推出的CATArena(Code Agent Tournament Arena)框架,通过迭代锦标赛形式为LLM智能体评测带来了突破性创新。

CATArena在线平台界面
CATArena在线平台地址:https://catarena.ai/replays

该框架摒弃了传统“跑分”模式,转而让智能体在四款经典棋牌游戏(德州扑克、桥牌、象棋、五子棋)中展开多轮对抗。智能体需通过观察对手、复盘历史对局并迭代代码策略,实现自我进化与同伴学习,从而在动态竞争中评估其持续适应能力。

框架核心流程

两轮迭代流程示意图

第一轮:冷启动策略编程

  • 每个智能体接收游戏源码及一份示范AI实现。
  • 目标:在无外部指导条件下,独立开发初始策略参与后续锦标赛。

第N轮:迭代对抗与升级

  • 智能体获取上一轮全部对手的源码及对局日志。
  • 目标:分析对手代码与对局记录,优化自身策略代码。

三维量化评分体系

CATArena通过以下三个维度量化智能体能力:

能力维度 计算公式(节选) 核心解释
策略编程能力 Sᵢ = avgⱼ≠ᵢ(Wᵢ,ⱼ¹) 评估初始代码的“即战力”,即首轮对阵所有对手的平均胜率。
全局学习能力 Lᵢ = avgₙ≥₂(Gᵢⁿ − Gᵢ¹) 衡量多轮迭代后综合胜率的提升,正值表示越学越强。
泛化能力 Uᵢ = Bᵢ¹ᵛᵃʳ − Bᵢ¹ˢᵗᵈ 对比标准规则与变体规则下的首轮胜率差,正值代表对新规则适应快。

实验设计与参赛模型

参赛智能体分为两类:

  1. Minimal Agent:基于ADK框架,集成6种主流LLM,包括DeepSeek-3.1、Qwen3-Coder-480B、Doubao-Seed-1.6、GPT-5、Claude-4-Sonnet、Gemini-2.5-pro。
  2. Commercial Code Agent:涵盖Claude-Code、CodeX、Gemini-CLI、Qwen-Coder,并引入Minimal组中表现最优的版本进行对比。

对照设置

  • 引入LLM-Player:直接让LLM进行零样本决策,验证“策略编码”与“直接推理”的能力差异。
  • 每场比赛重复4次取平均值以减少随机性,共进行N=4轮迭代。

主要评测结果

综合平均排名表

  • Minimal设定下:不同LLM表现差距显著,Claude-4-Sonnet综合排名第一。
  • Commercial设定下:各模型表现趋于接近(均约2.5/5),表明框架工程化能更充分释放模型潜力。

学习能力分析

Agents学习模式与得分图

  • Claude-4-Sonnet(Minimal)展现出清晰的性能上升轨迹,学习能力突出。
  • 多数智能体表现波动较大,未形成稳定学习趋势。

策略编码 vs. 直接推理

Agent代码与LLM-Player胜率对比表

  • 高度策略性游戏(如象棋、五子棋):Agent编写的代码策略显著优于LLM直接推理,表明代码实现能更高效利用规则。
  • 心理/概率型游戏(如德州扑克):Agent胜率普遍低于LLM,因心理战术难以通过代码完全模拟,而LLM可通过上下文学习进行归纳。

国际象棋残局行动一致性图

  • Agent编码策略与同模型直接推理策略差异显著,证实 “策略编码 ≠ 推理” ,CATArena填补了Agent专项能力评测的空白。

扩展赛道:机器学习与多语言实现

机器学习赛道

  • Agent在GPU环境中自主生成数据、设计训练代码并提交模型策略。多数Agent仅实现基础模型且训练有限,导致性能差异较小。

多语言赛道

  • 同一策略需用Python、JavaScript、Go分别实现。Python实现方面,Qwen3-Coder跨语言一致性最佳;GPT-5、Doubao-Seed则出现“Python强、JS/Go弱”的现象,揭示抽象策略迁移仍存在瓶颈。

总结与展望

CATArena通过动态、开放的迭代锦标赛机制,为LLM智能体评测提供了更贴近真实进化场景的新范式。其价值在于评估智能体在持续变化环境中的理解、适应与超越能力,而非一次性答题正确率。

未来,该框架计划引入更复杂的实时策略游戏、兵棋推演及经济模拟等场景,并探索“人在回路”机制,让智能体向人类专家学习,进一步推动通用智能体技术的发展。


相关资源




上一篇:金融数据中的前视偏误:基于交易所BBO的修正方法与LF NBBO构建
下一篇:Windows 10/11任务栏美化指南:TranslucentTB透明与模糊效果设置教程
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-8 06:45 , Processed in 0.382481 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表