在AI领域,传统的智能体评测多集中于静态问答或任务完成,但大模型智能体的进化能力评估一直缺乏有效范式。近期,由AGI-Eval社区联合上海交大与美团推出的CATArena(Code Agent Tournament Arena)框架,通过迭代锦标赛形式为LLM智能体评测带来了突破性创新。

CATArena在线平台地址:https://catarena.ai/replays
该框架摒弃了传统“跑分”模式,转而让智能体在四款经典棋牌游戏(德州扑克、桥牌、象棋、五子棋)中展开多轮对抗。智能体需通过观察对手、复盘历史对局并迭代代码策略,实现自我进化与同伴学习,从而在动态竞争中评估其持续适应能力。
框架核心流程

第一轮:冷启动策略编程
- 每个智能体接收游戏源码及一份示范AI实现。
- 目标:在无外部指导条件下,独立开发初始策略参与后续锦标赛。
第N轮:迭代对抗与升级
- 智能体获取上一轮全部对手的源码及对局日志。
- 目标:分析对手代码与对局记录,优化自身策略代码。
三维量化评分体系
CATArena通过以下三个维度量化智能体能力:
| 能力维度 |
计算公式(节选) |
核心解释 |
| 策略编程能力 |
Sᵢ = avgⱼ≠ᵢ(Wᵢ,ⱼ¹) |
评估初始代码的“即战力”,即首轮对阵所有对手的平均胜率。 |
| 全局学习能力 |
Lᵢ = avgₙ≥₂(Gᵢⁿ − Gᵢ¹) |
衡量多轮迭代后综合胜率的提升,正值表示越学越强。 |
| 泛化能力 |
Uᵢ = Bᵢ¹ᵛᵃʳ − Bᵢ¹ˢᵗᵈ |
对比标准规则与变体规则下的首轮胜率差,正值代表对新规则适应快。 |
实验设计与参赛模型
参赛智能体分为两类:
- Minimal Agent:基于ADK框架,集成6种主流LLM,包括DeepSeek-3.1、Qwen3-Coder-480B、Doubao-Seed-1.6、GPT-5、Claude-4-Sonnet、Gemini-2.5-pro。
- Commercial Code Agent:涵盖Claude-Code、CodeX、Gemini-CLI、Qwen-Coder,并引入Minimal组中表现最优的版本进行对比。
对照设置:
- 引入LLM-Player:直接让LLM进行零样本决策,验证“策略编码”与“直接推理”的能力差异。
- 每场比赛重复4次取平均值以减少随机性,共进行N=4轮迭代。
主要评测结果

- Minimal设定下:不同LLM表现差距显著,Claude-4-Sonnet综合排名第一。
- Commercial设定下:各模型表现趋于接近(均约2.5/5),表明框架工程化能更充分释放模型潜力。
学习能力分析

- Claude-4-Sonnet(Minimal)展现出清晰的性能上升轨迹,学习能力突出。
- 多数智能体表现波动较大,未形成稳定学习趋势。
策略编码 vs. 直接推理

- 高度策略性游戏(如象棋、五子棋):Agent编写的代码策略显著优于LLM直接推理,表明代码实现能更高效利用规则。
- 心理/概率型游戏(如德州扑克):Agent胜率普遍低于LLM,因心理战术难以通过代码完全模拟,而LLM可通过上下文学习进行归纳。

- Agent编码策略与同模型直接推理策略差异显著,证实 “策略编码 ≠ 推理” ,CATArena填补了Agent专项能力评测的空白。
扩展赛道:机器学习与多语言实现
机器学习赛道:
- Agent在GPU环境中自主生成数据、设计训练代码并提交模型策略。多数Agent仅实现基础模型且训练有限,导致性能差异较小。
多语言赛道:
- 同一策略需用Python、JavaScript、Go分别实现。Python实现方面,Qwen3-Coder跨语言一致性最佳;GPT-5、Doubao-Seed则出现“Python强、JS/Go弱”的现象,揭示抽象策略迁移仍存在瓶颈。
总结与展望
CATArena通过动态、开放的迭代锦标赛机制,为LLM智能体评测提供了更贴近真实进化场景的新范式。其价值在于评估智能体在持续变化环境中的理解、适应与超越能力,而非一次性答题正确率。
未来,该框架计划引入更复杂的实时策略游戏、兵棋推演及经济模拟等场景,并探索“人在回路”机制,让智能体向人类专家学习,进一步推动通用智能体技术的发展。
相关资源:
|