当前,大语言模型(LLM)评测的通用榜单和常用基准陆续暴露出区分度下降、评审口径波动与数据污染等问题,促使业界愈发重视评估体系的有效性。在此背景下,业界对LLM Benchmark本身的可靠性与寿命管理关注度提升,围绕评测可区分性、长期有效性与可信度等关键问题,一批相关研究工作正在进一步展开。
LLM Benchmark“又”不够用了?
-
2026年1月,大模型评测平台Arena(曾用名Chatbot Arena、LM Arena)宣布完成1.5亿美元融资、投后估值约17亿美元,引起了人工智能社区的诸多讨论。
- 融资资金将用于大规模扩充计算资源、招聘顶级工程师,并推出企业级AI评估服务。投资者、Felicis合伙人Peter Deng在采访中指出,一旦成为事实上的基准层,产品化将是顺理成章的演进。
- Arena最初是UC Berkeley等团队为测试开源模型水平而创建的实验性项目,其核心特征在于通过真实用户参与的匿名模型对(Model Pairs)比较机制,对模型输出进行偏好评估,后来逐步发展为全球最具影响力的AI模型评测平台之一。
-
针对该轮融资,AI社区中有观点认为Arena已成为“比较模型体验的公共层”,融资只是将这层公共能力进一步产品化和工程化。但也有声音担心融资过后该平台会被“更讨喜的表达风格”影响,从而削弱其作为行业基准的公信力。
-
商业化进程之外,业界近期对Arena的讨论还涉及到平台机制在评估偏好、可操纵性和公平性等方面的问题,且质疑这种基于人类偏好的成对评估机制并不足以用来评估当前LLM真正的能力。
- 今年2月,软件开发公司JetBrains的数据科学家Jodie Burchell发表了一篇博文,指出虽然Arena比传统的刷分基准测试更有趣,但由于其评估标准过于主观、容易被操纵且偏向资源雄厚的巨头,它正逐渐失去作为科学评估工具的公信力。
- 研究者认为这种基于Vibes-based的评估缺乏科学严谨性,主要存在用户行为的不可控性、对开源/学术模型的不公平、“好”的定义模糊不清等问题。
-
包含Arena在内,在当前LLM能力快速迭代的趋势下,业界一直在探索更好的评估体系。Benchmark作为衡量LLM性能的定量评估工具,同样扮演着引导LLM发展方向、促进技术创新的核心要素,乃至被认为是AI下半场的重要研究方向。
- 现任腾讯“CEO / 总裁办公室”首席AI科学家的姚顺雨在去年4月发表的《The Second Half》中提出,当一个通用训练配方能够在多个任务上持续“爬坡”,做更难的题,然后刷新分数,最后证明进步的循环会越来越快地饱和,于是竞争的核心将从“解决问题”转向“定义问题”,而评估会变得比训练更重要。
-
在此背景下,业界始终在尝试建立更科学的评估范式。然而在密集的探索和实践过程中,不少研究者发现现有Benchmark体系不仅存在评测任务和真实使用场景脱节、测试过程缺乏统一规范且易受人为操作影响等问题,公开题库在高分段的区分度也在持续下降。
- 2025年3月,社区内有用户认为模型密集发布期间Benchmark往往只覆盖“易评分”的题型,而真实的AI使用场景更接近“协作与多轮迭代”,导致模型优化目标向“刷分”偏移,榜单表现与用户真实体验严重脱节。
- 同年9月,社区内部分用户认为LLM Benchmark测试存在cherry-pick、训练污染、方法口径不统一、参数调到最好看、复现代码不公开、API质量波动等问题,最终可能导致下游使用者的判断有误。
- 到去年年末,美团LongCat团队指出,在AIME等高难度数学评测上,顶尖模型的得分已进入极高区间,公开题库的污染风险令测试的区分度进一步下降。
LLM Benchmark的研究重心有何转变?
- 随着LLM能力深度和广度的快速扩展,相应Benchmark的数量在不断增加,评估范式也从单任务走向多任务、多领域,并逐步覆盖更复杂、更应用导向的评估场景。
当然,构建一个理想的评测体系远比想象中复杂。这不仅是技术问题,更涉及到如何定义一个“好”模型的标准,以及对模型训练方向的引导。对于开发者而言,理解当前评测基准的局限性和演进方向,有助于更客观地评估模型,并把握未来的技术重点。想了解更多前沿的技术讨论与实践,欢迎访问云栈社区,与更多同行交流。
|