Perplexity 近日开源了一个名为 DRACO(Deep Research Accuracy, Completeness, and Objectivity)的评估基准。这个基准专门设计用于测试深度研究AI代理的能力,其核心亮点在于:基准的任务来源于真实的用户查询,而非人工合成的学术题目。
具体而言,DRACO 包含了 100 个精心设计的任务,覆盖了学术、金融、法律、医学、技术等 10 个不同的领域。每个任务都配有大约 40 条详细的评估标准。这些任务均从 Perplexity 平台的数百万真实用户请求中采样而来,并经过了五个阶段的严格处理:去除个人信息、添加上下文、过滤主观内容、筛选任务难度,最后交由领域专家进行最终审核。
在评估维度上,DRACO 主要考察四个方面:事实准确性(权重占比约一半)、分析深度与广度、信息呈现质量以及引用来源质量。评估采用了 LLM-as-judge 的方式,由大型语言模型作为评判员,针对每条标准给出“是”或“否”的二元判定。
根据评估结果,Perplexity 自家的 Deep Research 代理在法律(89.4%)和学术(82.4%)领域表现最为突出,在涉及复杂推理的任务上,其表现领先于其他竞品超过 20 个百分点。一个有趣的发现是,它在执行任务时的延迟也最低(平均 459.6 秒),比其他被测试的系统快了不少。
为什么“使用真实用户数据构建基准”这一思路值得关注?知名开发者 Simon Willison 曾多次强调,人工合成的基准测试与实际应用场景之间往往存在巨大鸿沟。许多模型能在传统 Benchmark 上刷出高分,但在真实环境中使用时却表现平平。DRACO 的做法正是在努力弥合这道缝隙。
此外,将搜索、浏览器交互、代码执行等功能垂直整合成一个端到端的系统,这种“全栈”式思路在当前的 AI 应用层正变得越来越重要。单靠模型自身的能力已显不足,工程上的优化同样关键。
我们还注意到,Perplexity 团队在评估标准(rubric)的开发上投入了大量精力——约 45% 的评估标准都至少迭代优化过一轮,并且引入了“负分项”来专门惩罚 AI 的幻觉(Hallucination)行为。这或许说明,要搞好 AI 评估,标准本身的设计可能比选择哪一个具体的 Judge 模型更为重要。

在我看来,DRACO 最有价值的地方,并非仅仅证明了 Perplexity 自身产品的强大,而在于它为“如何评估深度研究AI”这件事提供了一套标准化的方法。过去,我们评估这类研究型 AI,要么依赖主观感受,要么使用那些与实际需求脱节的学术基准。现在,我们有了一个更接地气的参照系。
这实际上触及了当前 人工智能 应用落地的一个核心挑战:如何建立可信、可靠且与真实世界接轨的评估体系。如果你对这类前沿的技术动态和开源项目实践感兴趣,欢迎到 云栈社区 交流探讨,这里聚集了许多关注 AI 工程化与评估的开发者。
|