5668 积分	1 好友	759 主题

发消息

Perplexity开源DRACO基准：如何用真实用户查询评估深度研究AI？

发表于 2026-2-14 03:35:16 | 查看: 206| 回复: 0

Perplexity 近日开源了一个名为 DRACO（Deep Research Accuracy, Completeness, and Objectivity）的评估基准。这个基准专门设计用于测试深度研究AI代理的能力，其核心亮点在于：基准的任务来源于真实的用户查询，而非人工合成的学术题目。

具体而言，DRACO 包含了 100 个精心设计的任务，覆盖了学术、金融、法律、医学、技术等 10 个不同的领域。每个任务都配有大约 40 条详细的评估标准。这些任务均从 Perplexity 平台的数百万真实用户请求中采样而来，并经过了五个阶段的严格处理：去除个人信息、添加上下文、过滤主观内容、筛选任务难度，最后交由领域专家进行最终审核。

在评估维度上，DRACO 主要考察四个方面：事实准确性（权重占比约一半）、分析深度与广度、信息呈现质量以及引用来源质量。评估采用了 LLM-as-judge 的方式，由大型语言模型作为评判员，针对每条标准给出“是”或“否”的二元判定。

根据评估结果，Perplexity 自家的 Deep Research 代理在法律（89.4%）和学术（82.4%）领域表现最为突出，在涉及复杂推理的任务上，其表现领先于其他竞品超过 20 个百分点。一个有趣的发现是，它在执行任务时的延迟也最低（平均 459.6 秒），比其他被测试的系统快了不少。

为什么“使用真实用户数据构建基准”这一思路值得关注？知名开发者 Simon Willison 曾多次强调，人工合成的基准测试与实际应用场景之间往往存在巨大鸿沟。许多模型能在传统 Benchmark 上刷出高分，但在真实环境中使用时却表现平平。DRACO 的做法正是在努力弥合这道缝隙。

此外，将搜索、浏览器交互、代码执行等功能垂直整合成一个端到端的系统，这种“全栈”式思路在当前的 AI 应用层正变得越来越重要。单靠模型自身的能力已显不足，工程上的优化同样关键。

我们还注意到，Perplexity 团队在评估标准（rubric）的开发上投入了大量精力——约 45% 的评估标准都至少迭代优化过一轮，并且引入了“负分项”来专门惩罚 AI 的幻觉（Hallucination）行为。这或许说明，要搞好 AI 评估，标准本身的设计可能比选择哪一个具体的 Judge 模型更为重要。

古典肖像与现代面孔的对比艺术图

在我看来，DRACO 最有价值的地方，并非仅仅证明了 Perplexity 自身产品的强大，而在于它为“如何评估深度研究AI”这件事提供了一套标准化的方法。过去，我们评估这类研究型 AI，要么依赖主观感受，要么使用那些与实际需求脱节的学术基准。现在，我们有了一个更接地气的参照系。

这实际上触及了当前人工智能应用落地的一个核心挑战：如何建立可信、可靠且与真实世界接轨的评估体系。如果你对这类前沿的技术动态和开源项目实践感兴趣，欢迎到云栈社区交流探讨，这里聚集了许多关注 AI 工程化与评估的开发者。

上一篇：我如何用一套简陋系统告别信息过载与AI依赖
下一篇：字节ByteRobust解析：保障大规模LLM训练的自动容错系统

DRACO, 人工智能评估, 大语言模型, 大模型评估, Perplexity

Perplexity开源DRACO基准：如何用真实用户查询评估深度研究AI？

相关帖子