找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4346

积分

0

好友

608

主题
发表于 14 小时前 | 查看: 5| 回复: 0

在构建和优化检索增强生成(RAG)系统时,如何高效地获取高质量的训练数据一直是个核心挑战。Dropbox 在其智能助手 Dash 的实践中,找到了一条颇具启发性的路径:利用大语言模型规模化地辅助人工进行相关性标注。

Dropbox 首席工程师 Dmitriy Meyerzon 指出,文档检索质量是整个 RAG 流程的关键瓶颈。这类系统需要先从海量的企业文档库中精准筛选出相关内容,再将其输入给大语言模型进行答案生成。

企业搜索索引中往往存在数百万甚至数十亿份文档,而系统每次只能将检索到的极少部分传给大语言模型。这使得搜索排序模型的质量——以及用于训练该模型的相关性标注数据——对最终答案的效果具有决定性影响。

因此,Dash 采用监督学习技术来训练排序模型,其核心是根据文档满足查询需求的程度,对大量的“查询-文档”对进行标注。然而,纯人工标注面临成本高昂、速度缓慢且一致性难以保证的难题。

为了突破这一局限,Dropbox 引入了一种创新的补充方案:利用大语言模型来大规模生成相关性判断。这种方法成本更低,一致性更强,并且能够轻松扩展到庞大的文档集。但必须明确,大语言模型并非完美的评估者。因此,在将其生成的标注数据用于训练之前,必须对其效果进行严谨的评估。

在实际工程落地中,利用大语言模型进行相关性评估,需要建立一套自动化流程与人工监督相结合的标准方法。

这套被称为“人工校准的大语言模型标注”的方法逻辑清晰:

  1. 首先,由人工标注一小批高质量的数据集,用于“校准”大语言模型评估器。
  2. 然后,利用校准后的大语言模型,快速生成数十万乃至数百万条标注,从而将人工的工作量放大约 100 倍。

需要注意的是,大语言模型在此方案中的角色是“标注工具”,而非“排序系统”本身。在查询时直接使用大语言模型进行实时排序是不可行的,因为它速度过慢且受上下文长度限制。

关键的评估步骤包括:将大语言模型生成的相关性评分,与人工判断结果进行对比,测试对象应选自训练集中未出现过的“查询-文档”对子集。评估过程特别关注那些最难修正的错误——即大语言模型的判断与真实用户行为出现不一致的情况。

例如,用户点击了模型评分较低的文档,或者跳过了模型评分较高的文档。这类“矛盾”信号恰恰能为模型训练提供最强的学习信号。

此外,上下文信息往往是判断相关性的关键。在 Dropbox 内部,一个典型的例子是“diet sprite”,它指的并非某种饮料,而是一款内部性能工具。为解决这类内部术语和语境问题,研究人员会让大语言模型执行额外的检索步骤,以获取必要的上下文并理解特定含义,这显著提升了标注的准确性。

通过在 Dash 上的实践,Meyerzon 总结道,这种“人工校准+大语言模型放大”的方法,能够持续、大规模地扩展高质量标注数据的生产,成为优化 RAG 系统检索能力的有效工程手段。对于面临类似数据标注挑战的团队,这一思路在云栈社区的技术讨论中同样具有很高的参考价值。

原文链接:https://www.infoq.com/news/2026/03/dropbox-scaling-human-judgement/




上一篇:变更交付指标:度量系统可靠性的DORA指标补充与实践框架
下一篇:Webshell流量在线解密工具:一键解析PHP、AES及自定义加密
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-16 21:35 , Processed in 0.575581 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表