5516 积分	0 好友	762 主题

Dropbox实践：利用大语言模型规模化标注，优化RAG系统检索质量

发表于 2026-3-16 07:09:05 | 查看: 86| 回复: 0

在构建和优化检索增强生成（RAG）系统时，如何高效地获取高质量的训练数据一直是个核心挑战。Dropbox 在其智能助手 Dash 的实践中，找到了一条颇具启发性的路径：利用大语言模型规模化地辅助人工进行相关性标注。

Dropbox 首席工程师 Dmitriy Meyerzon 指出，文档检索质量是整个 RAG 流程的关键瓶颈。这类系统需要先从海量的企业文档库中精准筛选出相关内容，再将其输入给大语言模型进行答案生成。

企业搜索索引中往往存在数百万甚至数十亿份文档，而系统每次只能将检索到的极少部分传给大语言模型。这使得搜索排序模型的质量——以及用于训练该模型的相关性标注数据——对最终答案的效果具有决定性影响。

因此，Dash 采用监督学习技术来训练排序模型，其核心是根据文档满足查询需求的程度，对大量的“查询-文档”对进行标注。然而，纯人工标注面临成本高昂、速度缓慢且一致性难以保证的难题。

为了突破这一局限，Dropbox 引入了一种创新的补充方案：利用大语言模型来大规模生成相关性判断。这种方法成本更低，一致性更强，并且能够轻松扩展到庞大的文档集。但必须明确，大语言模型并非完美的评估者。因此，在将其生成的标注数据用于训练之前，必须对其效果进行严谨的评估。

在实际工程落地中，利用大语言模型进行相关性评估，需要建立一套自动化流程与人工监督相结合的标准方法。

这套被称为“人工校准的大语言模型标注”的方法逻辑清晰：

需要注意的是，大语言模型在此方案中的角色是“标注工具”，而非“排序系统”本身。在查询时直接使用大语言模型进行实时排序是不可行的，因为它速度过慢且受上下文长度限制。

关键的评估步骤包括：将大语言模型生成的相关性评分，与人工判断结果进行对比，测试对象应选自训练集中未出现过的“查询-文档”对子集。评估过程特别关注那些最难修正的错误——即大语言模型的判断与真实用户行为出现不一致的情况。

例如，用户点击了模型评分较低的文档，或者跳过了模型评分较高的文档。这类“矛盾”信号恰恰能为模型训练提供最强的学习信号。

此外，上下文信息往往是判断相关性的关键。在 Dropbox 内部，一个典型的例子是“diet sprite”，它指的并非某种饮料，而是一款内部性能工具。为解决这类内部术语和语境问题，研究人员会让大语言模型执行额外的检索步骤，以获取必要的上下文并理解特定含义，这显著提升了标注的准确性。

通过在 Dash 上的实践，Meyerzon 总结道，这种“人工校准+大语言模型放大”的方法，能够持续、大规模地扩展高质量标注数据的生产，成为优化 RAG 系统检索能力的有效工程手段。对于面临类似数据标注挑战的团队，这一思路在云栈社区的技术讨论中同样具有很高的参考价值。