3580 积分	0 好友	492 主题

大模型评测实战：为何需要交换位置多次打分以消除位置偏差？

发表于 2025-12-24 16:27:03 | 查看: 90| 回复: 0

在大语言模型（LLM）的评估实践中，评测者顺序影响判断结果是一个已被系统性验证的现象，这通常被称为位置偏差或顺序偏差。

在基于pairwise或listwise的“以LLM作为评判者”的评测中，常见的提示词模板是：给定问题Q，回答A……，回答B……，请判断哪个更好。

大量实证研究发现：

以GPT为代表的大语言模型是自回归模型，其判断过程实质上是基于前文（包括问题、选项A和选项B）来生成后续文本（即判断结果），而非对A和B进行真正“对称”的比较。

当A在前、B在后时：

这在概率建模上是非交换的，即交换A和B的顺序可能会改变最终的条件概率分布。

在模型的指令微调与人类反馈强化学习训练过程中：

即使在Transformer架构内部：

这在处理长回答或多轮对话的评测场景中尤为明显。

相关研究，如Zheng等人发表的《Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena》论文，通过严谨的实验量化了这种偏差。他们的做法是对同一对回答进行两次评测，仅交换其出现的顺序，然后统计模型判断的一致性。

位置偏差实证数据表
上表揭示了几个关键发现：

基于这些发现，主流的人工智能评估基准（如MT-Bench、Chatbot Arena、AlpacaEval 2.0）都采用了相应的策略来缓解这一问题：

核心策略：交换位置与统计聚合
假设模型对位置存在一个系统性的偏置。通过交换A和B的顺序进行两次评测，并对两次结果进行平均或投票，可以在统计期望上抵消掉由位置带来的偏差项。

这是一种统计意义上的去偏方法。工程上的常见实践包括：

以GPT为代表的大语言模型在作为评判者时，存在稳定且可复现的位置偏差，其根源在于自回归的生成机制、训练数据带来的先验以及注意力分布的非对称性。通过交换回答顺序并进行多次判断聚合，可以在统计层面有效缓解这一偏差。因此，这在当前的大模型能力评估中已成为一项标准实践，而不仅仅是一个工程技巧。