3096 积分	0 好友	421 主题

大语言模型评测全解析：从困惑度到GPT-4评估方法详解

发表于 2025-12-24 14:44:53 | 查看: 64| 回复: 0

当训练或得到一个语言模型之后，如何科学地评估其生成能力，是衡量其性能优劣的关键步骤。评测方法主要可分为两大类：不依赖于具体任务的内在评测（Intrinsic Evaluation），以及通过特定下游任务来检验能力的外在评测（Extrinsic Evaluation）。

内在评测直接考察语言模型对文本序列的建模能力，最核心的指标是困惑度（Perplexity， PPL）。

该公式表明，如果语言模型对测试文本的预测越“确信”（即赋予测试文本的概率越高），困惑度的值就越小。反之，模型越“不确定”，困惑度值则越大。由于测试文本通常与训练数据同分布，一个较低的困惑度意味着模型更准确地掌握了我们希望它学习的语言模式，因此困惑度是衡量语言模型生成质量的一个基础指标。

对困惑度公式进行等价变换，可以得到更深入的理解：

实际上可以视作模型生成词的分布与测试样本真实词分布之间的交叉熵（Cross-Entropy），即：

其中 D 是词典。由于条件概率 P(wi | w{<i}) ≤ 1，此交叉熵是模型生成分布信息熵的上界。因此，困惑度的降低也意味着模型“胡言乱语”（熵增）的可能性在降低，生成内容更加可控和一致。

外在评测将语言模型置于具体的人工智能任务（如机器翻译、摘要生成）中，通过评估其任务完成效果来衡量生成能力。其评测方法主要分为基于统计指标和基于语言模型两大类。

这类方法通过计算生成文本与参考答案（Ground Truth）之间的统计重叠度来评分。最常用的两个指标是BLEU和ROUGE。

BLEU：一种精度导向的指标，侧重于评估生成文本中有多少 n-gram 出现在参考答案中。

例如，N=3时，BLEU是1-gram、2-gram、3-gram精度的几何平均。实际使用中还会引入长度惩罚因子来优化。
ROUGE：一种召回导向的指标，最初用于自动文摘评测，评估参考答案中有多少 n-gram 出现在生成文本中。常见变体有ROUGE-N（基于n-gram）、ROUGE-L（基于最长公共子序列LCS）等。

统计指标虽然高效、可复现，但难以完全捕捉文本的语义和多样性，与人类评价存在差距。尤其是当生成内容富有创造性时，其局限性更为明显。

为了获得更接近人类判断的评估结果，研究者引入了更强大的“裁判”语言模型。这类方法主要分为基于上下文词嵌入和基于生成模型两种。

基于上下文词嵌入：BERTScore
BERTScore利用预训练模型（如BERT）计算生成文本与参考文本在词向量层面的相似度，分别计算精确率、召回率和F1值，更注重语义匹配。
基于生成模型：G-EVAL
得益于生成式大语言模型的理解与推理能力，以G-EVAL为代表的方法可以直接指导大模型（如GPT-4）对生成文本进行评分，甚至无需参考答案。G-EVAL通过精心设计的提示（Prompt）工程来实现，其Prompt通常包含三部分：
1. 任务描述与评分标准：明确任务类型和打分细则。
2. 评测步骤：引导大模型生成推理链（Chain-of-Thoughts）。
3. 输入文本与待评测文本：提供源文本和模型生成的结果。
  
  将组合好的Prompt输入给GPT-4，即可获得评分。为了提升区分度，G-EVAL还会对所有可能的得分进行加权平均。

除了G-EVAL，近期还涌现了如InstructScore等方法，不仅能给出分数，还能提供详细的解释。基于生成模型的评测方法在准确性、灵活性和可解释性上展现出了显著优势，正成为大语言模型评测领域的重要发展方向。