云栈社区»论坛 › 技术文档「 Note & Doc 」 › 知识引导上下文优化(KgCoOp)：解决Prompt微调中灾难性遗忘的新方 ...

发回帖发新帖

3520 积分	0 好友	470 主题

发消息

知识引导上下文优化(KgCoOp)：解决Prompt微调中灾难性遗忘的新方法

发表于 2026-3-24 01:04:21 | 查看: 118| 回复: 0

视觉-语言模型（VLMs），例如大名鼎鼎的 CLIP，彻底改变了我们处理零样本图像识别的方式。这些模型在大规模（通常是数十亿级别）的图像-文本对数据集上训练，从而吸收了广泛的通用知识，获得了识别在训练中从未“见过”的物体的惊人能力。

然而，当我们试图通过Prompt Tuning过程，将这些“全能选手”适配到具体的下游任务时，往往会遇到一个棘手的问题：模型虽然变成了特定任务的专家，却可能遗忘了原有的通用智能。这个现象被形象地称为“Base-to-New”泛化困境，本质上是一种灾难性遗忘。

论文《Visual-Language Prompt Tuning with Knowledge-guided Context Optimization》正是针对这一挑战提出了解决方案。它深入探讨了问题根源，并提出了一种名为KgCoOp（知识引导上下文优化）的简洁有效的约束机制。在实际应用中，机器学习系统常常被部署在类别不断更新的环境中。如果一个模型在面对新类别时表现一塌糊涂，其可靠性和实用性将大打折扣。因此，提升模型的泛化能力，是构建鲁棒视觉-语言系统的关键。

知识引导上下文优化(KgCoOp)框架示意图，包含手写提示、可学习提示、文本编码器、图像编码器及知识引导损失

上图展示了 Knowledge-guided Context Optimization（KgCoOp）框架的核心思想：通过一个知识引导损失（L_kg）对可学习的提示向量进行正则化，从而在微调过程中保持模型的泛化能力。

为什么标准的CoOp在新类别上会失败？

Context Optimization（CoOp）是Prompt Tuning的一种经典实现。它用一个可学习的上下文向量序列，替换了固定的手工模板（比如“一张[类别]的照片”）。这种微调方式通常在训练阶段见过的基类上表现优异，但代价往往是灾难性的知识遗忘。

在有限的标注样本上进行微调时，模型倾向于学习仅对这几个特定类别有判别性的文本特征，这导致了其文本表示严重偏离了原始的通用知识。跨越11个基准数据集的实验数据揭示了一个清晰的趋势：标准的微调方法（CoOp）虽然提升了基类的准确率，却将新类别上的性能打压到了比原始零样本模型还要低的水平。

以下是零样本模型与标准微调方法的性能对比：

对比表格：CLIP（手工提示）与CoOp（文本提示）在Base准确率、New准确率及调和均值上的表现

（数据基于ViT-B/16模型在11个数据集上的平均值）

从“遗忘”的几何角度理解

研究进一步发现，新类别性能下降的程度，与可学习提示嵌入（记作 $w_{coop}$）和原始手工CLIP嵌入（记作 $w_{clip}$）之间的欧几里得距离直接正相关。

折线图：不同数据集的权重距离(d)与新类别性能下降幅度(V_new)的关联

这张图对比了Base-to-New的泛化性能，直观显示了标准Prompt Tuning如何提升已见类别性能，但同时降低了未见类别的准确率。

一个关键结论是：学习到的提示与手工提示之间的距离越大，模型在未见类别上的性能退化就越严重。

在DTD（纹理数据集）和EuroSAT（卫星影像数据集）等任务上，学习到的提示偏离CLIP锚点最远，其泛化差距也最大。这启发我们：如果能够将可学习提示“约束”在原始通用知识的附近，就有可能维持其原有的泛化能力。

Knowledge-guided Context Optimization (KgCoOp) 详解

KgCoOp 正是基于上述洞察，引入了一种新颖的正则化框架。该框架不再允许提示向量在优化过程中“自由漂移”，而是增加了一个知识引导损失 $L_{kg}$，其目标就是最小化可学习提示与手工提示之间的距离。

A. 预备知识：CLIP 与 CoOp

在零样本CLIP中，给定图像嵌入 $x$，预测其为类别 $y$ 的概率 $p(y|x)$ 计算公式为：

CLIP分类概率公式

其中 $d(x, w_y^{clip})$ 代表余弦相似度，$w^{clip}$ 是由手工模板生成的嵌入。CoOp 将这些固定模板替换为 $M$ 个可学习的上下文向量 $V = \\{v_1, v_2, …, v_M \\}$。此时的提示变为 $t_i^{coop} = \\{v_1 , v_2 , ..., v_M , c_i \\}$，其中 $c_i$ 是类别名称对应的词元。

B. KgCoOp 的核心公式

KgCoOp 提出，通过减少可学习提示与手工提示之间的“物理距离”，可以有效缓解底层知识的遗忘。因此，其训练目标是在标准的交叉熵损失 $L_{ce}$ 之上，叠加这一新的约束项：

KgCoOp总损失函数

其中引入的知识引导损失 $L_{kg}$，被定义为微调后得到的类别嵌入 $w_i$ 与原始的 CLIP 锚点 $w_i^{clip}$ 之间的均方欧几里得距离：

知识引导损失函数

在最小化这个距离的过程中，KgCoOp 强制模型在进行任务特定优化的同时，必须“记住”其从大规模预训练中学到的通用视觉-语言特征。这为高效模型训练中的知识保持提供了新思路。

实验设置与基准测试

研究在11个多样化的图像分类基准上对 KgCoOp 进行了全面评估。实验采用了 ResNet-50 和 ViT-B/16 作为骨干网络，主要测试条件设置为 16-shot。

覆盖的数据集范围广泛，包括 ImageNet、Caltech101 这样的通用对象识别，OxfordPets、StanfordCars、Flowers102、Food101、FGVCAircraft 等细粒度分类，以及 EuroSAT（卫星影像）、UCF101（动作识别）、DTD（纹理）、SUN397（场景）等专业领域任务。

性能对比表格：不同方法在ViT-B/16和ResNet-50骨干网络下，K=4，8，16时的Base、New及调和均值表现

（基于ViT-B/16和ResNet-50骨干网络，在所有11个数据集上，不同K-shot设置下的平均性能对比）

测试结果显示，KgCoOp 在所有测试设置的平均调和均值上取得了最高分。虽然像 ProGrad 这样的方法在基类上表现略好，但在处理新类别时，其性能与 KgCoOp 存在明显差距。具体来看，在 ViT-B/16 骨干网络配合 16-shot 设置的场景下，KgCoOp 将新类别的准确率相较于 CoOp 基线提升了 5.61%，比另一个先进方法 CoCoOp 也高出 1.91%。这些数据有力地证明了 KgCoOp 能更好地平衡任务特定性能和通用性，有效缓解了 Base-New 困境。

在领域泛化场景中的表现

领域泛化（DG）测试主要用于评估模型在类别标签不变，但数据分布发生偏移时的鲁棒性。实验流程是：使用 16-shot 样本在标准 ImageNet 数据集上训练，然后在四个分布外的变体数据集（ImageNetV2、ImageNet-Sketch、对抗样本集 ImageNet-A 和渲染集 ImageNet-R）上进行评估。

领域泛化性能对比表格：CLIP, UPT, CoOp, ProGrad, KgCoOp等在多个ImageNet变体上的准确率

（在领域泛化场景下的提示学习对比，“vp”和“tp”分别表示视觉提示和文本提示。）

深入分析：效率与泛化的权衡

超参数 $\lambda$ 的敏感性分析

超参数λ敏感性分析表格：不同λ值对应的Lkg距离与调和均值变化

定量分析揭示了一个直接规律：增大 $\lambda$ 可以减小 $L_{kg}$ 距离，迫使学习到的提示进一步贴近手工提示。距离的缩小直接带来了调和均值的提升，并在 $\lambda = 8.0$ 时达到峰值。然而，继续加大 $\lambda$ 会使约束过于严苛，反而阻碍模型学习当前任务特有的判别特征，导致性能回落。这表明，只要约束在一个合理范围内，最小化学习知识与通用知识之间的偏差，是维持泛化能力的关键。

计算效率对比

训练时间与性能对比表格：CoOp, CoCoOp, ProGrad, KgCoOp的训练耗时与调和均值

计算两个嵌入向量之间的欧几里得距离带来的额外开销微乎其微。相比之下，CoCoOp 因为需要为每个训练实例单独生成图像条件的上下文，训练速度慢了近 26 倍（160 ms/图）。ProGrad 需要计算梯度并进行对齐检查，耗时也较高（22 ms/图）。KgCoOp 则保持了与基础 CoOp 相近的训练速度（6 ms/图），几乎以最低的时间成本达到了顶级的性能。

$L_{kg}$ 损失的普适性

$L_{kg}$ 约束并非一个孤立技巧，它可以作为插件集成到其他 Prompt Tuning 框架中。下面的表格显示，在 ViT-B/16 上，为 CoCoOp 和 ProGrad 添加知识引导约束后，它们在新类别上的性能和调和均值都获得了一致提升。

扩展实验表格：展示CoOp, CoCoOp, ProGrad单独使用与结合Lkg损失后的性能变化

具体而言，CoCoOp 结合 $L_{kg}$ 后，新类别准确率从 71.69% 升至 74.75%，调和均值提升了 0.49%。ProGrad 结合 $L_{kg}$ 后，新类别准确率从 70.75% 升至 74.72%，调和均值从 76.16% 增至 76.63%。这证明标准文本提示微调中观察到的“灾难性遗忘”是跨架构的普遍问题，而 KgCoOp 的约束思想具备横向拓展到更多提示体系的潜力。对于希望深入研究其技术细节的开发者，可以参考相关的技术文档。

上下文长度与初始化策略的影响

为了与现有基线公平比较，实验默认使用上下文长度 $M=4$。但在消融分析中发现，将长度设置为 $M=8$ 能在已见和未见类别上挖掘出更大的性能潜力。如果算力允许，适当增加序列长度是一个低成本的性能提升点。

上下文长度M对Base、New及H性能影响的柱状图

初始化策略影响的柱状图：比较使用初始化和不使用初始化对Base和New准确率的影响

局限性与未来展望

KgCoOp 在提升未见类别泛化能力的同时，依然面临稳定性与适应性的经典博弈。强化知识引导约束虽然能让新类别评分更亮眼，但往往会在一定程度上压低基类的性能上限。这种此消彼长反映了硬性约束的副作用：它通过限制学习到的提示与原始表征的距离来防止过拟合，但也可能削弱模型为适应极端特定场景而进行深度调整的灵活性。

引入超参数 $\lambda$ 也意味着多了一层调参负担。设定不当，轻则导致欠拟合，重则让提示学习的自适应能力名存实亡。

总结与工程实践启示

开发能够根据任务和数据自动调整约束强度的机制，仍是未来重要的研究方向。如果能在迭代中引入数据驱动的超参数自适应策略，模型在稳定性和灵活性之间的切换将更加从容。

KgCoOp 提供了一套务实的调优路径。面对一个强大的基座模型，建议首先运行零样本基线，摸清其泛化能力的初始水平。在面临算力瓶颈或对推理延迟要求严格的生产环境中，KgCoOp 因其高效性，是一个值得优先考虑的轻量化方案。

总而言之，维护微调参数与预训练源知识之间的几何对齐关系，是一种经过验证的轻量级技术。仅凭一个简单的欧几里得距离损失，它就有效地为模型在新领域的能力兜住了下限，减少了对大量新样本数据的依赖。这为解决提示微调中的灾难性遗忘问题，提供了一个简洁而强有力的工具。

上一篇：MySQL 8.0窗口函数详解：frame子句包含哪两部分？
下一篇：BrainAlpha多智能体系统：自动化Alpha因子发现与自修复架构深度解析

提示微调, 视觉语言模型, CLIP, 图像分类, 微调