云栈社区»论坛 › 技术文档「 Note & Doc 」 › 动态参数生成打破局限：HY-WU模型如何实现文本引导图像编辑的实 ...

发回帖发新帖

4222 积分	0 好友	613 主题

发消息

动态参数生成打破局限：HY-WU模型如何实现文本引导图像编辑的实时适配

发表于 2026-3-12 01:39:45 | 查看: 82| 回复: 0

HY-WU神经网络框架：一个发光的神经网络大脑，周围环绕着多张AI图像处理样张，展示了锐化、修复、模糊、复古等多种功能

在过去的十多年里，机器学习领域有一个默认的“前提”：模型一旦训练完成，其参数基本就固定了。无论输入什么样的数据，模型都会依赖同一套参数完成推理。这种范式固然取得了巨大成功，但当人工智能逐渐进入更加复杂、多变的现实应用环境时，它的局限性也开始显现。

现实中的任务往往是高度多样化的。不同用户的需求、不同的任务目标，有时甚至是相互冲突的。以图像编辑为例，面对同一张图片，用户可能提出截然相反的要求：有的需要增强细节（如去模糊或修复），而另一些则要求弱化细节（如添加模糊或模拟老化效果）。如果模型始终依赖同一套固定参数，它往往只能在不同的目标之间做出折中，最终影响编辑效果。

传统的解决方案是通过领域适应或模型微调来让模型适应新数据。但这通常意味着额外的训练成本和更复杂的系统维护。一个自然的问题是：能否让模型在推理阶段实时地适应不同任务？

为此，腾讯混元团队提出了一项全新的研究。在这篇题为《HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing》的论文中，他们尝试改变模型的适应方式——让模型在推理阶段，根据当前的输入动态生成适配该任务的参数，而不是始终依赖一套固定参数。

论文标题截图：HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing

论文地址：https://arxiv.org/pdf/2603.07236

一个模型，多种行为：实验结果验证

为了验证“动态参数生成”是否真的比“固定参数”更优，研究团队设计了四类实验。

1. 人类评测实验
研究进行了大规模的人工评测。评委在给定相同输入图片和编辑指令的条件下，对不同模型生成的编辑结果进行两两比较，选择效果更好的一个，并统计最终胜率。

结果显示，HY-WU 模型在多项对比中优势明显：

对开源模型 Step1X-Edit 胜率约为 78.4%
对 Qwen-Image-Edit 胜率约为 70.5%
对闭源模型 Seedream 4.5 和 GPT Image 1.5 的胜率也分别达到 55.6% 和 55.5%

在与当前最先进的商业系统 Nano Banana 系列比较时，HY-WU 的表现略有差距，但整体保持了竞争力。这些数据表明，通过动态生成参数，模型在视觉编辑效果上取得了显著提升。

HY-WU模型与基线模型在GSC任务中的胜率柱状图，显示HY-WU在所有对比中均具有优势

2. 自动评测实验
除了人工评测，研究人员还设计了名为 WU-Eval 的自动评估系统，从指令对齐（alignment）、内容一致性（consistency）、结构合理性（structure）和图像质量（quality）四个维度进行评估。

结果显示，HY-WU 在总体得分（4.27） 和各个子维度上均取得了最高或接近最高的分数。与最强的开源基线模型相比，HY-WU 在一致性指标上提升了约 0.27，在结构保持上提升了约 0.23。这证明了动态参数生成机制能有效提升编辑的稳定性和结构的保持能力。

WU-Eval自动评测结果表格，显示HY-WU在多个维度上得分领先

3. 公开基准测试
在公开的图像编辑评测数据集上，HY-WU 也表现不俗。在 GEdit-Bench 上，它在所有开源模型中排名第一；在 ImgEdit-Bench 上，总体得分 4.05，在开源模型中排名第二。这说明该方法不仅在内部实验有效，在公开、标准的环境中同样具有竞争力。

ImgEdit-Bench基准测试结果表格，显示HY-WU在多项编辑类别中表现优异

4. 冲突任务实验
这是最能体现动态参数生成价值的实验。研究团队设计了一组相互矛盾的编辑任务对，例如“图像去模糊 vs 图像模糊”、“图像修复 vs 图像老化”，来测试模型在目标冲突下的表现。

他们对比了三种策略：

Single LoRA：为每个任务分别训练独立的适配器。结果发现，它们虽在各自任务上表现优秀，但完全无法处理对立任务，过度专门化。
Shared LoRA：让多个冲突任务共享一个适配器。结果是所有任务的输出效果都被明显折中，比如去模糊和模糊都变成了“半模糊”。
HY-WU：根据每个输入实时生成适配参数。结果显示，模型能够正确执行所有冲突任务，且互不干扰。

这个实验清晰地表明，动态参数生成能有效避免因参数固化导致的任务冲突和效果妥协。

冲突任务实验对比图：展示Single LoRA、Shared LoRA和HY-WU在处理“修复vs老化”、“去模糊vs模糊”任务时的行为差异

一个模型，多套参数：HY-WU 系统架构解析

那么，HY-WU 是如何实现“一个模型，多套参数”的呢？

核心思想是：让一个额外的参数生成网络，在推理时根据当前输入（图像+指令）实时生成适配该任务的模型参数，并以 LoRA 适配器的形式动态注入到冻结的基础模型中。这样，同一个基础模型面对不同输入时，实际上是在用不同的参数配置进行推理。

其整体流程如图3所示，主要分为三个阶段：

HY-WU管道概览图：展示了从源图像和编辑提示提取条件，通过Transformer生成参数标记，并整合到冻结基础模型中的完整流程

1. 条件提取
系统分别从输入图像和文本指令中提取特征，并将其融合为一个统一的“条件”表示。这个表示编码了当前的视觉内容以及用户的编辑意图，是后续参数生成的关键依据。

2. 参数生成
提取到的条件信息被送入一个基于 Transformer 架构的参数生成网络。这个网络不生成图像，而是输出一组 LoRA 适配器参数。LoRA 是一种参数高效的微调方法，能在不改动原始模型主体权重的情况下，调整模型的行为。该生成网络的详细架构如图5所示，内部采用了因子化自注意力等设计来捕获参数间的结构关联。

神经网络变换器架构图：详细展示了参数生成网络中每个Transformer块的内部结构，包括层内/层间自注意力和交叉注意力