找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3086

积分

0

好友

459

主题
发表于 1 小时前 | 查看: 2| 回复: 0

HY-WU神经网络框架:一个发光的神经网络大脑,周围环绕着多张AI图像处理样张,展示了锐化、修复、模糊、复古等多种功能

在过去的十多年里,机器学习领域有一个默认的“前提”:模型一旦训练完成,其参数基本就固定了。无论输入什么样的数据,模型都会依赖同一套参数完成推理。这种范式固然取得了巨大成功,但当人工智能逐渐进入更加复杂、多变的现实应用环境时,它的局限性也开始显现。

现实中的任务往往是高度多样化的。不同用户的需求、不同的任务目标,有时甚至是相互冲突的。以图像编辑为例,面对同一张图片,用户可能提出截然相反的要求:有的需要增强细节(如去模糊或修复),而另一些则要求弱化细节(如添加模糊或模拟老化效果)。如果模型始终依赖同一套固定参数,它往往只能在不同的目标之间做出折中,最终影响编辑效果。

传统的解决方案是通过领域适应或模型微调来让模型适应新数据。但这通常意味着额外的训练成本和更复杂的系统维护。一个自然的问题是:能否让模型在推理阶段实时地适应不同任务?

为此,腾讯混元团队提出了一项全新的研究。在这篇题为《HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing》的论文中,他们尝试改变模型的适应方式——让模型在推理阶段,根据当前的输入动态生成适配该任务的参数,而不是始终依赖一套固定参数。

论文标题截图:HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing

论文地址:https://arxiv.org/pdf/2603.07236

一个模型,多种行为:实验结果验证

为了验证“动态参数生成”是否真的比“固定参数”更优,研究团队设计了四类实验。

1. 人类评测实验
研究进行了大规模的人工评测。评委在给定相同输入图片和编辑指令的条件下,对不同模型生成的编辑结果进行两两比较,选择效果更好的一个,并统计最终胜率。

结果显示,HY-WU 模型在多项对比中优势明显:

  • 对开源模型 Step1X-Edit 胜率约为 78.4%
  • 对 Qwen-Image-Edit 胜率约为 70.5%
  • 对闭源模型 Seedream 4.5 和 GPT Image 1.5 的胜率也分别达到 55.6%55.5%

在与当前最先进的商业系统 Nano Banana 系列比较时,HY-WU 的表现略有差距,但整体保持了竞争力。这些数据表明,通过动态生成参数,模型在视觉编辑效果上取得了显著提升。

HY-WU模型与基线模型在GSC任务中的胜率柱状图,显示HY-WU在所有对比中均具有优势

2. 自动评测实验
除了人工评测,研究人员还设计了名为 WU-Eval 的自动评估系统,从指令对齐(alignment)、内容一致性(consistency)、结构合理性(structure)和图像质量(quality)四个维度进行评估。

结果显示,HY-WU 在总体得分(4.27) 和各个子维度上均取得了最高或接近最高的分数。与最强的开源基线模型相比,HY-WU 在一致性指标上提升了约 0.27,在结构保持上提升了约 0.23。这证明了动态参数生成机制能有效提升编辑的稳定性和结构的保持能力。

WU-Eval自动评测结果表格,显示HY-WU在多个维度上得分领先

3. 公开基准测试
在公开的图像编辑评测数据集上,HY-WU 也表现不俗。在 GEdit-Bench 上,它在所有开源模型中排名第一;在 ImgEdit-Bench 上,总体得分 4.05,在开源模型中排名第二。这说明该方法不仅在内部实验有效,在公开、标准的环境中同样具有竞争力。

ImgEdit-Bench基准测试结果表格,显示HY-WU在多项编辑类别中表现优异

4. 冲突任务实验
这是最能体现动态参数生成价值的实验。研究团队设计了一组相互矛盾的编辑任务对,例如“图像去模糊 vs 图像模糊”、“图像修复 vs 图像老化”,来测试模型在目标冲突下的表现。

他们对比了三种策略:

  • Single LoRA:为每个任务分别训练独立的适配器。结果发现,它们虽在各自任务上表现优秀,但完全无法处理对立任务,过度专门化
  • Shared LoRA:让多个冲突任务共享一个适配器。结果是所有任务的输出效果都被明显折中,比如去模糊和模糊都变成了“半模糊”。
  • HY-WU:根据每个输入实时生成适配参数。结果显示,模型能够正确执行所有冲突任务,且互不干扰。

这个实验清晰地表明,动态参数生成能有效避免因参数固化导致的任务冲突和效果妥协。

冲突任务实验对比图:展示Single LoRA、Shared LoRA和HY-WU在处理“修复vs老化”、“去模糊vs模糊”任务时的行为差异

一个模型,多套参数:HY-WU 系统架构解析

那么,HY-WU 是如何实现“一个模型,多套参数”的呢?

核心思想是:让一个额外的参数生成网络,在推理时根据当前输入(图像+指令)实时生成适配该任务的模型参数,并以 LoRA 适配器的形式动态注入到冻结的基础模型中。这样,同一个基础模型面对不同输入时,实际上是在用不同的参数配置进行推理。

其整体流程如图3所示,主要分为三个阶段:

HY-WU管道概览图:展示了从源图像和编辑提示提取条件,通过Transformer生成参数标记,并整合到冻结基础模型中的完整流程

1. 条件提取
系统分别从输入图像和文本指令中提取特征,并将其融合为一个统一的“条件”表示。这个表示编码了当前的视觉内容以及用户的编辑意图,是后续参数生成的关键依据。

2. 参数生成
提取到的条件信息被送入一个基于 Transformer 架构的参数生成网络。这个网络不生成图像,而是输出一组 LoRA 适配器参数。LoRA 是一种参数高效的微调方法,能在不改动原始模型主体权重的情况下,调整模型的行为。该生成网络的详细架构如图5所示,内部采用了因子化自注意力等设计来捕获参数间的结构关联。

神经网络变换器架构图:详细展示了参数生成网络中每个Transformer块的内部结构,包括层内/层间自注意力和交叉注意力

3. 图像编辑执行
生成的 LoRA 适配器被动态插入冻结的基础模型中。随后,基础模型在“专属参数”的引导下完成图像编辑,并输出最终结果。由于每个输入都会触发生成一套新参数,因此模型在面对不同任务时能展现出不同的行为模式。

训练方式上,HY-WU 摒弃了传统“超网络”方法需要预收集大量模型检查点的繁琐流程。它采用了一种更直接的端到端训练策略(如图2-c所示):

  1. 输入(图像,指令)
  2. 参数生成网络根据输入生成 LoRA 参数
  3. 基础模型结合 LoRA 参数生成编辑后图像
  4. 计算生成图像与目标之间的扩散损失
  5. 用该损失直接反向传播更新参数生成网络

这种方式绕过了存储和管理海量预训练模型的需求,让系统能直接围绕最终的编辑任务目标进行优化。

三种参数生成训练范式对比图:突出HY-WU采用的仅依赖下游任务损失的在线优化范式

一个模型,应对无限变化的任务:从技术到范式

从更宏观的视角看,HY-WU 的研究意义远不止于提升图像编辑的效果。它实际上提出了一种新的模型适应范式

传统范式是“一套固定参数应对所有任务”,而现实世界是多样、动态且充满未知的。过去我们依靠重新训练或微调来适应新领域,成本高昂且不灵活。HY-WU 的启示在于:我们或许可以训练一个模型,让它学会如何实时地为自己生成合适的参数

卡通玩偶服装迁移示例:将绿色乌龟玩偶的服装自然融合到真实人物身上

一个真正强大、智能的系统需要具备两种关键能力:一是适应不同任务的能力,二是这种适应必须是实时发生的。HY-WU 正是在推理阶段实现了 实时适配。模型在每一次处理输入时,都像完成一次“微小的、针对性的微调”,从而灵活切换行为模式。

更多服装迁移示例:展示了黑寡妇、泰勒·斯威夫特与不同玩偶服装的融合效果

这为未来人工智能的发展提供了一个新思路:未来的 AI 系统可能不再是单一的、固化的模型,而是一个能根据环境、任务实时调整自身“内在配置”的自适应系统。从固定模型走向实时适配系统,这或许是 AI 应对无限复杂现实世界的一条必经之路。

对这类前沿的人工智能与模型动态参数生成技术感兴趣的朋友,欢迎在云栈社区交流讨论,获取更多深度技术解读。




上一篇:聚力维度创始人赵天奇:基于自研3D AI大模型,如何定义AI短剧与互动影游的未来
下一篇:湖仓一体落地实践:破解小文件、元数据膨胀与BI访问三大难题
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-12 03:17 , Processed in 0.575169 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表