找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2497

积分

0

好友

337

主题
发表于 3 小时前 | 查看: 3| 回复: 0

随着数字人直播、视频播客、实时互动等场景快速普及,行业正面临从“能生成”到“能长期稳定生成”的关键跨越。但在真实线上应用中,一旦视频生成拉长到分钟甚至小时级,画面稳定性与一致性往往会明显下降——身份漂移、细节丢失、画面闪烁,以及实时推理成本随时长攀升等问题尤为突出。

那么,如何让数字人视频在流式实时推理下做到小时级甚至无限长度,同时保持身份一致、细节稳定、口型精准?Soul AI Lab(Soul App AI团队)提出的SoulX-LiveAct给出了新思路。该方案通过 Neighbor Forcing(同扩散步对齐的自回归条件传播)ConvKV Memory(KV 记忆压缩) 两大核心技术,让AR diffusion模型从“能流式”走向了“可真正长时稳定地实时流式”。

SoulX-LiveAct 论文标题页

论文信息

01 模型架构

SoulX-LiveAct旨在解决小时级实时数字人动画的流式生成难题。其整体采用AR Diffusion(自回归扩散) 范式,并围绕“长时一致 + 恒定显存”构建了两条核心机制:Neighbor ForcingConvKV Memory

  • AR Diffusion 主干:模型按chunk/帧块进行自回归生成。在每个chunk内部采用扩散模型来生成细节,而chunk之间则通过条件上下文来传递运动与身份信息,从而形成一个完整的流式推理闭环。
  • Neighbor Forcing(邻近强制):这是确保长时一致性的关键。在自回归链上,模型不传播“处于不同扩散步”的状态,而是专门传播同扩散步 t 下的相邻帧的潜在表示(latent)作为条件。这样做使得上下文与当前预测处于同一噪声语义空间中,显著降低了训练和推理过程中因分布不一致导致的漂移。
  • ConvKV Memory(卷积式 KV 记忆):为了解决推理显存随序列长度线性增长的问题,该技术将历史的attention KV记忆从简单的线性缓存,改造为“短期精确 + 长期压缩”的组合:
    • 近期KV:保留一个高精度的短期窗口,确保局部运动细节和一致性的稳定。
    • 远期KV:通过轻量的1D卷积按固定压缩比(例如论文中的 λ=5)进行滚动压缩,将遥远的历史信息压缩进一个固定长度的表示中。这直接实现了常量显存推理,是支持小时级生成的技术基础。
  • RoPE Reset(位置对齐):为了配合ConvKV Memory的“压缩+滑动窗口”机制,模型通过重置RoPE位置编码来对齐历史与当前序列的位置信息,有效避免了长序列生成中的位置漂移问题,进一步强化了长时稳定性。

LiveAct 推理时序与 ConvKV Memory 结构示意图

02 模型训练

SoulX-LiveAct的训练目标并非仅仅追求短视频片段的生成质量,而是显式地对齐流式推理中的长时误差传播,使模型在“生成时间越长越不稳定”的场景下,依然能保持身份与细节的稳定。

  • Neighbor Forcing 对齐训练分布:在训练时,强制模型在同扩散步的语境下,接收来自“相邻帧”的条件潜在表示。这种做法减少了AR链中因跨步噪声空间不一致带来的优化震荡,让模型能更好地学习到稳定的时序承接规则。
  • 长时一致性导向的自回归训练构造:训练样本按chunk方式组织,显式地覆盖“连续chunk合成 → 误差累积 → 再纠正”的完整过程。这使得模型在训练阶段就充分暴露并学会如何处理长时漂移问题,而不是仅仅在短片段上拟合高质量生成。
  • Memory-Aware 训练(与推理一致):在训练阶段就引入与推理完全一致的ConvKV Memory使用方式(短期窗口+长期压缩)。这让模型从一开始就学会在“被压缩的历史记忆”条件下,如何保持身份与细节的一致性,避免了因训练/推理不一致导致的性能下降。

SoulX-LiveAct 整体训练流程

03 实时推理加速

LiveAct的加速设计强调“延迟稳定”,核心思路是把长时上下文从线性可变缓存变为可控的固定内存,从而让实时流式推理的性能不随生成时长而恶化。

  • 恒定显存(Constant-Memory Inference):ConvKV Memory将历史KV从线性增长变为固定预算,使得推理显存占用不再随视频时长增加而增长,这是实现小时级在线生成的必要条件。
  • 稳定延迟(Stable Latency):短期窗口KV保证了局部生成质量,长期压缩KV维护了全局一致性。两者的组合确保了每个chunk的计算与通信成本保持稳定,不会因为视频越长而拖慢处理速度。
  • 端到端实时能力:在512×512分辨率下,系统可在 2×H100/H200 的硬件条件下实现 20 FPS 的流式推理,并达到约 0.94秒 的端到端延迟,以及 27.2 TFLOPs/frame 的计算成本。

04 评估

通过在HDTF(侧重面部口型与真实感)与EMTD(包含全身动作)两类基准上的定量对比,SoulX-LiveAct展示了其在口型同步、动画质量与实时效率上的综合领先优势。

定量结果分析

在HDTF数据集上,SoulX-LiveAct取得了 9.40 的 Sync-C(越高越好)与 6.76 的 Sync-D(越低越好),同时在分布相似性指标上达到 10.05 FID / 69.43 FVD。在VBench评测上,其获得了 97.6 的 Temporal Quality(时序质量)与 63.0 的 Image Quality(图像质量),在VBench-2.0上的 Human Fidelity(人体保真度)达到 99.9,显示出更稳定的时序质量与更强的人体及身份一致性。

在EMTD(全身动作)数据集上,SoulX-LiveAct依然保持最优的同步表现(8.61 Sync-C / 7.29 Sync-D),并在VBench上达到 97.3 Temporal Quality / 65.7 Image Quality,Human Fidelity 达到 98.9,证明其对复杂的全身动作与表情交互场景具有良好的鲁棒性。

效率对比
更为关键的是,作为面向“小时级实时生成”的系统方案,SoulX-LiveAct在推理效率上优势明显。如下表所示,其成本被压低至 27.2 TFLOPs / frame,仅需 2 张 H100/H200 即可实现 20 FPS 的实时流式推理与 0.94秒 的端到端延迟。这一表现显著优于需要8张卡且延迟更高的InfiniteTalk(25 FPS / 3.20s / 50.2 TFLOPs)以及需要5张卡的Live-Avatar(20 FPS / 2.89s / 39.1 TFLOPs),将“长时稳定 + 实时可用”真正拉进了可部署的实用区间。

Table 2: 唇同步准确度与视频质量指标的定量比较

Table 3: 与其他实时方法的推理效率比较

Figure 4: 唇部动作准确性与情绪-动作协调性的定性对比

05 实际应用场景:SoulX-LiveAct 带来的变革

(1)7×24 小时“长期在线”数字人直播间

场景:直播陪伴、互动主持、虚拟播报。
应用:传统流式方案一旦拉长到十几分钟以上,常出现“脸漂、细节丢失、口型逐步漂移”问题。SoulX-LiveAct通过 Neighbor Forcing + ConvKV Memory 实现“恒定显存”的长时流式生成,在小时级输出中依然维持身份与细节稳定,同时以 20 FPS、0.94秒 的低延迟满足实时互动需求(如响应弹幕、对话和即兴反应)。

(2)沉浸式视频对话:AI 虚拟导师 / 客服 / 智慧柜员

场景:在线教育、金融客服、政务大厅、企业数字前台。
应用:视频对话的“信任感”很大程度上来源于稳定的表情、口型与身份一致性。SoulX-LiveAct在HDTF/EMTD上取得领先的 Sync-C/Sync-D 分数,并在VBench-2.0上维持接近满分的人体保真度表现,能让“面对面”的虚拟互动显得更自然、更可信。

(3)长内容生产:播客/课程/解说的“小时级视频一键生成”

场景:长播客、课程录制、知识解说、企业培训。
应用:这类长视频内容最怕“越到后面画面越崩”。SoulX-LiveAct的长视频一致性分析显示,相比基线方法容易出现的身份漂移与配饰消失等问题,LiveAct能更稳定地保持人物身份与细节(如衣物纹理、配饰等)贯穿全程,适合批量生成“从开头到结尾都保持一致”的长视频内容。

(4)游戏与虚拟世界中的“实时驱动”NPC

场景:开放世界NPC、虚拟社交、互动剧情。
应用:游戏中的NPC不仅要会说台词,更要“说得像、动得像、并且一直像同一个角色”。SoulX-LiveAct在全身数据集EMTD上的同步与质量指标领先,并支持实时流式推理,非常适合在游戏或虚拟空间里实现长时间在线、且具备丰富情绪与动作表达的数字角色交互。

结语

SoulX-LiveAct通过Neighbor Forcing和ConvKV Memory两项创新,为长时稳定的实时数字人生成提供了系统性的解决方案。它不仅大幅提升了视频质量与一致性,更通过恒定显存和稳定延迟的设计,让小时级实时生成变得切实可行。该模型已在GitHub上开源,为社区研究与应用提供了新的强大工具。对于开发者而言,这意味着在构建数字人直播、互动客服、长视频生成等应用时,有了一个兼顾质量、效率与稳定性的新选择。技术的不断迭代,正推动数字人从“能看”迈向“好用、耐用”的新阶段。更多关于人工智能生成视频的技术讨论,欢迎到云栈社区交流。




上一篇:基于Node.js的Crucix项目实战:搭建自托管的全球信号聚合与个人情报系统
下一篇:押注端侧大模型,小米160亿AI投入背后的硬件生态牌
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-21 09:59 , Processed in 1.032453 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表