云栈社区»论坛 › 开源实战「 OpenSource 」 › SoulX-LiveAct开源：攻克小时级实时数字人生成，双H100实现20FPS ...

发回帖发新帖

3634 积分	0 好友	484 主题

发消息

[Python] SoulX-LiveAct开源：攻克小时级实时数字人生成，双H100实现20FPS流式推理

发表于 2026-3-21 06:44:11 | 查看: 99| 回复: 0

随着数字人直播、视频播客、实时互动等场景快速普及，行业正面临从“能生成”到“能长期稳定生成”的关键跨越。但在真实线上应用中，一旦视频生成拉长到分钟甚至小时级，画面稳定性与一致性往往会明显下降——身份漂移、细节丢失、画面闪烁，以及实时推理成本随时长攀升等问题尤为突出。

那么，如何让数字人视频在流式实时推理下做到小时级甚至无限长度，同时保持身份一致、细节稳定、口型精准？Soul AI Lab（Soul App AI团队）提出的SoulX-LiveAct给出了新思路。该方案通过 Neighbor Forcing（同扩散步对齐的自回归条件传播） 与 ConvKV Memory（KV 记忆压缩） 两大核心技术，让AR diffusion模型从“能流式”走向了“可真正长时稳定地实时流式”。

SoulX-LiveAct 论文标题页

论文信息

论文标题：SoulX-LiveAct: Towards Hour-Scale Real-Time Human Animation with Neighbor Forcing and ConvKV Memory
论文链接: https://arxiv.org/abs/2603.11746
Project Page: https://soul-ailab.github.io/soulx-liveact/
Source Code: https://github.com/Soul-AILab/SoulX-LiveAct
Hugging Face: https://huggingface.co/Soul-AILab/LiveAct

01 模型架构

SoulX-LiveAct旨在解决小时级实时数字人动画的流式生成难题。其整体采用AR Diffusion（自回归扩散） 范式，并围绕“长时一致 + 恒定显存”构建了两条核心机制：Neighbor Forcing 与 ConvKV Memory。

AR Diffusion 主干：模型按chunk/帧块进行自回归生成。在每个chunk内部采用扩散模型来生成细节，而chunk之间则通过条件上下文来传递运动与身份信息，从而形成一个完整的流式推理闭环。
Neighbor Forcing（邻近强制）：这是确保长时一致性的关键。在自回归链上，模型不传播“处于不同扩散步”的状态，而是专门传播同扩散步 t 下的相邻帧的潜在表示（latent）作为条件。这样做使得上下文与当前预测处于同一噪声语义空间中，显著降低了训练和推理过程中因分布不一致导致的漂移。
ConvKV Memory（卷积式 KV 记忆）：为了解决推理显存随序列长度线性增长的问题，该技术将历史的attention KV记忆从简单的线性缓存，改造为“短期精确 + 长期压缩”的组合：
- 近期KV：保留一个高精度的短期窗口，确保局部运动细节和一致性的稳定。
- 远期KV：通过轻量的1D卷积按固定压缩比（例如论文中的 λ=5）进行滚动压缩，将遥远的历史信息压缩进一个固定长度的表示中。这直接实现了常量显存推理，是支持小时级生成的技术基础。
RoPE Reset（位置对齐）：为了配合ConvKV Memory的“压缩+滑动窗口”机制，模型通过重置RoPE位置编码来对齐历史与当前序列的位置信息，有效避免了长序列生成中的位置漂移问题，进一步强化了长时稳定性。

LiveAct 推理时序与 ConvKV Memory 结构示意图

02 模型训练

SoulX-LiveAct的训练目标并非仅仅追求短视频片段的生成质量，而是显式地对齐流式推理中的长时误差传播，使模型在“生成时间越长越不稳定”的场景下，依然能保持身份与细节的稳定。

Neighbor Forcing 对齐训练分布：在训练时，强制模型在同扩散步的语境下，接收来自“相邻帧”的条件潜在表示。这种做法减少了AR链中因跨步噪声空间不一致带来的优化震荡，让模型能更好地学习到稳定的时序承接规则。
长时一致性导向的自回归训练构造：训练样本按chunk方式组织，显式地覆盖“连续chunk合成 → 误差累积 → 再纠正”的完整过程。这使得模型在训练阶段就充分暴露并学会如何处理长时漂移问题，而不是仅仅在短片段上拟合高质量生成。
Memory-Aware 训练（与推理一致）：在训练阶段就引入与推理完全一致的ConvKV Memory使用方式（短期窗口+长期压缩）。这让模型从一开始就学会在“被压缩的历史记忆”条件下，如何保持身份与细节的一致性，避免了因训练/推理不一致导致的性能下降。

SoulX-LiveAct 整体训练流程

03 实时推理加速

LiveAct的加速设计强调“延迟稳定”，核心思路是把长时上下文从线性可变缓存变为可控的固定内存，从而让实时流式推理的性能不随生成时长而恶化。

恒定显存（Constant-Memory Inference）：ConvKV Memory将历史KV从线性增长变为固定预算，使得推理显存占用不再随视频时长增加而增长，这是实现小时级在线生成的必要条件。
稳定延迟（Stable Latency）：短期窗口KV保证了局部生成质量，长期压缩KV维护了全局一致性。两者的组合确保了每个chunk的计算与通信成本保持稳定，不会因为视频越长而拖慢处理速度。
端到端实时能力：在512×512分辨率下，系统可在 2×H100/H200 的硬件条件下实现 20 FPS 的流式推理，并达到约 0.94秒 的端到端延迟，以及 27.2 TFLOPs/frame 的计算成本。

04 评估

通过在HDTF（侧重面部口型与真实感）与EMTD（包含全身动作）两类基准上的定量对比，SoulX-LiveAct展示了其在口型同步、动画质量与实时效率上的综合领先优势。

定量结果分析

在HDTF数据集上，SoulX-LiveAct取得了 9.40 的 Sync-C（越高越好）与 6.76 的 Sync-D（越低越好），同时在分布相似性指标上达到 10.05 FID / 69.43 FVD。在VBench评测上，其获得了 97.6 的 Temporal Quality（时序质量）与 63.0 的 Image Quality（图像质量），在VBench-2.0上的 Human Fidelity（人体保真度）达到 99.9，显示出更稳定的时序质量与更强的人体及身份一致性。

在EMTD（全身动作）数据集上，SoulX-LiveAct依然保持最优的同步表现（8.61 Sync-C / 7.29 Sync-D），并在VBench上达到 97.3 Temporal Quality / 65.7 Image Quality，Human Fidelity 达到 98.9，证明其对复杂的全身动作与表情交互场景具有良好的鲁棒性。

效率对比
更为关键的是，作为面向“小时级实时生成”的系统方案，SoulX-LiveAct在推理效率上优势明显。如下表所示，其成本被压低至 27.2 TFLOPs / frame，仅需 2 张 H100/H200 即可实现 20 FPS 的实时流式推理与 0.94秒 的端到端延迟。这一表现显著优于需要8张卡且延迟更高的InfiniteTalk（25 FPS / 3.20s / 50.2 TFLOPs）以及需要5张卡的Live-Avatar（20 FPS / 2.89s / 39.1 TFLOPs），将“长时稳定 + 实时可用”真正拉进了可部署的实用区间。

Table 2: 唇同步准确度与视频质量指标的定量比较

Table 3: 与其他实时方法的推理效率比较

Figure 4: 唇部动作准确性与情绪-动作协调性的定性对比

05 实际应用场景：SoulX-LiveAct 带来的变革

（1）7×24 小时“长期在线”数字人直播间

场景：直播陪伴、互动主持、虚拟播报。
应用：传统流式方案一旦拉长到十几分钟以上，常出现“脸漂、细节丢失、口型逐步漂移”问题。SoulX-LiveAct通过 Neighbor Forcing + ConvKV Memory 实现“恒定显存”的长时流式生成，在小时级输出中依然维持身份与细节稳定，同时以 20 FPS、0.94秒 的低延迟满足实时互动需求（如响应弹幕、对话和即兴反应）。

（2）沉浸式视频对话：AI 虚拟导师 / 客服 / 智慧柜员

场景：在线教育、金融客服、政务大厅、企业数字前台。
应用：视频对话的“信任感”很大程度上来源于稳定的表情、口型与身份一致性。SoulX-LiveAct在HDTF/EMTD上取得领先的 Sync-C/Sync-D 分数，并在VBench-2.0上维持接近满分的人体保真度表现，能让“面对面”的虚拟互动显得更自然、更可信。

（3）长内容生产：播客/课程/解说的“小时级视频一键生成”

场景：长播客、课程录制、知识解说、企业培训。
应用：这类长视频内容最怕“越到后面画面越崩”。SoulX-LiveAct的长视频一致性分析显示，相比基线方法容易出现的身份漂移与配饰消失等问题，LiveAct能更稳定地保持人物身份与细节（如衣物纹理、配饰等）贯穿全程，适合批量生成“从开头到结尾都保持一致”的长视频内容。

（4）游戏与虚拟世界中的“实时驱动”NPC

场景：开放世界NPC、虚拟社交、互动剧情。
应用：游戏中的NPC不仅要会说台词，更要“说得像、动得像、并且一直像同一个角色”。SoulX-LiveAct在全身数据集EMTD上的同步与质量指标领先，并支持实时流式推理，非常适合在游戏或虚拟空间里实现长时间在线、且具备丰富情绪与动作表达的数字角色交互。

结语

SoulX-LiveAct通过Neighbor Forcing和ConvKV Memory两项创新，为长时稳定的实时数字人生成提供了系统性的解决方案。它不仅大幅提升了视频质量与一致性，更通过恒定显存和稳定延迟的设计，让小时级实时生成变得切实可行。该模型已在GitHub上开源，为社区研究与应用提供了新的强大工具。对于开发者而言，这意味着在构建数字人直播、互动客服、长视频生成等应用时，有了一个兼顾质量、效率与稳定性的新选择。技术的不断迭代，正推动数字人从“能看”迈向“好用、耐用”的新阶段。更多关于人工智能生成视频的技术讨论，欢迎到云栈社区交流。

上一篇：基于Node.js的Crucix项目实战：搭建自托管的全球信号聚合与个人情报系统
下一篇：押注端侧大模型，小米160亿AI投入背后的硬件生态牌

SoulX-LiveAct, AR-Diffusion, Transformer, 实时视频生成, 数字人