
在近期多模态模型开源的热潮中,智谱 AI (ZhipuAI) 于活动收官之际重磅宣布,将四项关键的视频生成核心技术全面开源。此次开源内容涵盖了角色动画、实时流式视频生成、多主体一致性以及训练效率优化等多个前沿方向,旨在解决当前视频生成领域的核心痛点。所有项目不仅提供了完整的代码仓库,还同步开放了预训练模型权重,具备高度的可复现性、可部署性及二次开发潜力,为开发者和研究者提供了坚实的工程基础。
一、SCAIL-Preview:影视级角色动画生成框架
项目与模型地址
技术背景
在视频生成任务中,角色动画因其对姿态、连续性和交互关系的高要求,一直是极具挑战性的方向。传统方法在生成大幅度动作、复杂姿态或多人交互场景时,容易出现肢体结构错误、动作断裂等问题。
核心技术要点
- 3D姿态驱动生成:SCAIL将人体动作显式建模为三维姿态,从源头上约束了关节的物理关系,有效避免了基于纯像素生成导致的骨骼结构崩坏。
- 上下文姿态注入:模型采用类上下文学习机制,在生成时引入前后帧的姿态信息作为参考,从而在时间维度上保证了长序列动画的动作连贯性。
- 复杂动作与多人支持:官方演示表明,该框架能够稳定生成旋转、跳跃、舞蹈等高难度动作,并能在多人场景中保持角色间的空间逻辑关系。
- 模块化设计:其姿态建模模块SCAIL-Pose可独立使用,作为其他动画或视频生成模型的通用动作控制前端。
已验证能力
- 高稳定性、可控的角色动画生成。
- 适用于影视特效预览、游戏动画、虚拟人驱动等专业场景。
二、RealVideo:实时流式视频生成系统
项目与模型地址
技术背景
现有的多数视频生成模型采用“生成-等待-输出”的模式,首帧延迟高、无法中途交互,难以应用于需要即时反馈的场景,如实时对话、交互式应用等。
核心技术要点
- 流式生成架构:RealVideo摒弃了传统的批处理生成方式,采用边推理边输出的流式架构,大幅降低等待时间。
- 低延迟优化:通过专项的推理设计,实现了2-3秒的首帧响应延迟,达到了可交互的实时性标准。
- 时序一致性保障:在流式生成的条件下,模型仍能有效保持帧与帧之间的画面连贯性,避免出现闪烁或跳变。
- 完整系统工程:项目提供了包含服务端、推理流水线在内的完整系统实现,便于直接部署与集成。
已验证能力
- 支持准实时、连续的视频流生成。
- 适用于数字人实时对话、交互式视频内容生成等系统。
三、Kaleido:多主体视频生成框架
项目与模型地址
技术背景
当视频中包含多个需要保持身份一致的主体时,现有模型常出现特征混淆、身份互串、主体与背景纠缠等问题,导致生成结果不可用。
核心技术要点
- 专用数据管线:构建了针对多主体场景的数据增强与重组流程,强制模型学习将主体特征与背景信息解耦。
- R-RoPE编码:创新性地提出了参考旋转位置编码,为不同的参考主体在注意力机制中分配独立的编码空间,从而清晰区分多个控制对象。
- 多条件联合控制:支持使用多张参考图像结合文本描述,共同指导视频的生成过程,控制粒度更细。
- 完整大模型:Kaleido-14B-S2V是一个参数量达140亿的完整视频生成模型,而非仅验证概念的轻量版,在开源多主体视频模型中达到了SOTA水平。
已验证能力
- 在多主体场景下,能稳定保持每个角色的身份特征。
- 主体与背景分离效果显著,画面逻辑清晰。
四、SSVAE:频谱结构化变分自编码器
项目与模型地址
技术背景
视频生成模型训练成本高昂、收敛缓慢,一个重要原因是传统VAE的潜空间对视频特有的时空连续性信息编码效率低下。
核心技术要点
- 频谱结构化设计:通过对潜空间进行频谱分析并结构化,强化其对视频低频时空信息的表达能力,使其更符合视频信号的本质特性。
- 加速训练收敛:官方实验数据显示,在保证相近生成质量的前提下,采用SSVAE能使模型训练收敛速度提升约3倍,显著提高算力利用率。
- 即插即用:该模块设计为扩散模型友好的编码器,可直接替代现有视频扩散模型中的VAE组件。
- 独立可复用:作为一个独立的潜空间编码器,它可以被轻松集成到其他自定义的视频生成或训练框架中。
已验证能力
- 提供更稳定、高效的视频潜空间表示。
- 大幅提升模型训练效率,降低训练成本。
总结
智谱AI此次集中开源四项核心技术,分别瞄准了角色动画控制、实时生成交互、多主体一致性以及底层训练效率这些视频生成领域的核心挑战。这不仅为社区贡献了高质量、可落地的代码与模型,也体现了其在多模态人工智能技术栈上的深厚积累与开放态度。这些工具的开放,有望加速视频生成技术的普及与创新应用。对于希望深入视频生成领域的开发者和研究者而言,这是一个极具价值的资源宝库。
|