找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1113

积分

0

好友

163

主题
发表于 前天 03:22 | 查看: 4| 回复: 0

智谱AI四项视频生成核心技术开源

在近期多模态模型开源的热潮中,智谱 AI (ZhipuAI) 于活动收官之际重磅宣布,将四项关键的视频生成核心技术全面开源。此次开源内容涵盖了角色动画、实时流式视频生成、多主体一致性以及训练效率优化等多个前沿方向,旨在解决当前视频生成领域的核心痛点。所有项目不仅提供了完整的代码仓库,还同步开放了预训练模型权重,具备高度的可复现性、可部署性及二次开发潜力,为开发者和研究者提供了坚实的工程基础。

一、SCAIL-Preview:影视级角色动画生成框架

项目与模型地址

技术背景

在视频生成任务中,角色动画因其对姿态、连续性和交互关系的高要求,一直是极具挑战性的方向。传统方法在生成大幅度动作、复杂姿态或多人交互场景时,容易出现肢体结构错误、动作断裂等问题。

核心技术要点

  • 3D姿态驱动生成:SCAIL将人体动作显式建模为三维姿态,从源头上约束了关节的物理关系,有效避免了基于纯像素生成导致的骨骼结构崩坏。
  • 上下文姿态注入:模型采用类上下文学习机制,在生成时引入前后帧的姿态信息作为参考,从而在时间维度上保证了长序列动画的动作连贯性。
  • 复杂动作与多人支持:官方演示表明,该框架能够稳定生成旋转、跳跃、舞蹈等高难度动作,并能在多人场景中保持角色间的空间逻辑关系。
  • 模块化设计:其姿态建模模块SCAIL-Pose可独立使用,作为其他动画或视频生成模型的通用动作控制前端。

已验证能力

  • 高稳定性、可控的角色动画生成。
  • 适用于影视特效预览、游戏动画、虚拟人驱动等专业场景。

二、RealVideo:实时流式视频生成系统

项目与模型地址

技术背景

现有的多数视频生成模型采用“生成-等待-输出”的模式,首帧延迟高、无法中途交互,难以应用于需要即时反馈的场景,如实时对话、交互式应用等。

核心技术要点

  • 流式生成架构:RealVideo摒弃了传统的批处理生成方式,采用边推理边输出的流式架构,大幅降低等待时间。
  • 低延迟优化:通过专项的推理设计,实现了2-3秒的首帧响应延迟,达到了可交互的实时性标准。
  • 时序一致性保障:在流式生成的条件下,模型仍能有效保持帧与帧之间的画面连贯性,避免出现闪烁或跳变。
  • 完整系统工程:项目提供了包含服务端、推理流水线在内的完整系统实现,便于直接部署与集成。

已验证能力

  • 支持准实时、连续的视频流生成。
  • 适用于数字人实时对话、交互式视频内容生成等系统。

三、Kaleido:多主体视频生成框架

项目与模型地址

技术背景

当视频中包含多个需要保持身份一致的主体时,现有模型常出现特征混淆、身份互串、主体与背景纠缠等问题,导致生成结果不可用。

核心技术要点

  • 专用数据管线:构建了针对多主体场景的数据增强与重组流程,强制模型学习将主体特征与背景信息解耦。
  • R-RoPE编码:创新性地提出了参考旋转位置编码,为不同的参考主体在注意力机制中分配独立的编码空间,从而清晰区分多个控制对象。
  • 多条件联合控制:支持使用多张参考图像结合文本描述,共同指导视频的生成过程,控制粒度更细。
  • 完整大模型:Kaleido-14B-S2V是一个参数量达140亿的完整视频生成模型,而非仅验证概念的轻量版,在开源多主体视频模型中达到了SOTA水平。

已验证能力

  • 在多主体场景下,能稳定保持每个角色的身份特征。
  • 主体与背景分离效果显著,画面逻辑清晰。

四、SSVAE:频谱结构化变分自编码器

项目与模型地址

技术背景

视频生成模型训练成本高昂、收敛缓慢,一个重要原因是传统VAE的潜空间对视频特有的时空连续性信息编码效率低下。

核心技术要点

  • 频谱结构化设计:通过对潜空间进行频谱分析并结构化,强化其对视频低频时空信息的表达能力,使其更符合视频信号的本质特性。
  • 加速训练收敛:官方实验数据显示,在保证相近生成质量的前提下,采用SSVAE能使模型训练收敛速度提升约3倍,显著提高算力利用率。
  • 即插即用:该模块设计为扩散模型友好的编码器,可直接替代现有视频扩散模型中的VAE组件。
  • 独立可复用:作为一个独立的潜空间编码器,它可以被轻松集成到其他自定义的视频生成或训练框架中。

已验证能力

  • 提供更稳定、高效的视频潜空间表示。
  • 大幅提升模型训练效率,降低训练成本。

总结
智谱AI此次集中开源四项核心技术,分别瞄准了角色动画控制、实时生成交互、多主体一致性以及底层训练效率这些视频生成领域的核心挑战。这不仅为社区贡献了高质量、可落地的代码与模型,也体现了其在多模态人工智能技术栈上的深厚积累与开放态度。这些工具的开放,有望加速视频生成技术的普及与创新应用。对于希望深入视频生成领域的开发者和研究者而言,这是一个极具价值的资源宝库。




上一篇:嵌入式Linux驱动开发详解:字符设备驱动从原理到实践
下一篇:ARM Cortex-M85内核解析:MCU性能跃升与AIoT、边缘计算新赛道
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-17 14:37 , Processed in 0.129825 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表