近期,视频生成领域接连迎来重磅发布。继春节期间的现象级模型Seedance 2.0之后,字节跳动携手北京大学、安努智能和Canva共同开源了具备实时生成能力的视频模型家族——Helios。该系列包含了Helios-Base、Helios-Mid与Helios-Distilled三个版本,全面覆盖了文本生成视频、图像生成视频、视频生成视频以及交互式生成任务。
最引人注目的是,Helios以14B的参数量,在单张显卡上实现了高达19.5 FPS的生成速度,真正做到了在生成质量与推理速度之间取得出色平衡。
值得一提的是,该项目在发布首日即实现了对昇腾NPU的Day-0级别支持,并同步兼容了Diffusers、vLLM-Omni、SGLang-Diffusion等主流推理框架。


如此卓越的表现和强劲的生态支持,也让Helios成功登顶Hugging Face Daily Papers。而在GitHub上,这个刚刚发布的项目已获得大量关注。
深入探究Helios的底层架构,技术社区发现了另一番玄机:该模型的核心开发团队是北京大学袁粒课题组,其技术栈与团队此前重磅开源的Open-Sora Plan项目高度同源。Helios与OSP团队近期开源的UniWorld-OSP2.0存在大量代码复用,可以说是一次对该核心技术的有效验证,性能也比基于UniWorld-OSP2.0开发的OSP-RealTime 14B更胜一筹。


更值得关注的是,支撑OSP系列项目的算力引擎指向了一套庞大的国产化算力生态——鲲鹏与昇腾算力。事实上,正是得益于北京大学鲲鹏昇腾科教创新卓越中心的赋能和算力支持,这些高性能开源项目才得以成为现实。
从Seedance 2.0和Helios的成功可以看出,AI视频生成社区正在形成一个愈发清晰的共识:顶尖的视频生成能力正快速向以Diffusion Transformer为核心的统一范式收敛。与此同时,模型的比拼也从基础画质的简单堆料,转向更高层级的语义理解深度与多模态协同效率。
正是在这样的技术拐点与开源生态辐射力下,Open-Sora Plan团队推出的UniWorld-OSP2.0 进入了越来越多研究者的视野。这不仅仅是一次简单的版本更迭。作为业界首个开源的超百亿级视频生成大模型,UniWorld-OSP2.0同时也是首个实现「双原生」(昇腾原生 & 自回归+Diffusion混合架构)统一范式的大模型体系。

在核心评测指标上,其在VBench-I2V基准上的表现已全面超越Wan2.1,迅速成为开源视频生成生态中最具风向标意义的技术坐标之一。

UniWorld-OSP2.0 与其它开源视频模型在 VBench-I2V 基准上的表现对比
在关键评估指标的对比中,UniWorld-OSP2.0在运动质量、图像保真度和语义一致性方面均表现出优越性,其整体表现已稳步进入开源阵营第一梯队。
伴随着新版本的发布,社区层面的势能同样如火如荼。Open-Sora Plan已累计获得约1.2万GitHub star和千万级下载量,多次登上Trending榜单,并在实际代码活跃度上进入开源视频模型第一梯队。

Open-Sora Plan 开源项目已在 GitHub 收获超 1.2 万 star
同时,这样一个高性能、低成本且自主可控的视频大模型底座,正加速演化为产业侧可复用的视频生成基础设施。目前已有包括字节、腾讯WXG、阿里达摩院、小红书、哔哩哔哩等多家团队,基于该框架展开二次开发,海外多家AI公司亦同步跟进。
随着团队宣布将进一步开源12类风格化数据集及完整模型权重,视频生成领域或许正迎来属于自己的“视觉版LLaMA时刻”。那么,这个正在开源视频生成生态中持续演进的技术框架,究竟做对了什么?下面我们基于UniWorld-OSP2.0的官方技术报告进行解读。

整体架构:三大核心组件的无缝协同
在深入探讨UniWorld-OSP2.0的具体技术突破之前,有必要先从宏观视角拆解其整体架构。这有助于我们理解该模型是如何支撑起「双原生」统一范式并实现高质量生成的。

UniWorld-OSP2.0 架构概览
根据技术报告,UniWorld-OSP2.0的系统框架在底层逻辑上主要由三个核心组件构成:
- 因果变分自编码器:作为视频像素空间与潜在空间之间的桥梁,它负责将高维的视频序列压缩为紧凑的、具有因果结构的潜在表示,确保在保持时间因果关系的同时提升处理效率。
- VLM增强的多模态条件模块:这是该架构的认知中枢。它利用一个冻结状态下的VLM来提取多模态特征,随后通过一个可训练的Adapter模块将这些特征进行适配与映射,从而为后续的生成过程提供深度的语义指导。
- 扩散Transformer主干网络:作为视频生成的核心引擎,DiT接收上述经过Adapter处理的语义特征,并在VAE提供的潜在空间中执行条件去噪,最终合成在时间上高度连贯的视频流。
这套「VAE + VLM + DiT」架构构成了UniWorld-OSP2.0强大性能的基石,同时也为模型深度适配昇腾算力、实现真正的「昇腾原生」打下了系统级的结构基础。建立在这个全局架构认知之上,我们再来细看研究团队是如何在具体的生成与理解环节中精准落刀,解决行业痛点的。
核心技术优势:FlashI2V,物理一致性的定海神针
UniWorld-OSP2.0的第一刀,精准落在了视频的物理一致性上。
长期以来,I2V生成的视频常常让人觉得不太对劲,动作僵硬或画面崩坏时有发生。其核心症结在于条件图像泄漏。在现有的I2V范式中,常规做法是将完整的条件图像数据直接拼接到去噪器中。去噪器往往会把这种直接拼接当作一条「捷径」,对其产生过度依赖。这种过度控制带来的后果,就是生成的视频经常出现动作幅度极小或者色调不协调等性能退化问题。
为了解决这一行业难题,研究团队提出了FlashI2V核心机制,通过隐式引入条件来破局。

FlashI2V 架构示意图:条件图像潜在变量首先被投影和偏移,以形成隐式编码条件信息的中间表示。同时,图像经过傅里叶变换后的高频幅度与带噪潜在变量拼接,并输入到 DiT 主干网络中。
对其进行技术深度剖析,FlashI2V的杀手锏主要体现在两个相互配合的关键设计:
- 潜空间偏移:这相当于在扩散链路中引入了一个「运动自由度阀门」。在具体的实现中,它通过修改流匹配的分布,将条件图像信息隐式地整合进去。模型利用一个可学习的投影模块,将原始潜变量转换到一个包含丰富结构和高频特征的空间中。这从根本上减少了去噪器对条件图像的过度依赖,有效缓解了泄漏问题,避免了对首帧的控制过度,从而让视频真正动起来,保证了高保真的动态运动。
- 傅里叶引导:在潜空间偏移的过程中,恢复图像的边缘和纹理等高频细节往往是一项挑战。该机制精准地在频域层面补齐了短板。它通过傅里叶变换提取图像的高频幅度特征,并将其与噪声潜在空间拼接后馈入DiT主干网络中。这在频域增强了运动预测的稳定性,用于校准细节,确保生成的视频轨迹不会跑偏。此外,它还允许模型通过调整截止频率百分比,对生成视频的细节水平进行细粒度控制。

潜空间偏移和傅里叶引导分析。(a) 训练过程中编码特征的变化。(b) 不同傅里叶引导阈值对生成细节的影响。
这两项技术的协同发力带来了立竿见影的实际收益。FlashI2V使得输入参考图像不会泄露到视频的像素层面,有效避免了一张图复制成一段视频的僵硬感,同时保持了真实且流畅的运动轨迹,具备极强的时间一致性与空间结构稳定性。
从量化指标来看,研究团队观察了不同I2V范式的块式FVD变化模式。传统的范式在域内数据上的FVD会随着时间推移而增加,但在域外数据上始终保持较高水平,这意味着它们难以泛化。只有FlashI2V能够保持一致的FVD变化模式,成功将从域内数据中学到的生成规律泛化应用于域外数据。得益于此,该项目不仅取得了最低的域外FVD,并在多项I2V关键指标上成功超越了Wan2.1。
两大主要创新:用VLM实现理解 & 用I2SV控制艺术表达
在利用FlashI2V解决了物理真实感之后,UniWorld-OSP2.0团队进一步在模型的认知深度与艺术审美上实现了双重突破。
其一,引入VLM重构认知理解机制。
传统的纯文本编码器提取的特征往往只能捕获表层词汇线索,导致细粒度指令对齐面临瓶颈。为此,团队引入了一个冻结状态下的预训练VLM作为核心多模态特征提取器。该模块会综合图像与文本提示,生成富含复杂跨模态关系的深层多模态表示。随后,通过一个专门设计的轻量级可训练Adapter模块,这些高维语义在特征维度上与DiT主干网络实现了精准对齐。这种设计让模型直接继承了VLM强大的视觉基础知识,大幅提升了对角色、动作等细粒度信息的控制精度,让模型真正具备了「看懂」复杂场景的能力。

有了 VLM 加持的 UniWorld-OSP2.0 具备优秀的视觉理解能力
其二,推出I2SV任务拓展可控艺术表达。
仅仅还原真实的物理世界依然不够,视频生成同样需要可控的艺术加工。以往的视频风格化多依赖后期叠加滤镜,缺乏对画面内容的深度融合。为了打破这一局限,研究团队构建了一个包含12种典型艺术风格的专属数据集,并在统一框架下推出了全新的I2SV范式。
现在,模型可以在生成期直接接收原始图像、文本描述以及目标风格指令,一步输出时间连续且符合语义的风格化视频。配合严格的回环式质量监控策略,该机制可确保角色动作与语义细节得到完美保留,有效避免了角色变形与动作漂移的问题。

包含的 12 种典型艺术风格
OSP-RealTime 14B:把视频大模型带进工业阶段
过去,行业默认的逻辑是:模型越大,质量越强,但速度一定越慢。能实时跑的,通常是1B级别的小模型;14B这种规模,往往只能离线生成。
袁粒课题组基于UniWorld-OSP2.0训练了一个模型——OSP-RealTime 14B(这也是Helios系列底层的核心技术),在单块昇腾Atlas A3系列产品上直接把帧率拉到了10 FPS(文生视频),成为第一个真正接近「交互式视频生成」的开源级扩散架构。
为此,OSP-RealTime 14B将长视频生成,重新定义为无限的视频续写任务,最大限度保留与预训练模型一致的推理方式。通常,现有方案会利用滑动窗口机制配合因果掩码,将双向模型转换为自回归模型。这种方式本质还是“拼接式延长”,推理模式和训练不一致,质量上限受限。而OSP-RealTime 14B通过引入时间维噪声latent的拼接策略,在时间轴上对历史噪声状态进行延续,使扩散过程在窗口切换时保持运动连续性。在不改变原有训练范式的前提下,实现时间上的无限延展,最终实现更高的质量下限。

上图展示了实时长视频生成的实际架构:一个自回归视频扩散Transformer,基于Guidance Attention模块构建。
在生成加速上,团队做了三个关键优化:
- 时间维度压缩:把噪声latent的帧数从21帧降到9帧。帧数减少带来的是平方级的算力节省,前向传播成本被大幅压缩。
- 分辨率渐进策略:先在低分辨率下完成大结构生成,再逐步细化到高分辨率。把「多尺度思想」引入到推理流程本身。
- 采样步数蒸馏:通过DMD蒸馏技术,把扩散推理步数从50步压缩到4步。把整个扩散轨迹学习成一个近似的快速映射,直接把时间开销压缩了一个数量级。

OSP-RealTime 14B 的实时无限长视频生成示例
为了让这种系统级改造在单块昇腾Atlas A3系列产品上真正跑起来,并将帧率推进到约10 FPS,团队还做了不少工程上的探索。例如,特征缓存方案,预计算并存储耗时最高的引导词特征,实现了「以查代算」,显著缩短了多轮迭代训练时间并释放了显存资源。
模型全程在昇腾Atlas A3系列产品上完成训练与推理,深度融合了MindSpeed-MM套件的分布式训练能力、断点续训以及SmartSwap等原生特性。
总体而言,OSP-RealTime 14B让其作为其基石的UniWorld-OSP2.0有了更广泛的开源意义,也具备了商用规模化潜力。如果14B规模的模型都可以进入实时区间,那么视频生成的边界就开始松动。它不再只是生成几秒钟的片段,而是有可能成为持续运行的系统。互动视频、生成式游戏场景、实时虚拟世界,这些过去停留在想象层面的应用,开始具备算力基础。
定义视频生成的「公共基础设施」
在开源体系里,UniWorld-OSP2.0率先将VLM的多模态理解、FlashI2V的物理生成、I2SV的艺术表达以及14B模型的实时化能力高度整合。这不仅在昇腾算力平台上跑通了工业级视频生成闭环,更在深层技术生态上,依托昇腾底座定义了视频生成的「公共基础设施」。
袁粒课题组为整个行业探索了统一架构的最优解,排除了多种技术路径的局限,节约了巨大的试错成本。对于以昇腾为核心的国产智算生态而言,该项目提供了一份高价值的工程落地手册。团队解决了底层适配中的诸多工程难题,结合「以查代算」的特征缓存机制,为开发者提供了极具经济性的成熟工具链。
面向未来,视频生成的终局远超像素的堆叠变换。UniWorld-OSP2.0展现出的跨模态对齐与物理规律学习能力表明,它正向着真正的「通用视觉世界模型」稳步迈进。对于关注前沿技术的开发者而言,持续跟踪此类高质量的开源项目,是把握AIGC领域脉搏、探索技术落地可能性的重要途径。欢迎在云栈社区与我们交流更多关于视频生成与开源实战的见解。