云栈社区»论坛 › 开发者广场「Dev Plaza」 › 昆仑万维天工AI发布2026 AGI战略，详解SkyReels V4等三大模型技 ...

发回帖发新帖

3428 积分	0 好友	460 主题

发消息

昆仑万维天工AI发布2026 AGI战略，详解SkyReels V4等三大模型技术突破

发表于 2026-3-28 03:11:36 | 查看: 126| 回复: 0

在2026年4月下旬火热进行的中关村论坛上，昆仑万维旗下天工AI带来了其最新的技术成果与战略思考。

这家早在2022年便已宣布“All in AGI 与 AIGC”的公司，在此次高规格论坛上展示了为实现通用人工智能目标而构建的“武器库”。本届论坛以“科技创新与产业创新深度融合”为主题，吸引了全球产业界、学术界与投资界的广泛关注。

昆仑万维四大全模态SOTA模型底座

会上，天工AI集中发布了三款全新的人工智能模型：AI游戏世界模型Matrix-Game 3.0、AI视频大模型SkyReels V4以及AI音乐大模型Mureka V9。这三款模型不仅旨在强化AIGC的理解与生成能力，更标志着AI在物理世界建模与仿真方向上的实质性推进。

这三款大模型的性能表现已进入全球第一梯队，在多项基准测试中成绩斐然。

SkyReels V4在Artificial Analysis基准测试中，同时斩获了“带音频文生视频”和“带音频图生视频”两个榜单的全球第一，并在“图生视频（不带音频）”榜单中位居全球第二（截至2026年3月18日数据）。
Mureka V9在与Suno V5等竞品的对比中，于音乐旋律性、表现力、编曲等主观评价指标上实现了全面超越。

权威榜单成绩：全球公认的顶尖硬实力

Matrix-Game3.0 主页：https://matrix-game-v3.github.io/
SkyReels V4 官网：https://www.skyreels.ai/
Mureka V9 官网：https://www.mureka.cn/

除了三大模型，昆仑万维正式对外公布了其 2026 AGI战略，清晰勾勒出实现“让每个人更好地塑造和表达自我”这一使命的路径。战略释放出一个明确信号：未来三年，AI发展将从全模态能力突破阶段，进入平台化构建的新时期。

昆仑万维2026 AGI战略升级发布会现场

在该战略设想中，除了底层的全模态基础模型和中间层的超级智能体，公司还将向上拓展应用层，探索包括短剧平台 DramaWave、音乐创作分发平台 Mureka 以及互动娱乐游戏世界 猫森学园 在内的丰富产品形态。

当底层模型、智能调度与上层应用实现协同运转时，AI将不再是孤立的工具，而会演变为一个可以持续自主运行的系统。随着这套体系逐步完善，AI原生的平台经济将走向落地，每位创作者有望获得媲美专业公司的全栈生产力。

昆仑万维2026“3+1”战略全景图

世界模型补齐关键短板：记得住、跑得久、跑得快

自开源Matrix-Game 1.0以来，昆仑万维对交互式世界模型的探索持续深入。此次发布的Matrix-Game 3.0，旨在解决世界模型普遍存在的三大短板：记不住（记忆）、跑不久（长时程）和跑不动（实时+高分辨率），其核心在于贯通数据、记忆与实时生成三大环节。

Matrix-Game 3.0数据引擎与训练部署流程

首先在数据层面，该模型构建了可无限扩展的数据引擎。数据形态从传统视频升级为包含视频、位姿、动作、提示词的多模态对齐数据；生产方式采用Unreal Engine合成数据与真实3A游戏采集双管线；工程上实现了从探索、采集到标注的全流程自动化。

其次在模型架构层面，建立了一套算力效率与记忆能力的协同机制。它重构了视频生成范式，重点解决了“控制信号注入”和“长时序抗漂移”两大难题。

Matrix-Game 3.0整体架构概览

在控制层面，模型将用户动作显式引入：鼠标信号通过Self-Attention直接作用于当前视觉生成，确保即时交互的准确性；键盘动作通过Cross-Attention注入，负责引导整体运动趋势，保障长序列行为的稳定性。

在长时序稳定性层面，引入了Error Buffer机制，显式建模生成帧与真实帧之间的误差，并将其作为条件回注模型进行训练，使模型获得抗误差累积的能力，有效避免了内容随时间推移发生崩坏。

Matrix-Game 3.0记忆注入机制

在记忆层面，通过统一的DiT框架，对长期记忆、局部历史帧及当前预测目标进行联合建模，实现了跨时间段的信息利用与生成连续性。

长时序一致性蒸馏训练流程

最后在推理部署层面，通过采用具备长期记忆和抗误差能力的教师模型进行蒸馏，并结合多段式联合训练，强化了模型的长时序连续推理能力。同时，借助模型量化与VAE decoder蒸馏等优化手段，成功将模型压缩至约5B规模，并在720p分辨率下实现了实时生成。规模更大的MoE-28B模型，其生成时长已可推进至分钟级别。

目前，昆仑万维已开放了Matrix-Game 3.0的代码与模型权重，开发者可以在开源实战平台进行探索：

GitHub 地址：https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-3
Hugging Face 地址：https://huggingface.co/Skywork/Matrix-Game-3.0

AI视频走向原生一体生成：告别音画拼接

SkyReels V4此前已在社区引发热议，其在Artificial Analysis榜单上超越Sora 2、Veo 3.1等强劲对手的表现，获得了高度认可。

社区用户对SkyReels V4的评价

作为系列最新版本，SkyReels V4进化为 “全模态音视频联合生成、修复与编辑”的大一统模型，让AI视频具备了基础的叙事能力。这一突破源于其在多个层面的系统性升级。

首先是底层架构的重写。模型采用了原生音画一体的双流MMDiT（多模态扩散变换器）架构，替代了传统的“先画面、后音频”串行流程，将音视频置于同一语义空间中联合建模。通过对称双分支设计，并共享文本编码器，模型实现了口型、动作与声音的精确同步，真正做到了从多模态拼接走向原生一体生成。

SkyReels V4多模态扩散变换器架构图

其次，实现了生成、编辑与修复的能力大一统。模型支持首尾帧、多帧、多图、运动等多种参考方式，能够完成元素增删、风格迁移等精细编辑。其核心是将生成、编辑与修复收敛到同一套掩码补绘框架下，并引入参考图像/视频作为上下文，从而稳定锁定角色特征与场景风格，确保跨帧一致性。

再者，结合强化学习与工程优化实现增质提效。模型引入了全模态语义Reward体系对生成结果进行实时校正，并采用阶梯式课程学习来逐步建立稳定的叙事能力。为降低计算开销，采用了“低分辨率全序列+高分辨率关键帧”的联合生成策略，并结合超分与帧插值恢复画质，最终将计算成本降低约3倍，实现了1080P分辨率、32FPS帧率、15秒时长的影院级内容生成。

最后，数据体系的重构是高效运作的基石。SkyReels-V4构建了覆盖图像、视频、音频的统一数据体系，通过“真实+合成”双管线保证数据规模与质量，为全模态生成提供了稳定的数据基础。

从生成到创作：让“好听”变成一种可控能力

昆仑万维的音乐大模型Mureka持续带来惊喜。其前代Mureka V8已在Artificial Analysis的人声与乐器榜单上双双登顶。最新发布的Mureka V9，则围绕音乐创作的核心环节进行了全方位优化。

社区音乐人对Mureka模型的评价

表达更到位：歌词、情绪与段落推进能更精准对齐。
成品感更强：混音、音色与空间感更统一，听感接近高完成度作品。
人声更克制：表达干净，不过度介入。
反馈更快：从输入到输出的链路更顺畅，试错成本降低。
结果不易撞车：旋律与编排的重复感下降，同一方向下能产生更多变化。

Mureka V9产品界面

这些提升建立在 MusiCoT（Music Chain-of-Thought）技术底座的持续优化之上。模型开始以更接近真实创作流程的方式组织音乐：理解段落结构、把握表达重点，并决定每一段的呈现方式。这使得音乐不再仅是用于聆听的内容，而开始成为一种表达自我的语言。

Mureka V9更深层的目标是将“好听”从偶然结果转变为可稳定产出的能力。其方法是将“好听”拆解为歌词落点、情绪贴合度、结构旋律顺畅度等多个维度，进行逐步校准与优化，使整个创作过程变得可复用、可积累。

由此，创作方式发生了根本变化：AI音乐不再是“一次生成定稿”，而变成了一个可以反复尝试、局部调整、持续迭代的过程。创作者的角色也更多地转向审美决策与版本管理。Mureka V9正从一个音乐生成工具，向一个创作平台演进，致力于成为连接创作、消费与分发的AI时代“Spotify”。

“3+1”战略：昆仑万维的AGI路径图

将三大模型置于一起观察，可以发现它们共同补齐了一套更完整的AGI能力结构：Matrix-Game 3.0聚焦“世界如何被建模与交互”，SkyReels V4解决“内容如何被规模化生成”，Mureka V9关注“情感与表达如何被精准控制”。

昆仑万维的2026 AGI战略，正是在这些能力之上给出了清晰的实施路径，可概括为 “3+1”布局。其中，“3”指游戏、视频、音乐三大场景大模型，持续突破多模态能力边界；“1”则指天工超级智能体（Skywork Super Agents），负责对所有AI能力进行统一调度与串联。

天工超级智能体于去年发布，具备跨任务一体化执行、以Deep Research为核心的信息处理以及多Agent分工协作的能力。随着OpenClaw架构的流行，Skywork推出了SkyClaw，打造云端AI原生助理，并上线了首批官方Skills，将能力封装为可直接调用的工具。这补上了“能力如何被高效调用”的关键一环。

天工超级智能体生态核心介绍

与此同时，昆仑万维正在构建一个围绕“平台 + 超级智能体 + 开发者 + 创作者”的开放生态协同体系。一方面，通过统一入口对外开放多模态能力，降低开发与创作门槛；另一方面，通过与产业伙伴合作，将AI能力落地到具体场景，完成从技术到应用的转化。当技术能力、智能调度与商业场景形成闭环，AGI的未来图景便更加清晰可期。

技术的快速迭代离不开强大的智能 & 数据 & 云基础设施支撑。昆仑万维此次集中发布，不仅展示了其在多模态AI领域的硬实力，也为整个行业向平台化、生态化发展提供了重要的路径参考。对于关注前沿技术的开发者而言，这些开源模型和清晰的战略方向，无疑是深入研究和参与下一代AI应用构建的宝贵资源。

上一篇：阅文计提18亿商誉减值，AI时代或成最大IP语料矿主
下一篇：iPhone 20前瞻：2亿像素主摄、屏下Face ID与苹果的“安卓化”创新路径

人工智能大模型, 多模态生成, 世界模型, 通用人工智能战略, 昆仑万维