之前那张「中国AI vs 美国AI」的对比图在网上挺火。就在OpenAI和Anthropic接连发布新模型时,国内的元宝和千问却在打响红包大战。这一冷一热的对比,产生了强烈的戏剧反差,令人印象深刻。

不过,这个“笑话”的保质期很短,而且很快就不再好笑了。因为紧接着,字节跳动和快手先后发布了新一代视频生成模型,其效果在外网引发的刷屏式讨论,又一次强化了海外观察者们对中国AI实力“深不可测”的刻板印象。
所以说钱钟书先生写《围城》真有道理,全球科技圈何尝不是一座围城?里面的人羡慕外面的自由探索,外面的人又觊觎里面的庞大市场与落地速度。
字节的Seedance 2.0非常出色,它在很大程度上改写了视频生成的方法论。由于字节这家公司自带的全球声量一直很大,所以虽然发布比快手晚,但口碑和评价的增长速度却更快。不过,快手的Kling 3.0同样实力强劲——我已经为此“阵亡”了三个测试账号了,这绝非是为了强行塑造“双星闪耀”的场面话。
这也与两个模型的技术路线差异有关。在综合能力上,它们无疑都瞄准了当前视频大模型的SOTA,即谷歌的Veo模型。但Seedance 2.0更侧重于Sora 2所擅长的那套运镜、深度理解、风格模仿与丝滑转场效果,这对海量的短视频创作者生态是极大的利好。而Kling 3.0则更偏向于Runway所代表的影视化、真实感和工业化生产能力,它的目标用户是专业的导演和工作室。
因此,博主和普通用户天然会对Seedance 2.0更有感觉,这很正常。但我个人对Kling 3.0的上限抱有更高期待,它确实在努力抹平真实与虚拟之间的界限。当然,从长期视角看,这种路线差异必然是暂时的。最终大家都会殊途同归,在解决“抽卡”随机性问题的同时,全方位、无死角地替代掉现有视频生产管线的一半以上,甚至更多。
相比于“闷声发大财”的AI编程(Coding)领域,多模态才是AI技术破圈、触及普通用户的关键手段。去年ChatGPT和Google Gemini两次下载量“翻倍级”的增长,一次是因为GPT-4o引发的“吉卜力动画风潮”,另一次则是基于轻量级模型Nano的降维打击,背后都是多模态能力在立功。

时间来到今年,战场继续向前推移。除了Seedance 2.0和Kling 3.0,同样是在这个二月,马斯克发布了Grok专用的视频模型Imagine 1.0,谷歌也发布了号称要“打掉游戏引擎市值”的生成交互世界模型Genie 3。发现共同点了吗?
全,是,视,频。
人类本质上是视觉动物,所见即所得的信息量,远超文本和语音。视频模型此前主要受限于能力不足、训练难度极高、生成质量不稳定,无法形成类似“一键修图”那样的标准化工作流。但到了2026年,这个瓶颈期眼看就要被跨越了。
还记得那个“威尔·史密斯吃意大利面”的AI生成视频吗?那不过是两三年前的事情。技术进化的效率如此可怕,时间在AI领域显得既快速又扁平。
再回头多说几句开头的对比。如果说中国AI公司眼馋Claude Opus 4.6和GPT-5.3-Codex这样的顶尖编程模型,这确实没毛病。但这也不纯粹是技术代差的问题,中美两国迥异的商业环境,决定了AI技术渗透的发力点本就不同,因此爆发点看起来有些不均匀。
表面上看,美国的AI巨头们都在猛攻AI编程。这固然是因为该方向容易货币化,但往深处想,编程自由的终点是什么?是工具、软件乃至系统开发的零成本化——需要什么,让AI去写代码就好了。正因如此,美股市场里的SaaS(软件即服务)赛道突然就崩了。
SaaS是一个积累了近三十年、规模达万亿美元的市场,它完美地成为了回应“AI投入巨大但回报不足”质疑的“靶子”,想象空间太大了。目睹这座大厦将倾的景象,实在有种见证时代的残酷美学。
王慧文在即刻上发过一条非常精辟的动态,可谓一语中的:

大佬就是大佬,几句话就点破了关键。中国的AI公司在追求类似美国SaaS那样的高价值产业化道路上,确实有苦难言,尤其是在面对美国同行高歌猛进的时候。核心原因或许在于:你无法去替代一个不存在的市场,拿走一份不存在的产值,讲述一个不存在的资本故事。
然而,在多模态,尤其是视频生成模型方面,情况就完全不同了。中国互联网在短视频、直播和创作者生态方面是全球领先的,这里真实存在着巨大的市场需求、产业产值和商业故事,正等待AI技术去承接和升级。因此,字节和快手在视频模型上投入的决心和动力,完全不虚任何美国大厂。
快手Kling凭借先发优势,其ARR(年度经常性收入)增长很快,在海外一直处于第一梯队。字节则属于后来居上,其多模态能力对“豆包”的用户留存拉动明显,更不用说它在GPU储备量上是国内大厂中的顶级水平。当真决心要做成一件事时,以它们的资源禀赋很难做不成。
昨晚,很多字节的员工都在转发一条视频,内容是CEO梁汝波和产品负责人张楠用AI合拍的一段短片,用以宣传搭载了Seedance 2.0的新产品“即梦”。张楠的性格活泼,搞这种创意不意外;意外的是梁汝波也亲自配合出演——你很少会看到他为字节的其他产品如此站台。

据《晚点LatePost》报道,字节内部期待能在AI浪潮中跑出“下一个抖音”,并且完全沿用字节的经典方法论——数据决定地位。这意味着,熟悉的赛马机制已经再次启动。目前,公司内部至少有三股势力在角逐这个“太子”之位:
- 即梦:负责人张楠是将抖音从0做到1的核心人物,她先后负责剪映、即梦,始终被安置在开拓新场景的最前线,代表了字节在创业状态下最强的战斗力。
- 豆包:其所属的Flow团队负责人朱骏是Musical.ly的创始人,被字节收购后沉寂一段时间,如今又将豆包做得风生水起。一次成功或许是运气,两次成功则证明了其能力,属于最正统的“继承位”。
- 抖音自身:是的,抖音事业部也希望“下一个抖音”能由自己内部孵化出来,而非假手于人。例如,抖音搜索团队就曾开发一款名为“AI抖音”的App,虽然用户量不大,但占位的意图非常明显。
还是那句话,字节这家公司的组织活力与进攻欲望,在国内大厂中实属罕见,丝毫看不出任何大公司病的僵化痕迹。

最后我想说,重头戏可能还在后面。中国AI公司在这个“神仙打架”的二月里的重量级发布,或许尚未结束。我知道一些风声,但暂时不便透露。让我们静候佳音,用心感受这个技术爆炸、令人目不暇接的时代吧。对这类前沿技术与市场碰撞的深度讨论,也欢迎来云栈社区与更多开发者交流。