找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4022

积分

0

好友

564

主题
发表于 2026-1-15 09:01:14 | 查看: 72| 回复: 0

感谢AI!

一个原大小为1GB的视频,现在仅需传输约200KB的数据就能观看——视频数据的压缩率达到了惊人的0.02%,同时画面依然能保持高清、连贯且细节丰富。

你可能会问,这有什么用呢?

想象一下,你正身处太平洋的一艘远洋货轮上,卫星信号只有一两格,刷个朋友圈,加载内容的圈圈都要转好久。但正是因为这项AI技术,现在即使在这种极端网络环境下,你甚至可以直接观看高清的世界杯直播

没错,视频传输的物理法则,正在被重新定义。

这项名为生成式视频压缩(GVC,Generative Video Compression) 的新研究,来自中国电信人工智能研究院(TeleAI)。作为拥有覆盖海陆空天通信网络的综合信息服务运营商,中国电信将前沿AI技术与实际通信场景深度融合的能力,使得GVC技术得以从实验室走向远洋、应急等真实极端环境。

GVC技术研究报告封面

那么,这项技术究竟是如何实现的?它又能给我们的现实生活带来哪些改变?

用计算,换带宽

在深入了解这项技术之前,我们需要先回顾一下当前的视频是如何传输的。

无论是Netflix、B站,还是微信视频通话,其背后主要依靠的是HEVC(H.265)或VVC(H.266)这类传统视频编码标准。这些技术的底层逻辑,本质上是像素的极致搬运:编码器拼命计算哪些像素是不变的、哪些是移动的,然后尽可能多地保留像素信息,再想办法塞进有限的带宽里。

这种逻辑在带宽充裕时表现完美,但在极限低带宽环境下会迅速崩盘。一旦带宽不够,传统编码器为了凑合传输,只能疯狂丢弃高频信息,结果就是画面模糊成一团,甚至直接卡死。

但TeleAI团队换了一个全新的思路: 如果不传输像素本身了呢?

GVC的核心逻辑是:不再传递画面本身,而是传递“如何画出这幅画面”的指令。

我们可以打一个比方:

  • 传统压缩:就像是把《蒙娜丽莎》拍成一张照片,然后尽力压缩这张照片发给你。如果网络不好,照片就会糊得像一堆色块。
  • 生成式视频压缩(GVC):我不发照片了。我发给你一段描述——“一位女士,神秘的微笑,背景是山水,光线从左侧照射……”,以及她嘴角上扬的精确弧度等数据。你的接收端坐着一位AI画师(生成式模型),听到描述后,现场为你“画”出一幅《蒙娜丽莎》。

GVC传输机制示意图

这只是一个比喻,实际情况要复杂得多,传输的内容也远不止文字。这就是技术报告中提出的核心理念:用计算,换带宽(Trading computation for bandwidth)。它将传输压力,巧妙地转移到了接收端的推理计算上。

GVC到底传输了什么?

既然不传输像素,那这0.02%的数据里究竟包含了什么?

技术报告揭示了GVC系统的内部构造,它主要由神经编码器(Neural Encoder)生成式视频解码器(Generative Video Decoder) 两部分组成。系统传输的是一种被称为压缩Token的极小数据包,这些Token包含了视频的“灵魂”,主要分为两类:

  1. 语义信息(Semantic Information): 这是一个什么场景?有人吗?有车吗?物体的大致结构是什么?这是画面的骨架。
  2. 运动信息(Motion Dynamics): 这些物体下一秒往哪动?风怎么吹?车轮怎么转?这是画面的动态灵魂。

经过TeleAI团队的优化,这些Token的大小可以被压缩到极致的0.005 bpp - 0.008 bpp(比特每像素)。这是什么概念?通常我们观看的高清视频,bpp至少在0.1以上。GVC直接将数据量削减了两个数量级。

在接收端,一个扩散模型(Diffusion Model) 严阵以待。它接收到这些简短的Token指令后,会利用预训练好的海量世界知识(例如它本来就“知道”海浪、足球长什么样),结合指令中的语义和运动特征,开始“脑补”并实时生成视频。

这在通信理论上实现了一次巨大的范式跨越。香农-韦弗(Shannon-Weaver)通信模型将通信分为三个层级:

  • Level A:技术问题(信号传得准不准?)
  • Level B:语义问题(意思对不对?)
  • Level C:有效性问题(能不能完成下游任务?)

传统视频压缩在死磕Level A,而GVC直接跳到了Level C

视频通信范式演进对比图

它不再苛求每一个像素点都与原图100%相同(比如这片树叶的纹理是否完全吻合),而是在乎:在人眼看来,这是否是一场连贯、清晰、真实的球赛?在机器看来,能否准确识别出这是否是越位?

数据实测:效果与效率兼得

极端压缩听起来很超前,但具体指标非常硬核。技术报告展示了在MCL-JCV等权威数据集上的测试结果。

画质表现显著优于传统算法

在极低码率下(约0.005 bpp),使用更符合人类视觉感知的LPIPS指标进行对比:

  • 传统霸主HEVC在如此低的码率下已基本崩溃,画面近乎马赛克,LPIPS数值(越低越好)飙升。
  • GVC生成的画面依然保持了清晰的纹理和结构,LPIPS数值显著低于HEVC。

报告给出了一个关键结论:传统方法(如HEVC)要想达到与GVC同等的视觉感知质量,需要消耗6倍以上的带宽! 这意味着,在同样的弱网环境下,GVC能让你看清运动员的表情,而传统编码可能只显示出一个移动的色块。

GVC与HEVC画质对比图

不止于观看:保障下游AI任务精度

有人会质疑:AI生成的视频,关键物体会不会失真?比如把足球“生成”没了?
这是一个非常实际的问题。为此,团队在DAVIS2017视频物体分割任务上进行了验证。结果显示,在bpp=0.01的极限压缩下,基于GVC重建视频进行分割的J&F指标(衡量分割准确度)达到75.22%,显著高于基于HEVC压缩视频的57.68%。

视频分割任务性能对比表格

这说明GVC传输的不仅仅是“好看”的皮囊,更是“准确”的语义骨架。即使是AI重绘的画面,关键物体(人、车、球)的位置和轮廓也是精准的,完全不影响后续的AI分析与决策。

消费级显卡即可运行

“用计算换带宽”,那会不会把接收设备的算力耗尽?
的确,生成式模型通常是算力消耗大户。但TeleAI通过模型小型化、知识蒸馏等优化手段,解决了落地应用的最后一公里问题。报告数据显示,经过优化的GVC模型,在消费级GPU(如RTX 4090)上,生成一段29帧的视频仅需约0.95秒到1.35秒。虽然比不上传统解码器的毫秒级速度,但在许多非实时或准实时场景下(如稍有延迟的直播),这已是完全可用的状态。

应用前景:远不止于观看直播

0.02%的压缩率数据固然惊艳,但其背后更值得期待的是它为未来通信带来的变革潜力。除了开头提到的远洋直播场景,GVC在报告展示的Demo中还体现了其他极端网络环境下的应用价值:

  • 远洋海事通信: 船员通过昂贵且稀缺的窄带卫星网络接收数据。使用GVC,几百KB的数据流就能还原出连贯的直播或指导视频。这不仅是娱乐,对于海上远程医疗、设备维修指导而言,可能是救命的技术。
  • 应急救援: 地震或洪水灾区,基站损毁,仅存微弱的应急通信信号。救援无人机若传回4K原始画面,根本无法发送;若传回GVC压缩后的Token,指挥中心就能实时“看到”清晰的现场生成画面。即使部分纹理细节是AI补全的,但受灾人数、房屋倒塌结构等核心语义信息准确无误。
  • 深空探测与自动驾驶: 想象一下火星车发回的视频,或数百万辆自动驾驶汽车每日上传的海量路测数据。如果都能压缩到0.02%量级,其存储和回传的成本将呈指数级下降。

技术基石:源于“智传网(AI Flow)”理论

实际上,GVC并非孤立的技术突破,其背后是建立在 “智传网(AI Flow)” 理论体系之上。智传网是AI与通信网络交叉领域的关键方向,旨在通过网络实现智能的传递与协同。该理论包含信容律、同源律、集成律三大定律。

其中,信容律揭示了智能的本质可通过数据压缩的程度来衡量。GVC正是这一理论的最佳实践:当带宽成为瓶颈时,我们就通过增强接收端的智能(计算能力)来换取极高的通信效率,实现感知质量与资源消耗的最优平衡。

从像素级的精确还原到语义级的智能生成,视频压缩技术正在经历一场从“功能机”到“智能机”的范式转移。GVC标志着视频通信正迈向以任务有效性为核心的新阶段。

这项由央企主导的“AI+通信”融合创新,不仅为远洋通信、应急救援、边缘智能等场景提供了高效的解决方案,更预示着未来互联网的某种形态:流淌在光纤与电波中的,可能不再是庞大的原始数据流,而是高度浓缩的智慧指令与语义核心。

如果你想深入了解人工智能如何革新传统技术领域,或与其他开发者交流前沿技术动态,欢迎访问云栈社区,这里汇聚了大量关于人工智能智能计算的深度讨论与实践分享。

技术报告地址:
https://www.arxiv.org/abs/2512.24300




上一篇:树莓派5与迷你PC价格趋同,2025年硬件市场变化分析
下一篇:Java并发面试必问:synchronized与ReentrantLock深度对比及实战避坑指南
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-4 00:30 , Processed in 0.374945 second(s), 43 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表