云栈社区»论坛 › 回收站「 Recycle Bin 」 › 大模型潜在空间综述：LLM/VLM架构新范式、机制与能力全景解读 ...

发回帖发新帖

5755 积分	0 好友	724 主题

发消息

大模型潜在空间综述：LLM/VLM架构新范式、机制与能力全景解读

发表于 2026-4-22 19:28:14 | 查看: 183| 回复: 0

发现你感兴趣的论文：自然语言处理与计算机视觉

大模型的设计正迎来新的范式：从人类可读的离散显式符号空间，转向机器原生的连续潜在空间。

近期，新加坡国立大学、复旦大学、清华大学等国内外顶尖高校与科研机构，联合发布了大模型潜在空间领域首个统一系统性全景综述。该综述以基础→演进→机制→能力→展望五大递进视角，系统性整合了该领域碎片化的研究成果，填补了潜在空间统一研究综述的空白。

论文《The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook》标题页

论文题目：
The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

论文链接：
https://arxiv.org/pdf/2604.02029

GitHub 链接：
https://github.com/YU-deep/Awesome-Latent-Space

大语言模型潜在空间技术分类总览表

潜在空间研究框架全景图

01. 基础：什么是潜在空间？

大模型潜在空间，是基于语言的大模型（含 LLM、VLM、VLA 等）经学习习得的连续非离散表征空间。它会将文本、多模态信息中，未被显式 token 呈现的深层语义、句法规则、上下文关联、跨模态对应关系等核心信息编码其中，是适配模型运算逻辑的机器原生计算空间。

当前主流大模型仍以显式符号空间（语言 token 空间）作为核心运算载体，这一模式存在语言冗余、离散化瓶颈、序列解码低效、细粒度语义丢失等难以规避的结构性缺陷，在复杂推理、多模态交互、长时序任务等场景中表现受限。

核心差异对比

显式空间与潜在空间对比图

四大表征属性

可读性：显式空间由人类可读的离散语言符号构成，可直接被人类理解与核验；潜空间是机器原生的高维连续向量，人类无法直接解读，却能承载更丰富的表征信息。

存在形式：显式空间离散且固定，伴随大量语言冗余信息；潜空间连续且灵活，摒弃表层语言冗余，仅保留核心语义信息。

计算效率：显式空间采用逐 token 序列生成方式，需反复进行编码解码转换，算力浪费严重；潜空间直接执行向量运算，无额外表征转换开销，计算效率更高。

语义保留：显式空间受离散量化瓶颈限制，易丢失细粒度语义信息；潜空间无需离散化转码，可高保真保留完整语义与细节信息。

四大功能能力

可操作性：显式空间离散不可微分，仅能实现有限的 token 级间接操作；潜空间连续可微分，支持向量拼接、线性组合、语义导向操控等精细语义操作。

表达能力：显式空间受词汇量与语法规则约束，仅能表达语言可描述的内容；潜空间突破语言符号限制，可承载高维非语言信息与多模态特征，表达维度更广泛。

可扩展性：显式空间受序列长度与自回归解码模式严格限制，扩展难度大；潜空间表征紧凑且支持并行化处理，可轻松适配长推理轨迹、多智能体交互等复杂场景。

泛化能力：显式空间易被语言表层形式束缚，跨域泛化能力较弱；潜空间聚焦抽象语义结构，能捕捉底层通用规律，跨领域、跨任务的泛化性显著提升。

02. 演化：潜在空间的发展历程？

潜在空间技术发展四阶段时序图

大模型潜在空间的研究发展随技术迭代划分为四个递进阶段，从早期理论构想逐步走向全场景落地应用，依次为原型阶段、形成阶段、拓展阶段与爆发阶段。

2.1 原型阶段（此前—2025年3月）

该阶段为早期探索期，首次验证了模型推理可脱离自然语言显式符号，依托连续向量表征即可完成；初代潜在推理框架相继问世，整体仅停留在概念验证与可行性探索阶段，尚未形成系统化的技术方案。

2.2 形成阶段（2025年4月—7月）

研究进入理论奠基与技术成型期，搭建起潜空间的核心理论体系，通过数学证明严格验证了潜空间的计算与表达优势；技术研发以文本潜在推理为核心，同时初步试水多模态、具身场景，完成了从零散原型到理论化、体系化的转变。

2.3 拓展阶段（2025年8月—11月）

研究边界从纯文本全面拓展，覆盖视觉感知、多智能体协作、机器人具身操作等多元领域；领域专用技术走向成熟，潜空间方法开始从理论验证转向实际落地，实现了从单一文本范式到多领域跨场景的延伸。

2.4 爆发阶段（2025年12月—至今）

潜在空间正式成为大模型的原生独立计算空间与核心研究范式；面向潜空间的专属架构、精细化优化策略批量涌现，文本、视觉、具身智能、多智能体协作等全领域应用呈爆发式增长，潜空间范式迈入成熟与规模化应用的新阶段。

03. 机制：潜在空间如何作用

潜在空间依托架构、表征、计算、优化四大协同维度，搭建起全流程运作体系，分别解决潜空间如何嵌入模型、如何承载信息、如何执行运算、如何全周期调优四大核心问题。

潜在空间机制总览：架构、表征、计算、优化

3.1 架构

架构维度定义了潜空间与模型的结合方式，分为三类：

机制：架构分类说明

主干内置：直接改造模型主干架构，通过循环、迭代、递归等结构，让模型原生具备潜空间计算能力；

插件组件：不改动原有模型主干，通过生成、投影、对齐、控制、存储等插件式模块，扩展潜空间功能；

辅助模型：借助外部独立的辅助模型提供监督信号或中间特征，引导主模型生成与使用潜空间。

3.2 表征

表征维度明确了潜空间的信息存储形式，分为四类：

机制：表征分类说明

内部表征：直接复用模型隐状态、词嵌入、KV 缓存等内部激活值，无需新增额外参数；

外部表征：使用冻结的外部预训练模型生成潜表征，再注入主模型作为条件输入或监督目标；

可学习表征：通过可训练模块（如连续虚拟 Token、轻量适配器）生成潜表征，与主模型端到端联合优化；

混合表征：结合可学习模块与外部注入的优势，先通过可学习模块构建专用潜表征，再以外部信号形式注入主模型。

表征方式分类示意图

3.3 计算

计算维度规定了潜空间的信息处理方式，分为四类：

机制：计算分类说明

压缩计算：对显式推理轨迹、内部缓存、多模态特征进行压缩，降低算力与内存消耗，同时保留核心语义；

扩展计算：通过循环、并行、结构拓展等方式扩充计算深度与宽度，提升潜空间的表达与推理能力；

自适应计算：根据输入复杂度动态分配计算资源，调整计算深度、宽度或终止时机，灵活平衡效率与性能；

交错计算：将显式离散 Token 与潜空间连续表征、文本与视觉潜信息、推理与记忆模块交错运算，融合双方优势。

计算压缩、扩展、自适应与交错策略示意图

3.4 优化

优化维度覆盖潜空间的全阶段调优，分为三个阶段：

机制：优化分类说明

预训练优化：模型从随机初始化开始训练，让模型从训练初期就原生具备潜计算能力；

后训练优化：在预训练模型基础上进行微调，优化潜空间以适配各类下游任务；

推理优化：固定模型参数，实时修正推理阶段的潜状态，直接优化最终输出效果。

04. 能力：潜在空间实现什么能力？

潜在空间七大核心能力分类图

潜空间彻底突破离散 token 的表达限制与计算瓶颈，全面激活推理、规划、建模、感知、记忆、协作、具身七大核心智能，大幅拓展大模型的能力边界。

4.1 推理能力：脱离显式语言的冗余约束，实现隐式推断、紧凑化推理轨迹、连续迭代修正、多分支路径并行探索，跨模态泛化能力大幅提升。

4.2 规划：支持可控的解题路径探索、高效的潜在解空间搜索，可自适应分配计算资源，动态优化长时序决策轨迹。

4.3 建模：可高效表达复杂计算逻辑，实现模型内部状态的自我检视与分析，能对模型行为进行鲁棒可控调控，同时显著提升计算的可拓展性。

4.4 感知：完整保留视觉的精细结构与细节信息，支持启发式视觉想象，让多模态感知结果更精准、更忠实于原始信息。

4.5 记忆：构建高效的工作记忆 retention 机制，实现知识的持久化存储与迭代进化，支持多模态信息的精准记忆与快速召回。

4.6 协作：实现智能体间高保真、无损的语义传输，构建多智能体共享认知空间，支持异构模型、跨模态的无障碍互通与协同。

4.7 具身：支持无监督场景下的动作落地，以内隐思考完成连续规划，具备未来场景预测与空间认知能力，赋能机器人实现跨硬件形态的泛化与迁移。

05. 展望: 潜在空间发展方向？

未来大模型潜在空间的发展将聚焦四大核心方向，构筑下一代智能系统的核心范式：

5.1 构建统一理论体系：明晰潜空间的计算原理与表达边界，厘清其与显式空间的协同协作规则，建立标准化的评估基准、监督机制与验证体系；

5.2 深耕多模态原生计算：打造文本、视觉、动作等多模态统一的原生潜计算空间，摆脱文本中介的多模态处理瓶颈；

5.3 规模化落地下游任务：以潜空间为核心支撑，推动复杂推理、机器人控制、具身智能、多智能体协作等真实场景的落地应用；

5.4 实现可信可控治理：攻克潜空间的可观测、可操控、可解释难题，让潜空间计算可评估、可管控、可审计，从根本上解决模型的可信性与安全性问题。

这篇由多所顶尖机构联合完成的综述，不仅系统梳理了潜在空间这一新兴范式的全貌，更为大模型的未来架构演进指明了方向。对于关注人工智能前沿发展的研究者和开发者而言，深入理解潜在空间的机制与能力，将是把握下一代模型设计基础的关键。

上一篇：PersonaVLM：如何让多模态大模型具备长期个性化记忆与理解能力
下一篇：强化学习如何优化Agent记忆管理？通义×清华MemPO论文解读

LLM, VLM, Transformer, 深度学习, 人工智能