找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5371

积分

0

好友

696

主题
发表于 4 小时前 | 查看: 4| 回复: 0

导语

2026年5月的一篇arXiv论文,指出各类大模型在各个领域中的推理过程,都可视为低维流形上的受约束动力学过程。这项研究为理解大模型思考过程提供了新视野:推理导致大模型在低维空间的宏观因果效应更强,这也可以视作因果涌现的一种表现形式。

关键词:大模型、推理、动力学、低维流形、因果涌现

AI与数据科学主题插画

论文题目:Reasoning emerges from constrained inference manifolds in large language models
发表时间:2026年5月27日
论文地址:https://arxiv.org/abs/2605.08142
论文期刊:arXiv

大模型的推理是表征空间的动力学降维

大语言模型的推理能力从何而来?这个问题困扰着AI研究者、认知科学家,乃至每一个与大模型对话过的普通人。传统评估只看模型输出对错,根本无法洞察内部的思考过程。研究者始终搞不清:为什么模型能在没有显式推理规则的情况下,表现出逻辑推理能力?

该研究选取推理常用评估数据集MMLU中的文本,该数据集包含多个领域的问题。实验时采取无标签的方式,只考察模型在面对问题最后一个词元时的隐藏状态(图1左边)。结果显示,无论哪种大小、不同类别的模型,都呈现出随网络层数增加,表征维度自发塌缩的现象(图1右边)。这种在推理过程中形成的低维结构被称为推理流形(Reasoning Manifold)。推理流形的维度低,意味着概念簇分离清晰、轨迹平滑、因果强度升高。

多模态大语言模型内在维度分析示意图

图1:大模型推理时内部表征维度下降

无论是社会科学、STEM还是人文领域,在多种异质刺激下,不同体系的大模型,其推理轨迹内在维度的分布都趋向降低(图2A)。图2B显示,推理过程中的低维推理轨迹与高维静态表征共存,这说明压缩是推理过程的专门化机制,而非模型全局表达能力受限。

不同领域内在维度分析及词汇内在维度对比

图2:不同模型在不同问题域上呈现出相似的低维度表征

综上所述:大模型的推理,是在高表达力的表征空间内呈现的一种低维动力学过程。推理时的动态行为既非对高维环境的弥散式探索,也非孤立表征之间的静态映射;相反,对提示词的表征会自组织为紧凑的流形,从而约束推理过程中内部状态的演化轨迹。

然而,仅凭维度坍缩这一现象,尚不足以将稳健的推理与出错的推理区分开——这是本文接下来要处理的问题。

良好的推理需要低维表征与高信息容量

推理问题的表征维度,与该问题的推理结果之间存在非单调的变化。如果没有低维表征,推理时对问题的表征就会像无头苍蝇一样在高维空间中四处游荡,称为漫射探索(diffuse exploration)。低维组织确保了推理轨迹被约束在紧凑的内生子空间中,防止无关的维度噪声干扰核心计算。这反映在图3A中:在多数任务里,当表征维度降至某一阈值后,进一步压缩反而可能导致性能持平或下降。

模型能力与内在维度关系散点图及体积变化折线图

图3:推理时表征的内在维度和信息密度及推理质量的关系

为了解释上述现象,说明还有哪些因素决定推理质量,研究者定义了信息容量(information volume),用于量化大模型在推理过程中内部表示所承载的有效信息含量。其定义基于信息论:首先将每一层最后一个token的隐藏状态投影到一个低维空间,然后利用微分熵(differential entropy)来刻画这些状态点的分布特性,最后将信息体积定义为熵的指数形式。

研究发现,随着推理层数的加深,表征固有维度不断下降,但信息体积(V)却在同步上升(图3B)。有效信息的增加,意味着更深层的模型放大了任务相关的概念变化。早期层的表示维度高但信息稀疏,后期层的表示被高度压缩却信息密集。

性能对比图表与刺激诱导ID变化趋势

图4:表征维度(横轴)、信息容量(纵轴)与性能(颜色)的三维协同景观

将表征维度和信息容量与推理质量放在一张图中展示(图4),可以看到每个任务类型中,具有高推理质量的案例聚集在一个特定区域——需同时具备较低内在维度(紧凑流形)与较高信息体积(非退化信息流)。位于两个极端的模型,或因过度压缩导致信息不足,或维度弥散导致结构松散,均呈现相对较差的推理性能。

模型的推理质量,能被推理过程的动力学特征准确预测

当大模型需要回答的问题变复杂、包含更多概念时,不同模型的推理质量便出现差异。这暗示存在第三个决定模型推理质量的因素,文中称为模型的表达力容量(Expressive Capacity),即静态词汇嵌入空间所能支撑的概念表征自由度。

模型表达力容量与概念多样性及推理质量关系图

图5:模型表达力容量与概念多样性及推理质量的关系

研究者将MMLU-Other推理任务集划分为13种互斥的问题类型,逐步累积添加问题类型以系统性提升概念多样性。结果发现,高表达力的模型(参数更多),随概念多样性增长更缓慢;低表达力模型则需“招募”更多推理维度来编码异质概念,导致轨迹弥散(图5A)。

模型的表达容量就像是汽车的悬挂系统。当路面变得崎岖(概念多样),好的悬挂系统能够保持车身平稳(推理维度稳定);而差悬挂系统的车辆则会被颠簸挤压得变了形(推理维度急剧扩展)。

综合表征固有维度、信息体积与表达力容量,该文提出了一个统一的健康推理诊断量H——该指标不依赖任何任务标签或基准答案,仅从模型内部的推理动力学过程就能计算得出。

论文测试了包括AIME‘25数学推理、GPQA-Diamond科学推理、LiveCodeBench代码生成等一系列基准任务,发现H与基准表现之间的Spearman秩相关系数在所有测试基准上都超过了0.9(图5B)。这意味着,单凭模型对提示词内部表征的动力学演化,就足以准确预测它在各种任务上的表现。

这种跨领域的普适性,意味着低维流形捕获的因果结构是任务通用的——这正是因果涌现后,宏观变量超越微观细节的典型体现。宏观特征(例如H)无需外部标签,仅通过前向传播即可自发涌现,且比微观具有更高的有效信息。

使用文中描述的推理健康度评估指标H,能显著提升模型可解释性。不仅能在大模型推理时实时评估偏离推理质量,还能精确定位模型在对问题进行表征的过程中,哪一层、哪一个token开始偏离“甜点区”,从而为模型及提示词改进提供指示,或在推理过程的早期向隐藏状态注入引导信号,使其轨迹靠拢健康流形,从而提高输出的正确率和稳定性。通过比较不同模型在单个推理任务上的H值,还能解释为何它们在同一套基准任务上分数相似,但内在机制却可能天差地别。

对于需要高可靠性的场景,H值可作为一项关键的监控指标。部署微调后的大模型之前,开发者可以计算候选模型与对应基模的H值,用来评估微调效果。推理过程中,实时监控对提示词表征的维度及信息容量,一旦偏离程度超过阈值,系统可以立即预警或拒绝回答,从而实现推理层面的实时幻觉拦截。

此外,通过引导模型改变在推理过程中对提示词的表征流形,我们可以让大模型生成更多样化、更具创造性的方案,从而避免模型倾向于趋同、陷入单一的“人工智能蜂巢思维”(Artificial Hivemind),为大模型设计多样化的思考方式提供干预方案。

arXiv论文页面截图





上一篇:任务需求如何驱动大脑?认知神经科学的通用法则新框架
下一篇:开源项目出海实战:我如何用AI员工自动化海外达人营销
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-7 23:34 , Processed in 0.625299 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表