找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3761

积分

0

好友

499

主题
发表于 1 小时前 | 查看: 4| 回复: 0

非闭合真值递归:哪些问题会让大模型陷入“真值循环”?

“这句话是假的。”

这个经典的说谎者悖论之所以令人困惑,在于它形成了一个无法终止的真值循环:如果这句话是真的,那么它所表达的内容就应该为假;如果它是假的,那么它又似乎是真的。当大语言模型面对这样的输入时,其内部计算过程会发生什么?是否也会像人类一样陷入循环判断,甚至在内部表征中产生彼此冲突的状态?

为了回答这一问题,研究者提出了一类被称为非闭合真值递归(Non-Closing Truth Recursion,NCTR)的输入结构,这类输入包括经典悖论、哥德尔式不可判定命题、相互循环引用、无限倒退等情形,其共同特点在于:真值判定无法在有限步骤内完成闭合。

举例来说,当大模型面对:“下一句话是真的。再下一句话是假的。”这样的提示时,即使只有两层的互指结构,已经足以让真值判定陷入循环。与人类可以选择暂停思考、承认无法判断不同,大模型的 Transformer 架构有固定的层数,它必须在有限深度内完成计算并给出输出。因此,当输入涉及无法闭合的递归结构时,模型内部可能出现不同于常规推理任务的动力学行为。

人工智能与数据流抽象视觉

从有效秩到全局弥散:悖论如何改变模型内部动力学?

为刻画这种变化,研究人员引入了注意力矩阵的有效秩(attention effective rank)。这是一个基于熵定义的矩阵维度,反映注意力输出矩阵在多大程度上“铺开”在高维空间中,而非坍缩到少数几个方向上。正常的模型计算中,随着层数加深,有效秩会逐渐下降,对应信息经过层层处理和压缩,逐渐集中到低维子空间,但在面对 NCTR 类的提示词时,大模型每一层 transformer 的有效秩都会上升(图1)。

四个模型在四种评估指标下的箱线图对比

图1:不同大模型面对不同类型的输入时,有效秩的改变情况,红色箱体代表包含悖论的命题相比陈述性命题(蓝色)的有效秩增加

值得注意的是,研究还引入了一类有效自指(Valid Self-Reference)作为对照(图1中绿色箱体),例如“This sentence has exactly eight words in it.”这样能够在有限次内进行判断的输入,结果发现两者的差距也很明显。这说明自指本身并非会导致大模型推理异常,真正的异常源自那些永远无法封闭真值判定的递归结构。

文中比较了4个不同的大模型、这些模型采取了3种不同架构,均能稳定复现有效秩面对 NCTR 上升的现象。不过模型架构的设计细节,例如 QK 归一化是否存在、网络深度如何、注意力模式是局部全局交错还是标准,会显著影响有效秩上升的幅度。

相比之下,参数规模与这种现象并不存在简单对应关系。研究发现,一个90亿参数模型在面对悖论输入时产生的有效秩提升幅度,甚至超过了部分110亿参数模型。这意味着更大的参数量并不必然带来更强的递归鲁棒性。

从直观上看,有效秩升高意味着模型的注意力表示不再集中于少数主要方向,而呈现出更加分散的全局弥散(global diffusion)状态。这与人们对于“模型陷入悖论后变得犹豫和不确定”的直觉相吻合。

更重要的是,这种变化并非局限于个别层。研究发现,有效秩升高的趋势贯穿多个分析层级(图2),表明 NCTR 带来的影响更像是一种跨层传播的系统性动力学改变,而非某个局部模块的单点失效。

三个模型的Cohen's d注意力有效秩折线图

图2:不同模型在不同层之间的有效秩改变

从异常动力学到模型自省:理解大模型推理边界的新窗口

除了揭示 NCTR 的内部机制之外,这项研究最重要的贡献在于提出了注意力有效秩这一可量化指标,可用来判断大模型在推理时是否因悖论导致推理困难。实验表明,当模型处理 NCTR 类输入时,有效秩会出现持续升高的趋势,并与模型产生矛盾回答、不确定输出等现象相对应。

这意味着,相比仅关注最终生成结果,研究人员或许能够通过模型内部的动力学信号,更早发现推理过程中出现的异常状态。在云栈社区的技术讨论中,我们时常思考:未来,如果能够建立更加可靠的判据,这类指标有望帮助模型识别自身是否正陷入无法闭合的推理循环,并在适当情况下主动给出“无法判定”或“不足以判断”的回答,而非继续生成表面连贯却缺乏逻辑支撑的内容。

从更广泛的角度来看,这项工作也为 AI 安全与可靠性研究提供了新的观察视角。目前关于模型鲁棒性、幻觉以及对齐问题的研究,大多聚焦于输出结果是否正确。然而本研究显示,一些特殊输入可能在模型内部引发跨层传播的系统性状态变化,而这些变化未必能够从最终输出中直接观察到。相比“模型说了什么”,研究其“如何计算”或许同样重要。

这一发现也对大模型可解释性研究提出了新的启发。传统方法往往关注单个神经元、特定注意力头或局部电路的功能,希望通过定位关键组件解释模型行为。但 NCTR 现象表明,某些异常状态更像是一种网络范围内的集体动力学行为,其影响会在多个层级间传播和累积,而非源于某个单独模块的失效。

换言之,大模型中的部分认知现象,可能并不存在明确的“责任神经元”或“错误注意力头”,而是由分布在整个网络中的协同计算过程共同产生。这也意味着,理解模型的复杂行为,或许需要从局部组件分析进一步走向整体 动力学 分析。

更进一步看,类似有效秩这样的内部状态指标,还可能成为未来构建模型自我监测机制的重要基础。如果模型能够持续追踪自身计算过程是否趋于稳定、是否陷入递归循环或产生持续冲突的表征状态,那么其推理过程将不仅包含“生成答案”,还可能具备一定程度的“监测自身推理状态”的能力。

当然,这一方向目前仍处于探索阶段。有效秩尚不能直接等同于模型的“元认知”或“自我觉察”,但这项研究至少提供了一个值得关注的线索:在某些情况下,大模型的内部动力学变化或许能够成为理解其推理边界、自省能力以及可靠性的关键窗口。

从这个意义上说,弄清模型为何会在自指悖论和非闭合递归面前表现出异常动力学,不仅有助于理解当前大模型的局限,也可能为构建更加可靠、能够识别自身认知边界的下一代语言模型提供理论基础。

论文信息

  • 论文题目:When Self-Reference Fails to Close: Matrix-Level Dynamics in Large Language Models
  • 论文链接:https://arxiv.org/pdf/2604.12128
  • 发表日期:2026年4月13日
  • 发表期刊:arXiv

arXiv论文页面截图




上一篇:思科SD-WAN vManage任意文件写入0Day漏洞遭利用,可提权root
下一篇:Agent办公场景被低估了?聊聊WorkBuddy暴涨背后的冲击
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-17 02:40 , Processed in 0.843698 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表