4071 积分	0 好友	530 主题

发消息

从统计物理视角解读大模型：Transformer架构的能量模型与能力极限分析

发表于 2025-12-12 22:09:06 | 查看: 110| 回复: 0

随着以ChatGPT、DeepSeek和Gemini为代表的大语言模型（LLM）能力不断突破，探究其背后根本原理、界定其能力边界变得日益重要。学术界普遍认为，单一维度的理论分析难以窥其全貌。近期一篇题为“Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs”的研究，尝试融合统计物理、信号处理与信息论，系统性地揭示大模型的“第一性原理”。本系列文章旨在用更通俗的方式解读这项研究，本文作为第一篇，将从统计物理的视角切入。

神经网络与统计物理的深刻渊源

2024年诺贝尔物理学奖授予John Hopfield和Geoffrey Hinton，以表彰他们在人工神经网络领域的基础性发现与发明。这并非偶然，神经网络与统计物理的联系源远流长。物理学家Hopfield在1982年提出的Hopfield网络，以其联想记忆能力震撼学界。而Hinton则是最早认识到统计物理方法（尤其是能量模型）在神经网络中巨大价值的计算机科学家，他在1985年与合作者提出了Boltzmann机。此外，物理学家Elizabeth Gardner在1988年使用统计物理中的Spin Glass模型和Replica方法，系统研究了Hopfield网络的记忆容量问题，为理解模型的存储能力奠定了基础。

Attention模块的能量模型形式

现代大模型的核心架构是Transformer，其核心目标可归结为“预测下一个Token”。以Decoder-only的Transformer为例，其核心模块可分解为Attention和FFN。首先聚焦Attention模块。

给定长度为 (n) 的提示词向量序列 ( { \mathbf{x}_1, ..., \mathbf{x}_n } )，当前要预测第 (i) 个Token (( \mathbf{x}_i )，其中 (i = n+1, ..., N ))。为方便，记 ( \mathbf{h}_j = \mathbf{x}_j ) ( (j=1,...,n) )。Attention模块的输出为：

[ \mathbf{h}i^{att} = \sum{j=1}^{n} \alpha_{ij} \mathbf{v}_j ]

其中 ( \alpha_{ij} ) 是注意力权重，( \mathbf{v}_j ) 是值向量。根据softmax定义，权重可展开为：

[ \alpha_{ij} = \frac{\exp(\mathbf{q}_i^T \mathbf{k}j / \sqrt{d})}{\sum{l=1}^{n} \exp(\mathbf{q}_i^T \mathbf{k}_l / \sqrt{d})} ]

这里，( \mathbf{q}_i ) 是查询向量，( \mathbf{k}_j ) 是键向量。其内积 ( \mathbf{q}_i^T \mathbf{k}_j ) 衡量了用 ( \mathbf{q}_i ) 查询 ( \mathbf{k}_j ) 时对预测 ( \mathbf{x}i ) 的语义匹配度。若令 ( J{ij} = \mathbf{q}_i^T \mathbf{k}_j )，则有：

[ \mathbf{h}i^{att} = \sum{j=1}^{n} \frac{\exp(J{ij} / \sqrt{d})}{\sum{l=1}^{n} \exp(J_{il} / \sqrt{d})} \mathbf{v}_j ]

( J_{ij} ) 构成了一个双线性型，是建模非对称关系的最简形式，这使得Attention能有效捕捉Token间的非对称语义关系。

借鉴Hinton的能量模型思路，可以定义Attention模块的能量函数 ( E_{att} )：

[ E_{att}(\mathbf{x}_i | {\mathbf{h}j}{j=1}^n; B) = -\sum{j=1}^{n} J{ij} (\mathbf{v}_j^T \mathbf{x}_i) ]

其中 ( B ) 代表模型参数组态。对应的Boltzmann分布可写为：

[ P_{att}(\mathbf{x}_i | {\mathbf{h}j}{j=1}^n; B) = \frac{1}{Z{att}} \exp\left(-E{att}(\mathbf{x}_i | {\mathbf{h}j}{j=1}^n; B) / T\right) ]

( T ) 是温度，( Z_{att} ) 是配分函数。从这个视角看，Attention机制的关键在于学习参数组态 (B)，使得语义相关性最高等价于能量最低。这与基于隐变量的变分推断（证据下界ELBO）解释在逻辑上是一致的。

这一分析带来启发：虽然Mamba等线性注意力机制能降低计算量，但难以有效建模语义非对称性，能力受限在情理之中。因此，如何在保持此能力的前提下降低计算复杂度是关键。例如，DeepSeek-V3.2采用的稀疏注意力机制 (DSA) 便是一种实践。从数学上看，最优的稀疏注意力可形式化为一个优化问题。

Transformer架构的能量模型形式

将FFN模块抽象为函数 ( f_{FFN} )，并用 ( \Theta ) 表示所有权重和偏置的集合，可以定义整个Transformer的能量函数 ( E )：

[ E(\mathbf{x}_i | {\mathbf{h}j}{j=1}^{i-1}; \Theta) = -\mathbf{z}_i^T \mathbf{x}_i ]

其中 ( \mathbf{z}_i ) 正是输入到最终softmax层的Logits。整个Transformer的Boltzmann分布为：

[ P(\mathbf{x}_i | {\mathbf{h}j}{j=1}^{i-1}; \Theta) = \frac{1}{Z} \exp\left(-E(\mathbf{x}_i | {\mathbf{h}j}{j=1}^{i-1}; \Theta) / T\right) ]

( Z ) 是Transformer的配分函数，是对所有可能Token（词表/码本 (S)）的求和。因此，大模型推理的本质是找到使能量函数最小（即Boltzmann分布最大）的下一个Token；而训练的本质是寻找使训练集上平均能量最小的参数组态 ( \Theta )。

Transformer的记忆容量：为什么“大”很重要？

记忆容量问题源于Hopfield网络的研究：一个网络能完美记住多少个随机模式？定义广义Gardner容量 ( C_g = \frac{1}{\phi(N)} \log M )，其中 (M) 是记住的模式数，(N) 是参数量，( \phi ) 是归一化函数。有趣的是，若将“记住的模式”替换为“成功传输的信息”，并取 ( \phi ) 为对数函数，广义Gardner容量就变成了香农信道容量。

针对Transformer，现有研究给出了一些洞见：

Attention模块的记忆容量：研究表明，Attention模块通过学习 ( { (\mathbf{k}_j, \mathbf{v}_j) } ) 记住了 ( { \mathbf{h}_j } )。其记忆容量随参数量的线性增加而指数增长。这解释了为什么参数量不大的模型也能具备较强能力，同时也意味着小模型因记忆容量更接近上限，增训极易导致“模型崩塌”。
FFN模块的记忆容量：FFN常被视为模型以参数化方式存储知识（(k,v)对）的关键位置。基于此，模型编辑技术得以通过直接修改FFN层参数来更新知识。

“能力涌现”现象可以从记忆容量的角度理解：当模型记住的知识量超过某个阈值时，便发生了统计物理中的“相变”。这为从理论上解释Scaling Law和能力涌现提供了可能。

Transformer的泛化误差上界

泛化误差是衡量模型实际表现的核心。基于上述能量模型形式，可以借助Rademacher复杂度和Talagrand不等式等工具推导其上界。

固定输入序列，用 ( \hat{\mathbf{x}}_i^{(k)} ) 表示模型第 (k) 次推理输出的第 (i) 个Token，( \mathbf{x}_i^{(k)} ) 表示人类期望输出。记它们的概率分布分别为 ( \hat{P}_i^{(k)} ) 和 ( Pi^{(k)} )。对于 (K) 个样本和任意 ( \delta > 0 )，交叉熵损失 ( \mathcal{L}{CE} ) 能以至少 (1-\delta) 的概率被以下界控制：

[ \mathcal{L}{CE} \leq \hat{\mathcal{L}}{CE} + \frac{2}{K} \sum{k=1}^{K} \sum{i=1}^{N} | \mathbf{z}_i^{(k)} |_1 + \sqrt{\frac{\log(1/\delta)}{2K}} ]

其中 ( \hat{\mathcal{L}}_{CE} ) 是经验损失（训练时已被最小化），( \mathbf{z}_i^{(k)} ) 是对应于人类输出 ( \mathbf{x}_i^{(k)} ) 的Logits（即能量函数的负数）。这个上界的核心是Logits的L1范数和（即能量函数绝对值的和）。 这给出了一个重要启示：任何旨在缩小模型规模的技术，如剪枝、蒸馏和量化，都必须谨慎评估其对Logits的影响，因为这将直接影响模型的泛化能力上界。

大模型的能力极限：Granger因果推断

诺贝尔经济学奖得主Clive Granger给出了因果关系的操作化定义：时间序列 (X) 引起了 (Y)，如果利用 (X) 的过去信息能更准确地预测 (Y) 的未来。这被称为Granger因果。

在大模型推理场景中，将模型记忆的所有知识、已输入的上下文和已生成的序列视为“信息全集”，而将不包括当前待预测Token历史的信息视为“缩减集”。根据定义，大模型通过预测下一个Token的训练目标，本质上是在逼近一种时间序列维度上的Granger因果推断。

然而，机器学习专家Judea Pearl指出，Granger因果本质上是具有时间顺序的统计关联，而非真正的因果关系。由此可以推论：大模型的能力极限是时间序列维度的Granger因果推断。这意味着Scaling Law可能持续生效，但当前架构的大模型难以从数据中自主抽象符号化概念，也无法实现真正的逻辑推理。

续篇预告

为了用信息论度量Granger因果性，物理学界提出了“传递熵”的概念。有趣的是，传递熵正是“定向信息”的有限长度版本。这引出了本系列后续两篇的核心：

信号处理篇：将探讨大模型如何转化为向量自回归时间序列问题。
信息论篇：将以“定向信息”为核心，阐述一种与具体结构无关、更为本质的大模型第一性原理。

参考文献

B. Bai, "Forget BIT, it is all about TOKEN: Towards semantic information theory for LLMs," arXiv:2511.01202, Nov. 2025.
J. Hopfield, “Neural networks and physical systems with emergent collective computational abilities,” PNAS, vol. 79, no. 8, pp. 2554-2558, Apr. 1982.
D. Ackley, G. Hinton, and T. Sejnowski, "A learning algorithm for Boltzmann machines," Cognitive Science, vol. 9, no. 1, pp. 147-169, Jan. 1985.
E. Gardner, "The space of interactions in neural network models," J. Phys. A: Math. Gen., vol. 21, no. 1, pp. 257-270, Jan. 1988.
A. Vaswani et al., "Attention is all you need," in Proc. NIPS, 2017.
H. Ramsauer et al., "Hopfield networks is all you need," arXiv:2008.02217, 2021.
M. Geva et al., "Transformer feed-forward layers are key-value memories," in Proc. EMNLP, 2021.
C. Granger, "Testing for causality: A personal viewpoint," Journal of Economic Dynamics and Control, vol. 2, no. 1, pp. 329-352, Jan. 1980.
J. Pearl, Causality: Models, Reasoning, and Inference, 2nd ed. Cambridge Univ. Press, 2009.
T. Schreiber, "Measuring information transfer," Phys. Rev. Lett., vol. 85, no. 2, pp. 461-464, Jul. 2000.
J. Massey, “Causality, feedback and directed information,” in Proc. ISIT, 1990.

上一篇：Qwen3-4B微调基准测试：12款小模型如何选型与效果对比
下一篇：自动化脚本工具Hacker-Scripts实战：Shell/Python与cron实现办公自动化 | 开源日报 No.816

LLM, Transformer, 统计物理, 能量模型, 能力极限