找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

862

积分

0

好友

108

主题
发表于 5 天前 | 查看: 9| 回复: 0

随着以ChatGPT、DeepSeek和Gemini为代表的大语言模型(LLM)能力不断突破,探究其背后根本原理、界定其能力边界变得日益重要。学术界普遍认为,单一维度的理论分析难以窥其全貌。近期一篇题为“Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs”的研究,尝试融合统计物理、信号处理与信息论,系统性地揭示大模型的“第一性原理”。本系列文章旨在用更通俗的方式解读这项研究,本文作为第一篇,将从统计物理的视角切入。

神经网络与统计物理的深刻渊源

2024年诺贝尔物理学奖授予John Hopfield和Geoffrey Hinton,以表彰他们在人工神经网络领域的基础性发现与发明。这并非偶然,神经网络与统计物理的联系源远流长。物理学家Hopfield在1982年提出的Hopfield网络,以其联想记忆能力震撼学界。而Hinton则是最早认识到统计物理方法(尤其是能量模型)在神经网络中巨大价值的计算机科学家,他在1985年与合作者提出了Boltzmann机。此外,物理学家Elizabeth Gardner在1988年使用统计物理中的Spin Glass模型和Replica方法,系统研究了Hopfield网络的记忆容量问题,为理解模型的存储能力奠定了基础。

Attention模块的能量模型形式

现代大模型的核心架构是Transformer,其核心目标可归结为“预测下一个Token”。以Decoder-only的Transformer为例,其核心模块可分解为Attention和FFN。首先聚焦Attention模块。

给定长度为 (n) 的提示词向量序列 ( { \mathbf{x}_1, ..., \mathbf{x}_n } ),当前要预测第 (i) 个Token (( \mathbf{x}_i ),其中 (i = n+1, ..., N ))。为方便,记 ( \mathbf{h}_j = \mathbf{x}_j ) ( (j=1,...,n) )。Attention模块的输出为:

[
\mathbf{h}i^{att} = \sum{j=1}^{n} \alpha_{ij} \mathbf{v}_j
]

其中 ( \alpha_{ij} ) 是注意力权重,( \mathbf{v}_j ) 是值向量。根据softmax定义,权重可展开为:

[
\alpha_{ij} = \frac{\exp(\mathbf{q}_i^T \mathbf{k}j / \sqrt{d})}{\sum{l=1}^{n} \exp(\mathbf{q}_i^T \mathbf{k}_l / \sqrt{d})}
]

这里,( \mathbf{q}_i ) 是查询向量,( \mathbf{k}_j ) 是键向量。其内积 ( \mathbf{q}_i^T \mathbf{k}_j ) 衡量了用 ( \mathbf{q}_i ) 查询 ( \mathbf{k}_j ) 时对预测 ( \mathbf{x}i ) 的语义匹配度。若令 ( J{ij} = \mathbf{q}_i^T \mathbf{k}_j ),则有:

[
\mathbf{h}i^{att} = \sum{j=1}^{n} \frac{\exp(J{ij} / \sqrt{d})}{\sum{l=1}^{n} \exp(J_{il} / \sqrt{d})} \mathbf{v}_j
]

( J_{ij} ) 构成了一个双线性型,是建模非对称关系的最简形式,这使得Attention能有效捕捉Token间的非对称语义关系。

借鉴Hinton的能量模型思路,可以定义Attention模块的能量函数 ( E_{att} ):

[
E_{att}(\mathbf{x}_i | {\mathbf{h}j}{j=1}^n; B) = -\sum{j=1}^{n} J{ij} (\mathbf{v}_j^T \mathbf{x}_i)
]

其中 ( B ) 代表模型参数组态。对应的Boltzmann分布可写为:

[
P_{att}(\mathbf{x}_i | {\mathbf{h}j}{j=1}^n; B) = \frac{1}{Z{att}} \exp\left(-E{att}(\mathbf{x}_i | {\mathbf{h}j}{j=1}^n; B) / T\right)
]

( T ) 是温度,( Z_{att} ) 是配分函数。从这个视角看,Attention机制的关键在于学习参数组态 (B),使得语义相关性最高等价于能量最低。这与基于隐变量的变分推断(证据下界ELBO)解释在逻辑上是一致的。

这一分析带来启发:虽然Mamba等线性注意力机制能降低计算量,但难以有效建模语义非对称性,能力受限在情理之中。因此,如何在保持此能力的前提下降低计算复杂度是关键。例如,DeepSeek-V3.2采用的稀疏注意力机制 (DSA) 便是一种实践。从数学上看,最优的稀疏注意力可形式化为一个优化问题。

Transformer架构的能量模型形式

将FFN模块抽象为函数 ( f_{FFN} ),并用 ( \Theta ) 表示所有权重和偏置的集合,可以定义整个Transformer的能量函数 ( E ):

[
E(\mathbf{x}_i | {\mathbf{h}j}{j=1}^{i-1}; \Theta) = -\mathbf{z}_i^T \mathbf{x}_i
]

其中 ( \mathbf{z}_i ) 正是输入到最终softmax层的Logits。整个Transformer的Boltzmann分布为:

[
P(\mathbf{x}_i | {\mathbf{h}j}{j=1}^{i-1}; \Theta) = \frac{1}{Z} \exp\left(-E(\mathbf{x}_i | {\mathbf{h}j}{j=1}^{i-1}; \Theta) / T\right)
]

( Z ) 是Transformer的配分函数,是对所有可能Token(词表/码本 (S))的求和。因此,大模型推理的本质是找到使能量函数最小(即Boltzmann分布最大)的下一个Token;而训练的本质是寻找使训练集上平均能量最小的参数组态 ( \Theta )。

Transformer的记忆容量:为什么“大”很重要?

记忆容量问题源于Hopfield网络的研究:一个网络能完美记住多少个随机模式?定义广义Gardner容量 ( C_g = \frac{1}{\phi(N)} \log M ),其中 (M) 是记住的模式数,(N) 是参数量,( \phi ) 是归一化函数。有趣的是,若将“记住的模式”替换为“成功传输的信息”,并取 ( \phi ) 为对数函数,广义Gardner容量就变成了香农信道容量。

针对Transformer,现有研究给出了一些洞见:

  1. Attention模块的记忆容量:研究表明,Attention模块通过学习 ( { (\mathbf{k}_j, \mathbf{v}_j) } ) 记住了 ( { \mathbf{h}_j } )。其记忆容量随参数量的线性增加而指数增长。这解释了为什么参数量不大的模型也能具备较强能力,同时也意味着小模型因记忆容量更接近上限,增训极易导致“模型崩塌”。
  2. FFN模块的记忆容量:FFN常被视为模型以参数化方式存储知识((k,v)对)的关键位置。基于此,模型编辑技术得以通过直接修改FFN层参数来更新知识。

“能力涌现”现象可以从记忆容量的角度理解:当模型记住的知识量超过某个阈值时,便发生了统计物理中的“相变”。这为从理论上解释Scaling Law和能力涌现提供了可能。

Transformer的泛化误差上界

泛化误差是衡量模型实际表现的核心。基于上述能量模型形式,可以借助Rademacher复杂度和Talagrand不等式等工具推导其上界。

固定输入序列,用 ( \hat{\mathbf{x}}_i^{(k)} ) 表示模型第 (k) 次推理输出的第 (i) 个Token,( \mathbf{x}_i^{(k)} ) 表示人类期望输出。记它们的概率分布分别为 ( \hat{P}_i^{(k)} ) 和 ( Pi^{(k)} )。对于 (K) 个样本和任意 ( \delta > 0 ),交叉熵损失 ( \mathcal{L}{CE} ) 能以至少 (1-\delta) 的概率被以下界控制:

[
\mathcal{L}{CE} \leq \hat{\mathcal{L}}{CE} + \frac{2}{K} \sum{k=1}^{K} \sum{i=1}^{N} | \mathbf{z}_i^{(k)} |_1 + \sqrt{\frac{\log(1/\delta)}{2K}}
]

其中 ( \hat{\mathcal{L}}_{CE} ) 是经验损失(训练时已被最小化),( \mathbf{z}_i^{(k)} ) 是对应于人类输出 ( \mathbf{x}_i^{(k)} ) 的Logits(即能量函数的负数)。这个上界的核心是Logits的L1范数和(即能量函数绝对值的和)。 这给出了一个重要启示:任何旨在缩小模型规模的技术,如剪枝、蒸馏和量化,都必须谨慎评估其对Logits的影响,因为这将直接影响模型的泛化能力上界。

大模型的能力极限:Granger因果推断

诺贝尔经济学奖得主Clive Granger给出了因果关系的操作化定义:时间序列 (X) 引起了 (Y),如果利用 (X) 的过去信息能更准确地预测 (Y) 的未来。这被称为Granger因果。

在大模型推理场景中,将模型记忆的所有知识、已输入的上下文和已生成的序列视为“信息全集”,而将不包括当前待预测Token历史的信息视为“缩减集”。根据定义,大模型通过预测下一个Token的训练目标,本质上是在逼近一种时间序列维度上的Granger因果推断。

然而,机器学习专家Judea Pearl指出,Granger因果本质上是具有时间顺序的统计关联,而非真正的因果关系。由此可以推论:大模型的能力极限是时间序列维度的Granger因果推断。这意味着Scaling Law可能持续生效,但当前架构的大模型难以从数据中自主抽象符号化概念,也无法实现真正的逻辑推理。

续篇预告

为了用信息论度量Granger因果性,物理学界提出了“传递熵”的概念。有趣的是,传递熵正是“定向信息”的有限长度版本。这引出了本系列后续两篇的核心:

  • 信号处理篇:将探讨大模型如何转化为向量自回归时间序列问题。
  • 信息论篇:将以“定向信息”为核心,阐述一种与具体结构无关、更为本质的大模型第一性原理。

参考文献

  1. B. Bai, "Forget BIT, it is all about TOKEN: Towards semantic information theory for LLMs," arXiv:2511.01202, Nov. 2025.
  2. J. Hopfield, “Neural networks and physical systems with emergent collective computational abilities,” PNAS, vol. 79, no. 8, pp. 2554-2558, Apr. 1982.
  3. D. Ackley, G. Hinton, and T. Sejnowski, "A learning algorithm for Boltzmann machines," Cognitive Science, vol. 9, no. 1, pp. 147-169, Jan. 1985.
  4. E. Gardner, "The space of interactions in neural network models," J. Phys. A: Math. Gen., vol. 21, no. 1, pp. 257-270, Jan. 1988.
  5. A. Vaswani et al., "Attention is all you need," in Proc. NIPS, 2017.
  6. H. Ramsauer et al., "Hopfield networks is all you need," arXiv:2008.02217, 2021.
  7. M. Geva et al., "Transformer feed-forward layers are key-value memories," in Proc. EMNLP, 2021.
  8. C. Granger, "Testing for causality: A personal viewpoint," Journal of Economic Dynamics and Control, vol. 2, no. 1, pp. 329-352, Jan. 1980.
  9. J. Pearl, Causality: Models, Reasoning, and Inference, 2nd ed. Cambridge Univ. Press, 2009.
  10. T. Schreiber, "Measuring information transfer," Phys. Rev. Lett., vol. 85, no. 2, pp. 461-464, Jul. 2000.
  11. J. Massey, “Causality, feedback and directed information,” in Proc. ISIT, 1990.



上一篇:Qwen3-4B微调基准测试:12款小模型如何选型与效果对比
下一篇:自动化脚本工具Hacker-Scripts实战:Shell/Python与cron实现办公自动化 | 开源日报 No.816
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-17 20:35 , Processed in 0.119390 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表