云栈社区»论坛 › 站务中心「 Forum Service 」 › AI学旧知识反而阻碍发现新物理？“预训练-微调”中的负迁移难题 ...

发回帖发新帖

4066 积分	0 好友	530 主题

发消息

AI学旧知识反而阻碍发现新物理？“预训练-微调”中的负迁移难题

发表于 2026-6-12 00:37:01 | 查看: 144| 回复: 0

一名男子站在山巅岩石上，背对观众，手持一台打开的笔记本电脑仰望星空，银河与繁星构成壮阔背景

宇宙学的标准模型 ΛCDM (Lambda-Cold Dark Matter，宇宙常数－冷暗物质模型) 已经成功运行了几十年。直到近年来，随着对大质量中微子、修改引力、暗能量演化等领域的研究不断深入，物理学家开始怀疑，ΛCDM 可能并不完整。而在标准模型之外，每检验一个新物理假说，就要重新建立一套高精度宇宙模拟，计算成本极其高昂。

近日，普林斯顿大学与弗拉特艾恩研究所的物理学家提出了一个巧妙的解决方案：参考大语言模型的预训练-微调方法，先用廉价的标准宇宙学模型训练 AI，再用少量且昂贵的新物理模拟对其进行微调。结果显示，这种策略确实可以大幅降低计算成本。但与此同时，研究人员还发现了一种名为“负迁移”的现象：如果新物理的信号恰好与旧理论的某个参数高度相似，AI 反而学得更慢、表现更差。

这不禁让人思考：在基础物理中，AI 学到的旧知识，会不会反而成了它发现新物理的障碍？

新物理模拟虽好，消耗算力却实在高昂

ΛCDM 模型能解释从宇宙膨胀到星系分布的大尺度宇宙观测现象。但在粒子物理实验中确认拥有质量的中微子，其具体质量至今仍是未解之谜。此外，引力在大尺度上是否严格遵循广义相对论、暗能量的动态演变等前沿课题，都在推动物理学家将目光投向标准模型之外的“新物理”边界。

未来几年，第四阶段的大规模巡天项目，如暗能量光谱仪 (DESI)、欧几里得空间望远镜 (Euclid)、薇拉·鲁宾天文台 (Vera C. Rubin Observatory) 等，将产生前所未有规模的高精度数据，有望回答上述未解之谜。

不过，要从观测数据中提取“新物理”的信号，物理学家还需要将真实数据和大量宇宙学模拟进行比对，即基于模拟的推断 (SBI)。然而，包含新物理的模拟通常比标准 ΛCDM 模拟更昂贵，需要的算力也呈量级增长。

宇宙大尺度结构模拟图，呈现深空背景下的星系分布与暗物质纤维网，红色光点与丝状结构交织成复杂的“宇宙网”

图 | 不同宇宙学模型模拟出的同一宇宙区域 (来源：EurekAlert)

先训练，再微调

为了尽可能压缩成本，同时不影响新的科学发现，研究人员借鉴了生成式 AI 的“预训练-微调”策略：模型先在海量通用文本上学习，再根据特定任务微调。他们在宇宙学领域构建了一种能够跨物理模型复用知识的“基础模型”。

研究团队使用的是由多国科学家联合开发的堂吉诃德宇宙学模拟数据集 (Quijote simulations)：其中包含 44,100 次 N 体宇宙学模拟，专为机器学习训练设计。研究人员先用三万余个标准 ΛCDM 模型，对神经网络进行高强度预训练。这一阶段，网络建立起了有关宇宙大尺度结构演化的经典物理常识。

随后，他们将预训练模型迁移至包含新物理特征的高精度模拟中继续进行微调。这三种“超越标准模型”的场景分别为大质量中微子 (M_ν)、Hu–Sawicki 形式的修改引力 f(R)、原初非高斯性 (包含 local 和 equilateral 两种类型)。

团队成员阿德里安·拜尔称，这种方法与人类由浅至深的学习过程一致：先读一本入门教材建立整体框架，而后仅需研读少数前沿论文，即可快速适应新的物理定律。反之，如果直接让 AI 一次性消化最昂贵、最复杂的新物理模拟，效率反而不高。

十倍效率提升，架构是关键

结果显示，迁移学习策略在三种新物理场景下均有较好表现。在大质量中微子的场景下，使用迁移学习的网络，仅需原方法不到十分之一的新物理模拟训练量，就能达到相同的推断精度。修改引力 f(R) 的情况同样如此，而在原初非高斯性的试验中，迁移学习几乎全面提升了网络对各个宇宙学参数的推断敏感度。

为验证效率提升直接来自知识的结构化复用，研究人员设计了一组对照实验：将 ΛCDM 模拟和新物理模拟混合，在相同数据总量下，联合训练出一个更大的神经网络模型。结果显示，其表现远不及两阶段的迁移学习方法。

在对比的三种网络方案中，团队发现表现最好的是一种引入了“哑节点” (Dummy Nodes) 的瓶颈结构网络。在预训练阶段，这种架构的输出层就预先设计好了若干个空白输出通道，为尚未出现的新物理参数预留空间。通道在第一阶段不参与损失函数的计算，进入微调阶段后，便可专门用于承载和吸收新引入的物理参数。

神经网络结构示意图，左侧为输入层标记有x1至x79的节点，中间为隐藏层，右侧为包含y1至y5以及ψ_dummy节点的输出层

（来源：DOI 10.1088/1475-7516/2026/06/026）

相比之下，直接冻结预训练权重、仅在末端拼接可训练推断头的保守方案表现最差。原因在于，这种硬性的架构限制，将网络内部表征强行锁在标准模型框架内，缺乏理解新物理所必需的灵活性。

负迁移现象：AI 温故却难知新

这种训练策略同样存在重要的缺陷。在实验中，研究人员发现了一种“负迁移”现象。当使用一种对中微子质量更敏感的统计量——标记功率谱 (marked power spectrum) 进行实验时，他们发现，随着第一阶段预训练程度不断加深，网络经过第二阶段微调后，实际表现反而更差，关键参数的推断精度出现了严重恶化。

进一步分析发现，原因来自参数简并性。σ₈ 是描述宇宙中物质聚集程度的关键参数，它在小尺度上会显著影响功率谱的形状。而大质量中微子由于自由流效应，同样会抑制小尺度结构的形成。两者在观测数据中产生的痕迹极为相似。这种 σ₈–M_ν 简并性长期存在，是宇宙学家精准测量中微子质量面临的核心障碍之一。

研究团队借助 SHAP 方法对网络内部决策进行可视化分析后发现：在预训练阶段，网络学会把小尺度上的功率谱变化归因于 σ₈；当微调引入中微子质量后，这些同样的小尺度特征突然有了第二种解释。于是网络不得不调整此前建立起的映射，把一部分归因于 σ₈ 的信号重新分配给 M_ν，再从更大尺度的信息中“重新学习”σ₈，最终导致性能下降。

两张并排的敏感性分析图，展示σm、σ8、Mv等变量在不同尺度（k bin）下对模型输出影响的STAP值变化

（来源：DOI 10.1088/1475-7516/2026/06/026）

为了证实负迁移确实受物理简并性的驱动，研究者将小尺度数据从训练中剔除，只保留大尺度信息。而在大尺度上，σ₈ 和 M_ν 的物理印记完全可分辨。结果显示，一旦切断小尺度的简并可能，负迁移现象便基本消失，网络顺利地将中微子质量作为一个全新、独立的成分进行学习。

摆脱路径依赖，才能发现未知

在自然语言处理或计算机视觉的任务之间，往往共享大量底层结构，因此预训练普遍有效。但在物理学中，不同的物理机制可能会在观测数据中表现出完全相同的特征。用 AI 探索新物理时，研究人员若一味追求构建庞大、全能的物理基础模型，就可能忽视真正重要的信号。

针对“负迁移”问题，研究人员给出了几个值得探索的解决方向，包括特征空间分解 (把不同尺度的物理效应解耦)、梯度校正机制 (防止新物理的梯度信号被预训练表征覆盖)，以及渐进式域适应等。

第四阶段巡天即将开启，面对海量数据，这项研究为高效率处理提供了可行方案：廉价的 ΛCDM 模拟可作为基础模型被大规模复用，新物理模拟的算力需求有望显著降低。

AI 已经开始深度参与科学发现的过程，但这项研究提示我们，AI 也有路径依赖。要想真正发现“未知”，除了大量积累已知规律，还要学会“遗忘”。在追求极致效率的路上，如何平衡先验知识的复用与对新奇信号的开放，或许是一个值得在云栈社区持续探讨的问题。

参考内容：
https://iopscience.iop.org/article/10.1088/1475-7516/2026/06/026

上一篇：中国投影仪品牌出海启示录：极米如何从硅谷众筹做到全球出货量第一
下一篇：醒着也能补觉？科学家用光遗传学实现大脑局部睡眠，消除记忆损伤

迁移学习, 宇宙学, Lambda-CDM, 负迁移, 神经网络