云栈社区»论坛 › 开发者广场「Dev Plaza」 › KAN 2.0论文详解：超越黑箱，如何用可解释神经网络驱动科学发现 ...

发回帖发新帖

5236 积分	0 好友	713 主题

发消息

KAN 2.0论文详解：超越黑箱，如何用可解释神经网络驱动科学发现？

发表于 2026-3-16 01:36:12 | 查看: 279| 回复: 0

描绘三位研究者围绕发光神经网络球体的科技插画

今年4月，Max Tegmark 团队发布了一种崭新的深度学习网络结构 Kolmogorov-Arnold Network（简称KAN）后迅速引起轰动。随后8月，团队再次发布拓展工作 KAN 2.0，这不仅仅是一个优化升级的网络架构，更被看作是一种 AI+Science 研究的新范式。这一范式旨在使AI驱动的科学研究更具交互性和可解释性，甚至有望支持“好奇心驱动的科学”发展。知名科普杂志 Quanta Magazine 近日撰文回顾并梳理了KAN系列工作的研究历程，以下是该文章的核心内容翻译与解析。

从“黑箱”到透明：KAN的诞生契机

“神经网络是目前人工智能中最强大的工具。当它们应用于更大的数据集时，没有什么可与之抗衡。”前沿理论物理研究所的研究员 Sebastian Wetzel 如此评价。

然而，神经网络的“阿喀琉斯之踵”也广为人知：其基础构建块——多层感知器（Multilayer Perceptron, MLP），作为许多成功网络的基石，其内部决策过程对人类而言却是一个“黑箱”。我们难以理解基于MLP的网络是如何得出特定结果的，也缺乏解释这些结果的潜在原理。AI研究人员长期在思考，是否存在另一种网络设计，能在保持性能的同时提供更高的透明度？

2024年4月，一项研究给出了肯定的答案。该研究提出了一种名为 Kolmogorov-Arnold 网络（KAN） 的替代设计。它基于20世纪中叶的一个数学概念，经过重新发现和配置，以适用于深度学习时代。KAN不仅在透明度上更胜一筹，而且在某些问题类别中，其能力几乎可以与常规神经网络媲美。

论文题目：KAN: Kolmogorov-Arnold Networks
论文地址：https://arxiv.org/abs/2404.19756

核心差异：用“函数”替代“权重”

一个典型的神经网络通过多层人工神经元（节点）和连接它们的边（突触）工作。信息逐层处理，边的权重在训练中被不断调整以逼近正确答案。网络的常见目标是找到能最佳拟合数据点的数学函数。

KAN在函数拟合方式上与MLP有根本区别。KAN不依赖具有固定数值权重的边，而是使用可学习的、非线性的“边缘函数”。 这些函数可以表示更复杂的曲线，并能进行比MLP的简单数值权重更灵敏的调整，这使得KAN在理论上能够完美地表示某些目标函数。

这一设计的数学基础源于1957年数学家 Andrey Kolmogorov 和 Vladimir Arnold 分别证明的定理：一个多变量数学函数可以被转换为多个单变量函数的组合。然而，过去35年里，受限于该定理生成的函数可能“不平滑”以及当时的计算能力，KAN一直被认为不切实际。

数学家Kolmogorov和Arnold的黑板照片数学家Arnold的照片
Andrey Kolmogorov（左）和 Vladimir Arnold 在1957年证明了可以将一个复杂的数学函数重写为简单函数的组合。

转机出现在2024年初。麻省理工学院的物理学研究生刘子鸣决定重新审视这个被“冷落”的定理。在与导师 Max Tegmark 研究如何让神经网络更可解释却进展不顺时，他抱着“试试看”的心态转向了 Kolmogorov-Arnold 定理。

尽管Tegmark起初基于前人的研究认为这会走进死胡同，但刘子鸣的初步尝试很快改变了他们的想法。他们意识到，即使原始定理生成的函数不平滑，网络也可以用平滑函数去逼近它们。更重要的是，科学中的大多数函数本质上是平滑的，这使得完美表示成为可能。借助现代远超1989年的软硬件计算能力，KAN的潜力被重新点燃。

KAN论文一作刘子鸣在户外的照片
刘子鸣利用Kolmogorov-Arnold定理构建了一种新的神经网络。

关键突破：从“两层”到“深层”堆叠

刘子鸣最初的原型聚焦于两层KAN，这是该定理最直接的蓝图。然而，这些原型在科学相关任务上表现不佳。此时，Tegmark提出了一个跳出框架的建议：为什么不尝试构建两层以上的KAN？

这个想法成为了关键突破。团队发现，三层KAN是可行的，并且能精确表示两层KAN无法处理的函数。他们并未止步，后续实验甚至堆叠了多达六层，网络处理复杂函数的能力随之增强。“我们发现可以基本上随意堆叠层数。”论文合著者之一 Yixuan Wang 说道。

实验验证：从数学纽结到物理相变

为了证明KAN的实用价值，研究团队将其应用于两个现实世界的复杂问题。

数学中的纽结理论：2021年，DeepMind的团队用MLP预测了纽结的某个拓扑属性。KAN成功复现了这一壮举，并更进一步——它能够展示该属性如何与所有其他属性相关联。刘子鸣指出，这种关系的揭示是“MLP完全无法做到的”。
凝聚态物理中的安德森局域化：该实验的目标是预测特定相变的边界，并推导出描述该过程的数学公式。没有任何MLP能够完成这项任务，而KAN做到了。

KAN论文导师Max Tegmark的照片
刘子鸣的导师 Max Tegmark 提出了使Kolmogorov-Arnold网络成功运行的关键建议。

这两个案例凸显了KAN相比于传统网络的最大优势：可解释性。“什么叫可解释性？”Tegmark解释道，“如果你给我一些数据，我会给你一个可以写在T恤上的公式。”KAN不仅给出答案，还提供人类可以理解的、简洁的数学解释。

当然，KAN的能力也有其边界。它可能最适合物理学等变量较少的科学问题。“几乎所有著名的科学公式——比如 E=mc²——都可以用一两个变量的函数来表示。”Tegmark说，“KAN 利用了这一事实，并寻找这种形式的解决方案。”

KAN 2.0：从工具到“好奇心驱动”的范式

初代KAN论文在短时间内获得了大量关注和引用，也激发了社区的研究热情。其他团队迅速跟进，例如清华大学团队提出的 Kolmogorov-Arnold Informed Neural Network（KINN），在求解偏微分方程（PDEs）方面表现显著优于MLP。

论文题目：Kolmogorov Arnold Informed neural network: A physics-informed deep learning framework for solving forward and inverse problems based on Kolmogorov Arnold Networks
论文地址：https://arxiv.org/abs/2406.11045

同时，也有研究对KAN和MLP进行了更全面的比较。新加坡国立大学的一篇论文指出，KAN在与可解释性相关的任务中表现优于MLP，但MLP在计算机视觉和音频处理上更胜一筹，两者在自然语言处理等其他任务上则旗鼓相当。这与KAN团队专注于“科学相关任务”的初衷是吻合的。

论文题目：KAN or MLP: A Fairer Comparison
论文地址：https://arxiv.org/abs/2407.16674

与此同时，刘子鸣和合作者正致力于让KAN变得更实用。2024年8月发布的“KAN 2.0”被他们描述为“更像是一本用户手册”。这一版本提升了易用性，并增加了诸如乘法工具等原版缺乏的功能。

展示将科学知识融入并提取出KAN的流程图
KAN 2.0的核心思想：在科学知识与神经网络之间建立双向通道。

论文题目：KAN 2.0: Kolmogorov-Arnold Networks Meet Science
论文地址：https://arxiv.org/abs/2408.10205

KAN 2.0的发布，标志着理念的进一步升华。团队认为，KAN不仅仅是一个解决问题的工具，它更促进了一种“好奇心驱动的科学”，与当前主流的“应用驱动科学”形成互补。例如，在研究天体运动时，应用驱动的方法聚焦于预测未来轨迹，而好奇心驱动的方法则旨在揭示背后的物理定律。刘子鸣希望，KAN能帮助研究人员从深度学习模型中获得更多——不仅仅是计算结果，更是对世界本质的理解。

结语

KAN的兴起，为可解释人工智能（XAI）和AI for Science领域注入了新的活力。它通过将古老的数学定理与现代深度学习框架相结合，成功打开了神经网络“黑箱”的一角。尽管它在通用任务上未必全面超越传统MLP，但其在科学发现场景中展现出的透明度和公式提取能力，无疑为研究人员提供了一把强有力的新钥匙。从KAN 1.0到2.0的演进，反映了从“构建一个新网络”到“定义一种新研究范式”的深刻转变，这或许将引领AI+Science走向一个更加交互式、可解释、并由人类好奇心驱动的新阶段。

对于希望深入探讨AI与科学交叉前沿的开发者与研究者，可以关注相关领域的最新进展与社区讨论。

本文翻译自 Quanta Magazine，原文链接：https://www.quantamagazine.org/novel-architecture-makes-neural-networks-more-understandable-20240911/

上一篇：KAN 2.0发布：引入乘法节点与科学知识，构建AI与科学双向融合新范式
下一篇：AlphaEvolve基于LLM自动生成算法，刷新五项拉姆齐数下界纪录

KAN, 神经网络, 深度学习, AI科学, XAI