找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3757

积分

0

好友

488

主题
发表于 昨天 02:45 | 查看: 15| 回复: 0

深度学习历史上直接汲取自然界的灵感,人工神经网络最初建立在神经生物学原理之上。然而,该领域已逐渐偏离其仿生学根源,转而倾向于以规模扩张为导向的方法。尽管这一转变带来了显著的技术进步,但相较于自然智能,它也引入了根本性的局限。本综述从海量文献中提炼出一份独特而全面的综合分析,系统阐述这些局限性,并挑战当前普遍持有的观点——即仅靠扩展现有方法便足以实现人类水平的智能。

结合神经科学与深度学习的最新进展,我们将每项局限性与具有前景的神经启发式解决方案相对应。具体而言,我们探讨了液体神经网络(Liquid Neural Networks)、循环视觉架构(recurrent vision architectures)以及预测编码(Predictive Coding)作为此类解决方案的代表性案例。通过对所涵盖文献的综合分析,涌现出若干富有启发的见解,包括但不限于:模型脆弱性与泛化能力不足的共同根源、模型非线性与对抗鲁棒性之间的关联、预测编码与联合嵌入预测架构(JEPA)之间的相似性,以及反向传播如何制约更具突破性的神经启发式创新。

通过在这些局限性与解决方案之间建立新颖的联系,本综述 bridged 了此前相互割裂的研究脉络,并为神经启发式人工智能指明了富有前景的下一步方向,同时明确将每种研究方向置于其旨在克服的局限性背景下进行阐释。更广泛而言,我们希望本工作能为通过逆向工程自然智能以推动人工智能前沿发展,提供一份连贯的路线图。

索引术语:生物启发计算,深度学习,液体神经网络,神经形态计算,预测编码,表征学习。

I  引言

深度学习的仿生学根源可追溯至一种将大脑简化为抽象计算模型的早期构想,该构想为人工神经网络(ANNs)奠定了理论基础 [1]。十年后,心理学家弗兰克·罗森布拉特(Frank Rosenblatt)开创了感知机(perceptron)——一种高度简化的生物神经元数学模型,具备监督学习能力 [2]。随后,感知机模型通过以类似生物神经网络的方式将神经元以分层层级连接而得到扩展,演变为多层感知机(MLP),至今仍是大多数深度学习模型的核心。从猫的视觉皮层中挖掘出的见解 [3] 后来启发了卷积神经网络(CNNs)的设计 [4], [5], [6],其在一定程度上模拟了生物视觉皮层所具有的层级化与空间不变性处理特征。关于动物行为及其神经机制的研究极大地推动了强化学习(RL)的发展 [7], [8]。值得注意的是,使反向传播算法得以普及的工作 [9](该算法现已成为本领域默认的学习机制)同样强调了探索更具生物合理性的神经网络学习机制的价值。自诞生以来,深度学习几乎在每一个重大里程碑处都大量借鉴了当时可用的生物学知识。

随着该领域逐渐成熟,其发展轨迹开始偏离其仿生学根源。这种偏离源于希望从第一性原理出发构建人工智能,而不受仿生学偏见的约束;然而,该路径仍难以复现或超越自然智能的诸多理想特性 [8], [10], [11], [12], [13]。为弥补这些局限,该领域采纳了一些次优的应对策略,这些策略最终未能解决根本原因,且从长远来看亦不可持续。这一普遍趋势的核心在于一种现代范式,其核心论点认为:扩展现有方法不仅必要,甚至足以催生人类水平的智能 [14]。

在本综述中,我们通过提供一份基于广泛跨学科文献证据的建设性批判,对这一范式提出挑战。在此全面综合的基础上,我们进一步阐明若干新兴研究方向,这些方向有望通过沿用定义该领域早期历史的同一套原则性、跨学科方法论,来克服上述局限。除了通过全面且此前未曾提供的综述来填补文献空白外,我们工作的另一关键贡献在于:在多个常彼此割裂的研究脉络之间建立新颖的联系。为此,我们梳理了不同局限性如何相互作用并彼此衍生,揭示其相互依赖性。随后,我们将这些局限性与所探讨的神经启发式创新相联系,阐明每种方法如何被证明可针对性地解决特定缺陷。此外,我们还揭示了这些创新本身之间的协同效应,展现其互补特性,以及它们如何无缝整合为一个统一系统。综上,这些见解被编织成一条连贯的叙事脉络,为神经启发式人工智能的演进提供整体性、跨学科的视角,并指明一条富有前景的前进路径。

总之,本文的关键贡献如下:
• 我们对当代深度学习的根本性局限进行了全面综合,突显了相较于自然智能仍持续存在、且仅靠规模扩张无法解决的差距。
• 我们通过对实证证据、理论论点及比较生物学见解的批判性分析,挑战了当前以规模扩张为中心的范式。
• 我们对三种具有前景的神经启发式方法——包括液体神经网络(Liquid Neural Networks)、循环视觉架构(recurrent vision architectures)与预测编码(Predictive Coding)——提供了整合性综述,涵盖其神经科学动机、算法形式化表述,以及在多项基准测试中展现的优势。
• 我们在已识别的局限性与相应的神经启发式解决方案之间建立了原则性映射,阐明了局限性之间以及所提解决方案之间的相互依赖关系。

本文其余部分结构安排如下: 在第二节中,我们将本综述与相关研究工作进行定位对比,同时阐明其独特贡献与视角。随后,在第三节中,我们综合多样化的文献 corpus,批判性地审视当前形式下深度学习的根本性局限——这些局限无法仅凭规模扩张得以解决,且在与生物智能对比时仍显著突出。基于对局限性的这一分析,第四节探讨了具有前景的神经启发式解决方案。在第四节内,我们综述了三种不同但互补的神经启发式方案:液体神经网络(第四节-A)、循环视觉架构(第四节-B)与预测编码(第四节-C)。针对每种方案,我们讨论其发展所依托的神经科学背景,阐明其内在属性如何克服前述诸多局限,并简要概述制约其更广泛采用的剩余技术瓶颈。最后,我们在第五节给出结论性评述。

II、相关工作

本综述建立在来自多个相互关联研究领域的现有文献基础之上,涵盖深度学习的局限性、深度学习中的神经启发式创新、生物智能与人工智能的比较研究,以及针对液体神经网络(LNNs)、循环视觉架构与预测编码(PC)的专题综述。

越来越多的批判性综述已审视了深度学习的各类技术局限性,尤其是相较于自然智能而言。部分研究指出,人工模型在早期开发阶段缺乏物理与心理直觉作为基础支撑框架,从而导致样本效率低下,且当前最先进方法缺乏由组合性与元学习所支撑的高效因果建模能力 [10]。另一些研究则强调,对噪声的脆弱性、面对新颖情境时适应能力有限、分布外泛化能力差、缺乏因果推理能力以及能量效率低下等关键局限,均源于偏离神经启发式设计范式所致 [8], [11], [15]。许多相同的局限性也在人工视觉与生物视觉的对比语境中被反复提及。例如,某项研究列举了人工视觉模型尚未解决的缺陷,包括极高的数据需求、分布外泛化能力差、对抗样本脆弱性、闭集问题约束,以及人类与机器视觉表征之间的质性差异 [16]。表 1 提供了上述综述及其他文献所涵盖的局限性与我们本工作所探讨局限性的对比汇总。

图1:深度学习局限性覆盖对比表

作为对上述批判的补充,大量现有综述也将神经启发式人工智能的最新创新作为具有前景的解决方案加以探讨。一项 noteworthy 的研究综述了神经启发式人工智能领域广泛的既往里程碑与新兴议题,指出研究大脑——作为此类智能唯一现存实证——可为更有效地探索通用智能潜在解空间提供关键洞见 [12]。该综述触及了当代神经启发式人工智能研究中若干有趣议题,如注意力、情景记忆、工作记忆与持续学习,以及若干前沿方向,如直觉物理、高效学习、迁移学习、想象力与规划。其他研究则强调,现代深度学习的高资源消耗特性凸显了研究生物大脑卓越效率的必要性,因其复杂计算特性已在严苛的真实世界约束下经受无情锤炼与验证 [19]。文中详细描述了若干具有前景的神经启发式研究方向,如多尺度信用分配、架构搜索、学习算法、神经编码方案、树突计算,以及生物神经网络中的网络结构与连接性 [19]。在某些情况下,这些研究亦 caution 指出:若在缺乏对更广泛框架进行更完整重构的前提下,孤立地应用神经启发式机制,往往难以带来显著的性能提升 [19]。

在计算机视觉领域,神经启发式创新已引领神经科学与人工智能前沿的进展 [16]。若干 noteworthy 的实例体现了神经科学与计算机视觉的交叉融合,包括最大池化(max-pooling)、周边抑制(surround suppression)、ReLU 激活函数以及局部除法归一化(local divisive normalization)[16]。当前最先进视觉模型仍缺乏视觉皮层的某些质性特征,从丰富的循环连接与反馈机制,到多样化的神经元类型,均被明确指出。尽管这些研究承认,从工程学视角出发,为实现更优视觉性能并无严格必要完全复刻自然大脑的所有特征,但它们同时强调,已有充分的神经科学证据确立了此类特征所具有的计算优势。表 2 提供了先前综述与本工作所探讨的神经启发式人工智能方向的对比概览。

图2:神经启发式AI创新方案覆盖对比表

据我们所知,尚无先前综述能同时做到:(i) 对深度学习相较于生物智能的根本性局限进行系统性综合阐述;(ii) 将每项局限性与跨学科人工智能研究前沿中新兴的神经启发式解决方案相对应映射;以及 (iii) 在统一视角下整合关于液体神经网络、循环视觉处理与预测编码的文献。本综述通过明确从当前模型所固有的、过度人工化的局限性出发,进而阐述基于仿生设计原则的模型如何有效克服这些局限,从而为神经启发式设计提供了有力论证。我们特别聚焦于神经启发式人工智能中围绕具体架构与算法设计选择的议题,其中部分议题仅在近期文献中方才涌现。因此,本工作通过提供一份及时的综合性综述,重新审视深度学习的理论基础,阐明其相较于生物智能的核心局限,并将大量近期神经启发式研究整合为一种连贯的视角,直接挑战当前大预训练 Transformer 模型时代盛行的"规模即一切"(scale is all you need)思维定式,从而填补了文献中的空白。

III、根本性局限

过去十年间深度学习取得的突破性成功毋庸置疑。然而,当前方法在若干根本性方面仍落后于自然智能。在本节中,我们对这些差距进行系统性分析,并强调深度学习在效率、泛化能力、鲁棒性、多功能性、自主性、能动性、因果理解与表达力等方面尚未达到自然智能的水平。我们综述了每项局限性的最新证据,阐明其潜在成因,并说明它们如何相互作用或彼此衍生。通过揭示我们在有效扩展人工智能实际落地应用过程中尚待克服的局限,我们凸显了生物大脑作为智能范本日益重要的参考价值。

A. 效率局限:可持续扩展所面临的技术与经济约束

当前深度学习模型高度依赖计算资源、能耗与数据用量的指数级增长,以维持最先进性能。尽管这些扩展趋势在过去十年间为各子领域带来了前所未有的技术成就,但其长期可持续性正面临关键的技术、经济与环境壁垒,这些壁垒可能 soon 制约人工智能的未来进展。

  1. 计算瓶颈

一项近期对 1,527 篇 arXiv 研究论文的综合元分析强调,深度学习的进展日益依赖计算算力的提升,并 caution 指出:若当前扩展趋势持续,该领域的未来进展可能在技术与经济层面均变得不可持续 [17]。这项大规模研究表明,算力的提升迄今在性能改进中发挥了重要作用,而要实现重要里程碑,则需对架构进行根本性重构,以降低计算负担。[23] 也证实了这种快速扩展趋势,其报告指出,从 AlexNet 到 AlphaGo Zero [24],训练成本增长了 300,000 倍,且成本约每 3.4 个月翻一番。涵盖近期数据的更全面报告虽对上述扩展趋势呈现了更细致的图景,但最终仍收敛于同一结论:训练算力一直沿指数曲线快速增长(见图 1)[25], [26], [27], [28]。如今,这一趋势未见放缓迹象,反而随着 ChatGPT 引领的大语言模型(LLMs)兴起,似乎正以前所未有的速度加速推进。

图3:前沿AI模型训练计算量增长趋势

另一方面,摩尔定律似乎将在未来十年内逐渐放缓直至停滞 [29], [30]。随着尖端芯片中的晶体管逼近原子尺度,量子效应与散热等物理难题使得将晶体管尺寸进一步缩小至数纳米以下在技术与经济层面均变得不可行。将这些相互冲突的趋势简单外推至近期,所呈现的图景令人担忧 [17], [31]。随着计算资源准入门槛不断提高,先进人工智能的研发可能被主导行业的巨头所垄断。这一发展轨迹不仅导致技术能力集中化、加重生态负担,还可能抑制创新进展。不久之后,竞争性模型无节制扩展所带来的边际收益递减,叠加将这些模型部署于移动设备、机器人或去中心化平台所面临的技术挑战,将限制其实际与经济效用。

即便超越技术障碍,开发、训练与托管基础模型所带来的环境影响与迅速攀升的资源需求,也将因其阻碍气候变化应对目标的实现,而 soon 引起全球社会的 critically 关注 [17]。该问题的核心在于对日益强大的 AI 超级计算机的依赖。近期对这些系统的追踪分析揭示了一个令人警觉的趋势:2019 年至 2025 年间,计算性能约每九个月翻一番,而硬件成本与——尤为关键的是——电力需求却每年翻倍 [28]。作为参照,截至 2025 年 3 月,xAI 的 Colossus 等领先系统估计功耗达 300 兆瓦,相当于 25 万户家庭的能源用量,同时硬件成本高达 70 亿美元 [28]。

基础设施需求的指数级增长直接加剧了对长期可持续性的担忧。若这些趋势持续,预测表明,到 2030 年,领先的人工智能超级计算机可能需消耗高达 9 吉瓦的电力,硬件成本达 2000 亿美元 [28]。此类大规模基础设施需求为理解即使训练单个模型已相当显著的环境成本提供了关键背景,如图 2 所示 [25], [27], [32]。如此巨大的能源需求可能超过可再生能源开发与应用的进展速度,从而加剧资源枯竭并扩大碳足迹 [33]。基础设施需求快速攀升与单模型训练成本高企的双重压力,凸显了亟需新一代人工智能系统——其能在大幅降低资源消耗的前提下,仍实现具有竞争力的性能。

图4:前沿AI模型训练功耗增长趋势

  1. 数据瓶颈

在这些扩展趋势的另一个维度上,随着基于网络规模数据集预训练的基础模型的兴起,实现最先进性能所需的数据量已达到前所未有的水平 [34], [35], [36], [37], [38], [39]。[27] 对这些趋势的预测表明,我们有理由预期,未来几代模型将 soon 耗尽可用于大规模训练的新型高质量数据。部分预测甚至估计,该领域最早在 2025 年就会耗尽高质量语言数据,而在未来一至二十年内耗尽低质量语言与图像数据。2024 年的一份更新报告基于网络上人类生成文本数据的可用性,调查了大语言模型(LLM)潜在的扩展约束 [40]。图 3 可视化了文本数据利用的预测结果,该预测基于对历史趋势、需求预测与经济激励的严谨分析,以 80% 的置信区间预测数据存量将在 2026 至 2032 年间被完全利用。若扩展趋势遵循 AI 开发者利润最大化的策略——即在计算高效推理的背景下,对大语言模型进行 100 倍过训练具有经济合理性——那么数据存量甚至可能早在 2025 年即被耗尽。例如,Meta AI 训练的 Llama 3-70b 大语言模型正是遵循此类经济激励,进行了 10 倍过训练 [41]。

图5:人类生成文本数据存量与LLM训练需求预测

至于对合成数据作为数据稀缺问题替代方案日益增长的乐观预期 [42], [43], [44],[27] 所综述的近期研究表明,主要在此类数据上训练的模型往往会经历"模型崩溃"(model collapse),因为它们越来越逼近统计均值,而忽视真实分布尾部中代表性不足的样本。遗憾的是,迄今为止最成功的合成数据训练方法仍局限于具有可验证解或高度信息性反馈源的狭义问题(例如编程、游戏、数学)[45], [46], [47], [48]。

正如 [49] 与 [50] 所述,这种扩展速率在很大程度上源于学界集体且不懈地追求单一指标——即测试准确率——上的最先进结果。这一现实对于从事边缘人工智能(Edge AI)的研究者而言再熟悉不过:只有少数最先进模型能够部署于低资源设备(例如机器人平台、智能手机、自主无人机)上。更高效的最先进模型的短缺,反映出当前领域激励机制的错位——成功的一维指标持续不成比例地奖励那些在竞争性排行榜上刷新准确率记录、却无视实际现实效用的模型。

  1. 效率鸿沟

综合上述所有因素,并考虑到最初启发深度学习的生物大脑本身所具有的效率,该领域注定要将资源与注意力转向更具可持续性的设计,这与自然界沿数据、能量与参数轴同步以最小资源实现智能的方式高度相似 [10], [51], [52], [53], [54]。值得一提的是,以人脑为例,其估计能耗预算仅约 20 瓦 [55]。

B. 泛化局限性:数据扩展作为对较差分布外泛化的缓解手段

对于那些经常无法跳出思维定式的模型,实现泛化的最佳方式就是尽可能扩大这个“定式”。换言之,训练数据扩展呈现如此指数级趋势的主要原因之一,在于当今模型在分布外(OOD)泛化方面众所周知的弱点。如果模型能够利用可迁移的抽象概念高效学习任务,而不受训练数据集特有细节的影响,AI 工程师就不必费力进行域随机化、数据增强,并最终扩展训练分布以覆盖模型部署时可能遇到的所有潜在分布。相反,通过在与生物智能学习相同任务相比本应足够的数据量之外,越来越大得多的数据集上训练模型,以补偿这种糟糕的样本效率,已成为该领域的标准做法。这一现实或许最能由那句熟悉的 AI 格言“垃圾进,垃圾出”来概括。这句话揭示了一种普遍认知,即当今的 AI 模型表现好坏完全取决于其数据,除非被灌输大量干净、精心增强、均衡且高度多样化的示例,否则往往无法学习到鲁棒的解决方案,即使对于最简单的任务也是如此。

  1. 零样本性能主张的误导性

在探索大规模多模态模型在下游任务上的性能如何受预训练数据集中概念频率影响时,[56] 揭示了关于当前最先进基础模型的一个令人担忧的事实。这项涵盖 34 种不同架构和规模模型、5 个预训练数据集以及 27 个任务中 4029 个概念的综合调查发现,所有被研究模型都需要指数级更多的数据,才能在这些概念的下游“零样本”性能上实现线性提升。这种观察到的对数线性扩展趋势暴露了上一节讨论的不可持续数据扩展实践背后的核心原因之一。考虑到网络规模预训练数据集呈现出极端的长尾分布,其中超过三分之二的概念在数据中仅罕见出现,这一点尤其令人担忧 [56]。其他研究也复现了类似结果,揭示了零样本和少样本泛化主张的可疑性质,这往往是由于数据污染的普遍存在 [57], [58]。因此,显而易见的是,预训练数据集的广泛范围掩盖了最先进模型实际上泛化到新概念的程度。

正如一项关于 OOD 泛化评估的调查 [59] 所强调的,在缺乏实际 OOD 解决方案的情况下,仅仅扩大模型和数据规模,不足以完全解决 OOD 泛化问题。该调查还强调了这一弱点如何仍然阻碍机器学习模型在高风险敏感性领域的广泛采用。同样重要的是要注意,出于显而易见的原因,那些高风险领域正是我们在开发更好的机器人和人工智能时最渴望实现自动化的领域。[60] 也表达了同样的担忧,该研究对比了分布偏移下电影推荐中的失败案例或图像误分类仅造成轻微不便,而自动驾驶或医疗任务的后果则可能是灾难性的。

  1. 以数据为中心的变通方案在解决较差泛化能力方面的不足

作为当今模型测试时适应性差的另一个根本缺陷,当前统计学习范式固有的 i.i.d.(独立同分布)假设,使模型偏向于假设训练数据和测试数据采样自同一分布,而这在现实世界设置中很少成立 [59], [60]。只要模型优化完全依赖于这一假设,就不清楚当前模型如何能对训练数据边界之外遇到的不可预见情况保持鲁棒。除此之外,根据 [61],在训练期间合成模拟数据分布的干预措施不足以提升鲁棒性。在这项大型实验研究中,作者评估了 199 种不同设置下的 147 个 ImageNet 模型,并报告称,除了使用自然涵盖更广泛此类偏移的更大训练数据集外,通过合成干预并未观察到针对自然分布偏移的鲁棒性有显著改善。

以数据为中心的人工智能范式,即数据相比模型本身扮演更主导角色,在过去十年的人工智能研发中迅速获得关注 [62], [63]。这一范式一直促成了当前人工智能的成功,但也带来了本节描述的伴随问题。

  1. 泛化鸿沟

当前人工智能与动物在样本高效泛化方面的鲜明对比,以及动物可获得的原始数据中明显缺乏精心整理的事实,强烈凸显了两者之间仍存在的差距 [64]。毕竟,动物无需在每一种可能的天气条件、背景场景以及自然或对抗性干预的组合下学习相同的技能,即可被期望泛化到任意情境。至于人类,[10] 通过对比用于训练 AlphaGo 的约 1 亿局游戏总量 [65] 与李世石在整个职业生涯中估计进行的 5 万局游戏,揭示了即使是最好的狭义超人类模型的样本低效性。虽然这一里程碑在人工智能历史上的重要性不可否认,但人类即使在这样的累积经验巨大差异下仍能竞争,仍然令人印象深刻 [10], [54]。基于这些观察,遵循以模型为中心的范式,深入研究支持动物如此鲁棒且高效学习的神经机制,并将该知识应用于解决人工智能中 i.i.d. 域之外难以捉摸的泛化问题,将是合理的。

C. 鲁棒性局限:人工神经网络对陌生噪声的脆弱性

泛化至输入数据中的陌生噪声一直是人工智能领域的另一个长期挑战。尽管经过广泛训练,当前模型在面对噪声时经常失效,在某些情况下,即使这种噪声极其细微且对人类而言不可感知 [66], [67], [68], [69]。就陌生输入扰动下的鲁棒性而言,人工神经网络仍然在很大程度上表现不及人类感知。

  1. 对自然噪声的脆弱性

正如 [70] 所建议,增强鲁棒性的方法不应针对特定类型的扰动,而应从更广泛的意义上解决鲁棒性问题,以便模型也能处理意外失真。例如,人类感知自然地适应视觉数据的基于形状的表征,相较于 ImageNet 训练的 CNN 所学的主要基于纹理的表征,其对各种扰动(例如雨、雪、雾、污垢、光照)要鲁棒得多 [71], [72]。另一项研究进一步验证了这一点,该研究揭示了偏向学习基于形状表征的视觉 Transformer(ViTs)比 CNN 更具鲁棒性 [73]。

一份关于深度学习模型鲁棒性的更广泛系统综述报告称,在干净样本与图像条件退化样本的评估之间存在显著性能差距(性能下降 30-40%)[74]。[74] 展示了当前模型即使面对训练分布中代表性不足的自然低概率图像损坏,表现也不足,而不仅仅是对抗扰动攻击。虽然数据增强技术增加了训练数据的多样性,但无法保证增强样本实际上位于真实数据分布的尾部,或者它们能带来其他类型自然扰动的更广泛改进 [74], [75]。将此类缓解技术扩展以控制现实世界设置长尾分布中发现的极广泛多样性的损坏和变异,显然不切实际,并且注定在全面捕捉低可能性场景方面面临局限 [74]。该研究还批评了以不可持续的速度过度依赖数据集扩展作为实现最先进性能的普遍策略,强调需要重新考虑当前架构和优化技术。

  1. 对对抗噪声的脆弱性

一项关于当前深度学习模型明显脆弱性的有趣研究挑战了此前关于极端非线性或正则化不足如何使模型暴露于扰动攻击的假设 [68]。研究人员发现,实际上是当前模型的高维线性导致了这种脆弱性。模型过于线性,具有许多高维点积,这在更容易优化和更容易扰动之间造成了紧张关系。然而,意识到更容易优化是以增加对扰动的脆弱性为代价的,这暗示了设计更鲁棒模型的一个有前景的方向。[68] 建议训练高度非线性的模型,虽然更难优化,但利用非线性效应抵抗对抗扰动,这可能为更具韧性的神经网络家族铺平道路。

对抗脆弱性不仅仅是某些深度学习模型中的琐碎缺陷,而是其对训练数据所有统计预测特征根本敏感性的更深层次症状。对抗攻击所暴露的脆弱性表明,当前模型在训练集和测试集上的性能并不能可靠地反映它们对手头任务的理解程度 [68]。所有这些工作的综合实证证据揭示了这些实验中研究的模型家族固有的缺陷 [68], [76], [77]。

  1. 平衡准确率 - 鲁棒性权衡

仅以测试准确率衡量模型成功的普遍做法不仅忽视了效率,还忽略了鲁棒性的关键指标,而在深度学习模型日益部署的大多数现实世界场景中,这些指标往往更重要。正如 [78] 所解释,即使拥有无限数据,最优鲁棒模型学到的特征与最优准确模型学到的特征从根本上也是不同的。[78] 的另一个有趣见解阐述了深度学习中的准确率与鲁棒性之间的权衡,即深度学习模型在许多基准测试上的超人类准确率很大程度上可归因于它们依赖于人类天然不变化的脆弱特征。从这个角度来看,为了鲁棒性而牺牲绝对测试准确率,忽视虚假相关性和脆弱特征,是开发更实用、可解释和鲁棒模型的一种更有利的方法。

  1. 鲁棒性鸿沟

人工神经网络的脆弱性与生物神经网络(BNNs)的相对鲁棒性之间的明显差异揭示了另一个需要解决的鸿沟,因为神经网络在我们嘈杂的世界中变得越来越普遍。生物感知固有地具有韧性以应对感官噪声,并且比当前的感知人工模型能更好地处理部分、退化或模糊的输入 [75], [79]。为了进入现实世界并承担更多人类目前执行的任务,尤其是风险敏感的任务,AI 模型必须达到相同的鲁棒性标准。

D. 多功能性局限:部署在动态世界中的静态神经网络的缺陷

当前最先进模型在初始训练阶段后适应或学习能力不足,面对部署后遇到的不可预见的分布偏移时,往往表现不足并遭受严重的性能下降。前述典型深度学习模型的脆弱性可直接归因于其缺乏灵活性。期望静态模型在持续动态的世界中顺畅运作可以说是不现实的。

  1. 冻结权重:静态神经参数

如今,常见方法是将模型部署为静态计算图,具有一组固定的学习参数,期望在所有测试场景下获得最佳性能。参数化人工神经网络(ANN)的权重和偏差,并最终表征其功能,通常在训练后固定,无论部署期间呈现的需求如何变化。与其面对寻找全局最小值的约束(即训练模型在所有可能条件下有效表现),不如部署一个能灵活调整内部参数以在任何给定时刻最适合任务上下文的模型。举例来说,考虑一个 CNN,它能在推理期间根据低光与日间视觉的最佳需求调整其卷积滤波器,而无需部署后工程师定期手动微调。虽然 Transformer 模型中的注意力机制可被重新解释为具有输入依赖权重的线性层 [80],从而允许一定程度的动态计算,但其适应性范围仅限于调制特征聚合,而非生成这些特征的变换函数。由此延伸,Transformer 模型令人印象深刻的上下文学习能力最终仍局限于不太偏离原始训练分布的上下文 [81], [82]。

另一个处理有缺陷设计症状的例子是,行业目前采用的缓解这种缺乏灵活性的解决方案涉及昂贵且劳动密集型的持续数据整理操作以及对不断增长数据集的大型模型定期重新训练。由于缺乏支持高效鲁棒持续学习、域适应和自适应计算的内在机制,我们被困于只能在计划训练运行期间学习的冻结模型。因此,当前模型在陌生输入上的测试时性能更多地依赖于数据整理任务,而非模型自身的泛化能力。在此条件下,当前模型极易受到众所周知的部署挑战的影响,如概念漂移 [83]、扰动攻击 [68] 以及对动态环境的在线适应。

  1. 冻结层:静态计算图

现代神经网络在训练后不仅受静态学习参数约束,还受固有缺乏灵活性的架构约束。例如,普遍的 Transformer 架构具有预定义且固定的上下文大小,用于关注序列中的过去输入,且计算深度受层数限制 [80]。使用此类架构,模型永久受限于相同数量的计算步骤和相同记忆跨度,跨越所有类型的输入和任务。此类架构无论从效率角度还是计算多功能性角度都远非理想。缺乏自适应计算迫使 AI 工程师设计放大规模的模型,其能力需达到最难预期样本的要求,即使测试时遇到的大多数样本实际上并不需要模型的全部容量。在一项关于动态神经网络的调查 [84] 中,作者提供了一个例子,CNN 很少需要处理整个图像即可准确执行某些视觉任务。以更类似生物感知的方式,以及正如关于深度学习的全面综述 [85] 所建议,视觉模型应主动采样输入并根据手头任务的要求和上下文调整内部处理机制,而非被动处理带有大量冗余或任务无关信息的整个图像。

近年来,基于 Transformer 的稀疏混合专家(Sparse Mixture-of-Experts)架构已成为通过学会动态路由 token 跨越多个预训练专家 MLP 来实现自适应稀疏计算的一个有前景的步骤 [86], [87], [88], [89]。此架构设计通过宽度维度上的激活稀疏性实现高效推理,但仍受网络固定深度约束。深度维度上的稀疏性相对发展不足,诸如 token 级深度路由 [90]、层跳过 [91] 和早期退出 [92], [93] 等技术因技术训练和部署困难而难以进入更广泛的行业采用。相反方向,用于自适应深度的行业标准方法主要包括通过强化学习(RL)激励大语言模型(LLM)中更长的思维链推理来放大有效计算深度 [94],从而为了增加准确率而牺牲推理效率。

  1. 多功能性鸿沟

生物神经网络(BNNs)高度动态的本质,与 ANN 中简化的对应物形成鲜明对比,已在神经科学文献中被认可一段时间 [95], [96], [97]。生物神经网络的高度循环连接允许可变数量的计算步骤,可根据手头任务的需求动态确定 [98]。此类动态神经网络可在推理期间根据数据调整其结构或参数,具有适应性、表达力和效率等高度有利的属性 [84]。此外,不同于 ANN 中仅在训练阶段严格进行的内部参数优化,生物突触经历持续的动态调制和使用依赖的可塑性,发生在各种时间尺度并通过多种机制。稍微放大视角,生物大脑还具有丰富的反馈连接,实现复杂的自上而下和自下而上反馈循环以及通过递归实现的可变计算深度 [99], [100]。在更长的时间范围内,持续在线学习仍然超出当前深度学习模型的能力范围 [101], [102], [103], [104]。

E. 自主性局限:深度学习中的监督瓶颈与数据标注挑战

在持续学习话题基础上进一步扩展,限制现实世界能力的另一个主要局限是当前 AI 对大多数深度学习问题依赖人类生成的地面真值标签。在一个建立在自动化繁琐任务承诺之上的领域,人机回路的地面真值生成出现为一个讽刺性的瓶颈,这是为训练旨在消除此类手动努力的系统所付出的代价。

  1. 监督学习的现有替代方案

当寻找自动化监督学习问题中标注任务的方法时,AI 工程师遇到了鸡生蛋蛋生鸡的困境。自动生成标签供模型学习的唯一方法是已经拥有一个能准确且自主解决给定任务的模型,但创建这样的模型正是最初需要标注数据的原因。幸运的是,新的学习范式如无监督 [105]、半监督 [106]、自监督 [107] 和强化学习 (RL) [7] 已成为解决此瓶颈的有前景方案。然而,虽然 RL 因其最小监督需求而长期流行,但其效力局限于具有丰富奖励信号和模拟环境的定义明确问题的安全范围之外 [108], [109]。当涉及现实世界问题时,奖励是罕见的,即使可用,通常也太稀疏,无法为样本高效学习提供足够信息量的反馈信号。至于自监督学习,一个具有更丰富反馈的框架,其最近的重构使得基础模型在语言 [39], [110], [111], [112]、视觉 [36], [113] 和机器人 [114], [115] 等多任务问题上实现了前所未有的性能,仅举几例。自监督学习的另一种形式是对比学习,其中标签稀缺问题通过在辅助任务上训练来解决,这些任务围绕对齐相似数据样本的嵌入(通过增强或跨模态配对生成)并推远不相似样本 [38], [116], [117]。然而,在数据和计算较少的小规模上,或者训练目标如下一 token 预测和对比损失不直接适用的地方,尚未看到类似的成就。虽然语言提供了离散且压缩的信息表示,在给定足够上下文的情况下更容易预测,但更原始且连续的表示,如图像、音频或视频,在缺乏互补文本的情况下提出了更难的预测性挑战。一些近期具有前景结果的工作通过在一低维潜在空间中的压缩表示上执行自监督预测而非原始像素来解决此问题 [118], [119]。我们相信神经科学中的一些新兴主题在根本层面上与这些工作存在平行相似之处,并能为将自监督学习推向新前沿提供关键见解。这些主题及其对 AI 中持续、自主和多模态学习的影响将在第四节 -C2 节中探讨。

  1. 自主性鸿沟

生物大脑连续处理所有类型模态的能力,尤其是高维感官数据,并独立学习可泛化到任意任务的鲁棒且有用的表示,仅偶尔以外部强化或监督形式的反馈,揭示了 AI 在真正自主和通用学习方面尚需覆盖的距离 [120]。仅通过观察学习成功的预测、规划和行为技能,而无需人机回路监督或专家领域知识,正如在几乎所有动物中观察到的那样,可能革命化 AI 并解锁主要数据瓶颈,就像自监督预训练最近革命化语言建模一样 [39], [121], [122]。

F. 能动性局限:来自人类数据的被动训练如何约束可扩展和主动学习

除了为持续学习找到合适的监督来源外,自主寻找和发现合适的数据是 AI 仍然严重落后于生物智能的另一个领域 [18]。当前 AI 系统表现出有限的能动性,被动地依赖人类整理的数据集,而不是主动且自主地寻求信息丰富的数据。AI 模型不应依赖昂贵且耗时的大规模数据收集工作,而应根据认知不确定性指导并以最大化信息增益潜力为基础,以智能方式主动选择自己的数据。此类能力将类似于一种人工好奇心,这一特征很可能正如我们所知的那样是学习不可或缺的一部分 [123]。但为了有效引导好奇探索,模型应能够准确量化其不确定性,这一领域最近因其在于高风险 AI 应用中的安全益处而受到越来越多的关注 [124], [125]。虽然在未来的几十年里设计能够主动寻求知识并自主学习的 AI 代理,AI 研究人员将不得不解决诸如如何适当量化认知和偶然不确定性,以及如何在有限能量预算下平衡探索 - 利用权衡等挑战性问题。

虽然目前在整理后的网络规模数据集上通过下一 token 预测被动训练的大型基础模型占据了聚光灯 [27], [34],但在模拟或现实世界设置中以交互方式训练的 AI 模型长期以来一直是强化学习 (RL) 领域感兴趣的主题 [126]。为了应对样本效率低下的问题,绝大多数 RL 训练是在模拟环境中完成的,AI 代理在此穷尽地探索行为搜索空间,最终在合理的时间尺度和成本内偶然发现最优策略 [127], [128]。虽然我们在上一节已经提到 RL 方法臭名昭著的样本效率低下部分是由于来自稀疏奖励信号缺乏信息性反馈,另一个原因是高效采样正确数据的问题 [54], [129]。如果不通过直接或间接方法用先验知识为代理搭建支架,大多数主流算法的探索行为通常是随机且高度低效的。代理在训练期间不主动寻求最有趣且潜在信息丰富的内容,以在资源约束下最大化学习。忽略冗余信息并选择性仅探索搜索空间中最有前景的区域会导致更高的样本效率,从而导致学习速度。主动学习还包括通过智能实验对世界行使自主干预以测试假设的能力,正如生物智能所展示的那样 [18]。干预的重要性在学习因果模型的背景下尤其相关,因果模型比通过被动观察获得的浅层统计模型更亲密地描述数据的底层结构 [18], [130], [131]。在许多情况下,对数据的干预可能揭示否则对被动观察者不可访问的信息 [130]。

  1. 能动性鸿沟

主动在世界中寻求信息的能力是生物智能的定义性标志,迄今为止人工模型尚未企及。生物有机体不是被动地依赖外部整理的数据集进行学习,而是主动与其环境互动,刻意努力采样最大信息量的数据,以完善其所居住世界的预测模型。这些互动不是随机的,而是由解决不确定性和暴露因果关系的内在驱动力塑造的,允许生物系统构建对其世界的连贯且坚实的理解 [18], [123], [132]。这种主动探索和植根于现实的学习的能力是智能的核心,但在大多数人工系统中仍然显著缺失,这些系统依赖大规模静态数据集,缺乏与数据目的性互动以自主解决不确定性和完善其世界模型的能力 [18]。

生物智能植根于现实,因为它在学习和行动期间不断地与之互动 [18]。心理抽象建立在从丰富的感觉运动互动和丰富的现实世界反馈构建的鲁棒世界模型之上 [18]。我们作为人类执行的大多数学习发生在与现实世界的紧密反馈循环中,这在很大程度上限制了幻觉并最小化了学习与现实脱节的深度缺陷世界模型的可能性。与世界的这些互动由内在的好奇心感导向,这在当前人工模型中 largely 缺失 [123]。考虑到上述所有因素,弥合人工与生物智能之间的这一根本差距有望革命化忠实世界模型的主动学习。

G. 因果性局限:统计学习在建模因果关系方面的不足

所有这些泛化和鲁棒性问题的根本原因之一是缺乏有效建模因果性本身的能力。统计学习是迄今为止表征几乎所有 AI 模型如何从数据中学习的主导范式,它产生的模型非常擅长学习所有可辨别的相关性,但缺乏任何支持因果学习的显式机制 [13], [76], [131], [133], [134]。因此,尽管科学家们敏锐地意识到相关性与因果关系之间的区别——这是科学方法中的一个基本原则——但他们设计的大多数智能模型尚未共享这种意识。

  1. 拟合无法泛化的相关性

虚假相关性是指不暗示因果关系的相关性,常常误导统计模型学习对数据的错误解释 [135]。不幸的是,大量研究揭示了当前 ANN 对拟合此类相关性的高度敏感性 [135], [136], [137], [138], [139], [140]。来自这些文献的见解清楚地表明,这一根本问题在深度学习领域既普遍又根深蒂固。因此,虚假相关学习的问题对于该领域采用的表面化处理(如单纯的数据扩展或增强)仍然难以解决。

例如,令人担忧的观察结果是,即使虚假相关性在训练数据中极其罕见,ANN 也对其高度敏感,这削弱了仅仅扩展数据集就足以缓解此问题的假设 [136]。这一批评也适用于其他低效的以数据为中心的处理方法,如数据增强技术。在因果性框架下,可以将数据增强视为对数据的手动干预,旨在使模型对某些预期的分布偏移(例如亮度、纹理、颜色、背景)保持不变 [141]。这些解决方案的问题在于它们扩展性差,因为只有很小一部分潜在的分布偏移可以由数据增强管道背后的 AI 工程师实际预先阻止,或由更大的训练数据集捕获。类似于对抗训练,此类以数据为中心的处理可以在狭义上提供一定程度的正则化,但最终未能消除根本问题 [138]。

在这个问题的另一方面,对虚假相关性的敏感性不仅限于基本 ANN 架构,还扩展到 ViT 和各种最先进 Transformer 变体 [137]。当训练数据缺乏足够的反例显示相关性无法成立的分布偏移时,Transformer 同样容易拟合虚假相关性 [137]。其他研究表明,CNN 也倾向于依赖脆弱特征,如纹理或不可感知的傅里叶图像统计量,并在这些特征被破坏时遭受严重的性能下降 [71], [138]。至于扩展模型以实现更好的泛化性能,也已确定过参数化模型会加剧虚假相关性的影响 [142]。

即使走出计算机视觉领域,如 BERT 等语言模型也被显示出在学习超越表面模式的真正因果模型方面遭受同样的弱点 [139]。为了揭示从数据学习推理的悖论,上述研究在一个受限问题空间中评估了 BERT,其中完美的逻辑推理可以被模拟,并产生了若干富有启发的观察结果。首先,BERT 在分布内测试样本上实现了近乎完美的准确率,而即使在相同问题空间下,仍无法在训练分布之外泛化。每次研究人员改变生成测试数据集的采样方法,使其与训练中使用的任何方法不同,从而改变统计分布时,模型始终无法泛化。未发现任何证据表明进一步丰富训练分布会导致模型中出现抽象于被建模的特定训练分布之外的鲁棒推理技能。更深入地查看结果,很明显模型实际上并未学习预期的逻辑推理功能,而是转而学习数据中固有的表面统计特征。对于此类推理问题,根据作者说法,即使最细微的统计特征也可能泄露关于所问标签的关键信息。例如,更近期的工作表明,仅仅改变流行 MMLU 基准中多项选择题答案的顺序,就导致 10 个最先进 LLM 的准确率显著下降 [140]。越来越多的研究呼应了这项工作的见解并独立得出了类似结论 [143], [144], [145], [146], [147], [148]。主要的是,已经清楚的是,LLM 遭受脆弱推理之苦,且该领域经常依赖有缺陷的基准,这些基准往往未能检测到此弱点 [147], [149], [150]。这些研究中有几项收敛于这样的结论:当前 LLM 固有的利用训练数据中表面统计特征的倾向,这在受控实验和 OOD 设置中尤为明显,持续削弱了其逻辑推理能力。

  1. 揭示统计世界模型中的表面表征

行业目前采用的缓解这一根本弱点的不可持续处理方法是通过在尽可能大的数据集上预训练 LLM,使它们暴露于覆盖大多数潜在测试分布并捕获看似泛化良好的统计特征的巨大数据分布。在这种高昂得令人望而却步的处理下,LLM 似乎表现出相对不错的性能,除了偶尔自信地展示非理性,这揭示了对世界表面且不一致的理解,而我们已将其视为不可避免的幻觉 [151], [152]。更深入挖掘,一项富有洞察力的工作最近审视了通过这些方法学习的隐式世界模型,揭示了此前评估大多忽视的令人担忧的不一致性 [153]。

人们通常假设,在大数据集上通过下一 token 预测训练的大型 Transformer 的令人印象深刻的性能,反映了它们隐式学习训练领域忠实世界模型的能力。这一假设在 [153] 中受到测试,通过在有限且确定性域(如城市导航、逻辑谜题和棋盘游戏)上训练后仔细探测和分析学习到的世界模型。在一个显著实验中,一个 Transformer 从纽约市出租车乘车的逐回合序列中训练了 47 亿 token。尽管在正常评估期间预测有效转弯的准确率近乎完美,但从模型恢复的重建地图(如图 4 所示)与纽约市的真实街道地图相去甚远。更仔细的检查显示,学习到的地图是不连贯的,具有物理上不可能的街道方向,需要飞越其他街道。与我们之前关于因果世界模型对处理数据不可预见干预的重要性的讨论一致,引入随机低概率绕道迫使模型进入分布外重路由,极大地侵蚀了导航性能,暴露了学习到的统计世界模型的脆弱性。[153], [154] 的这一实验和其他实验清楚地表明,这些模型可以在典型评估上表现看似良好,同时依赖包含许多隐藏不一致性的不连贯统计世界模型,这些不一致性往往仅在罕见情况下以灾难性失败揭示。

图6:Transformer世界模型 vs 真实纽约地图对比

  1. 因果性鸿沟

因果性是逻辑推理不可分割的一个方面,具有解决当前人工智能中难以捉摸的鲁棒推理问题的巨大潜力。迄今为止,文献表明数据中的虚假相关性仍然扰乱几乎每个领域和架构中的统计学习模型,而支持因果学习的训练方案或架构仍然在该领域中被很大程度上忽视。基于上述所有,我们可以认识到,就泛化、鲁棒性、推理和样本效率而言,为下一代人工智能模型采用因果学习范式有几个明显的好处。毕竟,越来越多的心理学证据支持这一事实:人类,甚至像老鼠这样的小型动物,学习世界的内部因果模型,以在广泛的学习问题中以显著的效率执行各种令人印象深刻的认知任务 [54], [155], [156], [157]。为了更好地复现这些智能壮举,也许明智的是更仔细地审视那些使生物大脑偏向学习世界的抽象因果模型而非严格关联模型的神经机制。

H. 表达力局限:还原论计算抽象为何无法复现生物大脑的复杂特性

人工神经网络作为通用近似器的表达能力,理论上能够在给定足够隐藏神经元且仅需一个隐藏层的情况下近似任何任意函数,这意味着它们可以学习无数计算问题的解决方案 [158]。然而,21 世纪越来越多的神经科学文献日益清楚地表明,它们对神经元、突触和网络架构的过度简化抽象严重限制了其相对于生物大脑的表达力 [159], [160], [161], [162]。

  1. 过时的神经元:生物神经元作为多层人工网络

人工神经元是生物神经元的抽象计算模型,被视为人工神经网络中的基本功能单元。在其最常见版本中,人工神经元(或点神经元)整合输入信号,每个信号乘以相应的标量权重,形成加权和,添加偏置项,然后应用非线性激活函数产生输出信号 [163]。另一方面,生物神经元被发现表现出远比上述人工抽象所反映的更复杂的计算机制。

在 [159] 中,研究人员证明需要一个 7 层深的时序卷积网络(TCN)来建模单个生物神经元(具体为 L5 层皮质锥体神经元)。经过消融研究,该神经元的高复杂度归因于其非线性突触。例如,NMDA 受体表现出对局部电压、其树突位置甚至邻近突触活动的非线性依赖 [159]。这些发现也得到了其他研究的证实,其中生物神经元由多层人工神经网络建模的效果优于构成这些人工神经网络的点神经元 [160], [164], [165]。本质上,认为树突仅将传入信号传输至细胞体(如当前人工神经元的权重所建模的那样)的先入之见,很大程度上低估了它们的计算角色,更广泛地说,低估了生物神经元的复杂性 [19], [160], [166]。鉴于这些近期发现,显而易见的是,生物神经元在计算层面上实际上比此前假设的“深”得多。

  1. 过时的架构:生物神经网络作为稀疏双向网络

在更大尺度上,流行的人工神经网络模型也未能捕捉生物网络中观察到的复杂架构和布线结构。从基本人工神经网络到卷积神经网络和 Transformer 模型,当今使用的大多数深度学习架构在层级层之间具有严格的前馈连接性。更浅但高度互联的架构可以更好地复现大脑快速灵活的计算能力 [167]。生物大脑不使用非常深的全连接神经元序列,而是采用稀疏连接性,不同的脑模块相互投射连接以实现高效通信和计算分布 [168]。例如,视觉皮层中的神经元具有层内和跨层的循环连接,主要在邻近神经元之间,此外还有具有各种特征的丰富多样化细胞类型 [169]。此外,[169] 表明这些结构差异与大脑相比卷积神经网络具有优越视觉处理能力存在因果关系。

  1. 表达力鸿沟

生物神经网络中存在许多其他计算特征,已被神经科学家发现并审视,并对人工智能具有有趣的影响,但超出本综述的范围。希望神经科学与人工智能之间增加的跨学科交流将在未来几十年延伸新的桥梁,并阐明更多用于设计优越模型的线索。总之,当今渗透深度学习的架构基于神经科学模型,相对于 21 世纪的研究而言早已过时。从非线性树突计算和复杂神经元到丰富的循环连接和高效布线结构,将生物大脑的哪怕少数特征融入人工大脑中,也有可能将最先进的人工智能推向新的高度。在接下来的部分中,我们将探索一些更新的大脑模型如何为迄今为止提到的每个问题引入有前景的解决方案的例子。

IV. 神经启发式解决方案

在第三节概述了阻碍当前深度学习方法的根本性局限之后,我们现在转向探索三种不同但互补的神经启发式创新,它们提供了有前景的解决方案。我们将首先考察液体神经网络(LNNs)(第四节-A),它利用来自研究充分的蠕虫大脑的神经解剖学和生物物理学见解,来现代化人工神经元、突触和网络结构的模型。随后,我们涵盖循环视觉架构(第四节-B),借鉴在灵长类动物视觉皮层中观察到的反馈连接性。最后,我们探索预测编码(第四节-C),这是一个强大的学习框架,植根于关于生物大脑学习和推理的领先神经科学理论。每种神经启发式解决方案与其旨在克服的相应根本性局限之间的全面映射可在表 3 中找到。

图7:神经启发式解决方案与深度学习局限性映射表

A. 液体神经网络

考虑到神经启发式设计在整个该领域历史中的明显益处,重新审视深度学习的原始灵感以获取进一步见解似乎是明智的。如今,AI 研究人员可以利用过去几十年获得的神经科学最新见解,推导更忠实的生物神经网络(BNNs)模型,并引入计算能力的进一步改进。然而,理解和建模人脑(可以说是人类已知最复杂的物体)的尝试,难免受到产生如此令人印象深刻的认知能力的极其复杂的架构和动力学的挑战。对这个逆向工程挑战的一个更实用和系统的方法是转而通过首先从自然界中能找到的最简单的大脑开始,逐步向上推进,例如秀丽隐杆线虫(Caenorhabditis elegans)蠕虫的大脑。近年来,这正是麻省理工学院(MIT)和维也纳技术大学(TU Wien)的研究人员在其关于液体神经网络的基础工作中所做的 [170], [197], [217], [219], [220]。

  1. 重新审视最简单的生物大脑以重新设计人工神经网络

仅有 302 个神经元 [221],其中大多数是非尖峰的 [222],通过大约 8000 个电突触和化学突触连接 [223],秀丽隐杆线虫土壤蠕虫独特小的大脑自 20 世纪以来已被生物学家绘制成全面的连接组 [224]。这个简单的连接组具有高度优化的布线结构,一直是神经科学家感兴趣的主题,最近也是 AI 研究人员感兴趣的主题 [223], [225], [226]。

秀丽隐杆线虫大脑中一个特别研究充分的神经回路由 11 个神经元组成,负责控制向前和向后运动,即所谓的敲击撤回(TW)反射 [220], [221], [222]。在 [219] 中,研究人员在仿真中重新配置了该 TW 回路的参数,同时保留近优的布线结构 [223],作为倒立摆动态系统中的控制器,这是由于这两个简单反射任务的行为相似性。

通过优化该神经启发式模型的参数,研究人员能够在倒立摆仿真中达到最高分,相当于 PID 控制器和传统人工神经网络的性能 [219]。

后续研究从 TW 回路的布线结构中抽象出一个更通用的模型 [171], [217], [226]。该模型被称为神经元电路策略(NCP),采用秀丽隐杆线虫回路中常见的四级分层网络拓扑,其特征是基于这些神经回路衍生出的架构原则的高布线稀疏性。在 NCP 中,感觉神经元将信息中继到中间神经元,然后中间神经元在彼此之间整合信息。一些工作在中间神经元的功能与 Transformer 模型核心的自注意力机制之间建立了有趣的类比 [227]。命令神经元具有高度循环连接,存储 NCP 的隐藏状态,并从中间神经元接收新信息,同时通过运动神经元控制网络输出 [227]。此拓扑使能稀疏连接网络中的高效分布式控制和最优信息传输 [171]。严谨研究也显示,与全连接或随机连接版本相比,NCP 布线架构导致显著更鲁棒和可解释的模型 [226], [227], [228]。而在突触层面,纳入非线性化学突触,除了简单电突触外,也导致显著性能改进 [227]。

强化基于前沿神经科学见解系统现代化神经架构的案例,近期工作通过用更具生物合理性的神经元属性进一步更新当前抽象,继续推进 LNN 在准确性、稳定性和效率方面的前沿 [229]。具有微分方程特征的神经元、介导非线性变换的突触,以及具有稀疏和循环连接性的架构,这些神经启发式网络展示了人工模型整合传统设计中缺失的最新神经科学细节的一个例子。通向这些模型的系统性和跨学科路径完美体现了我们在整个本综述中倡导的方法。

  1. 用更少神经元超越传统基线

LNN 特别独特之处在于,除了神经元隐藏状态上的非线性外,突触也由额外的非线性建模。此类属性允许用更少神经元实现远更多计算能力 [197], [217], [230]。允许 LNN 在参数大小方面超常发挥的卓越表达力在图 5 中清晰展示。在这些每项工作中,LNN 要么紧密匹配要么优于传统深度学习模型,包括 CNN、门控循环单元(GRUs)[231]、长短期记忆(LSTM)[232] 网络和连续时间循环神经网络(CT-RNNs)[233],同时使用至少一个数量级更少的可训练参数 [170], [171], [172], [173], [174], [175]。此外,多项独立研究确立了 LNN 在各种时间序列任务中对抗更大 RNN 基线的优越性 [198], [234], [235]。如果在未来工作中任务复杂度稳步增加时这些论文中观察到的结果成立,LNN 将自己定位为有前景的解决方案,以实现当前规模一小部分的竞争性性能,并放松当今看到的令人望而却步的硬件需求 [176]。

图8:LNN与传统模型参数量对比柱状图

在更广泛的架构层面,稀疏 NCP 布线模式通过最小化网络中的连接数量提供增加的参数效率和任务鲁棒性 [236]。在一个例子中,[171] 中使用的自主车道保持 CNN-NCP 模型比 [237] 中的最先进 CNN 驾驶模型小 63 倍。此外,与 LSTM 基线相比,该模型的 NCP 部分稀疏 970 倍,利用少 233 倍的参数,同时仍实现优越的驾驶性能。在 [238] 中,紧凑 NCP 模型的推理在低成本 Raspberry Pi Zero 上高效执行,成功实时控制无人机。我们注意到,大多数关于 LNN 的作品使用了 NCP 布线方案,因其经证明的效率和性能优势 [171], [173], [174], [175], [227], [228], [238]。

进一步推进 LNN 的效率前沿,这些网络背后的作者后来引入了描述 LTC 神经元如何响应传入突触输入的非线性 ODE 的闭式近似 [218]。通过为 LTC 神经元提供闭式表达式中的近似数学解,作者能够免除此前约束 LNN 可扩展性的复杂数值求解器的要求。在不牺牲 LTC 网络表达力的情况下,这些闭式连续时间网络(CfCs)被显示在序列建模任务中实现至少比 Transformer 基线少一个数量级的复杂度 [218]。更明确地说,作者也显示 CfCs 在每计算时间准确率方面相比其 ODE 对应物可交付高达 150 倍的改进。为了从 CfC 模型中挤出更多计算效率,诸如模型量化、剪枝和蒸馏等技术可进一步改善推理速度、布线稀疏性和模型大小,而不损害基准性能 [239]。

考虑到本节讨论的所有结果,显而易见的是,LNN 将自己定位为第三节 -A 部分描述的不可持续扩展趋势的有前景的平衡力。当该领域其余部分全神贯注于扩展当前架构时,LNN 似乎提供典型参数计数一小部分的竞争性性能。这些缩小规模的网络更容易解释,更容易部署,且运行更节能。

  1. 输入依赖参数实现测试时适应

LTC 神经元具有可适应(液体)的时间常数,受输入影响并控制神经元对传入信号的反应速度 [171], [197]。这导致更具灵活性的 RNN,具有分层时间动力学,其中每个神经元可以在不同时间尺度上处理信息。此类属性使神经元能够在推理时独立建模由输入和隐藏状态调制的动态系统。

一些对 LNN 进行的研究密切调查了某些神经元的动态行为,以识别它们如何根据输入调整其时间常数。例如,[217] 中平衡倒立摆的 NCP 模型中的一个中间神经元采用快速动力学,而下游运动神经元以较慢速率处理传入信号。在一个更有趣的实验中,一个从 CNN 接收输入特征的 19 神经元 NCP 在围绕具有多个弯道的道路的车道保持任务中有效控制了真实大小的汽车 [171]。在分析了一些 LTC 神经元的时间动力学后,作者注意到运动神经元在直线运动期间保持恒定反应速度,学会为左转激活的中间神经元 -1 在左转事件期间专门显示增加的反应速度,而中间神经元 -2 在右转期间显示更快速率。此类输入依赖的适应性使能对驾驶等任务中常见的动态条件具有更复杂的响应能力。

在另一项工作中,作者提出 LNN 固有的推理时适应性使其成为概念漂移问题的有前景解决方案 [199]。在此比较研究中,模型通过增量学习(传统 ANN)或初始训练阶段后的测试时适应(LNN)进行交通预测训练。结果显示,LNN 在面对概念漂移时表现具有竞争力,尽管传统模型在整个评估过程中以短间隔反复重新训练,仍保持一致优势。此外,诸如 LNN 之类的循环网络在隐式学习和根据手头任务需求调整其观察记忆的时间范围方面提供额外灵活性 [187]。相比之下,时间卷积网络和 Transformer 模型要求工程师在模型设计期间显式设置固定上下文大小。这种常见的静态配置将模型限制在推理时的预定义时间范围。

LNN 享有的独特灵活性得益于其神经元的液体时间常数及其高度循环连接性,使其区别于训练后冻结的模型。这种测试时适应能力允许解决第三节 -D 部分强调的许多问题。液体模型可以利用其输入依赖参数在面对不可预见的概念漂移、瞬时噪声或分布偏移时执行在线适应。这突出了迈向多功能模型的第一步,这些模型可以像它们所处的环境一样动态。

  1. 液体神经元类似电容噪声滤波器

在 [68] 中关于对抗脆弱性的富有洞察力的工作中,作者提出未来的深度学习模型可以利用非线性机制更好地抵抗对抗扰动。验证这一假设,许多研究揭示,LNN 凭借享有高度非线性,与典型 ANN 相比具有令人印象深刻的韧性。更仔细检查行动中的 LNN 显示,输入噪声在通过网络传播时逐渐被过滤掉,到达最后一层运动神经元时几乎检测不到 [170]。类似于电容器通常在电子电路中充当滤波器,LNN 中观察到的噪声过滤属性可追溯至其神经元的电容性质 [170]。

此过滤属性,加上 LTC 神经元的适应性和时间动力学,使 LNN 能够在不可预见的像素级扰动 [170], [171], [175]、场景外观变化 [174]、输入采样频率 [172] 和对抗性天气条件 [171], [187], [188], [189] 下保持稳定性能方面始终优于最先进基线。此外,从连接到 LNN 的 CNN 骨干提取的显著性图揭示了它们在面对对抗噪声和干扰物时保持稳定注意力的卓越能力 [171], [173], [187]。

在各种挑战性扰动下的此类韧性与第三节 -C 部分描述的脆弱网络形成直接对比。在野外部署神经网络将需要对这些模型处理任意噪声的能力有信心。正如本节所示,LNN 的神经启发式特征允许令人印象深刻的噪声过滤能力,这在多项独立研究以及各种任务、环境和条件中得到证明。

  1. 液体神经元实现因果表征学习

一组耦合微分方程被视为建模物理现象的黄金标准,因为它允许预测动态系统的未来行为并推理干预的效果 [133]。LNN 的特征是通过互连突触耦合的可学习微分方程,因此呈现了特别适合建模物理系统因果和时间动力学的架构 [240]。此外,LNN 的数学描述类似于动态因果模型(DCM)[241],如 [197], [220] 所示。DCM 是通常用于神经科学研究的复杂模型,用于从复杂脑成像数据推断神经系统中的因果相互作用。类似于 DCM,LTC 神经元的生物启发式特征为其提供了调节 LNN 神经状态的外部及内部干预的灵活机制——这是因果建模的基本前提 [173], [241]。DCM 和 LNN 之间的显式数学平行关系在 [220] 中描述得最好。

除了 LNN 架构中隐含因果偏见的理论证据外,额外研究也揭示了这些模型中端到端因果表征学习的实证证据 [171], [172], [173], [187]。在这些每项研究中,LNN 基线成功地从被动观察中恢复了任务的真实因果结构。例如,在 [172] 中,LNN 学会关注道路地平线以实现类人车道保持性能。不同于倾向于关注附近道路边缘或整个场景的传统基线,LNN 像人类驾驶员一样,能够通过密切预测地平线上出现的弯道和障碍物来保持平滑驾驶行为(见图 6)。正如在此可视化中所见,具有密集静态参数化的 CNN-MLP 模型(顶部图像)展现出扩散的注意力图,遍布道路边缘,另一方面,CNN-NCP 模型(底部图像)具有稀疏循环连接性、输入调制动力学,以及更清晰、因果对齐的注意力,聚焦于图像信息量最大的方面。

图9:CNN-MLP vs CNN-NCP 注意力热力图对比

在 [172], [173] 和 [187] 中,LNN 成功 learned 手头任务的主要目的是导航至场景中的视觉目标,而这一事实在训练阶段的任何 point 都未被显式定义。此外,LNN 也学会严格关注视觉目标,而不被周围环境干扰,即使在严重改变导航任务设置的重度分布偏移下。更进一步,[173] 和 [187] 中的 LNN 模型甚至在任务后来扩展至训练后的动态目标跟随或多步导航时也能跟上。此类任务泛化背后的原因是,这两个扩展任务都与训练期间学习的简单目标跟随任务共享相同的基本因果结构 [173], [187]。

这种对学习数据因果模型的内在偏见自然导致对分布偏移更鲁棒且能在训练后有效泛化的模型。并且由于 LNN 通过在训练期间与序列数据交互主动学习输入特征的因果动力学 [173],而非被动学习静态数据中的相关性,它们即使在从离线观察数据(例如,模仿学习)学习鲁棒策略方面也享有独特优势 [173], [187]。总体而言,构成 LNN 架构的复杂神经启发式机制使它们偏向建模统计模型无法捕捉的因果相互作用。因果学习对更广泛 AI 领域的潜在影响怎么强调都不为过,其缺失的有害影响在第三节 -G 部分已广泛涵盖。

  1. 因果模型实现分布外泛化

虽然模仿学习提供了一种高度样本高效的方法,用于通过专家演示离线训练自主机器人,但诸如策略平稳性和复合错误等臭名昭著的挑战往往限制训练好的神经网络在在线部署期间泛化到闭环和 OOD 设置 [172], [173]。幸运的是,前述 LNN 的测试时灵活性和因果学习能力将其定位为实现鲁棒泛化的有前景的以模型为中心的解决方案。首先,LTC 神经元提供的测试时灵活性允许 LNN 调节内部状态和整体行为,从而更好地避免闭环设置中复合错误的滑坡效应。其次,因果学习导致学习鲁棒且独立的表征,与基于虚假相关性的表征不同,这些表征很大程度上免受通常导致统计模型崩溃的无关分布偏移的影响。

多项研究的严格评估确立了 LNN 的鲁棒泛化能力 [172], [173], [174], [187], [238]。在这些作品中,[173] 作为一项特别详尽的研究脱颖而出,最好地展示了 LNN 在广泛 OOD 设置中的鲁棒性。从专家演示训练以自主导航配备摄像头的无人机朝向静态目标物体,基于 CfC 的 LNN 在面对日益挑战和不熟悉的变化时显示出令人印象深刻的不变性,包括一天中的时间、风剖面、背景场景、对抗性干扰、目标距离或方向、部分目标遮挡,甚至导航任务期间的目标运动。与所有其他基线相比,LNN 基线能够成功地将学习到的任务从森林训练环境转移到根本性不同的测试环境,例如具有人造物体和反射表面的大学校园,通常是唯一甚至完成任务的模型 [173]。

此类对分布偏移不变性的一个有用含义是,它为臭名昭著的模拟到现实(sim-to-real)差距问题提供了更高效的以模型为中心的解决方案。与其投入大量精力在模拟中设计超真实环境,密切关注光照和纹理细节,不如训练对那些虚假细节不变性的模型,并期望可靠地泛化到现实世界设置。LNN 作为此类模型的一个例子,已被显示能从模拟训练良好地泛化到现实世界部署 [172], [238]。

凭借固有的测试时灵活性和对手头任务的鲁棒因果理解,LNN 证明在跳出思维定式方面表现卓越。本节的实验证据展示了 LNN 如何独特地解决第三节 -B 部分涵盖的 OOD 泛化问题。超越训练分布边界的鲁棒泛化是深度学习模型现实世界部署的最关键障碍之一。并且 LNN 不是通过在数据方面过度补偿来处理泛化差的症状,而是通过解决传统神经网络中的一些关键架构限制来直面根本问题。

  1. 实际注意事项与采用障碍

尽管 LNN 相较于传统 RNN 具有所有优势,但其突触的高度非线性性质作为副作用加剧了臭名昭著的梯度消失问题 [197], [243]。虽然这种现象在动态环境(例如自主车道保持)中学习反射性任务时为了避免过拟合虚假长程相关性可能是可容忍的,甚至更可取的 [171],但对于建模长程依赖至关重要的任务而言,它 nevertheless 可能被证明是有害的。因此,这一学习瓶颈也限制了 LNN 的规模,在所有最先进作品中最多仅为几十个神经元。这些网络的卓越表达力允许在此类规模下实现竞争性性能,但承担更复杂的任务将需要考虑到可扩展性的进一步优化。

为解决此瓶颈,与现有架构解决方案的交叉融合在多个示例中显示出有前景的结果。此类混合设计的一个示例将液体神经元嵌入 LSTM 架构的隐藏状态中,以解锁恒定误差传播,同时不损害 LNN 的各种理想属性 [244]。而在其他情况下,LNN 反而增强了受 GRU 架构启发的简单门控机制,以进一步增强时间学习任务的性能 [245]。另一个示例 featuring 线性化基于 LTC 的 SSM,结合来自 LNN 和结构化状态空间序列(S4)模型的关键见解 [246],以有效结合 LNN 的泛化和因果学习能力与 SSM 的可扩展性和记忆能力,并以更少的参数计数实现最先进长程序列建模能力 [198]。超越混合方法,完全解决具有高度循环性和非线性的大型神经网络中的信用分配根本问题,将需要克服反向传播施加的瓶颈,这一主题我们将在第四节 -C1 部分详细阐述。

B. 循环视觉

基于 [3] 中探索猫视觉皮层的基础工作,神经启发式 CNN 架构已经完全革命化了计算机视觉,更广泛地说,深度学习,至今已超过十年。然而,此架构 loosely 基于 60 年前的神经科学知识,自 [3] 发表以来已历经显著进步。例如,越来越清楚的是,视觉皮层在许多层面大量采用循环连接以实现时间处理、高效布线、自适应计算、视觉注意力、填充和自上而下反馈 [100], [169], [247]。

  1. 重新审视视觉皮层

与先前将视觉处理视为纯粹前馈计算、通过深度神经网络沿层级层 cascade 进行的误解相反 [3], [4],累积的神经生理数据揭示了整个视觉皮层中存在广泛的反馈和侧向连接阵列 [100], [169], [248], [249], [250]。更令人惊讶的是,灵长类视觉皮层实际上具有比前馈连接更多的反馈连接 [249]。测量这些连接上的通常活动显示,视觉皮层最初通过主导神经活动前 150 毫秒的前馈扫描构建粗略视觉表示,而活动的后期阶段涉及反馈连接,这些连接细化此表示并驱动由高级区域引导的进一步视觉处理 [100]。

为了理解此类反馈连接性的计算需求,必须理解视觉感知 entails 的问题。视觉是一个病态问题。同一图像可能有多种有效解释。远处的灰色斑块可能是水坑或阴影;汽车可能很小或只是很远;黑白蓝裙子在阳光下对某些人可能呈现白色和金色。为解决此类感知歧义,视觉皮层整合来自整个图像的上下文线索,结合先验知识,并将此信息传播回早期层 [251], [252]。正如 Wertheimer 在 [253] 中恰当地指出,“整体决定部分的外观。”大量神经科学证据现在指向这一事实:低级处理受高级皮层区域调制 [99], [247], [252], [254]。例如,已发现固定任务期间视觉神经元的反应可能受其经典感受野之外信息的严重影响 [255]。这是通过接收来自视觉皮层更深层神经元的反馈信号实现的,这些神经元比早期神经元具有更大的感受野。

考虑到所有这些并遵循第三节 -H 部分的建议,显而易见的是,我们的视觉模型早已该更新了。本节涵盖的压倒性神经科学证据揭示了一幅视觉图像,远比研究人员在设计当今流行的早期视觉架构时所想的要复杂得多。

  1. 比较人工和生物神经网络中的视觉处理

查看描述灵长类视觉皮层复杂功能和架构特征的近期文献,有趣的是首先看看当今最先进计算机视觉架构如何比较,以更好地理解现有差距。

虽然不完全忠实于其生物起源,CNN 历史上在计算神经科学中作为生物视觉的有用模型 [256]。然而,视觉皮层的关键计算特征迄今为止未能进入流行 CNN 架构。更广泛地说,[257] 中的比较研究系统地评估了 30 种不同计算机视觉模型,以解释人类视觉皮层响应动态刺激的神经活动。一个发现是,ViT 类似于 CNN,揭示了对人类大脑视觉通路的层级对应。另一个发现是,CNN 和 ViT 以不同方式类似视觉皮层,CNN 更准确地建模早期到中期区域,而 ViT 更好地建模高级皮层区域。两种架构均未提供人类大脑中视觉的最优计算模型。关于结合基于卷积和基于注意力架构特征的混合模型,均未显示特别显著的结果。单纯扩展模型也没有显著影响。值得注意的是,然而,处理图像空间特征和视频序列时间特征的时空模型在存在动态视觉刺激的情况下,对视觉皮层所有区域的神经活动具有高度预测性 [257]。

ViT 相较于 CNN 的优越性能及其与人类视觉的更紧密对齐可追溯至其内部机制。例如,ViT 似乎在早期层学习局部操作,类似于可变形卷积,尽管具有全局图像处理能力 [258], [259], [260]。此外,ViT 早期层中扩大的感受野 [261] 可能在更好地建模视觉皮层方面发挥作用,其中早期神经元也通常通过接收来自更深层的反馈来响应其感受野之外的刺激 [255]。

注意力是 ViT 的定义性特征。我们也提到过自上而下的反馈连接如何在视觉皮层中产生注意力。这引发了一个问题:纯粹的 ViT 如何在没有此类连接的情况下表现出视觉注意力。[262] 中富有洞察力的研究最近提出,ViT 实际上并未表现出人类视觉文献中普遍认可的注意力 [263], [264], [265],而是一种称为感知分组的不同视觉计算 [266]。从前馈架构、自注意力公式和实证结果显而易见,ViT 模型缺乏支持人类视觉研究报告的相同视觉注意力的机制,而是基于感知相似性对图像区域进行分组。从神经科学角度来看,对自注意力机制更准确的重释是,它对应于大脑中观察到的层内侧向连接(类似于第四节 -A4 部分描述的中间神经元)[262]。自注意力允许同一层内邻近神经元的上下文信息为局部计算提供信息。此类 CNN 架构中缺失的侧向相互作用已知可提高对噪声和歧义的鲁棒性 [262], [267],从而解释了 ViT 中的这些属性 [73]。

从此文献以及近期探测视觉理解的基准 [268], [269] 显而易见,最先进视觉架构与灵长类视觉皮层之间仍存在严重差距。首先,视觉科学中描述的注意力机制并未被当前基于注意力的架构准确建模,且似乎需要沿反馈连接的自上而下相互作用。此外,卷积操作提供的平移不变性似乎足够基础,以至于 ViT 在大规模训练时始终重新发现它。这揭示,至少对于早期层而言,卷积作为一般视觉感知的基本组成部分具有不可或缺的作用。通过包含卷积、侧向连接和反馈连接来编码通常有用的归纳偏置,可在不过度约束解空间的情况下实现训练期间显著的时间和能量节省。视觉模型不应需要从我们已从神经科学和 AI 研究的大量证据中已知的内容从头学起。

  1. 循环处理实现噪声鲁棒性

现实世界中的视觉感知经常受到遮挡、漫射光照、混淆阴影、恶劣天气和各种噪声的挑战。为实现鲁棒感知,视觉模型应能够灵活应对此类挑战,即使它们未在训练数据中考虑。如前所述,视觉皮层大量依赖循环以尽管存在部分或退化的感官信息仍实现准确感知。多项研究记录了循环处理对增强生物和人工视觉系统感知鲁棒性的影响 [190], [191], [192], [193], [194], [195], [196]。

[195] 揭示了前馈视觉在视觉退化下识别物体方面的局限。显然,来自视觉皮层高级区域的兴奋性反馈信号可放大低级区域的弱信号,以补偿退化的感官信息并促进对被观察退化物体更完整的视觉表示 [195], [271]。视觉皮层低级和高级区域之间的此类双向相互作用,启发了图 7 所示的架构,促进稳定感知,尽管存在来自遮挡或不良光照的退化输入,仍缓慢收敛至完整且熟悉的表示 [195], [272]。

图10:卷积循环神经网络(ConvRNN)架构示意图

关于较慢循环处理作用的进一步证据显示,臭名昭著地使计算机视觉模型脱轨的对抗噪声在时间受限设置下可对人类产生类似影响 [196]。观察时间对人类实验中对抗噪声破坏性影响的显著影响表明,由侧向和反馈活动主导的较慢视觉处理在支持人类鲁棒感知方面发挥主要作用 [196], [272]。受这些见解启发,多项近期工作报告称,在将反馈机制整合到 CNN 架构后,对抗噪声的鲁棒性得到显著改善 [190], [191], [192], [193], [194], [272]。

CNN 中的循环处理也被报告显著增强低光照条件下的视觉 [273]。此项研究的一个有趣见解是,将循环层放置在 CNN 的最后阶段(如配对 CNN 和 RNN 架构时通常所做的那样),并未提供与在网络早期卷积层添加循环时观察到的相同鲁棒性益处。

显然,此神经启发式设计原则除了弥合最先进视觉架构与视觉皮层之间的生理和功能差距外,还提供了增强的鲁棒性属性。摆脱第三节 -C 部分描述的脆弱性,紧密集成的循环产生了韧性视觉架构,在解决视觉歧义和缓解多样噪声扰动方面始终优于前馈架构。

  1. 通过循环实现自适应计算

视觉是一个由高级行为目标主动引导的动态过程 [99], [252]。自然地,在特定目标的背景下,并非所有感知都能被同等对待。虽然快速一瞥可能足以应对大多数场景,但有些可能需要更深入的观察。视觉皮层展现出由循环实现的独特多功能性,以根据任务需求动态平衡速度与准确率之间的权衡 [98], [100], [200], [208]。

可变计算深度的能力属于日益流行的自适应计算理念 [100]。最大化大型神经网络的深度(从而最大化参数计数)以赋予它们足够计算能力来应对可能遇到的最具挑战性问题的普遍做法,与自然界的替代方法相比效率极低。相反,循环架构可通过沿时间维度回收其有限的物理资源来实现任意深度 [98], [200]。通过这种方式,当上下文允许此类牺牲且需要更深处理时,大脑可以选择性地牺牲能量和时间以换取提升的计算能力。通过启用多次循环迭代给予更大计算预算,循环 CNN 可在识别准确率方面超越类似参数规模的前馈 CNN [98]。更进一步,循环 CNN 也可学习根据推理问题难度自动增加其循环迭代次数,甚至泛化到未见过的难度级别 [201]。

循环视觉类似于事后推断能力,因为早期层中细细节处理的后续迭代可由可访问大局的更深层视觉表示提供信息。[274] 使用递归皮层网络(RCN)最好地突出了视觉抽象不同层之间此类双向相互作用的含义。此视觉架构受认知科学和计算神经科学模型启发,具有侧向连接、层级特征提取和反馈相互作用。此复杂架构使 RCN 能够以统一方式执行视觉推理、分割和识别。在推理期间,通过模型的快速前向传递激活由输入图像中观察到的低级证据最好支持的高级特征。沿模型的较慢反向传递将这些可能特征传播回早期层,以选择性抑制或增强低级特征,并最终收敛于支持高置信度输出的连贯解释。因此,感知置信度是较慢神经过程的产物,涉及跨抽象层的相互作用,与简单前馈过程相比可支持更复杂的认知。

为视觉架构配备循环已可预见地产生了鲁棒且高效的模型,可灵活平衡速度与准确率以匹配推理需求 [178], [201], [206], [207]。循环在应对挑战性视觉问题方面日益吸引力的一个更具体例子可在近期深度估计文献中找到 [202], [203], [204], [205]。根据这些作品,循环视觉处理的独特优势主要在于其利用时间冗余实现高效计算的能力,此外还可根据部署期间遇到的可变推理需求动态调整计算深度。例如,考虑到机器人应用的能量、内存和时间约束,可以合理预期循环的采用在未来只会越来越流行。

因此,显而易见的是,循环为前馈计算图的约束限制提供了有吸引力的替代方案,这些前馈计算图是一成不变的。对于具有可变计算需求的任务,模型始终利用相同计算资源是没有意义的。除了解决第三节 -D 部分涵盖的灵活性不足外,就推理而言,循环视觉也在缓解第三节 -A 部分强调的计算和能量需求方面走了很长一段路。在边缘部署背景下,此效率优势特别理想,因为机器人平台或移动设备在可用计算和能量方面经常受到约束。

  1. 循环网络可匹配更大前馈网络

循环的效率优势不仅限于推理阶段。与它们的前馈对应物相比,循环模型具有少得多的可训练参数,在优化时样本效率可高得多,同时在训练集之外泛化也更好 [100], [182], [183]。彩票假设(Lottery Ticket Hypothesis)[275] 背后工作的一个相关见解是,存在紧凑网络,它们可比其原始的过参数化版本训练更快且泛化更好 [276], [277], [278]。并且由于 ResNet 似乎近似展开循环网络的迭代处理 [279],[179] 提出可用更小的循环彩票子网络来表示此类深度网络。令人印象深刻的是,此工作中的作者成功将 ResNet-50 模型压缩为循环网络,内存占用小 48.55 倍,而性能无显著下降。此研究路线的观察结果突出了循环网络以更少参数捕捉更大前馈网络相同功能的潜力。

回到前面讨论的 RCN,[183] 用此架构展示了样本效率和分布外泛化方面的突破性结果。嵌入 RCN 架构中的归纳偏置使其能够解决具有挑战性的 CAPTCHA,胜过在 50,000 倍更大数据集上训练的最先进 CNN 模型。而当训练用于手写文本识别时,为 ICDAR 竞赛在 1406 张图像上训练的 RCN 甚至胜过在 790 万张图像上训练的领先 CNN [183]。此外,此研究中的 RCN 能够比 CNN 更好地泛化到噪声和杂乱样本,尽管这些样本在训练数据中缺失。然而,作者强调 RCN 的一个主要缺点是其训练依赖干净样本,这并非总是可行。尽管如此,RCN 架构中 featured 的递归视觉处理和侧向连接已被证明对实现样本高效紧凑网络具有关键作用。

其他工作也类似地证明了神经启发式循环 CNN 的参数和数据效率。例如,为物体识别训练的循环 CNN 模型在 4 个不同基准上优于最先进前馈模型,同时具有更少可训练参数 [180]。在另一项工作中,将门控循环和水平连接整合到流行的 U-Net 架构中,导致样本效率高得多的图像分割,在自然图像和细胞分割基准上表现与最先进持平 [182]。

回到第三节 -A 部分强调的可持续性问题,紧凑且样本高效的模型有可能通过利用更少参数并因此需要更少样本收敛来解决计算和数据训练需求。显然,在视觉中纳入循环的益处是多方面的,难以低估。考虑到生物大脑需要在能量效率的强大生存压力下运作,它们为其人工对应物提供了最大化效率的宝贵模板,循环视觉处理就是一个典型例子。

  1. 实际注意事项与采用障碍

尽管循环具有众多功能优势,但由于优化和训练稳定性方面的根本挑战,其在现代视觉架构中的采用仍然有限。类似于 LNN,循环视觉架构目前最受限于我们使用现有学习算法适当优化它们的能力。众所周知,随时间反向传播(BPTT)遭受梯度消失问题,除了高得令人望而却步的内存开销外,仅部分通过依赖残差连接(例如 LSTM)得到缓解 [232], [243], [280]。此外,反向传播在优化具有复杂图结构的网络时面临困难,这些网络具有丰富反馈和侧向连接。因此,这些架构模式的更广泛采用可能需要纳入视觉皮层已成功用于优化此类复杂网络结构的学习算法的见解。

C. 预测编码

在整个上一节中,我们揭示了由神经启发式自上而下连接解锁的广泛计算功能。从完成部分表示,到事后解释模糊特征,调制计算深度,执行迭代细化,以及介导选择性注意力。神经科学证据表明,皮层网络的双向连接模式支持更广泛的能力库,其中最根本的是预测传播 [100], [208]。关于灵长类视觉皮层的开创性工作表明,反馈通路传达关于即将发生的感官输入的预测,而前馈通路传输任何残差误差 [281]。自上而下期望与自下而上意外之间的这种相互作用在严格前馈的人工架构中缺失,但似乎是生物大脑中推理和学习的一个定义性组件。

预测编码(PC)提供了一个统一解释,用于理解作为预测机器的大脑 [282], [283], [284]。在各种皮层水平,自上而下预测从自下而上感官输入中减去,产生的误差传播到大脑更深处以细化未来预测 [285]。自从首次在视觉处理背景下观察到以来,PC 已被泛化以解释大脑中广泛的认知和神经功能 [283]。在本节中,我们将探索此神经启发式范式如何有望弥合自然智能与人工智能之间剩余的差距。

  1. 继承反向传播的约束

具有高度非线性或循环的模型(如至此讨论的那些)的实际效用的一个根本瓶颈是反向传播算法(如第四节 -A7 和第四节 -B6 部分所述)。虽然反向传播(BP)自 [9] 中普及以来无疑已成为深度学习的基石,但诸如梯度消失问题等局限性已施加了选择压力,深刻塑造了该领域青睐的架构 [80], [232], [286]。另一方面,这种选择压力限制了各种有前景的神经启发式特征的可行性,如 SNN [19], [20]、RNN [243], [287] 以及最近 LNN [197], [244] 中发现的那些。

正如 [19] 中所论证,将特定神经启发式特征孤立地纳入它们已优化的更广泛系统之外,注定无法复现其全部潜力。考虑到这一点,BP 的可疑生物合理性 [12], [288], [181], [289],更是 BPTT 的 [289], [290],表明仍有发现更自然兼容替代方案的空间。一个更具生物合理性的学习算法预计将依赖局部误差信息,规避沿生物大脑固有的大量非线性和复杂布线模式传播全局误差信号的实际挑战 [291]。

回到神经科学文献,我们发现预测编码(PC)不仅已成为解释大脑中推理和学习的领先理论,而且作为 BP 算法的有前景替代方案,具有解决其核心局限性的潜力 [21], [184], [283], [292]。值得注意的是,PC 仅使用局部赫布突触可塑性即可紧密近似 BP 更新 [293], [294]。在 PC 中,层级中的每一层预测前一层的活性,预测误差传播到网络更深处以更新相关参数,有效地用局部化、并行化和异步的替代方案替换通过端到端误差传播的全局信用分配(见图 8 进行比较示意图)[21], [295]。前馈信号(可能携带感官数据或预测误差)要么被镜像反馈预测匹配并抵消,要么如果令人意外,则被进一步向内传输以供层级中更深层解释,最终如果差异持续则驱动学习 [21], [281], [295]。

此学习范式提供了相较于 BP 的一系列计算优势。首先,PC 通过体现最小冗余的信息论原则最大化能量效率,仅通过网络传播信息性信号 [21]。PC 的另一个显著优势是其卓越的并行化能力,由异步局部更新实现,允许跨网络独立调整参数,无需通过网络反向传递的顺序需求和内存瓶颈,使其特别适合内存和计算高度去中心化的可扩展神经形态硬件 [21], [294], [296]。有前景的工作甚至表明,PC 可促进持续、多任务学习,而基于 BP 的方法传统上在此方面受困于灾难性遗忘,同时还表现出更高的样本效率 [184], [209], [297]。此外,PC 支持在具有任意图拓扑的复杂循环网络上学习,适应大脑复杂、异层级的架构 [168], [298];相比之下,BP 对顺序误差传播的依赖将其限制于更简单、层级前馈架构,需要像 BPTT 这样的复杂变通方案来处理循环性,并最终限制架构灵活性 [21], [292], [293], [296]。

预测编码不仅提供了一个优雅的神经启发式框架来克服反向传播中的根本约束,而且还与弥合第三节 -A 部分讨论的计算、数据和能量效率差距以及第三节 -D 部分概述的多功能性差距所需的设计原则紧密一致。此外,PC 中误差校正的局部性质使得在高度非线性和循环架构上实现稳定学习成为可能,如第四节 -A 和第四节 -B 部分探索的那些,迄今为止由于 BP 特定的技术瓶颈,这些架构的实际应用有限。通过支持具有可适应功能的复杂网络结构的去中心化、异步学习,PC 成为一个有前景的神经启发式替代方案,以缓解目前限制人工智能最先进水平的不可持续资源需求、架构约束和性能挑战。

  1. 通过潜在预测跨任意模态的自主自监督学习

学习根本上依赖反馈。幸运的是,未来通过持续暴露观察到的原因的效果,提供了一致丰富的反馈流。预测编码利用这种自然发生的信息流,在实际环境中实现无缝自监督学习。预测目标的普遍性,特别是其泛化到任意下游技能的能力,在近期 GPT(生成式预训练 Transformer)范式的突破性成功中找到了令人信服的验证 [39], [121], [122]。换言之,GPT 已确立,在足够多样化的数据集上学习预测输入序列的延续,不可避免地会产生能够执行各种计算任务的数据通用模型。

PC 框架通过在整个网络层级分布预测而非将其集中在输出层,扩展了 GPT 范式的预测目标。虽然 GPT 模型仅在最终接口预测下一个输入 token,但 PC 预测跨多个中间层的潜在激活,每一层学习预测前一层激活 [21]。在此目标下,记忆观察数据中固有不可预测方面的压力被极大最小化。毕竟,在没有近乎全知、实时知识的情况下,完美预测不如语言压缩程度高的模态中的未来数据在技术上是不可能的 [299]。相反,层级预测激励神经网络优化连贯的多级抽象,使高维连续模态在计算上更易处理 [118], [299], [300]。有趣的是,越来越多的研究也展示了以此目标训练的神经网络如何学习通用模型,同时能够进行分类、生成和关联回忆,无需任何特定任务重新训练 [21], [301]。

此方法与近期通过联合嵌入预测从无结构、连续和高维数据自监督学习的进展一致 [36], [118], [119], [299], [302]。联合嵌入预测架构(JEPA)通过将预测目标提升到编码器模型的较低维潜在空间,解决了准确预测高维数据中任意细节的不可处理性 [118], [119]。在此类模型家族中观察到了理想的涌现属性,如直觉物理理解 [303] 和卓越样本效率 [119]。值得注意的是,这种向潜在预测的转向反映了小鼠视觉皮层更高抽象水平预测处理的日益增加的神经生物学证据 [304],表明此工作路线与生物学习之间存在某种一致。

然而,JEPA 设置通过其多组件设计引入了显著复杂性:处理未掩蔽区域的上下文编码器、单独的目标编码器(通常是上下文编码器的指数移动平均),以及从上下文表示预测目标表示的预测器网络 [118], [119]。此架构需要仔细调整敏感超参数,包括掩蔽比率、指数移动平均衰减率和空间块几何形状。相比之下,PC 通过统一双向模型以更少机制实现相同潜在空间目标,该模型充当编码器和生成器的双重角色,递归预测其自身内部表示,无需外部目标或单独预测头。

关键在于,大脑中的预测不仅限于时间维度;完全相同的预测机制也可沿空间维度侧向扩展,让神经元预测其局部邻域的活性 [283], [305]。作为此原则的例证,近期关于元表征预测编码(MPC)的工作安排了多个视觉处理流,在各层交叉预测彼此的潜在激活,复现了 I-JEPA 的掩蔽块目标,而不依赖外部生成的图像裁剪或将预测限制于最终层嵌入 [306]。实际上,自监督的辅助视图内生地产生于同一编码器内的邻近列,消除了对裁剪大小、重叠比率和 EMA 衰减等手动超参数选择的需求。结果是一个单编码器流程,既具有神经生物学基础,高度样本高效,且比 I-JEPA、V-JEPA 和 DINOv2 的依赖裁剪设置更无需手动干预 [36], [118], [119]。这种相对简单性使 PC 定位为相较于 JEPA 相对复杂且超参数敏感的训练流程,一个可能更鲁棒和可扩展的替代方案。

PC 与其他神经启发式架构之间的协同潜力被证明特别有前景。虽然 PC 可以缓解高度非线性和循环模型中的瓶颈(第四节 -C1),但 LNN 和循环视觉模型为实现 PC 的全部潜力贡献了基本特征。在视觉方面,比较研究表明,预测未来动力学在为时空表示优化的视频基础模型的潜在空间中最有效 [299]。因此,在大型视频流数据集上训练的循环视频基础模型的潜在空间可能因此提供恰好合适的表示,用于对未来动力学进行鲁棒预测 [211], [307],这与基于图像的基础模型形成鲜明对比,后者的潜在表示缺乏预测所需的时间深度。类似地,LNN 固有的分层时间动力学(第四节 -A4)可能实现跨各种时间尺度的多级预测 [299]。综上所述,这种互惠协同完美反映了采用整体且自洽的神经启发式框架的价值,而不是孤立地选择性实施生物智能的有前景特征。

考虑到所有这些,PC 为第三节 -E 部分概述的根本性地面真实诅咒提供了原则性解决方案。生物大脑提供了令人信服的存在证明,展示了 PC 如何促进从高维模态进行通用、自监督学习以支持多样下游任务,实现当前 AI 系统缺乏的自主学习能力。

  1. 预测编码如何通过主动推断实现能动性

迄今为止,PC 提供了将感知作为预测的令人信服的解释,其中令人意外的感官观察不断更新代理对外部环境的生成模型。然而,此标准公式将大脑框架为严格被动的预测机器,缺乏能动性,且未能解释智能代理与其环境之间双向相互作用的另一半。虽然代理可以通过修改其内部模型(即学习)来最小化其预测误差,以更好地使预测与观察一致,但另一个选项是代理修改其环境(即行动)以更好地使观察与预测一致 [308]。

根植于神经科学的主动推断(AIF)范式通过扩展 PC 将学习和行动统一为由相同指令驱动的互补过程,即预测误差最小化,从而体现了这种二元性 [284], [308], [309]。这种统一正式植根于自由能原理(FEP)[284], [309],该原理假设智能代理主动最小化一个称为变分自由能(VFE)的量,这是惊喜的上限,等同于长期预测误差。与 RL 相反,主动推断下的行为不仅被解释为对外部刺激的反应性响应,而是一种主动的推断手段,旨在通过在其所处的环境中实现代理的预测来最小化自由能。

图11:智能体期望自由能(EFE)框架示意图

图12:期望自由能(EFE)数学公式

图13:主动推断中信息增益与信念更新原理

此数学公式以原则性方式解决了探索 - 利用困境,通过将效用和信息最大化视为最小化 EFE 同一指令的互补方面 [213]。内在项类似好奇心,驱动智能体进行系统性探测和实验以最大化信息增益 [123]。关键在于,这里的信息增益是相对于先验信念测量的,而非针对给定观测的绝对预测误差,避免了臭名昭著的“噪声电视问题”,即高度不可预测的噪声在被误认为高度信息丰富时完全劫持智能体的注意力 [185], [214]。另一方面,外在项确保这些探索努力保持情境化并受限于与目标相关的不确定性 [186]。仅在学习工具性(目标导向)行动下,如在 RL 系统中,往往过早收敛于次优解。这通常通过调整额外超参数向行动选择注入随机性来处理,表面模仿探索行为 [126], [186]。相反,纯粹通过认知(信息寻求)行动学习优先考虑准确、详尽的环境模型,代价是样本效率和行为相关性。如在模拟细菌趋化性代理模型的实验中所示,AIF 自然平衡这些竞争目标以实现高样本效率和对次优收敛的鲁棒性 [186]。

此公式将 RL 作为 AIF 伞下的特例包含在内,当好奇心被移除且仅保留实用(外在)价值时出现,简化为最大化期望未来奖励 [210], [212]。关键在于,AIF 不依赖显式奖励信号,而是简单假设奖励隐含在智能体持有先验偏好的观测中。此重新概念化将奖励重新定义为智能体的函数,而非环境的函数,避免了困扰 RL 的常见奖励指定挑战,同时赋予智能体通过将奖励建模吸收到 EFE 目标中从直接经验学习偏好的能力,规避了对脆弱手工设计奖励函数的需求 [212]。值得注意的是,即使在没有外在奖励信号的情况下,或在奖励非常稀疏的环境中,智能体也可以故意参与好奇探索行为,主动发展其世界模型并发现可能影响先验偏好的可达成结果 [212]。值得一提的是,AIF 系统中此类探索行为的例子可以简单如通过移动眼睛(或任何其他致动传感器)朝向预测为有趣的区域来主动从环境采样观测 [312]。

虽然仍处于初期阶段,主动推断提供的理论承诺近年来已开始获得实证牵引力。例如,一个设计为最小化 EFE 的鲁棒主动推断(R-AIF)智能体,其中工具性项基于稀疏奖励和学习的先验偏好,而认知项基于从生成世界模型统计推断的信息增益,在采用部分可观测马尔可夫决策过程(POMDPs)形式的问题上与最先进 RL(DreamerV3 [313])和 AIF 基线进行了比较 [314]。R-AIF 在稀疏奖励机器人任务中始终优于 DreamerV3 和其他基线,收敛更快,实现更高成功率,并保持更大性能稳定性。不同于 DreamerV3 仅通过随机探索积累足够成功经验后才能改进,R-AIF 凭借围绕学习的自修正先验偏好塑造行动轨迹的能力,即使在专家演示挣扎的任务上,也能从最少专家指导早期表现优异 [314]。推进学习效率极限,基于网络的 AIF(NetAIF)被显示在工业阀门操作任务上相比深度 RL 方法如近端策略优化(PPO)实现训练时间减少 99.99%,以及随之而来的计算成本减少 45,000 倍 [315]。其他工作展示了在机器人导航、定位和映射 [316]、模拟和真实人形感知和行动 [317] 等领域的有效学习性能,以及 [215] 中涵盖的许多其他领域。

通过在单一目标下统一行动和学习,主动推断提供了一个第一性原理框架,智能系统可在其下被赋予能动性。配备此类能动性,AI 系统可通过选择性采样信息数据同时动态平衡好奇探索和自信利用,超越第三节 -F 部分描述的被动学习局限。执行 deliberate 干预以解决认知不确定性的能力提供了另一个关键优势,通过 deliberate 实验实现因果学习 [18], [216],其重要性在第三节 -G 部分被强调。因此,此不确定性引导的交互式学习自然导致改进的样本效率 [185], [186], [215],直接解决第三节 -A2 部分的数据挑战。最后,植根于坚实的跨学科基础并得到其生物合理性日益增长的神经学证据支持 [308], [309],主动推断成为利用更新的大脑模型工程化代理系统的有前景下一步,回指第三节 -F。

  1. 实际注意事项与采用障碍

尽管本节描述了有前景的属性,PC 尚未在深度学习实践中作为反向传播的即插即用替代方案获得广泛采用。这主要归因于训练稳定性、推理效率、可扩展性和生态系统兼容性方面的一些未解决挑战。PC 网络训练稳定性中的一个剩余问题是有效缓解缩放模型深度时的梯度爆炸或消失情况 [318]。另一个是推理低效,因为 PC 网络通常需要运行至收敛的迭代推理过程(如在基于能量的模型中),与传统网络的单次前向和反向传递形成对比 [22]。通常,剩余的稳定性、优化和可扩展性挑战迄今为止将 PC 的最先进结果限制于中小规模模型和玩具数据集 [22], [319],仅在最近才在 100 层规模中出现更值得注意的成功 [320]。

另一方面,大多数当前解决这些挑战的尝试倾向于慢慢偏离原始仿生动机,采用来自反向传播的关键元素,在此过程中牺牲了许多使 PC 最初具有吸引力的理想属性 [321], [322]。平行地,现有的模型架构、优化技巧、软件框架和硬件基础设施在过去二十年中都围绕反向传播 heavily 优化,可能需要更根本的重新设计以更好地与 PC 的独特需求对齐。

正如 [22] 所指,PC 的当前状态紧密镜像了早期基于 BP 的深度学习,即在最终实现当今可见的令人印象深刻的性能和可扩展性之前的数十年针对性架构和优化创新之前。然而,不同于 BP,许多约束 PC 的核心挑战,从学习稳定性到计算效率和可扩展性,似乎已被自然解决。这将生物大脑定位为逆向工程此学习机制的更高性能和鲁棒形式的无价灵感来源。

类似地,主动推断面临其自身未解决的技术瓶颈,限制更广泛采用。一个主要问题是源自迭代推理或规划过程的重计算开销,如评估可能行动序列上的期望自由能,这在当前方法下在复杂、高维任务中变得成本高得令人望而却步 [323]。另一个挑战是在智能体的生成世界模型中嵌入适当先验偏好(即目标结果分布)以内在引导其行为的困难 [323],这一设计步骤不如指定奖励函数直接,且主要通过生物大脑中的长期自然选择实现。通常,这些低效率和设计复杂性将 AIF 的成功应用限制于相对简单或模拟场景,甚至那些通常结合传统 DL 元素(例如 BP 训练模块)以实现竞争性性能 [22]。与 PC 一样,围绕 BP 和 RL 训练设置优化的当前 AI 算法和基础设施与 AIF 的范式不自然对齐,意味着需要实质性的进一步创新,可能由生物实现细节的见解引导,以克服这些障碍。

v、结论

在本综述中,我们提出了对人工智能当前状态的全面综合,阐明了其相对于自然智能的剩余差距,并揭示了未来研究的有前景途径。借鉴了过去十年涵盖的广泛研究主体,我们将流行方法的当前局限置于一个更广泛、整体的框架内进行情境化,该框架强调它们的理论相互联系并挑战流行的扩展假设。从此证据中出现的总体图景揭示了根本性的架构和算法缺陷,这些缺陷最终未被基于扩展的变通方案所解决。据我们所知,迄今为止文献中一直缺乏如此广泛且连贯的综合。

在此基础上,我们还回顾了基于现代神经科学见解的有前景的架构和算法解决方案。通过相关仿生创新的独特整合视角,我们呈现了对关于液体神经网络文献的全面综述,以及对循环视觉和预测编码的探索。这些主题中的每一个都例证了如何以原则性的跨学科方式采用更更新的大脑模型,可以在克服限制现代深度学习的根本局限方面大有助益。

液体神经网络,举个例子,设立了一个原则性良好的自下而上方法的主要示例,用于通过从现实世界中最简单的版本开始来逆向工程生物智能。通过纳入更复杂的神经机制,LNN 展现出最先进的效率、泛化、鲁棒性、多功能性、因果理解和表达力水平。类似地,基于生物视觉皮层更新模型将反馈连接纳入视觉架构解决了这些局限中的许多。最后,预测编码提供了一个神经启发式学习框架,允许更好地优化上述架构,同时在当前方法不足的许多强调维度上推动 AI 的前沿。

通过在这些此前分散的子领域之间建立新颖的理论联系,并将它们置于当前最先进 AI 中根本局限的独特全面说明内进行情境化,我们提出了对盛行“规模即一切”范式的及时建设性批判。相反,我们倡导植根于仿生设计原则的创新。通过本综述,我们旨在激励未来研究走向拥抱一个更连贯和统一的框架来设计神经启发式 AI,该框架利用来自调查智能基础机制的成熟科学领域的最新知识。

原文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=11080376




上一篇:斯坦福博士Zitong Yang提出持续自我改进AI框架,合成数据与自动化研究突破极限
下一篇:变分法、最小作用量与自由意志的深度解析:解读《你一生的故事》与物理学中的“目的论”
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-10 10:21 , Processed in 0.600273 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表