找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3681

积分

0

好友

515

主题
发表于 2026-2-12 01:47:33 | 查看: 71| 回复: 0

好消息,AI也能帮科学家绘制大脑图谱了!

近期,来自加州大学旧金山分校的神经科学团队提出了一种名为 CellTransformer 的机器学习算法。这项黑科技仅花费了几个小时,就完成了对5只小鼠大脑图谱的分类与绘制工作。

《自然-通讯》论文截图

这五只小鼠大脑的基因数据中包含了1040万个细胞,每个细胞又包含数百个基因。通过这一创新算法,研究团队不仅清晰地划分出了小鼠大脑内的已知区域,还成功绘制出了新的脑区。更关键的是,这项技术未来很可能被应用于人类大脑的研究

画脑图的最新黑科技:CellTransformer

大脑图谱绘制是一门历史悠久的学科。过去的方法相当繁琐,需要科学家用铅笔在脑部图像上手动画线,连接不同区域。2020年发布的艾伦小鼠脑通用坐标框架 (Allen Mouse Brain Common Coordinate Framework) ,正是采用这种方法绘制而成。

艾伦小鼠脑通用坐标框架

这幅基于1675只小鼠脑部数据的图谱涵盖了1000多个不同脑区,价值极高。但这类手工特征强烈的图谱也存在一个不可避免的问题:主观性。正如宾夕法尼亚州立大学医学院的神经解剖学家金永洙(Yongsoo Kim)所言,当他向资深专家请教如何画脑图时,得到的回答往往是:“这都是我脑子里的。

如今,情况已然不同。来自加州大学旧金山分校的 Reza Abbasi-Asl 和他的团队提出的 CellTransformer 编码器-解码器架构,能在数小时内完成这项浩大工程。

那么,CellTransformer 是如何工作的呢?其核心思路是:随机遮住一个细胞的身份和基因表达,让模型根据其邻居细胞的信息来预测它,预测错误就更新模型,这个过程会重复数百万次

具体来说,研究人员首先为每个细胞划定一个“邻域”——即以该细胞为中心,在一定微米距离内的所有细胞。这样一来,模型能同时观察到细胞间的空间结构关系与分子层面的差异。

在这个邻域中,每个细胞都被视为一个 token,类似于语言模型中的一个词语。CellTransformer 利用 Transformer自注意力机制,让这些细胞彼此“交流”,从而自动学习哪些细胞间的关系更重要,哪些邻居对当前细胞的影响更大。

CellTransformer 模型架构与流程

在训练时,研究人员采用了一种巧妙的自监督学习方式。模型会随机选中一个细胞,将其基因表达信息“掩码”,仅保留细胞类型标签,然后要求模型根据周围邻居的情况,预测该细胞原本应表达的基因。

其内部流程是这样的:通过多层 Transformer 编码器,模型让邻域内所有细胞的信息充分交互。随后,这些细胞的表示会通过一个学习得到的池化操作,被压缩成一个代表整个邻域“组织环境”的向量。

接着,模型再结合被掩码细胞的类型信息,通过一个较浅的解码器,反推出该细胞的基因表达分布。

最终,研究人员为每个细胞提取一个“邻域表示向量”,并将所有细胞、所有切片的这些向量拼接在一起。再使用 k-means 等聚类方法进行分析,脑区便会“自行浮现”。已知的功能区会自然对齐,而在一些区域中,模型还能进一步拆分出更精细的亚区,甚至发现过去从未被系统标注过的新脑区

效果究竟有多强?

为了验证 CellTransformer 的有效性,研究团队在 ABC-WMB 数据集上进行了系统评估。该数据集包含5只小鼠的脑组织切片数据,其中一只小鼠的数据使用包含500个基因的 MERFISH panel 采集了53个冠状切片,其余四只则使用了包含1129个基因的 panel。

首先,效率极高。CellTransformer 在数小时内完成了对 5只小鼠、总计1040万个细胞 的空间组织建模,这在时间和规模上都是传统方法无法比拟的。

其次,能够准确对齐已知的脑结构分区。CellTransformer 可以在小鼠大脑中定义 25到1300个 神经区域,并且在完全不使用任何先验脑区标签的情况下,其划分结果与已知的解剖结构和功能分区高度吻合。

由于 CellTransformer 是基于其预测结果对细胞进行分组,而非凭空生成,因此不存在 “幻觉”问题。研究团队将其输出结果与手绘的艾伦小鼠脑通用坐标框架进行对比,发现两者吻合良好,展现了相似的结构,连大脑皮层中的层级结构也能做到一致。

CellTransformer 结果与艾伦框架对比

上图左侧是 CellTransformer 绘制的小鼠脑图,右侧是人类科学家绘制的艾伦框架图谱。两者都定位了大脑中1000多个细胞亚区,但AI发现的细节更多

例如,在海马体分区的识别中,当聚类数 k=1300 时,CellTransformer 识别出的空间域边界与过去研究中定义的亚区(如背侧下托的三层组织、前下托的背腹侧组织)高度一致。

海马体分区识别结果

而在上丘区域,CellTransformer 也清晰识别了感觉层的带状层、浅灰层和视层,以及运动相关中间灰质和白质的亚区,其发现的结构与通过投影映射确定的内外侧结构类似。

第三,除了对齐已知脑区,CellTransformer 的强大之处在于能识别并绘制出全新的区域,即使是先前通用神经科学方法可能遗漏的区域也不在话下。

纹状体(在小鼠脑图谱中称为尾壳核)为例,研究发现,当调整不同的 k 值(聚类数)时,尾壳核会呈现出网格状、交错的空间结构,这与之前基于投射连接研究得出的 Voronoi 分区高度一致。

不同k值下的纹状体(尾壳核)分区

这一发现意外地回答了神经科学领域的一个长期疑问:已知参与运动、奖赏和高级认知功能的纹状体,其同一部分是如何执行如此多不同任务的? 答案似乎是:尾壳核并非一个单一的均质脑区。从图谱中可以看出,它实际上被细分为众多更小的功能单元,不过每个单元对应的具体功能仍有待进一步研究。

另一个例子是脑干中的中脑网状核,这是一个研究相对较少的、负责启动运动的区域。CellTransformer 在该区域识别出了 4个全新的亚区,每个亚区都具有独特的细胞类型组成和特定的基因激活模式,甚至发现了一些此前被定位在大脑其他区域的细胞类型。

中脑网状核区域的新发现

第四,CellTransformer 并非“小鼠特供算法”,它能够很好地扩展到多动物、百万细胞级别的复杂数据集。

为了测试其整合不同动物样本的能力,团队基于另一个 MERFISH 数据集重新训练了一个模型。结果显示,CellTransformer 在所有测试动物中生成了一致的脑亚区划分,所识别的脑区在不同个体间高度重复,这表明该方法能够成功整合具有测量异质性的多动物脑数据

跨动物数据集的整合能力验证

真正的目标:人脑

当然,小鼠并非终极实验目的,这项算法最终的应用目标直指——人类大脑。研究人员推测,小鼠和人类大脑的部分区域会高度保守,而另一些区域则可能存在显著差异。

然而,挑战是巨大的:小鼠大脑约有1亿个细胞,而人脑则拥有约1700亿个细胞。目前,我们还无法从人脑中获得足够高分辨率、大规模的单细胞空间数据来进行准确预测。

尽管如此,研究团队对未来充满信心。Abbasi-Asl 认为,一旦获得足够的数据,CellTransformer 将有能力应对这一挑战。除了大脑,同样的算法逻辑也可用于肾脏、病理组织等其他器官,通过提供详尽的细胞图谱,帮助科学家深入研究(例如区分健康与病变肾脏的差异)。

随着深度学习与数据采集技术的飞速发展,AI绘制出完整人类脑图谱的那一天,或许真的不远了。这项研究不仅展示了 Transformer 架构在生物医学领域的强大潜力,也为理解大脑这一最复杂的器官开辟了全新的数据驱动路径。对这类前沿交叉技术感兴趣的朋友,可以到云栈社区人工智能板块查看更多深度讨论。

参考链接:
[1] https://www.quantamagazine.org/fed-on-reams-of-cell-data-ai-maps-new-neighborhoods-in-the-brain-20260209/
[2] https://www.nature.com/articles/s41467-025-64259-4#MOESM1




上一篇:AI编程实战:大模型选型指南,像组建团队一样配置你的AI编码工具
下一篇:使用Trae与Skill-creator将GitHub项目私有化为AI技能库的完整教程
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-23 13:00 , Processed in 0.691830 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表