云栈社区»论坛 › 开发者广场「Dev Plaza」 › CellTransformer模型仅用几小时绘制小鼠脑图，发现未知脑区 ...

5618 积分	0 好友	762 主题

发消息

CellTransformer模型仅用几小时绘制小鼠脑图，发现未知脑区

发表于 2026-2-12 01:47:33 | 查看: 160| 回复: 0

好消息，AI也能帮科学家绘制大脑图谱了！

近期，来自加州大学旧金山分校的神经科学团队提出了一种名为 CellTransformer 的机器学习算法。这项黑科技仅花费了几个小时，就完成了对5只小鼠大脑图谱的分类与绘制工作。

《自然-通讯》论文截图

这五只小鼠大脑的基因数据中包含了1040万个细胞，每个细胞又包含数百个基因。通过这一创新算法，研究团队不仅清晰地划分出了小鼠大脑内的已知区域，还成功绘制出了新的脑区。更关键的是，这项技术未来很可能被应用于人类大脑的研究。

画脑图的最新黑科技：CellTransformer

大脑图谱绘制是一门历史悠久的学科。过去的方法相当繁琐，需要科学家用铅笔在脑部图像上手动画线，连接不同区域。2020年发布的艾伦小鼠脑通用坐标框架 (Allen Mouse Brain Common Coordinate Framework) ，正是采用这种方法绘制而成。

艾伦小鼠脑通用坐标框架

这幅基于1675只小鼠脑部数据的图谱涵盖了1000多个不同脑区，价值极高。但这类手工特征强烈的图谱也存在一个不可避免的问题：主观性。正如宾夕法尼亚州立大学医学院的神经解剖学家金永洙（Yongsoo Kim）所言，当他向资深专家请教如何画脑图时，得到的回答往往是：“这都是我脑子里的。”

如今，情况已然不同。来自加州大学旧金山分校的 Reza Abbasi-Asl 和他的团队提出的 CellTransformer 编码器-解码器架构，能在数小时内完成这项浩大工程。

那么，CellTransformer 是如何工作的呢？其核心思路是：随机遮住一个细胞的身份和基因表达，让模型根据其邻居细胞的信息来预测它，预测错误就更新模型，这个过程会重复数百万次。

具体来说，研究人员首先为每个细胞划定一个“邻域”——即以该细胞为中心，在一定微米距离内的所有细胞。这样一来，模型能同时观察到细胞间的空间结构关系与分子层面的差异。

在这个邻域中，每个细胞都被视为一个 token，类似于语言模型中的一个词语。CellTransformer 利用 Transformer 的自注意力机制，让这些细胞彼此“交流”，从而自动学习哪些细胞间的关系更重要，哪些邻居对当前细胞的影响更大。

CellTransformer 模型架构与流程

在训练时，研究人员采用了一种巧妙的自监督学习方式。模型会随机选中一个细胞，将其基因表达信息“掩码”，仅保留细胞类型标签，然后要求模型根据周围邻居的情况，预测该细胞原本应表达的基因。

其内部流程是这样的：通过多层 Transformer 编码器，模型让邻域内所有细胞的信息充分交互。随后，这些细胞的表示会通过一个学习得到的池化操作，被压缩成一个代表整个邻域“组织环境”的向量。

接着，模型再结合被掩码细胞的类型信息，通过一个较浅的解码器，反推出该细胞的基因表达分布。

最终，研究人员为每个细胞提取一个“邻域表示向量”，并将所有细胞、所有切片的这些向量拼接在一起。再使用 k-means 等聚类方法进行分析，脑区便会“自行浮现”。已知的功能区会自然对齐，而在一些区域中，模型还能进一步拆分出更精细的亚区，甚至发现过去从未被系统标注过的新脑区。

效果究竟有多强？

为了验证 CellTransformer 的有效性，研究团队在 ABC-WMB 数据集上进行了系统评估。该数据集包含5只小鼠的脑组织切片数据，其中一只小鼠的数据使用包含500个基因的 MERFISH panel 采集了53个冠状切片，其余四只则使用了包含1129个基因的 panel。

首先，效率极高。CellTransformer 在数小时内完成了对 5只小鼠、总计1040万个细胞 的空间组织建模，这在时间和规模上都是传统方法无法比拟的。

其次，能够准确对齐已知的脑结构分区。CellTransformer 可以在小鼠大脑中定义 25到1300个 神经区域，并且在完全不使用任何先验脑区标签的情况下，其划分结果与已知的解剖结构和功能分区高度吻合。

由于 CellTransformer 是基于其预测结果对细胞进行分组，而非凭空生成，因此不存在 “幻觉”问题。研究团队将其输出结果与手绘的艾伦小鼠脑通用坐标框架进行对比，发现两者吻合良好，展现了相似的结构，连大脑皮层中的层级结构也能做到一致。

CellTransformer 结果与艾伦框架对比

上图左侧是 CellTransformer 绘制的小鼠脑图，右侧是人类科学家绘制的艾伦框架图谱。两者都定位了大脑中1000多个细胞亚区，但AI发现的细节更多。

例如，在海马体分区的识别中，当聚类数 k=1300 时，CellTransformer 识别出的空间域边界与过去研究中定义的亚区（如背侧下托的三层组织、前下托的背腹侧组织）高度一致。

海马体分区识别结果

而在上丘区域，CellTransformer 也清晰识别了感觉层的带状层、浅灰层和视层，以及运动相关中间灰质和白质的亚区，其发现的结构与通过投影映射确定的内外侧结构类似。

第三，除了对齐已知脑区，CellTransformer 的强大之处在于能识别并绘制出全新的区域，即使是先前通用神经科学方法可能遗漏的区域也不在话下。

以纹状体（在小鼠脑图谱中称为尾壳核）为例，研究发现，当调整不同的 k 值（聚类数）时，尾壳核会呈现出网格状、交错的空间结构，这与之前基于投射连接研究得出的 Voronoi 分区高度一致。

不同k值下的纹状体（尾壳核）分区

这一发现意外地回答了神经科学领域的一个长期疑问：已知参与运动、奖赏和高级认知功能的纹状体，其同一部分是如何执行如此多不同任务的？ 答案似乎是：尾壳核并非一个单一的均质脑区。从图谱中可以看出，它实际上被细分为众多更小的功能单元，不过每个单元对应的具体功能仍有待进一步研究。

另一个例子是脑干中的中脑网状核，这是一个研究相对较少的、负责启动运动的区域。CellTransformer 在该区域识别出了 4个全新的亚区，每个亚区都具有独特的细胞类型组成和特定的基因激活模式，甚至发现了一些此前被定位在大脑其他区域的细胞类型。

中脑网状核区域的新发现

第四，CellTransformer 并非“小鼠特供算法”，它能够很好地扩展到多动物、百万细胞级别的复杂数据集。

为了测试其整合不同动物样本的能力，团队基于另一个 MERFISH 数据集重新训练了一个模型。结果显示，CellTransformer 在所有测试动物中生成了一致的脑亚区划分，所识别的脑区在不同个体间高度重复，这表明该方法能够成功整合具有测量异质性的多动物脑数据。

跨动物数据集的整合能力验证

真正的目标：人脑

当然，小鼠并非终极实验目的，这项算法最终的应用目标直指——人类大脑。研究人员推测，小鼠和人类大脑的部分区域会高度保守，而另一些区域则可能存在显著差异。

然而，挑战是巨大的：小鼠大脑约有1亿个细胞，而人脑则拥有约1700亿个细胞。目前，我们还无法从人脑中获得足够高分辨率、大规模的单细胞空间数据来进行准确预测。

尽管如此，研究团队对未来充满信心。Abbasi-Asl 认为，一旦获得足够的数据，CellTransformer 将有能力应对这一挑战。除了大脑，同样的算法逻辑也可用于肾脏、病理组织等其他器官，通过提供详尽的细胞图谱，帮助科学家深入研究（例如区分健康与病变肾脏的差异）。

随着深度学习与数据采集技术的飞速发展，AI绘制出完整人类脑图谱的那一天，或许真的不远了。这项研究不仅展示了 Transformer 架构在生物医学领域的强大潜力，也为理解大脑这一最复杂的器官开辟了全新的数据驱动路径。对这类前沿交叉技术感兴趣的朋友，可以到云栈社区的人工智能板块查看更多深度讨论。

参考链接：
[1] https://www.quantamagazine.org/fed-on-reams-of-cell-data-ai-maps-new-neighborhoods-in-the-brain-20260209/
[2] https://www.nature.com/articles/s41467-025-64259-4#MOESM1

上一篇：AI编程实战：大模型选型指南，像组建团队一样配置你的AI编码工具
下一篇：使用Trae与Skill-creator将GitHub项目私有化为AI技能库的完整教程

Transformer, 深度学习, 神经科学, 小鼠大脑, 空间转录组学

CellTransformer模型仅用几小时绘制小鼠脑图，发现未知脑区

画脑图的最新黑科技：CellTransformer

效果究竟有多强？

真正的目标：人脑

相关帖子