5073 积分	0 好友	654 主题

谷歌开源MedGemma 1.5医疗模型，专攻2D/3D医学影像，4B参数量普通显卡可部署

发表于 2026-1-31 22:00:43 | 查看: 180| 回复: 0

输入一张胸部X光片，模型能准确描述肺部情况；输入一例病理切片，模型能准确分类组织来源；输入一段病历和皮肤照片，模型还能写出一份结构化的诊断报告。

这就是此前介绍过的MedGemma 医疗多模态大模型。该模型基于 Gemma 3 架构打造，专为医学图像理解和临床推理任务而设计。

最近，谷歌团队将其升级迭代到 MedGemma 1.5，不仅显著提升了性能，还扩展了对多个新医学影像和数据处理应用的支持。

MedGemma 1.5 多模态医疗模型

其中一个关键突破在于，它从二维图像处理过渡到了 高维医学成像。这意味着模型不再局限于平面的X光或超声图像，而是能够直接处理3D的CT和MRI体数据，甚至可以解读海量的全切片数字病理图像（WSI），实现了从静态二维图像到动态三维数据分析的能力跃迁。

MedGemma 系列模型特性对比

目前，谷歌已经开源了整个 MedGemma 系列模型，包括 MedGemma 1.5、MedASR 以及 MedSigLIP 图像编码器。这些模型可免费用于研究、教学以及商业产品开发，为人工智能在医疗领域的应用降低了门槛。

MedGemma 1.5 (4B 参数量)：一个可以在本地部署的轻量化医疗多模态模型，能够读取并分析文本及图像格式的医疗非结构化数据，并进行推理。
MedSigLIP (0.4B 参数量)：一个专注于医疗领域的图像编码器，适用于不涉及文本生成的任务，例如零样本分类或基于语义的图像检索。
MedASR (0.1B 参数量)：一个专注于医疗术语的语音识别模型，在Whisper large-v3的基准测试中，词错误率（WER）仅为5.2%，转录准确率更高。

# Paper
MedGemma Technical Report
# Arxiv
https://arxiv.org/pdf/2507.05201
# Model
https://huggingface.co/google/medgemma-1.5-4b-it

与第一代的 27B 大模型相比，MedGemma 1.5 4B 是一个参数量更小、可在普通显卡上运行的轻量化模型，更适合本地部署和研究。

MedGemma 系列多模态模型应用范围

相较于通用模型，MedGemma 1.5 的核心亮点在于其对复杂医学场景的强大支持：

原生支持高维医学影像：除了传统的X光和超声，它能直接处理CT、MRI的3D体数据，并支持全切片病理图像。医生甚至可以上传包含数百张切片的整套肺部CT，模型能自动识别病灶分布、体积变化与组织结构异常。
强大的纵向分析与解剖定位能力：模型可以追踪患者数月甚至数年的胸部X光变化，自动标注关键指标的演变趋势。在解剖定位方面，其交并比（IoU）从上一代的约3%大幅提升至38%，能精准锁定肋骨、膈肌等关键结构。
结构化数据提取：它能够从杂乱的实验室报告中自动提取并结构化关键数据，如白细胞计数、肝功能指标等，大幅减轻临床数据录入的工作量。

MedGemma 1.5 诊断分析示例