人工智能在医疗保健领域的应用正以前所未有的速度增长,其行业采用率已达到整体经济领域的两倍。为了支持这一变革,Google去年通过Health AI Developer Foundations (HAI-DEF) 计划推出了开放的医疗生成式AI模型——MedGemma系列。这些模型旨在为开发者提供一个坚实的评估和调优基础,助力构建医疗应用,并可通过Vertex AI在Google Cloud上轻松扩展。

△ MedGemma作为开发者工具预期用途的流程图。
自发布以来,MedGemma在社区中反响热烈,在Hugging Face的下载量已达数百万次,并衍生出数百个社区微调版本。如今,我们乘势而上,正式发布MedGemma 1.5 4B,并在Kaggle平台启动了奖金高达10万美元的MedGemma挑战赛黑客松。
MedGemma 1.5:全面提升的计算高效型起点
基于开发者的直接反馈,MedGemma 1.5 4B专为高效适配涉及多种复杂医学影像模态的应用场景而设计,包括:
- 高维医学影像:计算机断层扫描(CT)、核磁共振成像(MRI)和组织病理学全切片。
- 纵向医学影像:针对胸部X光片的时间序列对比分析。
- 解剖结构定位:在医学图像中定位解剖结构特征。
- 医学文档理解:从实验报告中提取结构化数据。
相较于MedGemma 1 4B,新版本在文本、医疗记录和2D图像等核心任务上的准确性均有提升。这个40亿参数的版本旨在为开发者提供一个计算效率高、甚至足以离线运行的理想起点。对于更复杂的文本推理应用,开发者依然可以选择MedGemma 1 27B参数模型。
MedASR:专为医疗场景优化的语音识别模型
除了模型升级,我们还发布了MedASR——一款全新的、针对医疗口述场景进行微调的自动化语音识别(ASR)开放模型。它的初始版本允许开发者将医疗语音转换为文本,并能与MedGemma无缝集成,执行高级临床推理任务。
包括MedGemma 1.5、MedASR以及MedSigLIP图像编码器在内的所有HAI-DEF模型,均可免费用于研究和商业用途,开发者可通过Hugging Face下载,或利用Vertex AI进行训练和调整以满足云端扩展需求。

△ MedGemma模型系列及其能力概述。
医学影像支持能力的显著增强
医学本质上是多模态的。MedGemma 1.5扩展了对高维医学影像的支持,这是对先前CT基础模型能力的自然演进。开发者现在可以向模型输入多个CT/MRI切片或多个病理学图块,连同任务指令,以进行综合分析。
据我们所知,MedGemma 1.5是首个公开发布的、既能解读高维医疗数据,同时保留对通用2D数据和文本理解能力的开放多模态大语言模型。内部基准测试显示,其在多个影像任务上性能显著提升:
- CT分类:绝对准确率平均提升3%(61% vs. 58%)。
- MRI分类:绝对准确率平均提升14%(65% vs. 51%)。
- 组织病理学报告生成:ROUGE-L分数大幅提高,与专用模型性能相当。
此外,MedGemma 1.5在其他影像解读任务中也表现更佳:
- 解剖结构定位:在胸部X光片中定位解剖特征的交并比(IoU)提升了35%。
- 纵向影像分析:对胸部X光片进行时间序列对比的整体准确率提升了5%。
- 医学图像解读:在涵盖胸片、皮肤、病理、眼科的单图像基准测试中,准确率提升3%。
- 检验报告提取:从报告中提取结构化数据的宏观F1分数提升了18%。

△ MedGemma 1.5 4B在多项医学影像任务上的表现均优于前代版本。

△ 使用MedGemma 1.5 4B解读CT三维数据,以及胸部放射科医生对输出的点评。

△ 使用MedGemma 1.5 4B解读胸部X光片纵向对比,以及胸部放射科医生对输出的点评。
基础文本处理能力的同步改进
除了影像能力,MedGemma 1.5的基础医学文本处理能力也通过新训练数据和技术得到加强:
- MedQA(医学问答):准确率提升5%(69% vs. 64%)。
- EHRQA(电子健康记录问答):准确率大幅提升22%(90% vs. 68%)。

△ MedGemma 1.5 4B在医学文本推理任务上表现更优。
MedASR:开启语音交互新维度
在医疗场景中,语音交互(如医患对话、口述记录)至关重要,也为与大语言模型交互提供了更自然的方式。专为医疗词汇优化的MedASR模型,在性能上显著优于通用ASR模型:
- 在处理胸部X光片语音描述内容时,单词错误率(WER)降低58%。
- 在内部医疗口述基准测试中,单词错误率(WER)大幅降低82%。

△ MedASR可用于转录医疗口述,也可作为生成给MedGemma的输入指令的自然接口。
开发者实践与社区影响
全球的医疗科技初创公司和开发者正在利用MedGemma加速研究和产品开发。例如,Qmed Asia已将MedGemma集成到askCPG中,为马来西亚的临床实践指南提供对话界面。台湾地区的健康保险署则使用MedGemma从数万份病理报告中提取关键数据,以优化肺癌手术的术前评估决策。
MedGemma也已在医学AI研究中被广泛引用,作为理解医学文本、协助多学科会诊、解读乳腺X光报告等应用的基础模型,并显示出优于其他模型的潜力。
如何开始使用
获取模型:
学习资源:
参与挑战:
如果您对构建下一代医疗AI应用有想法,欢迎参与总奖金10万美元的 MedGemma挑战赛。

△ 此表总结了各模型功能,帮助您选择最适合用例的模型。
重要说明
MedGemma与MedASR等HAI-DEF模型是助力开发者构建处理医疗文本与影像下游应用的研发起点。这些模型不能未经针对具体用例的适当验证、调整和/或实质性修改而直接使用。 其输出不可直接用于临床诊断、治疗决策等任何临床实践。所有输出均应视为初步结果,需通过成熟方法进行独立验证和临床关联。
我们期待在云栈社区看到更多开发者利用这些强大的新模型,构建出能够切实推动医疗保健进步的创新应用。