云栈社区»论坛 › 开发者广场「Dev Plaza」 › MedGemma 1.5与MedASR发布：医学AI性能再升级，应用场景深度解析 ...

发回帖发新帖

4066 积分	0 好友	536 主题

发消息

MedGemma 1.5与MedASR发布：医学AI性能再升级，应用场景深度解析

发表于 2026-2-11 07:04:48 | 查看: 160| 回复: 0

人工智能在医疗保健领域的应用正以前所未有的速度增长，其行业采用率已达到整体经济领域的两倍。为了支持这一变革，Google去年通过Health AI Developer Foundations (HAI-DEF) 计划推出了开放的医疗生成式AI模型——MedGemma系列。这些模型旨在为开发者提供一个坚实的评估和调优基础，助力构建医疗应用，并可通过Vertex AI在Google Cloud上轻松扩展。

机器学习模型的开发与部署流程图
△ MedGemma作为开发者工具预期用途的流程图。

自发布以来，MedGemma在社区中反响热烈，在Hugging Face的下载量已达数百万次，并衍生出数百个社区微调版本。如今，我们乘势而上，正式发布MedGemma 1.5 4B，并在Kaggle平台启动了奖金高达10万美元的MedGemma挑战赛黑客松。

MedGemma 1.5：全面提升的计算高效型起点

基于开发者的直接反馈，MedGemma 1.5 4B专为高效适配涉及多种复杂医学影像模态的应用场景而设计，包括：

高维医学影像：计算机断层扫描（CT）、核磁共振成像（MRI）和组织病理学全切片。
纵向医学影像：针对胸部X光片的时间序列对比分析。
解剖结构定位：在医学图像中定位解剖结构特征。
医学文档理解：从实验报告中提取结构化数据。

相较于MedGemma 1 4B，新版本在文本、医疗记录和2D图像等核心任务上的准确性均有提升。这个40亿参数的版本旨在为开发者提供一个计算效率高、甚至足以离线运行的理想起点。对于更复杂的文本推理应用，开发者依然可以选择MedGemma 1 27B参数模型。

MedASR：专为医疗场景优化的语音识别模型

除了模型升级，我们还发布了MedASR——一款全新的、针对医疗口述场景进行微调的自动化语音识别（ASR）开放模型。它的初始版本允许开发者将医疗语音转换为文本，并能与MedGemma无缝集成，执行高级临床推理任务。

包括MedGemma 1.5、MedASR以及MedSigLIP图像编码器在内的所有HAI-DEF模型，均可免费用于研究和商业用途，开发者可通过Hugging Face下载，或利用Vertex AI进行训练和调整以满足云端扩展需求。

MedGemma Collection多模态生成模型架构图
△ MedGemma模型系列及其能力概述。

医学影像支持能力的显著增强

医学本质上是多模态的。MedGemma 1.5扩展了对高维医学影像的支持，这是对先前CT基础模型能力的自然演进。开发者现在可以向模型输入多个CT/MRI切片或多个病理学图块，连同任务指令，以进行综合分析。

据我们所知，MedGemma 1.5是首个公开发布的、既能解读高维医疗数据，同时保留对通用2D数据和文本理解能力的开放多模态大语言模型。内部基准测试显示，其在多个影像任务上性能显著提升：

CT分类：绝对准确率平均提升3%（61% vs. 58%）。
MRI分类：绝对准确率平均提升14%（65% vs. 51%）。
组织病理学报告生成：ROUGE-L分数大幅提高，与专用模型性能相当。

此外，MedGemma 1.5在其他影像解读任务中也表现更佳：

解剖结构定位：在胸部X光片中定位解剖特征的交并比（IoU）提升了35%。
纵向影像分析：对胸部X光片进行时间序列对比的整体准确率提升了5%。
医学图像解读：在涵盖胸片、皮肤、病理、眼科的单图像基准测试中，准确率提升3%。
检验报告提取：从报告中提取结构化数据的宏观F1分数提升了18%。

MedGemma 1.5 4B在医学影像任务上的性能对比柱状图
△ MedGemma 1.5 4B在多项医学影像任务上的表现均优于前代版本。

使用MedGemma 1.5解读CT三维数据的示例及专家评估
△ 使用MedGemma 1.5 4B解读CT三维数据，以及胸部放射科医生对输出的点评。

使用MedGemma 1.5解读胸部X光片纵向对比的示例及专家评估
△ 使用MedGemma 1.5 4B解读胸部X光片纵向对比，以及胸部放射科医生对输出的点评。

基础文本处理能力的同步改进

除了影像能力，MedGemma 1.5的基础医学文本处理能力也通过新训练数据和技术得到加强：

MedQA（医学问答）：准确率提升5%（69% vs. 64%）。
EHRQA（电子健康记录问答）：准确率大幅提升22%（90% vs. 68%）。

MedGemma 1.5在MedQA和EHRQA文本任务上的性能对比柱状图
△ MedGemma 1.5 4B在医学文本推理任务上表现更优。

MedASR：开启语音交互新维度

在医疗场景中，语音交互（如医患对话、口述记录）至关重要，也为与大语言模型交互提供了更自然的方式。专为医疗词汇优化的MedASR模型，在性能上显著优于通用ASR模型：

在处理胸部X光片语音描述内容时，单词错误率（WER）降低58%。
在内部医疗口述基准测试中，单词错误率（WER）大幅降低82%。

MedASR用于医疗口述转录及为MedGemma生成指令的流程图
△ MedASR可用于转录医疗口述，也可作为生成给MedGemma的输入指令的自然接口。

开发者实践与社区影响

全球的医疗科技初创公司和开发者正在利用MedGemma加速研究和产品开发。例如，Qmed Asia已将MedGemma集成到askCPG中，为马来西亚的临床实践指南提供对话界面。台湾地区的健康保险署则使用MedGemma从数万份病理报告中提取关键数据，以优化肺癌手术的术前评估决策。

MedGemma也已在医学AI研究中被广泛引用，作为理解医学文本、协助多学科会诊、解读乳腺X光报告等应用的基础模型，并显示出优于其他模型的潜力。

如何开始使用

获取模型：

MedGemma全系列模型可通过 Hugging Face合集或 Google Cloud的Vertex AI 获取。
MedASR模型已在 Hugging Face 和 Vertex AI 上线。

学习资源：

访问 MedGemma GitHub代码库，探索丰富的教程，包括推理、基于LoRA的微调以及新的强化学习教程。
所有技术文档和模型卡片均可在HAI-DEF官方网站获取。

参与挑战：
如果您对构建下一代医疗AI应用有想法，欢迎参与总奖金10万美元的 MedGemma挑战赛。

MedGemma、MedGemma 1.5、MedSigLIP、MedASR模型对比表格
△ 此表总结了各模型功能，帮助您选择最适合用例的模型。

重要说明

MedGemma与MedASR等HAI-DEF模型是助力开发者构建处理医疗文本与影像下游应用的研发起点。这些模型不能未经针对具体用例的适当验证、调整和/或实质性修改而直接使用。 其输出不可直接用于临床诊断、治疗决策等任何临床实践。所有输出均应视为初步结果，需通过成熟方法进行独立验证和临床关联。

我们期待在云栈社区看到更多开发者利用这些强大的新模型，构建出能够切实推动医疗保健进步的创新应用。

上一篇：C++后端校招复盘：拿到滴滴SP offer后，我重新认识了这门语言的价值
下一篇：git-ai 源码解读：Rust 如何实现精准的 AI 代码归属追踪

MedGemma, MedASR, 人工智能医疗, 多模态模型, 医学影像