找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1482

积分

0

好友

194

主题
发表于 2026-2-11 07:04:48 | 查看: 29| 回复: 0

人工智能在医疗保健领域的应用正以前所未有的速度增长,其行业采用率已达到整体经济领域的两倍。为了支持这一变革,Google去年通过Health AI Developer Foundations (HAI-DEF) 计划推出了开放的医疗生成式AI模型——MedGemma系列。这些模型旨在为开发者提供一个坚实的评估和调优基础,助力构建医疗应用,并可通过Vertex AI在Google Cloud上轻松扩展。

机器学习模型的开发与部署流程图
△ MedGemma作为开发者工具预期用途的流程图。

自发布以来,MedGemma在社区中反响热烈,在Hugging Face的下载量已达数百万次,并衍生出数百个社区微调版本。如今,我们乘势而上,正式发布MedGemma 1.5 4B,并在Kaggle平台启动了奖金高达10万美元的MedGemma挑战赛黑客松。

MedGemma 1.5:全面提升的计算高效型起点

基于开发者的直接反馈,MedGemma 1.5 4B专为高效适配涉及多种复杂医学影像模态的应用场景而设计,包括:

  • 高维医学影像:计算机断层扫描(CT)、核磁共振成像(MRI)和组织病理学全切片。
  • 纵向医学影像:针对胸部X光片的时间序列对比分析。
  • 解剖结构定位:在医学图像中定位解剖结构特征。
  • 医学文档理解:从实验报告中提取结构化数据。

相较于MedGemma 1 4B,新版本在文本、医疗记录和2D图像等核心任务上的准确性均有提升。这个40亿参数的版本旨在为开发者提供一个计算效率高、甚至足以离线运行的理想起点。对于更复杂的文本推理应用,开发者依然可以选择MedGemma 1 27B参数模型。

MedASR:专为医疗场景优化的语音识别模型

除了模型升级,我们还发布了MedASR——一款全新的、针对医疗口述场景进行微调的自动化语音识别(ASR)开放模型。它的初始版本允许开发者将医疗语音转换为文本,并能与MedGemma无缝集成,执行高级临床推理任务。

包括MedGemma 1.5、MedASR以及MedSigLIP图像编码器在内的所有HAI-DEF模型,均可免费用于研究和商业用途,开发者可通过Hugging Face下载,或利用Vertex AI进行训练和调整以满足云端扩展需求。

MedGemma Collection多模态生成模型架构图
△ MedGemma模型系列及其能力概述。

医学影像支持能力的显著增强

医学本质上是多模态的。MedGemma 1.5扩展了对高维医学影像的支持,这是对先前CT基础模型能力的自然演进。开发者现在可以向模型输入多个CT/MRI切片或多个病理学图块,连同任务指令,以进行综合分析。

据我们所知,MedGemma 1.5是首个公开发布的、既能解读高维医疗数据,同时保留对通用2D数据和文本理解能力的开放多模态大语言模型。内部基准测试显示,其在多个影像任务上性能显著提升:

  • CT分类:绝对准确率平均提升3%(61% vs. 58%)。
  • MRI分类:绝对准确率平均提升14%(65% vs. 51%)。
  • 组织病理学报告生成:ROUGE-L分数大幅提高,与专用模型性能相当。

此外,MedGemma 1.5在其他影像解读任务中也表现更佳:

  • 解剖结构定位:在胸部X光片中定位解剖特征的交并比(IoU)提升了35%。
  • 纵向影像分析:对胸部X光片进行时间序列对比的整体准确率提升了5%。
  • 医学图像解读:在涵盖胸片、皮肤、病理、眼科的单图像基准测试中,准确率提升3%。
  • 检验报告提取:从报告中提取结构化数据的宏观F1分数提升了18%。

MedGemma 1.5 4B在医学影像任务上的性能对比柱状图
△ MedGemma 1.5 4B在多项医学影像任务上的表现均优于前代版本。

使用MedGemma 1.5解读CT三维数据的示例及专家评估
△ 使用MedGemma 1.5 4B解读CT三维数据,以及胸部放射科医生对输出的点评。

使用MedGemma 1.5解读胸部X光片纵向对比的示例及专家评估
△ 使用MedGemma 1.5 4B解读胸部X光片纵向对比,以及胸部放射科医生对输出的点评。

基础文本处理能力的同步改进

除了影像能力,MedGemma 1.5的基础医学文本处理能力也通过新训练数据和技术得到加强:

  • MedQA(医学问答):准确率提升5%(69% vs. 64%)。
  • EHRQA(电子健康记录问答):准确率大幅提升22%(90% vs. 68%)。

MedGemma 1.5在MedQA和EHRQA文本任务上的性能对比柱状图
△ MedGemma 1.5 4B在医学文本推理任务上表现更优。

MedASR:开启语音交互新维度

在医疗场景中,语音交互(如医患对话、口述记录)至关重要,也为与大语言模型交互提供了更自然的方式。专为医疗词汇优化的MedASR模型,在性能上显著优于通用ASR模型:

  • 在处理胸部X光片语音描述内容时,单词错误率(WER)降低58%。
  • 在内部医疗口述基准测试中,单词错误率(WER)大幅降低82%。

MedASR用于医疗口述转录及为MedGemma生成指令的流程图
△ MedASR可用于转录医疗口述,也可作为生成给MedGemma的输入指令的自然接口。

开发者实践与社区影响

全球的医疗科技初创公司和开发者正在利用MedGemma加速研究和产品开发。例如,Qmed Asia已将MedGemma集成到askCPG中,为马来西亚的临床实践指南提供对话界面。台湾地区的健康保险署则使用MedGemma从数万份病理报告中提取关键数据,以优化肺癌手术的术前评估决策。

MedGemma也已在医学AI研究中被广泛引用,作为理解医学文本、协助多学科会诊、解读乳腺X光报告等应用的基础模型,并显示出优于其他模型的潜力。

如何开始使用

获取模型

学习资源

  • 访问 MedGemma GitHub代码库,探索丰富的教程,包括推理、基于LoRA的微调以及新的强化学习教程。
  • 所有技术文档和模型卡片均可在HAI-DEF官方网站获取。

参与挑战
如果您对构建下一代医疗AI应用有想法,欢迎参与总奖金10万美元的 MedGemma挑战赛

MedGemma、MedGemma 1.5、MedSigLIP、MedASR模型对比表格
△ 此表总结了各模型功能,帮助您选择最适合用例的模型。

重要说明

MedGemma与MedASR等HAI-DEF模型是助力开发者构建处理医疗文本与影像下游应用的研发起点。这些模型不能未经针对具体用例的适当验证、调整和/或实质性修改而直接使用。 其输出不可直接用于临床诊断、治疗决策等任何临床实践。所有输出均应视为初步结果,需通过成熟方法进行独立验证和临床关联。

我们期待在云栈社区看到更多开发者利用这些强大的新模型,构建出能够切实推动医疗保健进步的创新应用。




上一篇:C++后端校招复盘:拿到滴滴SP offer后,我重新认识了这门语言的价值
下一篇:git-ai 源码解读:Rust 如何实现精准的 AI 代码归属追踪
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-23 09:01 , Processed in 0.595196 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表