云栈社区»论坛 › 开发者广场「Dev Plaza」 › 健康AI工具涌现：市场需求旺盛，但独立评估与安全挑战犹存 ...

发回帖发新帖

4465 积分	0 好友	644 主题

发消息

健康AI工具涌现：市场需求旺盛，但独立评估与安全挑战犹存

发表于 2026-3-31 23:07:16 | 查看: 88| 回复: 0

超现实主义拼贴画：探讨健康、技术与意识的未来

面向大众的健康AI正在成为一股不可忽视的趋势。最近，微软在其Copilot产品中推出了Copilot Health子模块，允许用户接入个人医疗记录并咨询健康问题。紧接着，亚马逊也宣布将此前仅限会员使用的Health AI向公众全面开放。它们加入了今年1月OpenAI发布的ChatGPT Health以及Anthropic的Claude Health的队列。

这波热潮背后，是市场对能提供健康建议的聊天机器人的明确需求。很多人难以通过现有医疗体系获得及时帮助，而研究表明，当前的大语言模型确实能够给出安全且有用的建议。然而，研究人员也普遍认为，这些工具在大范围发布前，急需接受来自独立专家的更严格评估。

在健康这样高风险的领域，完全信任公司自行评估自家产品可能并不明智，尤其是在评估结果不对外公开的情况下。即使公司内部进行了高质量研究，仍可能存在盲区，需要更广泛的研究社区来补充和验证。

“在医疗资源始终稀缺的前提下，我认为我们确实应该探索每一条可行的路径，”牛津互联网研究所的博士生安德鲁·比恩（Andrew Bean）表示，“在我看来，这些模型完全有可能已经到了值得推广的水平。但是，”他强调，“评估必须非常严格。”

庞大的市场需求

在开发者看来，现在推出健康AI产品，是因为大语言模型的技术能力已经达到了有效提供医疗建议的门槛。微软AI健康业务副总裁、前外科医生多米尼克·金（Dominic King）将AI能力的进步视为核心驱动力。“我们看到生成式AI在回答健康问题、给出优质回复方面取得了巨大进步，”他说。

需求是另一个关键因素。在Copilot Health推出前，微软的一份报告显示，其每天收到高达5000万个健康相关问题，健康已成为Copilot移动端应用上最热门的话题。其他AI公司也注意到了这一趋势。OpenAI健康AI团队负责人卡兰·辛格尔（Karan Singhal）坦言，甚至在推出专门产品前，用户使用ChatGPT咨询健康问题的频率就在飞速增长。

人们或许只是更喜欢向一个24小时在线、不带主观评判的机器人倾诉。但许多专家从更深层的医疗体系现状来解读这一现象。“这些工具的存在和定位是有原因的，”西奈山医疗系统的首席AI官吉里什·纳德卡尼（Girish Nadkarni）指出，“因为获取医疗服务很难，对某些人群来说尤其困难。”

理想情况下，面向消费者的健康聊天机器人可以在改善用户健康的同时，减轻医疗系统的压力，例如通过分诊功能——帮助用户判断是否需要就医。如果有效，需要急救的患者能更早寻求治疗，而轻症患者则能根据建议在家管理，避免增加不必要的医疗负担。

然而，纳德卡尼及其团队最近发表的一项研究发现，ChatGPT Health有时会对轻症建议过度治疗，同时未能识别出紧急情况。这项研究引发了人们对工具缺乏外部安全评估的担忧。

为本文接受采访的大多数学术专家认为，考虑到部分人群获取医疗服务的难度，健康聊天机器人确实可能带来实际好处。但几乎所有专家都表达了同一种担忧：这些工具在没有经过独立研究者严格安全评估的情况下就上线了。像分诊、提供诊断或治疗方案等应用，存在明显的风险。

尽管ChatGPT Health、Copilot Health和亚马逊Health AI的界面上都有醒目的免责声明，表示不用于诊断或治疗，但这些警告很容易被忽略。“我们都知道人们会拿它来做诊断和管理病情，”贝斯以色列女执事医疗中心的内科医生、Google访问研究员亚当·罗德曼（Adam Rodman）说。

严谨的医学测试

相关公司表示，他们进行了大量测试以确保聊天机器人在绝大多数情况下提供安全回复。例如，OpenAI设计并发布了HealthBench基准测试，用于评估大语言模型在模拟真实健康对话中的表现。去年GPT-5发布时，OpenAI公布了其在该基准上的得分：表现虽有大幅提升，但远非完美。

但此类基准测试存在局限性。比恩和同事上月发表的研究发现，即使大语言模型能独立准确识别疾病，一个没有医学背景的用户借助同样的模型，可能只有三分之一的时间能得出正确结论。用户可能不知道哪些信息重要，也可能误读模型的回复。

比恩指出，这对于OpenAI的模型可能意义重大，因为其最初的HealthBench研究显示，模型在需要主动向用户追问更多信息的对话中表现相对较差。这意味着那些一开始就无法提供充足信息的用户，可能会得到无用甚至不准确的建议。

对此，OpenAI的辛格尔回应称，当前最新的GPT-5系列模型在主动追问信息方面已比前代有很大改进。但他也承认，理想情况下，健康聊天机器人应该在发布前经过有真人用户参与的对照测试，尽管这在AI快速迭代的背景下极具挑战性。

本月早些时候，Google发布了一项符合此标准的研究。患者先与Google尚未公开发布的医疗大语言模型AMIE讨论问题，再去看真人医生。结果显示，AMIE的诊断准确率与医生持平，且未发现重大安全隐患。尽管如此，Google表示并不打算近期发布AMIE，因为还有重大局限性需要解决。

罗德曼参与了这项AMIE研究，但他认为耗时数年的严格临床试验范式并不完全适用于快速发展的生成式AI领域。他提出：“这就是基准测试讨论的意义所在。有没有一个来自可信第三方的基准测试，大家都认可它是有意义的？”

这里的核心是“第三方”。无论公司的内部评估多么全面，外界都很难完全信任其结论。第三方评估不仅能带来公正性，多个第三方的参与更能帮助弥补单一视角的盲区。辛格尔表示非常支持外部评估，并指出发布HealthBench的初衷之一就是为学术界提供一个高质量评估范例。他提到，像斯坦福大学的MedHELM这样的综合评估框架正在努力整合多方测试，目前OpenAI的GPT-5在其中得分最高。

斯坦福大学医学教授、MedHELM项目负责人尼加姆·沙阿（Nigam Shah）指出，该框架也有局限，它只评估单轮回复，而真实的健康咨询是多轮对话。他和合作者正在构建能评估复杂对话的体系，但这需要时间和资金。“像我们这样的人唯一能做的就是想办法为基准测试找到资金，”他说。

一个现实是，真人医生也会犯错。对于一个很难见到医生的人来说，一个随时可用但偶尔出错的大语言模型，只要其错误不严重，可能仍比现状要好。但以目前的证据水平，我们尚无法确切判断，这些已经上线的健康AI工具，究竟是带来了真实的改善，还是其潜在风险已经超过了收益。在像云栈社区这样的技术交流平台，关于AI应用的边界与责任的讨论也从未停止。

上一篇：特斯拉Cybercab量产遇阻：项目核心高管接连离职，Robotaxi前景蒙尘
下一篇：复旦&阿里ProMoE：通过显式路由引导提升DiT-MoE在视觉生成中的可扩展性

大语言模型, AI, 医疗健康, 数字医疗, 聊天机器人

健康AI工具涌现：市场需求旺盛，但独立评估与安全挑战犹存

庞大的市场需求

严谨的医学测试

相关帖子