
本文介绍了一个创新的框架,它巧妙地结合了知识图谱与大语言模型,旨在系统性地揭示并评估医疗大语言模型中那些复杂且隐蔽的偏见模式。通过引入对抗性扰动技术和多跳推理过程,该框架不仅能识别单一属性的偏见,更能捕捉由年龄、性别、地理位置等多个属性交叉作用产生的复合偏见。实验在三个数据集、六个主流大模型和五种偏见类型上验证了其显著优势。
一、研究背景与重要性
随着人工智能在医疗领域的深入应用,大语言模型正逐步参与到临床决策支持等关键环节。然而,这些模型内部可能存在的偏见与不公平模式,对患者的健康公平性和诊疗的准确性构成了不容忽视的威胁。
与普通应用不同,医疗场景下的偏见直接关乎生命健康,后果更为严重。传统的评估方法往往侧重于经验性分析或单一维度的公平性指标,难以有效发现那些没有明确表达出来的隐性偏见,以及由多个社会人口学属性(如“老年女性患者”)交织产生的交叉性偏见。这种局限性催生了对更严格、更系统化评估框架的需求。
二、创新框架设计
框架整体架构

该框架主要由两个核心阶段构成:
第一阶段:从知识图谱到扰动问题生成
- 知识图谱构建:从非结构化的临床文本中提取结构化信息,形成知识图谱。
- 扰动问题生成:利用一个专门的“攻击者”大语言模型(LLMs),系统性地修改患者描述中的特定属性(如年龄、性别、所在地),从而生成一组语义连贯但人口学背景不同的“扰动问题”。
第二阶段:基于多跳推理的答案生成与偏见评估
- 多跳推理:设计提示词,引导“目标LLM”对扰动问题进行三步式的深度推理。
- 偏见评分:由另一个“评判LLM”对生成答案进行分析,根据预定义规则量化其中可能存在的偏见程度。
知识图谱的应用
框架中的知识图谱采用经典的三元组(头实体,关系,尾实体)表示法。例如,从“患者感到疲劳并居住在内罗毕”这段描述中,可以提取出(患者, 有症状, 疲劳)和(患者, 居住在, 城市地区)两个三元组。
实体提取采用了基于自定义规则的方法,可以表示为函数 F(T, A),其中T是输入文本,A是目标属性集合。该函数输出实体集合ε,通过正则表达式和短语匹配技术确保提取的相关性和准确性。
扰动问题生成过程
原始问题Q由生成器LLM基于知识库创建,包含一组属性A。扰动函数P通过修改这些属性的一个子集,生成扰动后的问题版本{Q₁, Q₂, ..., Qₙ}。

攻击者LLM会根据详细的提示指令来构造问题。扰动可以是单个属性的修改(例如只改变地点),也可以是多个属性的联合修改(例如同时改变年龄、性别和地点),以此模拟多样化的人口学场景。

上图展示了一个具体的扰动过程示例:基于一个关于癫痫患者的原始问题,通过修改年龄、性别等属性,衍生出多个不同人口学背景的版本。
三、多跳推理机制
多跳推理过程包含三个关键步骤,旨在让模型进行更深度的思考:
步骤一:三元组提取与生成
从扰动问题的上下文中提取实体和关系,构建初始的图结构。例如:(患者 → 居住在 → 位置), (患者 → 有症状 → 症状)。
步骤二:临床知识推理
利用目标LLM的内部知识,对初始三元组进行扩展和关联。例如,将“患者到访某野生动物保护区”这一事实,与“该地区是虫媒传染病风险区”这一隐含知识联系起来。
步骤三:临床推断与答案生成
综合前两步的推理链,生成可能的诊断答案。例如,结合患者的症状(发热、皮疹)、所在地点(野生动物保护区)和扩展的流行病学知识,推断可能的病因包括“蜱传斑疹伤寒”、“疟疾”或“血吸虫病”等。
四、实验设计与数据集
模型配置
研究采用了多种LLM来验证框架的普适性:
- 生成器LLM:GPT-4o(负责从KG生成患者描述)。
- 攻击者LLM:ChatGPT-4o(负责生成扰动问题)。
- 目标LLM:GPT-4o、GPT-3.5-turbo、Mistral-7B、LLaMA-3.1-8B-Instruct(被评估的对象)。
- 评判LLM:Mistral-7B、LLaMA-3.2-3B-Instruct、GPT-4o、GPT-4.1(负责偏见评分)。
评估数据集
使用了三个开源数据集进行综合评估:
- EquityMedQA:关注健康公平性的对抗性问答数据集,侧重于热带病和传染病。
- DiversityMedQA:基于MedQA衍生的数据集,包含针对性别、种族等属性的扰动问题。
- Nurse Bias数据集:包含多种疾病场景的临床病例集合,并有真实诊断标签,用于验证答案有效性。
五、实验结果与发现
RQ1:扰动问题的质量
从事实一致性、临床相关性和连贯性三个维度评估生成的扰动问题,使用多个LLM进行1-5分评分。结果显示所有维度的平均分都较高(普遍在3.5分以上),表明生成的扰动问题在保持临床合理性的同时,有效改变了目标属性。
RQ2:多跳推理答案的有效性
在具有真实标签的Nurse Bias数据集上,使用BERTScore评估生成答案与真实诊断的语义相似性。发现随着同时扰动的属性增多(例如从仅改变“年龄+性别”到改变“年龄+性别+地点”),答案与原始诊断的偏离程度会增大,这从侧面说明了复合属性变化对模型输出的影响更为复杂。
RQ3:与基线方法的比较
将本框架(使用多跳推理)与两种基线方法进行比较:1) 直接回答原始问题;2) 回答扰动问题但不使用多跳推理。
关键发现:采用多跳推理框架生成的答案,在所有评估的人口学维度上,都持续揭示了更高的偏见分数。尤其是在交叉性偏见(如“年龄+性别+地点”组合)的检测上,本框架展现出了显著优势。例如,在某个实验设置下,该组合的偏见分数从基线方法的0.383提升到了0.747。
RQ4:人工评估结果
一项由15名具备AI使用经验和研究生学位的参与者进行的调查显示,在所有测试场景中,参与者都更倾向于选择本框架产生的结果。其中在多个场景下,这种偏好具有统计学显著性(p < 0.05),进一步印证了框架的有效性。
RQ5:扰动类型的影响
研究对比了三种扰动模式:仅位置、年龄+性别、年龄+性别+位置。
结果表明:同时扰动所有三个属性时,在大多数人口学维度上产生的偏见分数最高。这说明复合的人口学变化会放大LLM对社会背景的敏感性,导致输出差异加剧,交叉性偏见效应尤为明显。

上图展示了评判LLM如何对两个回答(Response A 和 Response B)进行对比,并依据详细的评分提示生成针对不同属性组合的偏见分数。
六、框架意义与贡献
这项研究本质上是一种针对LLM的“红队测试”,通过对抗性扰动来评估其偏见。它创造性地将知识图谱与LLM相结合:KG提供结构化的领域知识表示,而LLM弥补了KG在复杂上下文推理上的不足。这种整合形成了一套强大的端到端框架,其主要贡献包括:
- 系统性评估工具:提供了首个结合KG与LLM来系统评估医疗LLM复杂偏见的框架。
- 创新的扰动策略:构建了一套能生成多维度、交叉性偏见场景的扰动问题方法。
- 验证多跳推理的有效性:实验证明,扰动实体与多跳推理结合,能比传统方法揭示更多隐性偏见。
- 鲁棒性验证:通过多种评判LLM和人工评估,交叉验证了框架的可靠性与实用性。
七、局限与展望
当前局限:
- 框架效果依赖于初始知识图谱的构建精度,关系提取的误差可能会影响后续推理。
- 实验主要聚焦于年龄、性别、地理位置,未涵盖社会经济地位、种族等其他重要偏见维度。
未来方向:
- 在识别偏见的基础上,进一步集成偏见缓解策略。
- 将框架扩展到更多类型的患者属性和偏见场景。
- 开发更自动化、高精度的知识图谱构建方法。
八、应用价值
该框架对于推动医疗AI的公平性具有重要实践意义:
- 保障医疗公平:为系统化筛查临床决策支持系统中的隐性偏见提供了有力工具。
- 标准化模型评估:为不同医疗AI应用提供了一个可扩展的偏见评估基准方法。
- 前瞻性风险预防:可在模型部署前识别潜在偏见,防患于未然。
- 深化偏见研究:首次系统性地聚焦并量化了交叉性偏见,填补了现有研究的空白。
九、资源获取
完整的研究论文、详细方法和实验数据可通过以下开源实战渠道获取:
- GitHub代码库:
https://github.com/healthylaife/LLM-KG-Bias
- 论文作者单位:特拉华大学(University of Delaware)
- 通讯作者:Farzana Islam Adiba (
fadiba@udel.edu), Rahmatollah Beheshti (rbi@udel.edu)
结论
这项研究为医疗大语言模型的偏见评估开辟了一条新路径。通过融合知识图谱的结构化能力与大语言模型的深度推理能力,该框架能够揭示那些容易被传统方法遗漏的、隐蔽且复杂的偏见模式。广泛的实验结果验证了其在多种场景下的有效性。随着AI在医疗健康领域扮演越来越关键的角色,此类先进的偏见评估工具对于确保技术应用的公平、可靠与负责任至关重要,值得开发者、医疗机构与监管部门的共同关注。