
摘要:本文通过一项实验,探讨并评估了Microsoft GraphRAG在药物发现领域的应用潜力。我们尝试从科学文献中构建隐式关系图,并测试其信息检索与内容合成能力,从而揭示了大型语言模型在处理复杂科学查询时的优势与局限。该内容适合AI与药物研发领域的专业人士参考。
在人工智能与药物研发的交叉前沿,如何从海量、非结构化的科学数据中快速、准确地提取洞见,是研究者们面临的核心挑战。知识图谱作为一种强大的工具,能够揭示数据中隐含的复杂关系,辅助识别潜在的药物靶点。近年来,Microsoft推出的GraphRAG系统,以其能够动态构建潜在知识图谱的能力,受到了业界的广泛关注。本文基于一项具体的实验,详细解析潜在知识图谱的原理,并通过实践案例,评估GraphRAG在处理专业科学文献时的实际效能。实验聚焦于药物靶点识别这一具体场景,旨在为研发团队和投资者提供有价值的洞见,以优化其AI驱动的研发流程。
潜在知识图谱:捕捉隐式关系的强大工具
传统的知识图谱依赖于预定义的结构(如本体)来捕捉实体间的明确关系。但在真实、复杂的数据环境中,大量关系是隐含的、难以用固定框架完全表达的。为此,潜在知识图谱应运而生。它通过学习数据中的隐式模式来生成图表示,无需预设结构,就能有效捕捉实体间的潜在连接。
具体而言,潜在图谱通过以下几种机制来推断隐藏关系:
- 解耦嵌入:将对象的特征进行分离表示,例如在医学图像中区分手术工具与器官。这种方法打破了传统图谱的本体约束,实现了更灵活、更细粒度的语义表示。
- 图神经网络:利用链接预测技术,预测图谱中尚未被观察到的边(即关系)。
- 多尺度关系编码:结合局部对象位置与全局场景上下文,提供更全面、立体的语义理解。
这些技术特性使得潜在图谱特别适用于处理科学论文、临床报告等非结构化数据。
Microsoft的GraphRAG正是这一理念的典型实践。它是一个基于文本的潜在图谱系统,通过大型语言模型动态提取和总结内容,从而增强RAG式系统的检索与推理能力。GraphRAG的核心优势在于能够“即时”构建知识图谱,避免了传统方法中繁重的手动标注工作。然而,其显著挑战在于对LLM的依赖可能引入“幻觉”和语义漂移问题,特别是在实体特征提取和社区报告生成阶段。
需要指出的是,GraphRAG本身并不深入探讨知识图谱嵌入中的 grounding 问题(如距离匹配与语义匹配)。本文的重点,正是通过实验来验证其在 grounding 方面的实际表现。

实验设计:从科学文献构建潜在图谱
为了评估GraphRAG在药物发现中的实用潜力,本次实验设定了三个主要目标:
- 从指定的科学文献中成功构建潜在知识图谱。
- 测试系统针对多种科学问题的信息检索与内容合成能力。
- 观察不同LLM作为聊天/合成组件时,对查询成功率和答案质量的影响。
未来,还计划将生成的事实与主流生物医学本体进行 grounding 对齐,并重新评估结果。

实验语料通过辅助工具收集,聚焦于药物靶点识别领域的高质量开放获取资源,如PubMed Central、Europe PMC、bioRxiv等。最终选定了6篇相关的PDF格式文章,并使用Microsoft的MarkItDown库将其转换为便于处理的Markdown格式。
所使用的文章列表如下:
- A comprehensive map of molecular drug targets (PMC6314433)
- Therapeutic target database update 2022 (bioRxiv/TTD)
- Leveraging big data to transform target selection (PMC4785018)
- Comprehensive Survey of Recent Drug Discovery Using Big Data (Europe PMC)
- Discovering protein drug targets using knowledge graph (bioRxiv)
- Utilizing graph machine learning within drug discovery (bioRxiv)
这些文章覆盖了分子靶点全景图、数据库更新、大数据应用以及知识图谱在靶点发现中的作用等多个主题,构成了一个具有代表性的药物发现小型语料库。
实验环境搭建在M1 Max Mac Studio上,使用Ollama运行本地模型进行索引构建,并通过Openrouter.ai的API调用模型进行查询。LLM的选择综合考虑了成本与性能,例如OpenAI的 gpt-4o-mini 在多项科学任务中表现出色。
测试查询:评估GraphRAG的科学推理能力
为了全面评估系统,我们设计了以下10个针对药物发现领域的查询。这些问题涵盖了新兴靶点识别、蛋白质验证、多组学整合等专业主题,旨在模拟研究人员和行业投资者的实际需求:
- “What are emerging therapeutic targets for non-small cell lung cancer identified in the last five years?” (过去五年内非小细胞肺癌的新兴治疗靶点是什么?)
- “Which proteins have been implicated as druggable targets in CRISPR screens for metabolic diseases?” (在代谢疾病的CRISPR筛选中,哪些蛋白被暗示为可药物化靶点?)
- “List novel kinase targets associated with resistance to current melanoma therapies.” (列出与当前黑色素瘤疗法耐药相关的新的激酶靶点。)
- “Summarize recent advances in computational methods for target identification in rare genetic disorders.” (总结罕见遗传病中靶点识别计算方法的最新进展。)
- “What are the most frequently validated targets in published high-throughput screening studies for neurodegenerative diseases?” (在已发表的神经退行性疾病高通量筛选研究中,最常被验证的靶点是什么?)
- “Which disease pathways have newly identified protein targets with available structural data?” (哪些疾病通路中新发现的蛋白靶点具有可用的结构数据?)
- “Find articles reporting on target deconvolution methods in phenotypic drug discovery.” (查找报道表型药物发现中靶点解卷积方法的文章。)
- “Summarize the use of knowledge graphs for predicting novel drug-target interactions.” (总结知识图谱在预测新型药物-靶点相互作用中的应用。)
- “What are the most cited targets for immuno-oncology drug development in the last three years?” (过去三年免疫肿瘤药物开发中最常被引用的靶点是什么?)
- “Which targets have been identified using multi-omics integration in cardiovascular disease research?” (在心血管疾病研究中使用多组学整合技术识别出的靶点有哪些?)
这些查询旨在测试GraphRAG在处理特定领域、时间敏感及需要综合推理的复杂问题时的能力。
实验结果:性能分析与关键洞见
在本次实验中,OpenAI的 gpt-4o-mini 模型展现了最佳的性能与成本平衡。它成功处理了大多数需要复杂总结和信息提取的查询,并且在相关的科学任务排行榜上名列前茅。
GraphRAG的内容合成能力高度依赖于索引文档中所包含的信息。这是一个关键发现:如果语料中缺失关键事实,那么再强大的提示工程或模型也无法凭空生成准确答案。这在某些高度具体化的查询中表现得尤为明显,例如要求对结果进行排名(如“最常被引用”)或需要精确量化细节时,系统表现往往不尽如人意。除非输入数据本身具有良好的结构或明确提及了这些信息,否则仅靠本地搜索优化也难以弥补。这可能与本次实验使用的语料规模有限有关。
另一个值得注意的现象是,在相同的模型和数据条件下,对同一个查询(如Query 5)多次运行可能会得到略有差异的结果。这凸显了LLM固有的概率性质(即产生“幻觉”的风险),以及文档块检索和映射步骤本身可能存在的变异性。对于需要高确定性和可重复性的应用场景,这是一个必须考虑的关键因素。
总体而言,GraphRAG结合 gpt-4o-mini,在索引科学文献语料并提供详细、综合性答案方面表现卓越。它能够处理领域特定的复杂问题,并生成连贯的合成报告。更小型的模型(如 gpt-4o-nano)或许适合处理简单查询或在极端成本限制下使用,但在处理需要大规模综合信息的问题时可能力不从心。
对于那些因索引文档信息缺失而失败的查询(如Query 2、9、10),根本的解决方案在于构建更全面、更具代表性的输入文档语料库。这再次强调了高质量、高相关性的语料对于此类系统效能至关重要。

图统计与社区分析:洞察系统内部运作
作为额外的技术细节,实验生成的图统计数据显示:系统从6篇文章中总共提取了3224个实体和2242个关系,并在此基础上生成了大约167份社区报告。
在这个自动构建的知识图谱中,“人”节点常常成为关键的参考起点:个人链接到其发表的出版物,并由此进一步扩展出整个关系网络。由于系统默认的实体提取提示词中包含了组织、姓名、地理位置等示例,因此这些类型的实体被优先识别。如需修改实体提取的特征细节,可参考官方文档;系统也支持使用NLTK等工具包进行定制化的特征提取。
这些实体和关系随后被自动分组到不同的社区中,并为每个社区生成一份总结报告。例如,前两个社区的总结报告可能分别涵盖了药物靶点数据库的更新情况,以及大数据在靶点选择中的作用。
这些社区报告会被向量化,并与其他数据一起参与搜索(它们拥有独立的向量嵌入)。虽然GraphRAG不直接使用传统意义上的知识图谱嵌入,但它通过其独特的多层嵌入设计(详情可参阅其文档中关于三层嵌入的描述),在一定程度上缓解了实体和关系绑定中的语义漂移问题。
值得一提的是,本次实验使用的是系统默认提示词。根据官方指南,进行针对性的提示词调优有望进一步提升系统性能。其中,系统提供的Auto Tune工具,其工作原理类似于基于能力问题的实体生成方法,能够自动化地优化实体提取过程。
结论与展望
本次实践表明,GraphRAG在药物发现领域的应用前景令人鼓舞。它不仅显著简化了从非结构化科学文献中提取深层洞见的过程,还为靶点识别与评估提供了一个高效的自动化推理框架。对于企业研发团队而言,这意味着有可能缩短创新周期;对于投资者,则可能意味着更精准的决策依据。
实验的完整代码可在GitHub仓库中获取:https://github.com/usathyan/graphrag
总而言之,GraphRAG代表了一种将前沿人工智能技术落地于复杂科学问题的积极尝试。尽管存在对语料质量依赖度高、可能产生幻觉等挑战,但其在信息整合与推理方面的能力,已经为AI驱动的药物研发提供了有力的工具。未来,结合更高质量的数据源、更精细的提示工程以及持续的技术迭代,其潜力有望得到进一步释放。欢迎对AI与生命科学交叉领域感兴趣的开发者与研究者,在云栈社区的相关板块继续深入探讨。