找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1884

积分

0

好友

246

主题
发表于 昨天 03:23 | 查看: 4| 回复: 0

相关资源:GitHub项目论文PDF

Higher-Order Knowledge Representations for Agentic Scientific Reasoning 论文标题幻灯片

一、为什么“三元”以上关系才是材料发现的瓶颈?

传统知识图谱(KG)依赖“头-关系-尾”三元组来描述世界,但在真实的科学发现场景中,事件往往是“一堆东西协同作用”:

  • 一次化学反应当中 5-6 种反应物或催化剂同时参与;
  • 骨组织支架的“力学性能”由 PCL、壳聚糖、羟基磷灰石、孔隙率以及细胞行为共同决定。

四象限多实体高阶网络示意图
图1:四象限多实体交互示意图,揭示了从社交网络到化学反应,真实系统普遍存在“多体协同”现象——传统二元图难以捕捉。

如果强行将这种多体交互拆解成一对一的 pairwise 边,会导致两个问题:

  • 边的数量呈 O(n²) 级爆炸增长,丢失关键的上下文信息;
  • 让 LLM 在 RAG 阶段只能看到“局部句子”,无法理解全局的多组分约束,从而更容易产生事实性幻觉。

为此,研究者提出了一种新思路:直接将文献中存在的 n 元关系存储为超图超边,并在多智能体框架中,让 LLM “沿着超边行走”,利用拓扑结构本身作为“无师自通的老师”。

传统图、高阶图与超图网络在表示高阶关系时的对比
图2:传统成对图表示与超图表示在表征高阶关系时的对比。超图能更好地保留多节点间的平等协同关系。

二、方案:从单篇论文到16万节点的大规模超图网络

1. 语料与预处理

  • 从 Web of Science 检索关键词 “biocomposite scaffold”,共获取 1,297 篇全文 PDF。
  • 将每篇论文拆分为 10k 字符的无重叠文本块,使用 LLaMA-4-17B-128E 模型进行两轮信息抽取
    • 第一轮:基于语法级的 SVO 句法树提取显式的 n 元组关系。
    • 第二轮:进行语义补全(例如将名词化结构转为轻动词,将目的短语转为“used-for”关系)。

2. 超图构建与清洗

  • 每一篇处理后的论文生成一个局部超图 Hᵢ,通过增量合并最终形成全局超图 H=(V,E)。
  • 每处理 10 篇论文,执行一次嵌入去重操作(使用 nomic-embed-text-v1.5 模型,余弦相似度阈值设为 ≥0.95)。
    • 选择度数最高的词语作为同义词簇的代表节点(例如合并 PLA 和 polylactic acid)。
    • 删除自环和单向自指关系,同时保留文本溯源信息。

LLM引导的超图构建与增量合并算法示意图
图3:LLM引导的超图增量构建与合并算法流程。

3. 超图结构画像

指标 数值
节点数 161,172
超边数 320,201
平均超边大小 2.35(最大为32)
节点度分布 近似幂律分布(γ≈1.23),呈现典型的“无标度”科学语料特征

超图统计数据表与随机采样的超图子结构演变
图4:超图全局统计与随机采样的子结构。爆炸级联的 pairwise 共现对有 2210 万对,但重叠≥3次的只剩 21 万对——这表明“高阶重叠”本身具备天然的噪声过滤能力。

三、结论:超图作为可验证的“推理护栏”

1. 网络洞察分析

  • 枢纽节点:度数排名前30的全是领域核心概念,如 scaffolds(11k度)、biocompatibility(5k度)、chitosan(5k度)等。
  • s-连通分量:定义相邻超边至少共享 s 个节点。
    • 当 s=1 时,最大的连通分量包含 153k 条边。
    • 当 s=4 时,只剩下 4.5k 条边,自动析出了高度关联、类似“成熟配方”的紧密簇团。

超图中前30大枢纽节点的共现网络
图5:前30大枢纽节点的共现网络,网络密度为0.476,清晰显示了“壳聚糖-明胶-PCL”这一核心材料组合。

2. 多智能体实验验证

研究基于 AutoGen 框架和 LLaMA-3.3-70B-Q4 模型构建了多智能体系统,角色分工如下:

  • GraphAgent:负责将用户查询关键词映射到超图节点,并利用 Yen 算法查找 k-最短超路径(可设置路径中相邻超边的共享节点数 S)。
  • Engineer:负责将抽象的超路径翻译成具体的“机制链条”进行解释。
  • Hypothesizer:负责根据推理链条,输出具体、可执行的实验方案。

多智能体推理系统概览与路径查找机制
图6:多智能体推理系统工作流程与路径查找机制示意图。

案例一:探索氧化铈与聚己内酯的机械关系

  • 在原始文献中,氧化铈(Cerium oxide)与 PCL 之间没有直接关联。
  • 设置 S=1,查找 K=3 条最短超路径后,发现共同的关键中间节点是壳聚糖
  • 智能体系统据此提出了“PCL-壳聚糖-氧化铈三元纳米纤维支架”的假设,并自动生成了包括静电纺丝工艺和抗菌测试在内的完整实验流程。

智能体对话示例:氧化铈与PCL的关系推理
图7:智能体对话示例,展示了从查询到生成假设的过程。

针对氧化铈-PCL复合纳米纤维的详细实验假设
图8:Hypothesizer 智能体生成的详细、可执行的实验方案。

案例二:探索草与PCL的关联

  • 查询“草如何关联到 PCL”,系统发现了“羊茅草 → 制氢 → 甲醇 → PCL 沉淀溶剂”这一跨领域的知识链条。
  • Hypothesizer 智能体立即据此设计了一套“草基生物质生产甲醇用于绿色沉淀PCL”的闭环实验方案。

3. 框架的可扩展性与通用性

  • 抑制幻觉:无需对LLM进行领域微调,仅依靠超图提供的拓扑结构约束,即可有效引导推理,抑制事实性幻觉。
  • 增量更新:超图可以随着新论文的加入进行增量合并,实现知识库的实时演进。
  • 领域通用:框架与具体科学领域解耦,只需更换一批文献(如电池、蛋白质、合金领域),即可快速复用于新的人工智能驱动科研场景。

四、总结

MIT的这项研究首次提出并验证了将“多体交互”原封不动地存储为超图,再让多智能体沿着超边进行“拓扑漫步”的范式。这套无师自通的推理框架,成功地将LLM模糊的“材料直觉”转化为一个可验证、可扩展、且能持续生长的科学发现引擎,为智能体科研开辟了新的技术路径。想了解更多前沿的AI技术与开源实践,欢迎访问云栈社区进行交流与探索。




上一篇:Eigent开源桌面端多智能体协作产品:从CAMEL框架到商业落地的成长之路
下一篇:Python标准库的强力补充:Boltons工具库的核心功能与应用场景
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-18 16:48 , Processed in 0.223636 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表