找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2785

积分

0

好友

375

主题
发表于 1 小时前 | 查看: 2| 回复: 0

单纯在网页中嵌入JSON-LD结构化数据,对提升RAG系统的准确率帮助甚微——这是许多开发者的直觉,如今被一项研究证实。然而,当我们将这些“隐形”的数据转化为一种名为“增强型实体页面”的显性格式后,RAG的准确率实现了近30%的显著跃升。

这篇来自WordLift团队的研究论文,通过系统性的实验揭示了这一关键发现。研究团队设计了7种不同的实验条件,横跨编辑、法律、旅游、电商四大领域,并进行了多达2,443次独立评估,得出以下核心数据:

  • 在纯HTML页面基础上仅添加JSON-LD块,带来的准确率提升微乎其微(仅+0.17,效应量d=0.18)。
  • 将JSON-LD转化为 “增强型实体页面” 后,在标准RAG流程中准确率提升 +29.6%,在更复杂的Agentic RAG流程中提升 +29.8%
  • 效果最强的“增强+”版本(Enhanced+)达到了最高的绝对分数,平均准确率为4.85(满分5分)。

方案原理

核心架构

为了验证这一想法,研究团队构建了一个模拟Google AI Mode的实验系统,其架构分为三层:

  • 检索层:基于Google的Vertex AI Vector Search 2.0,它融合了语义搜索(Embeddings)、关键词搜索(BM25)以及 Reciprocal Rank Fusion 技术。
  • 推理层:核心是Google Agent Development Kit(ADK)驱动的智能代理,支持ReAct式多步推理循环。
  • 数据层:由WordLift提供的知识图谱,其中的实体均采用带有可解析URI的Schema.org标准进行描述。

下图清晰地展示了这个代理式RAG系统的工作流程:
Google ADK Agent (ReAct Loop) 架构流程图

增强型实体页面设计

那么,什么是“增强型实体页面”?它与我们熟悉的、隐藏在<script>标签里的JSON-LD块有本质区别。增强页面致力于将结构化数据“显性化”和“可操作化”,主要包括以下元素:

  • 自然语言摘要:从结构化数据中自动生成的一段人类可读的描述文本。
  • 可见的实体导航:以链接形式展示与该实体相关的其他实体,每个链接都指向知识图谱中可解析的URI。
  • llms.txt风格指令:像为AI代理编写的“说明书”,明确告知它如何处理该页面的信息,例如优先返回哪些属性。
  • Schema.org面包屑导航:展示实体在Schema.org类型体系中的层级路径,提供丰富的上下文。
  • 神经搜索技能引用:支持代理进行跨实体的深度发现与关联。

下面的对比图直观展示了从“纯HTML”到“增强型实体页面”的转变,以及带来的显著效果提升:
增强型实体页面 (Enhanced Entity Page) 效果对比图

Agentic RAG工作流

在这个架构中,AI代理并非魔法。它通过调用三种定义好的工具进行协同工作:

  1. search_documents: 执行传统的向量检索,获取相关的文档片段。
  2. follow_entity_link: 通过内容协商机制,智能地解析页面中实体链接的URI,可以获取JSON-LD、Turtle或HTML等不同格式的实体描述。
  3. search_knowledge_graph: 在知识图谱中进行神经搜索,发现跨图谱的深层关联。

代理被允许执行最多2跳的链接遍历。实验数据显示,平均每个查询会调用2.0次工具,体现了其多步推理的特性。

关键结论

为了系统评估各种因素,研究设置了如下表所示的实验条件:
RAG实验条件对照表 (Table 1: Experimental conditions)

为什么单独的JSON-LD不够用?

研究指出了一个普遍问题:当前大多数RAG系统在摄入文档时,将整个页面视为“扁平的文本流”。JSON-LD块在这种处理方式下,很容易在分块(Chunking)过程中被意外截断,或者其结构化信息被淹没在海量文本中。实验结果也证实,在这种扁平架构下,添加JSON-LD带来的增益几乎可以忽略不计(虽有统计学显著性p=0.024,但效应量极小)。

增强页面的“链接物化”机制

“增强型实体页面”成功的核心,在于它实现了一种 “链接物化” 机制。简单来说,它把知识图谱中需要通过链接跳转才能获取的信息,“提前”渲染到了当前页面上。

  • 纯HTML页面:可能只包含一个指向某地点的URI,如data.wordlift.io/wl12345
  • 增强型实体页面:系统会预先解析这个URI,将该地点的坐标、价格、营业时间等属性,直接以自然语言文本的形式展示出来。

这使得LLM在单次检索中就能获得原本需要多跳遍历才能得到的信息,极大提升了信息获取的效率和完整性。这正是 RAG 系统追求的关键目标之一。

Agent的互补角色

一个有趣的发现是:当文档格式本身已经优化得很好时(如增强页面),引入复杂的Agent几乎不会带来额外的准确率提升(条件C3准确率4.69 vs 条件C6准确率4.70)。那么,Agent的价值在哪里?

  • 补偿劣质内容:在仅有纯HTML的劣质内容上,Agent能通过其多步推理和链接跟随能力,将准确率提升+0.74。
  • 提升检索效率:即使在信息丰富的增强页面上,Agent也能更“聪明”地工作。数据显示,在增强页面的基础上使用Agent,其需要主动跟随的链接数从1.0次下降到了0.4次,但最终答案的准确率反而更高。这说明Agent学会了更有效地利用已呈现的信息。

领域差异性

“增强实体页面”的效果并非放之四海而皆准,它与领域特性强相关:

  • 电商领域(实验代号BlackBriar):基线准确率本身就很高(4.92),因此提升最小(+0.07)。这是因为产品页面通常已经包含了丰富、结构化的产品事实信息。
  • 旅游领域(实验代号SalzburgerLand):基线很低(2.19),提升却最大(+2.47)。究其原因,许多关键信息(如景点坐标、餐厅菜系)原本仅存在于后台知识图谱中,并未在HTML页面上直接展示,而增强页面恰好补全了这块短板。
  • 编辑与法律领域:则处于中间位置,获得了中等程度的提升(+1.50至+2.73)。

不同领域的详细效果对比如下表所示:
分领域RAG准确率提升数据表

实践启示

对RAG系统设计的建议

这项研究为构建更高效的 RAG 系统提供了明确的工程方向:

  1. 结构化数据感知摄入:RAG的文档处理流水线应该像Google爬虫一样,具备识别并单独提取HTML中JSON-LD等结构化数据块的能力,而不是简单地将它们与其他文本混合处理。
  2. 实体感知分块:在文档分块时,需要采用更智能的策略,避免在固定的字符边界处粗暴地截断一个完整的结构化数据块,导致语义断裂。
  3. 混合检索策略:结合向量相似性搜索与基于知识图谱的语义遍历,让系统既能把握上下文相关性,又能进行精准的事实关联。像论文中使用的 Google ADK Agent 就展示了这种混合工作流的强大潜力。

实现可信度

“增强型实体页面”还解决了一个重要的可信度问题:它确保了 “人机同源” 。AI模型所“看到”的结构化数据,与人类用户通过浏览器看到的HTML可视化内容,是从同一个URI通过内容协商服务提供的、完全一致的信息。这避免了为“AI优化”而单独创建一套内容所导致的“双轨制”风险,即AI答案与真实网页内容脱节,从根本上保障了信息源的真实性与一致性。

论文核心价值:这项研究不仅验证了语义网和关联数据技术在生成式AI时代的巨大应用价值,更重要的是,它提供了一个可立即落地实施的“增强实体页面”具体模板。这为RAG系统从简单的“文档检索与排名”范式,向更高级的“基于结构化知识的推理优化”范式演进,提供了坚实的实证基础与可行的技术路径。

论文标题:Structured Linked Data as a Memory Layer for Agent-Orchestrated Retrieval
论文地址:https://arxiv.org/pdf/2603.10700

如果你对如何具体实现这样的 知识图谱 增强系统,或者想深入探讨更多Agent与RAG的结合案例,欢迎到 云栈社区 的对应板块交流讨论。




上一篇:VideoGamer网站遭Google封杀,探究AI生成内容与E-E-A-T标准的冲突
下一篇:解析瑞萨第三代电容触摸CTSU2技术:如何实现更强抗噪、更低功耗与更快响应
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-30 06:11 , Processed in 0.528487 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表