云栈社区»论坛 › 技术文档「 Note & Doc 」 › RAG准确率提升29.6%背后：深度解析“增强型实体页面”架构 ...

发回帖发新帖

4126 积分	0 好友	542 主题

发消息

RAG准确率提升29.6%背后：深度解析“增强型实体页面”架构

发表于 2026-3-30 04:25:39 | 查看: 188| 回复: 0

单纯在网页中嵌入JSON-LD结构化数据，对提升RAG系统的准确率帮助甚微——这是许多开发者的直觉，如今被一项研究证实。然而，当我们将这些“隐形”的数据转化为一种名为“增强型实体页面”的显性格式后，RAG的准确率实现了近30%的显著跃升。

这篇来自WordLift团队的研究论文，通过系统性的实验揭示了这一关键发现。研究团队设计了7种不同的实验条件，横跨编辑、法律、旅游、电商四大领域，并进行了多达2，443次独立评估，得出以下核心数据：

在纯HTML页面基础上仅添加JSON-LD块，带来的准确率提升微乎其微（仅+0.17，效应量d=0.18）。
将JSON-LD转化为 “增强型实体页面” 后，在标准RAG流程中准确率提升 +29.6%，在更复杂的Agentic RAG流程中提升 +29.8%。
效果最强的“增强+”版本（Enhanced+）达到了最高的绝对分数，平均准确率为4.85（满分5分）。

方案原理

核心架构

为了验证这一想法，研究团队构建了一个模拟Google AI Mode的实验系统，其架构分为三层：

检索层：基于Google的Vertex AI Vector Search 2.0，它融合了语义搜索（Embeddings）、关键词搜索（BM25）以及 Reciprocal Rank Fusion 技术。
推理层：核心是Google Agent Development Kit（ADK）驱动的智能代理，支持ReAct式多步推理循环。
数据层：由WordLift提供的知识图谱，其中的实体均采用带有可解析URI的Schema.org标准进行描述。

下图清晰地展示了这个代理式RAG系统的工作流程：
Google ADK Agent (ReAct Loop) 架构流程图

增强型实体页面设计

那么，什么是“增强型实体页面”？它与我们熟悉的、隐藏在<script>标签里的JSON-LD块有本质区别。增强页面致力于将结构化数据“显性化”和“可操作化”，主要包括以下元素：

自然语言摘要：从结构化数据中自动生成的一段人类可读的描述文本。
可见的实体导航：以链接形式展示与该实体相关的其他实体，每个链接都指向知识图谱中可解析的URI。
llms.txt风格指令：像为AI代理编写的“说明书”，明确告知它如何处理该页面的信息，例如优先返回哪些属性。
Schema.org面包屑导航：展示实体在Schema.org类型体系中的层级路径，提供丰富的上下文。
神经搜索技能引用：支持代理进行跨实体的深度发现与关联。

下面的对比图直观展示了从“纯HTML”到“增强型实体页面”的转变，以及带来的显著效果提升：
增强型实体页面 (Enhanced Entity Page) 效果对比图

Agentic RAG工作流

在这个架构中，AI代理并非魔法。它通过调用三种定义好的工具进行协同工作：

search_documents: 执行传统的向量检索，获取相关的文档片段。
follow_entity_link: 通过内容协商机制，智能地解析页面中实体链接的URI，可以获取JSON-LD、Turtle或HTML等不同格式的实体描述。
search_knowledge_graph: 在知识图谱中进行神经搜索，发现跨图谱的深层关联。

代理被允许执行最多2跳的链接遍历。实验数据显示，平均每个查询会调用2.0次工具，体现了其多步推理的特性。

关键结论

为了系统评估各种因素，研究设置了如下表所示的实验条件：
RAG实验条件对照表 (Table 1: Experimental conditions)

为什么单独的JSON-LD不够用？

研究指出了一个普遍问题：当前大多数RAG系统在摄入文档时，将整个页面视为“扁平的文本流”。JSON-LD块在这种处理方式下，很容易在分块（Chunking）过程中被意外截断，或者其结构化信息被淹没在海量文本中。实验结果也证实，在这种扁平架构下，添加JSON-LD带来的增益几乎可以忽略不计（虽有统计学显著性p=0.024，但效应量极小）。

增强页面的“链接物化”机制

“增强型实体页面”成功的核心，在于它实现了一种 “链接物化” 机制。简单来说，它把知识图谱中需要通过链接跳转才能获取的信息，“提前”渲染到了当前页面上。

纯HTML页面：可能只包含一个指向某地点的URI，如data.wordlift.io/wl12345。
增强型实体页面：系统会预先解析这个URI，将该地点的坐标、价格、营业时间等属性，直接以自然语言文本的形式展示出来。

这使得LLM在单次检索中就能获得原本需要多跳遍历才能得到的信息，极大提升了信息获取的效率和完整性。这正是 RAG 系统追求的关键目标之一。

Agent的互补角色

一个有趣的发现是：当文档格式本身已经优化得很好时（如增强页面），引入复杂的Agent几乎不会带来额外的准确率提升（条件C3准确率4.69 vs 条件C6准确率4.70）。那么，Agent的价值在哪里？

补偿劣质内容：在仅有纯HTML的劣质内容上，Agent能通过其多步推理和链接跟随能力，将准确率提升+0.74。
提升检索效率：即使在信息丰富的增强页面上，Agent也能更“聪明”地工作。数据显示，在增强页面的基础上使用Agent，其需要主动跟随的链接数从1.0次下降到了0.4次，但最终答案的准确率反而更高。这说明Agent学会了更有效地利用已呈现的信息。

领域差异性

“增强实体页面”的效果并非放之四海而皆准，它与领域特性强相关：

电商领域（实验代号BlackBriar）：基线准确率本身就很高（4.92），因此提升最小（+0.07）。这是因为产品页面通常已经包含了丰富、结构化的产品事实信息。
旅游领域（实验代号SalzburgerLand）：基线很低（2.19），提升却最大（+2.47）。究其原因，许多关键信息（如景点坐标、餐厅菜系）原本仅存在于后台知识图谱中，并未在HTML页面上直接展示，而增强页面恰好补全了这块短板。
编辑与法律领域：则处于中间位置，获得了中等程度的提升（+1.50至+2.73）。

不同领域的详细效果对比如下表所示：
分领域RAG准确率提升数据表

实践启示

对RAG系统设计的建议

这项研究为构建更高效的 RAG 系统提供了明确的工程方向：

结构化数据感知摄入：RAG的文档处理流水线应该像Google爬虫一样，具备识别并单独提取HTML中JSON-LD等结构化数据块的能力，而不是简单地将它们与其他文本混合处理。
实体感知分块：在文档分块时，需要采用更智能的策略，避免在固定的字符边界处粗暴地截断一个完整的结构化数据块，导致语义断裂。
混合检索策略：结合向量相似性搜索与基于知识图谱的语义遍历，让系统既能把握上下文相关性，又能进行精准的事实关联。像论文中使用的 Google ADK Agent 就展示了这种混合工作流的强大潜力。

实现可信度

“增强型实体页面”还解决了一个重要的可信度问题：它确保了 “人机同源” 。AI模型所“看到”的结构化数据，与人类用户通过浏览器看到的HTML可视化内容，是从同一个URI通过内容协商服务提供的、完全一致的信息。这避免了为“AI优化”而单独创建一套内容所导致的“双轨制”风险，即AI答案与真实网页内容脱节，从根本上保障了信息源的真实性与一致性。

论文核心价值：这项研究不仅验证了语义网和关联数据技术在生成式AI时代的巨大应用价值，更重要的是，它提供了一个可立即落地实施的“增强实体页面”具体模板。这为RAG系统从简单的“文档检索与排名”范式，向更高级的“基于结构化知识的推理优化”范式演进，提供了坚实的实证基础与可行的技术路径。

论文标题：Structured Linked Data as a Memory Layer for Agent-Orchestrated Retrieval
论文地址：https://arxiv.org/pdf/2603.10700

如果你对如何具体实现这样的 知识图谱 增强系统，或者想深入探讨更多Agent与RAG的结合案例，欢迎到 云栈社区 的对应板块交流讨论。

上一篇：VideoGamer网站遭Google封杀，探究AI生成内容与E-E-A-T标准的冲突
下一篇：解析瑞萨第三代电容触摸CTSU2技术：如何实现更强抗噪、更低功耗与更快响应

RAG, Agent, JSON-LD, 知识图谱, Vertex AI