找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4037

积分

0

好友

535

主题
发表于 1 小时前 | 查看: 3| 回复: 0

做知识库都要用到 RAG,之前的做法是先把网页、PDF、文档解析成文本,再切块、向量化、检索、交给大模型回答。

这个流程对纯文本内容很有效,但一旦遇到表格、图表、版式、信息图、复杂网页布局,就很容易丢失关键信息

今天给大家推荐一个像素级原生搜索的 RAG。

这项目思路很有趣,既然人类理解网页时是看页面,为什么 AI 检索一定要先把页面拆成文本?完全可以把网页和文档渲染成截图,再基于图像内容进行检索,让模型保留页面原本的视觉结构

项目简介

PixelRAG 是一个像素原生的开源视觉 RAG 项目,把网页、PDF、图片等文档渲染成截图切片,并直接对这些图像建立向量索引和检索,从而让大模型能够利用表格、图表、布局、信息图等传统文本解析容易丢失的信息来回答问题。

不仅按文本内容搜索文档,还能按文档看起来是什么样来搜索。

DEMO

为了展示像素原生检索的威力,官方做了个很牛的演示,来证明这套方案行得通。

维基百科图片搜索页面截图,显示像素级视觉检索界面

直接截了 2800 多万张维基百科的图片。

比如搜元素周期表。

搜索元素周期表的结果页面,展示相关条目及缩略图

只要 2 秒就完成了。

说这个方案更好,但不一定是更便宜,因为这 2800 万张图片的向量化不是我去做的,我也不清楚成本如何。

传统 RAG 那种信息和样式丢失的感觉真的很不好。

现在直接就能搜出带有样式的内容,感觉就很好。

元素周期表分类详情页,展示周期表布局与相关属性信息

如果要对数据进行进一步处理,就用视觉模型接着做。

功能特点

1. 以截图替代文本解析

PixelRAG 的核心不是先把网页 HTML 或 PDF 解析成纯文本,而是把页面渲染成截图切片。这样可以最大程度保留页面原始的视觉信息,比如表格结构、图表位置、页面布局、字号层级和信息密度。

2. 更适合处理复杂视觉文档

传统 RAG 在处理复杂表格、图表、论文截图、仪表盘、网页报告时,经常会因为解析失败或结构丢失而答错。PixelRAG 通过视觉检索,让模型看到更接近人眼观察到的页面内容,适合处理视觉结构强的知识材料。

3. 支持网页、PDF 和图片等多种输入

项目提供 pixelshot 命令,可以把网页、PDF、本地文件渲染成截图 tiles。用户可以对单个网页截图,也可以把本地文档批量转成可检索的视觉数据。

4. 内置完整检索流水线

PixelRAG 不只是截图工具,还提供从文档渲染、切块、嵌入、构建 FAISS 索引到启动搜索 API 的完整流程。

5. 使用视觉嵌入模型进行检索

使用经过网页截图数据 LoRA 微调的 Qwen3-VL-Embedding 模型,把页面截图嵌入到可检索的向量空间中。相比普通文本向量,这种方式更适合检索页面里的视觉内容。

6. 可作为 Claude Code 插件使用

PixelRAG 提供 pixelbrowse 插件,让 Claude Code 可以通过截图方式查看网页,而不是只读取网页 HTML。这样 AI 就可以更好地理解网页里的图表、表格和页面排版。

项目链接

项目托管在 GitHub 上:

https://github.com/StarTrail-org/PixelRAG

本文由云栈社区整理发布,关注更多前沿开源项目。




上一篇:TiDB分布式数据库实践指南:8.x集群部署、运维避坑与监控排查
下一篇:将任意网站打包成13MB离线包:kage工具实战与GEO实践
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-26 23:54 , Processed in 0.756395 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表