5097 积分	0 好友	658 主题

百度开源 Unlimited-OCR 模型：专注超长文档识别，用 R-SWA 缓解 LLM 内存压力，单日涨星 1.4k

发表于 1 小时前 | 查看: 3| 回复: 0

百度开源的 Unlimited-OCR 是一款专攻超长文档识别的 OCR 模型，单张图能处理 32768 个字符，支持多页 PDF 直接解析，算是把 DeepSeek-OCR 的能力又往前推了一步。

解决了什么

现在端到端OCR（比如DeepSeek OCR）都用大语言模型当解码器，靠语言模型的先验知识提升识别准确率。但有个硬伤：输出越长，KV 缓存堆得越高，内存暴涨、生成越来越慢。人眼抄几十页材料不会越抄越累，模型却会。

核心思路很直白——模仿人脑的“工作记忆”机制。人不会把整本书塞进脑子里，而是盯着当前看的内容，同时手里攥着个参考锚点。R-SWA（Reference Sliding Window Attention）就是这么干的：解码器里所有标准注意力层全换掉，计算量压下来，KV 缓存全程恒定，跟输出长度脱钩。