百度开源的 Unlimited-OCR 是一款专攻超长文档识别的 OCR 模型,单张图能处理 32768 个字符,支持多页 PDF 直接解析,算是把 DeepSeek-OCR 的能力又往前推了一步。
Github地址
https://github.com/baidu/Unlimited-OCR
解决了什么
现在端到端OCR(比如DeepSeek OCR)都用大语言模型当解码器,靠语言模型的先验知识提升识别准确率。但有个硬伤:输出越长,KV 缓存堆得越高,内存暴涨、生成越来越慢。人眼抄几十页材料不会越抄越累,模型却会。
核心思路很直白——模仿人脑的“工作记忆”机制。人不会把整本书塞进脑子里,而是盯着当前看的内容,同时手里攥着个参考锚点。R-SWA(Reference Sliding Window Attention)就是这么干的:解码器里所有标准注意力层全换掉,计算量压下来,KV 缓存全程恒定,跟输出长度脱钩。
应用场景
| 场景 |
效果 |
| 长文档OCR |
单次前向传播处理数十页,32K长度上限内不拆分 |
| 语音识别(ASR) |
同样机制通用,长音频转写不用分段 |
| 机器翻译 |
长文本翻译时延迟稳定 |
|