找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5097

积分

0

好友

658

主题
发表于 1 小时前 | 查看: 3| 回复: 0

百度开源的 Unlimited-OCR 是一款专攻超长文档识别的 OCR 模型,单张图能处理 32768 个字符,支持多页 PDF 直接解析,算是把 DeepSeek-OCR 的能力又往前推了一步。

Github地址
https://github.com/baidu/Unlimited-OCR

解决了什么

现在端到端OCR(比如DeepSeek OCR)都用大语言模型当解码器,靠语言模型的先验知识提升识别准确率。但有个硬伤:输出越长,KV 缓存堆得越高,内存暴涨、生成越来越慢。人眼抄几十页材料不会越抄越累,模型却会。

核心思路很直白——模仿人脑的“工作记忆”机制。人不会把整本书塞进脑子里,而是盯着当前看的内容,同时手里攥着个参考锚点。R-SWA(Reference Sliding Window Attention)就是这么干的:解码器里所有标准注意力层全换掉,计算量压下来,KV 缓存全程恒定,跟输出长度脱钩。

应用场景

场景 效果
长文档OCR 单次前向传播处理数十页,32K长度上限内不拆分
语音识别(ASR) 同样机制通用,长音频转写不用分段
机器翻译 长文本翻译时延迟稳定



上一篇:Android IMU 调试全链路:从 Kernel IIO 到 SensorService 实战总结
下一篇:Skill+Harness架构解析:让AI Agent实现安全技能复用的关键技术
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-25 03:52 , Processed in 1.205875 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表