1月29日,百度正式对外发布并开源了新一代文档解析模型 PaddleOCR-VL-1.5。这款模型的亮点在于,它仅以0.9B参数的轻量架构,在全球权威文档解析评测榜单 OmniDocBench V1.5 中,综合性能一举夺魁,整体精度达到了94.5%。这一成绩超越了包括 Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2 在内的诸多主流大模型。
最值得关注的技术突破是,PaddleOCR-VL-1.5 在全球范围内首次实现了 OCR 模型的 “异形框定位” 能力。这意味着机器能够精准识别和处理那些倾斜、弯折、拍照畸变等不规则形态的文档,让以往难以处理的“歪文档”变得可以被稳定、规模化地解析。这一技术直击传统 OCR 模型在移动端拍照、扫描件变形、复杂光照等真实场景中长期存在的痛点,因文档形变导致的识别失败问题有望得到根本性改善,为金融票据自动化处理、档案数字化、政务文档高效流转等场景带来巨大价值。
该模型基于百度文心大模型进行开发,在 OmniDocBench V1.5 的多个关键指标上均展现出了领先实力。特别是在表格结构理解(92.8分)和阅读顺序预测(95.8分)这两项核心指标上,它均位列第一,分别领先 Gemini-3-Pro、DeepSeek-OCR 等模型 2 到 5 分。在文档阅读顺序预测任务中,其版面逻辑解析的错误率仅为同类模型的一半左右。这表明,PaddleOCR-VL-1.5 在还原复杂文档结构和理解版面逻辑方面具备更高的稳定性,对于合同、财报等高复杂度业务场景而言,其可用性无疑更强。

回顾一下,百度在 人工智能 领域的布局持续推进。早在2025年10月16日,百度就首次发布并开源了PaddleOCR-VL模型,当时即在OmniDocBench V1.5榜单中取得了SOTA成绩,并连续五天同时登顶 Hugging Face 与 ModelScope 的全球模型趋势榜榜首。在 开源实战 领域,持续的迭代和开放共享已成为推动技术发展的重要模式。
相比于上一代模型,PaddleOCR-VL-1.5在功能层面有了显著增强。它不仅进一步集成了印章识别、文本检测与识别等任务能力,关键指标持续领跑;还针对特殊场景与多语种识别进行了系统性优化。在生僻字、古籍文献、多语种表格、下划线与复选框等复杂结构的识别精度上均有显著提升,并新增了对藏语、孟加拉语等语种的支持。此外,模型还支持跨页表格的自动合并与跨页段落标题的识别,有效解决了长文档解析中常见的结构断裂问题。
近半年来,全球主流模型厂商对OCR领域的投入明显加剧。就在1月27日,深度求索发布了新一代OCR模型DeepSeek-OCR-2,引入了“因果流查询”机制,并将语言模型融入视觉编码,在OmniDocBench V1.5中实现了91.09%的精度。与此同时,Mistral AI、字节跳动、腾讯等企业也相继推出了新一代OCR模型,行业竞争日趋白热化。
业内分析指出,随着大模型加速渗透到金融、政务、制造等高复杂度业务流程中,文档解析能力正从“能用”快速走向“稳定、可规模化落地”的新阶段。PaddleOCR-VL-1.5在精度、复杂场景适应性与工程化能力上的系统性突破,有望进一步降低产业应用的技术门槛,推动OCR技术在真实生产环境中的深度落地。
目前,PaddleOCR-VL-1.5 已全面开源,开发者可以通过以下渠道获取和体验:
对于关注前沿 人工智能 与文档智能技术的开发者而言,这无疑是一个值得深入研究和尝试的优秀项目。更多深度的技术讨论和开源项目实践,欢迎来 云栈社区 交流分享。
|