找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2898

积分

0

好友

401

主题
发表于 昨天 01:28 | 查看: 1| 回复: 0

1月29日,百度正式对外发布并开源了新一代文档智能解析模型——PaddleOCR-VL-1.5。作为一项关键的人工智能技术,OCR正从简单的文字识别,向复杂文档的深度理解演进。这次发布的模型虽然参数量仅有0.9B,走的是轻量化路线,但其在全球权威文档解析评测榜单OmniDocBench V1.5中表现惊人,以94.5%的综合精度取得了全球第一的成绩,超越了包括Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B乃至GPT-5.2在内的诸多大型模型。

此次更新最引人注目的技术突破,在于PaddleOCR-VL-1.5首次实现了OCR领域的“异形框定位”能力。简单来说,这让机器首次能够像人眼一样,精准识别并框定那些倾斜、弯折、因拍照而产生畸变的非规则文档。过去,这些“歪七扭八”的文档是传统OCR模型的噩梦,常常导致识别失败或结构混乱。现在,这项技术有望从根本上解决移动拍照、扫描件变形、复杂光照等真实场景下的文档解析难题,为金融票据自动化处理、档案数字化、政务文档电子流转等智能 & 数据 & 云场景提供稳定且可规模化的解析能力。

该模型基于百度的文心大模型开发,在多个关键分项指标上均处于领先地位。特别是在表格结构理解(92.8分)和阅读顺序预测(95.8分)这两个核心任务上,它均位列第一,分别领先Gemini-3-Pro、DeepSeek-OCR等主流模型2到5分。更直观地看,其在版面逻辑解析上的错误率大约只有其他同类模型的一半。这意味着,在处理合同、财务报表这类结构复杂、逻辑严谨的文档时,PaddleOCR-VL-1.5展现出了更高的稳定性和可用性。

PaddleOCR-VL-1.5在OmniDocBench V1.5榜单中的性能对比
图为PaddleOCR-VL-1.5在OmniDocBench V1.5榜单中与Gemini-3 Pro、DeepSeek-OCR2等主流模型的全面性能对比。

回顾来看,百度在2024年10月16日首次发布并开源了PaddleOCR-VL模型,当时就在OmniDocBench V1.5榜单中取得了SOTA成绩,并连续五天登顶HuggingFace和ModelScope的全球模型趋势榜。此次的1.5版本并非简单的性能迭代,而是功能与场景的全面深化。

相较于上一代,PaddleOCR-VL-1.5集成了印章识别、文本检测与识别等更多任务,形成了一套更完整的文档解析工具箱。它针对多种特殊场景进行了系统性优化:在识别生僻字、古籍文献、多语种表格、下划线及复选框等复杂结构时,准确率显著提升,并新增了对藏语、孟加拉语等语种的支持。此外,模型还新增了跨页表格自动合并与跨页段落标题识别的能力,有效解决了长文档(如长篇报告、论文)解析中常见的结构断裂问题,让文档的逻辑完整性得以保持。

近半年来,全球主流科技公司对OCR领域的投入明显加剧,竞争日趋白热化。就在本月27日,深度求索发布了其新一代OCR模型DeepSeek-OCR-2,通过引入“因果流查询”等机制,在OmniDocBench V1.5上也达到了91.09%的精度。同时,Mistral AI、字节跳动、腾讯等企业也相继推出了各自的新一代OCR模型。这种密集的布局背后,反映出一个清晰的趋势:随着大模型加速渗透金融、政务、制造等高复杂度业务流程,文档解析能力正从“实验可用”阶段,大步迈向“稳定、可规模化落地”的新阶段。

业内人士分析,PaddleOCR-VL-1.5在精度、复杂场景适应性以及工程化能力上的系统性突破,有望进一步降低OCR技术在真实产业环境中的应用门槛,推动其在生产环节中的深度整合与价值释放。

目前,PaddleOCR-VL-1.5已全面开源,开发者可以通过以下途径获取和使用。对于想要参与开源实战或进行二次开发的工程师来说,这无疑是一个很好的学习和研究样本。

在线体验与API调用:

开源项目地址:

模型下载地址:




上一篇:从创始到产品:壁仞科技GPU的国产替代之路解析
下一篇:百度发布轻量级OCR新模型PaddleOCR-VL-1.5,首创异形框定位技术
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-1 01:30 , Processed in 0.319085 second(s), 38 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表