论文地址:https://arxiv.org/abs/2601.21957
近期,飞桨 PaddlePaddle 重磅发布了其最新一代的视觉语言模型——PaddleOCR-VL-1.5。这款模型专为复杂的文档解析任务设计,采用多任务架构,拥有约 0.9B 的参数量,定位为一款兼顾精度与效率的高性能文档理解与识别工具。
根据官方数据,PaddleOCR-VL-1.5 在 OmniDocBench v1.5 基准测试中表现优异,整体准确率达到了 94.5%。更为突出的是,在表格解析、公式识别和文本识别等多个子任务上,它都展现出了领先的性能水准。模型的一大亮点在于其鲁棒性,针对现实世界中常见的物理畸变,如复杂光照、文本倾斜、文档扭曲、扫描瑕疵以及屏幕翻拍等问题,都进行了专门的优化和增强。
它集成了多项高级文档理解能力,包括不规则多边形区域(如印章、图表)的精确定位、端到端的文本行定位与识别(text spotting),以及印章检测。此外,模型还能智能处理跨页文档:例如,将分布在多个页面的表格内容自动合并为一个逻辑整体,并识别跨页段落之间的标题关联性。在语言支持上,它从主流语种扩展到了包括藏文、孟加拉文在内的多种稀有文字,展现了良好的多语种适应性。
为了便于开发者快速集成与应用,官方提供了多种使用方式,涵盖命令行工具(CLI)、Python API 以及兼容 transformers 库的推理示例代码。对于追求更高性能与推理效率的生产环境,官方建议在 PaddlePaddle 自家的优化推理服务框架或 vLLM 等高性能推理后端上进行部署。
对于关注轻量化与高效的 AI模型 应用的开发者和研究者而言,PaddleOCR-VL-1.5 无疑是一个值得深入探索的开源项目。其在小参数量下实现的多任务、强鲁棒性文档理解能力,为相关领域的实际应用提供了新的可能。更多技术讨论和资源分享,欢迎访问云栈社区。
|