找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4360

积分

0

好友

587

主题
发表于 3 小时前 | 查看: 2| 回复: 0

一个仅有3B参数量的轻量级模型,在文档解析任务上击败了众多开源大模型,并且在图形重建的核心指标上实现了对Gemini 3 Pro的全面超越——不仅仅是在单一数据集上,而是在六个不同的图形重建基准测试中都取得了领先。

这项突破来自华中科技大学与小红书hi lab联合推出的MOCR (Multimodal OCR)模型。

MOCR研究论文标题页

它提出了一种大胆的新范式:不再局限于识别文字,而是要“解析一切”——无论是文字、表格、图表、公式,还是流程图、化学结构式或UI组件,都能被转换为可编辑、可渲染的结构化代码。正如论文中所言,这相当于将文档中的图形元素从“二等公民”提升为“一等解析目标”。

更重要的是,这不只是一次技术改进,而是一次范式级别的重新定义。文档解析的最终目标不应仅仅是“把字认出来”,而应是“将页面上的所有信息都转化为机器可理解、可复用的结构化表示”。

MOCR文档解析与重建流程
MOCR整体流程:给定文档图片,将页面上所有元素统一解析为结构化输出,并忠实重建原始文档。

传统OCR的短板:图表信息的遗失

我们日常处理的PDF、论文或报告中,信息远不止于文字。一张精心绘制的图表可能浓缩了整份报告的核心结论,一个化学结构式承载着关键的实验信息,而一张流程图则描述了整个系统的运行逻辑。

但传统OCR是如何处理这些内容的呢?通常的做法是:识别出区域,裁剪成图片,然后丢弃其结构化语义。这意味着文档中大量高价值的信息在解析环节就被永久性地丢失了。论文中的一张对比图清晰地揭示了这个问题:

传统OCR与MOCR范式对比
传统OCR与MOCR的对比:传统方案将图形视为像素丢弃,MOCR则将其解析为SVG等结构化代码。

左侧是传统路线:文本通过OCR管线转化为Markdown,而图形则被简单地裁剪为像素图——要么被丢弃,要么仅能用于图像描述(caption)或视觉问答(VQA)这类粗粒度应用。右侧是MOCR的路线:图形被解析为SVG代码,与文本一同构成图像-代码配对数据。这种结构化的数据可以直接用于文生图、细粒度感知、可控图像生成以及统一的生成与理解等更广泛的下游任务,为AIGC应用提供了更高质量的素材。

MOCR的核心洞察非常直接:文档中最有价值的监督信号,往往存在于视觉元素而非纯文字中。将这些被“丢弃的金矿”重新利用起来,正是MOCR的目标。这不仅仅是对OCR技术的改进,更是对整个文档数据处理引擎的重新定义。

实现路径:一个3B模型的“全能”挑战

想法虽好,实现却充满挑战。让一个模型同时胜任文字识别和图形到代码的重建,远比单纯的OCR任务复杂。论文总结了三大核心难题:

第一,图形的监督信号极度稀缺。 现实文档中很少会同时提供一张图表及其对应的程序化表示(如SVG源码)。换句话说,文本-标注对数据海量,但图形-代码对却寥寥无几。

第二,可渲染的程序化表示天然不唯一。 同一张图表可以用完全不同的SVG代码来实现——结构、参数可能各异,但最终渲染的视觉效果却一模一样。这意味着训练目标本身是多对一的,导致模型难以收敛。

第三,任务要求极高的视觉定位精度和超长序列生成能力。 要将复杂图表忠实地转化为SVG代码,模型需要同时做到精确的视觉定位(每个图形元素的位置、大小、颜色都不能错)和长达数千token的结构化文本生成,难度远超纯文本OCR。

模型架构:专为文档场景定制的视觉-语言模型

整体架构遵循经典的视觉-语言模型范式:高分辨率视觉编码器 + 轻量级多模态连接器 + 自回归语言模型解码器。但每个组件都针对文档解析场景进行了深度优化。

1.2B参数视觉编码器——完全从零训练。
这是一个关键的设计选择。大多数视觉-语言模型会直接复用CLIP等为自然图像预训练的编码器,但它们对文档中的精细文字和几何图元(如图表标记)感知能力不足。从零训练确保了特征表示能天然适配文档解析需求。该编码器支持约1100万像素的原生高分辨率输入,不做降采样,这对于识别小字号文字和精确定位图表细节至关重要。

1.5B Qwen2.5语言解码器。
模型选择从Qwen2.5的base模型(而非chat版本)进行初始化,是因为MOCR的输出包含大量SVG代码等非自然语言的强结构化序列,chat模型的对话先验反而可能干扰学习。1.5B的规模是精心权衡的结果:更小的模型难以同时处理文本、布局和图形的异构输出,更大的模型则会显著增加训练和推理成本,其背后的Transformer架构也需要进行相应调整。

三阶段渐进式训练策略

训练策略是纯数据驱动的,通过精心设计的课程来逐步降低学习难度,稳定多任务联合训练:

阶段一:建立视觉-语言接口。 进行通用视觉训练,让语言模型学会可靠地“理解”视觉token,建立从视觉输入到文本生成的基本映射。

阶段二:广泛预训练。 混合通用视觉数据与纯文本文档解析监督数据,在保持视觉鲁棒性的同时,为文本OCR打下坚实基础。

阶段三:MOCR专项强化。 降低通用视觉数据的比例,大幅增加多模态文档解析数据的权重,重点强化图形转SVG的能力。同时逐步提升输入图像的分辨率,以匹配密集页面解析和长序列结构化生成的需求。

全程保持单一的自回归训练目标,通过调整数据混合比例和课程调度来控制优化稳定性。预训练之后还进行了高质量的指令微调(SFT),这一阶段特别关注监督信号的可靠性和任务输出的规范性——对于SVG解析而言,这包括viewBox标准化、代码简化和格式规范化等一系列处理。

团队最终发布了两个版本:dots.mocr(均衡能力版)和dots.mocr-svg(在SFT阶段增大了SVG数据比例并对困难样本加权的增强版)。

数据引擎:构建稀缺的图形-代码对

训练MOCR模型对数据的要求异常苛刻。团队从四个互补的渠道构建了训练语料,解决了“没有数据”的难题:

PDF文档: 使用dots.ocr作为自动标注引擎,从原始PDF中生成带布局区域和阅读顺序的结构化页面转录。并通过语言、领域和布局复杂度的分层采样来强调困难样本。

网页渲染: 将爬取的网页渲染为页面图像,并转换为与PDF统一的解析格式。这一来源提供了天然高分辨率和复杂布局的数据,更重要的是,网页中大量的图标、图表和UI组件天然以SVG格式存储,直接为图形解析提供了宝贵的训练信号。

原生SVG资产: 从多种来源收集原生的SVG文件,渲染后构建图像-SVG配对。整个流程包括清洗(去除无关元数据、标准化代码结构)和在代码、图像层面的去重。

通用视觉数据: 包含目标检测、计数等通用视觉和OCR监督数据,确保模型在专注于文档解析的同时,不丧失广泛的视觉理解能力。

评估革新:引入“OCR Arena”框架

值得一提的是,团队不仅在模型层面创新,在评估方法上也提出了新思路。

传统的OCR评估指标(如WER、NED)依赖规则化的字符串匹配,但对于复杂的Markdown或SVG输出来说,这类指标往往过于脆弱——语义完全等价但格式略有不同的输出可能被判为错误。

为此,团队引入了OCR Arena框架:使用Gemini 3 Flash这样的强大多模态大模型作为“裁判”,对两个模型的输出进行两两对比打分。为了消除大模型可能存在的“位置偏好”(倾向于选择先出现的选项),每次对比都进行正反两轮。只有两轮判断一致才计为有效胜负,否则算平局。最终通过Elo评分系统汇总出可靠的模型排名,并通过bootstrap重采样来增强统计稳健性。这套评估体系更能反映真实的端到端解析质量。

性能表现:两个维度,全面领先

MOCR模型性能综合对比图
整体性能对比:(a)图形解析 (b)文档解析(基于olmOCR-Bench、OmniDocBench 1.5、XDocParse基准)

维度一:文档解析,开源第一

在OCR Arena的Elo评估中,dots.mocr在olmOCR-Bench、OmniDocBench 1.5和XDocParse三个主流基准上均取得了开源模型第一名,平均Elo达到1125,仅次于闭源的Gemini 3 Pro(1211)。值得注意的是,dots.mocr仅有3B参数。

文档解析模型Elo评分对比表

在olmOCR-Bench的细分评测中,dots.mocr同样取得了83.9的最高总分,刷新了该基准的SOTA记录。

维度二:图形解析——全面超越Gemini 3 Pro

这是MOCR范式最令人惊艳的部分。评估覆盖了六个不同领域的基准,通过将模型输出的SVG代码渲染出来,并与原图进行视觉相似度对比来评分。

dots.mocr-svg在UniSVG基准上取得了0.902分,大幅领先Gemini 3 Pro的0.735。在全部六个图形重建基准上均实现了对Gemini 3 Pro的全面超越:

图形解析性能对比表

一个3B参数的紧凑模型,在其核心任务上超越了顶级闭源模型,这充分验证了专注的架构设计和数据工程能够弥补参数规模上的差距。

各类统计图表SVG重建效果展示
dots.mocr-svg对各类统计图表的SVG重建效果,柱状图、折线图、散点图等均可被忠实还原为可编辑的矢量图形。

跨学科复杂插图SVG重建效果
跨学科复杂插图的SVG重建:化学分子结构、物理示意图、数学图形、信息设计等。

维度三:通用视觉能力——并未削弱

一个常见的担忧是,专注于文档解析是否会牺牲模型的通用视觉理解能力?实验结果表明并非如此。

在多个图表理解、文档VQA、图表QA等下游任务上,dots.mocr均保持了稳健甚至领先的表现,说明统一的MOCR训练通过多任务协同,反而对通用能力有所增益。

MOCR的深远意义:不止于刷榜

如果只看评测分数,dots.mocr是一个强大的文档解析模型。但MOCR这项工作的真正贡献,远在数字之外。

1. 重新定义文档的信息构成。
MOCR打破了“文档=文字+待裁剪图片”的长期默认假设,明确指出:文档中的图形不是噪声,而是信息密度最高的部分之一。系统性地丢弃它们,意味着丢弃了文档中最有价值的信息。

2. 开辟多模态预训练的新数据源。
这是MOCR可能产生最深远影响的方面。当前多模态大模型的预训练数据(如图像-文本对)存在描述粒度粗、结构化程度低等局限。MOCR开辟了一条新路径:每一张被解析为SVG的图表,天然就是一个(图像,代码,文本)三元组。这种三元组精确、可执行、可验证且可扰动,其数据规模的上限仅取决于全球近乎无穷的可用文档数量。

3. 范式可扩展,不止于SVG。
虽然当前模型以SVG为目标表示,但MOCR范式本身是表示无关的。可将其扩展至TikZ(科学图形)、D3.js(交互可视化)、电路描述语言等专业领域,每一个方向都对应着一个数据金矿。

4. 评估方法的启示。
OCR Arena框架为评估复杂结构化输出提供了一个更可靠的思路,这种用强VLM做裁判的对比评估方式,很可能成为未来相关领域的新标准。

5. 再次证明数据工程的核心价值。
dots.mocr的成功很大程度上归功于其精细的数据引擎设计。论文提出的标准化+基于渲染的验证组合策略,为处理“一图多码”这类问题提供了通用方法论。

结语

用一句话总结:dots.mocr是一个3B参数的“全能选手”——文档解析开源领先,图形重建反超顶级闭源模型,通用能力同样扎实。

但比性能数字更重要的是其背后的范式转变:文档解析的终极目标不应是“把字认出来”,而应是理解和重建页面上一切信息载体的结构化语义。当OCR从“文字识别”进化为“全要素解析”,它便有机会成为多模态智能的核心数据引擎。从这个意义上说,MOCR可能是文档AI领域一次真正的范式起点。

模型和代码已在GitHub开源,感兴趣的研究者和开发者可以前往项目主页获取并体验。

论文链接:
https://arxiv.org/abs/2603.13032

代码仓库:
https://github.com/rednote-hilab/dots.mocr


本文由云栈社区编辑,聚焦前沿技术动态,为开发者提供深度解读。




上一篇:阿里Qoder专家团模式实测:多智能体协同开发16分钟搭建完整博客
下一篇:基于C# WinForms与NAudio打造50ms超低延迟工业内网语音通信系统
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-26 22:01 , Processed in 0.817925 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表