云栈社区»论坛 › 站务中心「 Forum Service 」 › 阿里开源Omni Parsing全模态解析框架，统一文档/图像/视频/音频 ...

发回帖发新帖

3496 积分	0 好友	466 主题

发消息

音频为JSON

发表于 3 小时前 | 查看: 2| 回复: 0

在云栈社区的技术讨论中，多模态模型的幻觉问题常被提及。传统模型要么输出流畅但缺乏细节的描述，要么能定位物体却无法理解深层含义。最近，阿里巴巴Logics团队发布的全新框架 Omni Parsing，试图打通这个困局——它覆盖文档、图像、音频、视频四大模态，将感知与认知解耦后通过结构化方式重新连接，最终输出标准化的 JSON，让每一条理解都有据可查。

三层次渐进式全模态解析

Omni Parsing 的核心思路不复杂：把“看”和“懂”分开，再让它们通过结构化数据彼此印证。整个过程分三层：

L1：整体检测（Holistic Detection）

模型先执行时空定位与粗粒度分类。对文档，它标记出文字块、表格、图表的边界框；对视频，则定位镜头切换的时间点以及关键物体的时空坐标。这一步建立了感知的几何基准。

L2：细粒度识别（Fine-grained Recognition）

定位后，进行符号化和属性提取。OCR/ASR 提取文字和语音内容；属性提取包括颜色、数量、类别；结构化知识则覆盖图表数据点和几何图形的点线关系。例如，一张包含奶酪与字母积木的静物图，模型能识别出“BASILILE DAY”的文本、蓝色奶酪的材质和葡萄的深紫色。

几何题干图：三角形HFE，HM是角平分线，MN垂直于HF，求MN长
快速排序算法课程视频截图：包含流程图、讲师讲解、伪代码等

L3：多层次解释（Multi-level Interpreting）

基于前两层的结构化信息，模型进行推理：图表传达了哪种趋势？视频叙事逻辑是什么？几何图形中存在哪些关系？最终输出可追溯的推理链，并以统一 JSON 格式呈现，直接服务下游 RAG、QA 系统。

Omni Parsing框架架构：L1整体检测、L2细粒度识别、L3多层次解释，输出统一JSON

四大模态解析基准 OmniParsingBench

为了定量评估，团队开源了 OmniParsingBench 基准，覆盖文档、图像、音频、视频，重点考察三项能力：

细粒度定位：能否准确框出/定位关键元素
结构保真度：输出是否保留原布局逻辑关系
逻辑推理：基于结构化信息能否正确归纳和推理

以 Qwen3-Omni-30B 为基线模型，在图形认知（图表+几何）任务上做了消融实验。结果发现：纯描述微调反而有害（逻辑推理从73.97掉到68.04）；而引入细粒度感知数据（图表HTML结构、几何坐标拓扑）后，逻辑推理飙升至90.87，数量关系达到96.08。

OmniParsingBench基准测试柱状图：多种模型在六个任务上的准确率对比

为什么这很重要？

这个框架最突出的价值在于：统一的全模态处理 + 标准化 JSON 输出。复杂文档（如财务报告、学术论文）中的图表、公式、插图，经过解析后可以直接对接 RAG 系统，实现“从文档到知识”的无缝转化。在教育场景中，它能将幻灯片切换、板书内容和语音精准对齐，回答“老师在第三分钟讲了哪个公式”这类可追溯问题。

感兴趣的可以查阅原论文和代码：


开源地址：https://github.com/alibaba/Logics-Parsing/tree/main/Logics-Parsing-Omni

上一篇：HBM 3D堆叠与高带宽I/O：AI算力突围的核心引擎
下一篇：Molmo 2视频理解模型：开源精准定位追踪，超越Qwen3-VL

OmniParsing, 多模态解析, 阿里开源, JSON结构化, 全模态