找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3496

积分

0

好友

466

主题
发表于 3 小时前 | 查看: 2| 回复: 0

云栈社区的技术讨论中,多模态模型的幻觉问题常被提及。传统模型要么输出流畅但缺乏细节的描述,要么能定位物体却无法理解深层含义。最近,阿里巴巴Logics团队发布的全新框架 Omni Parsing,试图打通这个困局——它覆盖文档、图像、音频、视频四大模态,将感知与认知解耦后通过结构化方式重新连接,最终输出标准化的 JSON,让每一条理解都有据可查。

三层次渐进式全模态解析

Omni Parsing 的核心思路不复杂:把“看”和“懂”分开,再让它们通过结构化数据彼此印证。整个过程分三层:

L1:整体检测(Holistic Detection)

模型先执行时空定位与粗粒度分类。对文档,它标记出文字块、表格、图表的边界框;对视频,则定位镜头切换的时间点以及关键物体的时空坐标。这一步建立了感知的几何基准。

L2:细粒度识别(Fine-grained Recognition)

定位后,进行符号化和属性提取。OCR/ASR 提取文字和语音内容;属性提取包括颜色、数量、类别;结构化知识则覆盖图表数据点和几何图形的点线关系。例如,一张包含奶酪与字母积木的静物图,模型能识别出“BASILILE DAY”的文本、蓝色奶酪的材质和葡萄的深紫色。

几何题干图:三角形HFE,HM是角平分线,MN垂直于HF,求MN长
快速排序算法课程视频截图:包含流程图、讲师讲解、伪代码等

L3:多层次解释(Multi-level Interpreting)

基于前两层的结构化信息,模型进行推理:图表传达了哪种趋势?视频叙事逻辑是什么?几何图形中存在哪些关系?最终输出可追溯的推理链,并以统一 JSON 格式呈现,直接服务下游 RAG、QA 系统。

Omni Parsing框架架构:L1整体检测、L2细粒度识别、L3多层次解释,输出统一JSON

四大模态解析基准 OmniParsingBench

为了定量评估,团队开源了 OmniParsingBench 基准,覆盖文档、图像、音频、视频,重点考察三项能力:

  • 细粒度定位:能否准确框出/定位关键元素
  • 结构保真度:输出是否保留原布局逻辑关系
  • 逻辑推理:基于结构化信息能否正确归纳和推理

以 Qwen3-Omni-30B 为基线模型,在图形认知(图表+几何)任务上做了消融实验。结果发现:纯描述微调反而有害(逻辑推理从73.97掉到68.04);而引入细粒度感知数据(图表HTML结构、几何坐标拓扑)后,逻辑推理飙升至90.87,数量关系达到96.08。

OmniParsingBench基准测试柱状图:多种模型在六个任务上的准确率对比

为什么这很重要?

这个框架最突出的价值在于:统一的全模态处理 + 标准化 JSON 输出。复杂文档(如财务报告、学术论文)中的图表、公式、插图,经过解析后可以直接对接 RAG 系统,实现“从文档到知识”的无缝转化。在教育场景中,它能将幻灯片切换、板书内容和语音精准对齐,回答“老师在第三分钟讲了哪个公式”这类可追溯问题。

感兴趣的可以查阅原论文和代码:


开源地址:https://github.com/alibaba/Logics-Parsing/tree/main/Logics-Parsing-Omni



上一篇:HBM 3D堆叠与高带宽I/O:AI算力突围的核心引擎
下一篇:Molmo 2视频理解模型:开源精准定位追踪,超越Qwen3-VL
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-27 05:28 , Processed in 0.775423 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表