来自南开大学、鹏城实验室与快手科技的研究团队在NeurIPS 2025上提出了名为“VidEmo: AffectiveTree Reasoning for Emotion-Centric Video Foundation Models”的新框架。该研究致力于解决视频人工智能模型在理解复杂、动态和微妙情绪方面的不足。
论文简介:从识别表情到理解情感
当前,大多数视频AI模型能够有效识别“开心”或“生气”等基础、离散的表情标签。然而,现实中的情绪往往是微妙、复杂且动态变化的(例如“苦笑着摇头”所表达的无奈感)。情绪并非静态标签,它融合了动态的面部表情、肢体动作以及丰富的上下文场景信息。
VidEmo框架的核心突破在于,它模仿了人类理解情绪的认知过程,不再仅作简单分类,而是进行深层次推理。
核心贡献与创新
研究团队从以下三个方面做出了关键贡献:
- 提出VidEmo框架:该框架设计了支持“属性感知 -> 表情分析 -> 情感理解”的三阶段推理链。这模仿了人类先观察细节(如微表情、发型、场景),再综合判断内在情绪的思维过程,从而能解读如“强颜欢笑背后的疲惫”等复杂状态。
- 构建EmoCFG数据集:为了支撑模型的深度推理训练,研究团队构建了一个包含210万样本的大规模细粒度情感标注数据集。该数据集不仅包含属性、表情、情感的三级标签,还提供了对应的推理依据文本。
- 实现性能突破:VidEmo在多个基准测试中展现出卓越性能。其在15项面部感知任务中超越了所有开源视频大语言模型(VideoLLMs),并在14项任务中超过了强大的闭源模型Gemini 2.0。
<center>
<img src="https://static1.yunpan.plus/attachment/a5047e80a1fa.png" alt="VidEmo论文封面" style="width: 50%;"/>
</center>
研究结果与性能表现
基于详尽的实验评估,VidEmo模型取得了以下关键结果:
- 整体性能领先:参数量为7B的VidEmo-T1模型,在属性感知、表情分析和情感理解三大任务上的平均准确率分别达到了86.3%、39.9%和69.3%,相较于最佳基线模型,提升幅度在5.7%至21.3%之间。
- 细粒度任务优势:在微表情检测、身份验证等要求极高的细粒度任务中,VidEmo表现尤为突出。
- 下游任务适配性强:将VidEmo适配至DFEW和MAFW等经典情感识别数据集时,其性能较之前的先进模型(如EMOLLaMA)提升了9.4%,证明了其强大的泛化与应用能力。
<center>
<img src="https://static1.yunpan.plus/attachment/7e07bd1fbe1d.png" alt="VidEmo论文摘要" style="width: 50%;"/>
</center>
论文指出,这项工作为构建以情感为中心的人工智能基础模型提供了新的思路与强大的基准工具。相关论文与代码已公开发布,可供学术界与工业界进一步研究与应用。
|