5121 积分	0 好友	699 主题

发消息

AudioLLM 听不懂情绪？腾讯北大提出 UAS 统一音频模式补齐感知短板

发表于 3 小时前 | 查看: 2| 回复: 0

你对语音助手说：“我没事。”

它把这三个字转写得完全正确，然后很放心地继续往下聊。可真正听过那段声音的人，可能会立刻察觉不对：声音在抖，语速变慢，背景里还有一下很重的摔门声。

这就是音频大模型最容易骗人的地方。它看起来在“听”你说话，实际很多时候只是先把声音压成文字，再把文字丢给 LLM 推理。文字没错，不代表声音被理解了。

腾讯微信 AI 和北大这篇《Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs》抓住的就是这个问题。我觉得它值得写，不是因为又出了一个 AudioLLM，而是它把一个很朴素的问题讲透了：会转写，不等于真的听见。

论文里有个反直觉现象。当前 AudioLLM 在复杂推理题上可以做到大约 70% 的准确率，但到了基础听觉感知，成绩会掉到 40% 左右。也就是说，模型能回答复杂问题，却经常听不准说话人的情绪、口音、语气，甚至漏掉简单的非语言声音。这很像一个只看字幕的观众。

会转写，不等于真的听见

ASR 的目标很明确：把声音还原成标准文字。这个目标在过去十几年里非常成功，也让语音交互真正可用。但它天然有一个副作用：为了得到干净文字，系统会主动忽略很多“文字之外”的东西。比如 prosody——说话的节奏、重音和语调；比如 timbre——声音质感；再比如情绪、口音、背景噪声、音乐、门响、笑声。这些信息对 ASR 来说常常是干扰项，对真实理解却可能是关键线索。

所以问题不是 AudioLLM 不够聪明，而是训练目标从一开始就把它带偏了。模型一直被奖励“说了什么”答对，却很少被奖励“怎么说”听准。久而久之，它会形成一种很合理但很危险的能力分布：推理越来越强，感知仍然很粗。

有人会说，那就给模型加 audio caption，让它生成一段完整描述不就行了？这条路也有问题。自然语言描述太自由了，同一段声音可以被写成十几种句子：有人先写情绪，有人先写背景声，有人把口音和语速混在一起。对模型来说，这种监督信号信息很多，但形状很散。

我读到这里的第一反应是：这篇论文真正攻击的不是某个模型，而是“字幕中心主义”。我们长期把语音理解简化成文字理解，结果模型也真的学会了只盯字幕。

腾讯北大补的不是模型，是训练目标

Unified Audio Schema，简称 UAS，做的事很直接：把一段音频拆成三张账本。

一张账本记录 transcription，也就是原话说了什么。它保留 ASR 最擅长的部分，要求文字不能丢、不能改。第二张账本记录 paralinguistics，也就是这句话是怎么说出来的。里面包括年龄、性别、情绪、口音、prosody、timbre。你可以把它理解成声音里的“人味”：这个人是平静还是愤怒，是急促还是迟疑，声音是清亮还是含混。第三张账本记录 non-linguistic events，也就是语言之外发生了什么。它会描述背景环境、突然出现的声音，以及持续存在的噪声或音乐。比如门响、笑声、背景 hiss、低频 hum，都不再被当成没用的噪声扔掉。

UAS 总览

这张图左边是 UAS 的三层结构，右边是最重要的结果：红色星标代表 UAS-Audio。横轴是感知能力，纵轴是推理能力。它被往右推了一大截，但纵向没有明显掉下去。也就是说，它不是用推理换感知。

更有意思的是，UAS 不是靠人工一条条标出来的。论文做了一条自动数据流水线：先用 acoustic caption model 从原始音频里抓出说话人特征、情绪、背景声；再用 LLM 把这些描述和原始 transcript 合并成固定 JSON；接着用规则做质量校验，过滤字段不合法、文字不完整、逻辑冲突或者描述过度复杂的样本。

数据生成流程

这张流程图很关键。它说明 UAS 不是一个“好但很贵”的标注方案，而是可以把已有 ASR 数据重新加工成更完整的音频监督。论文还抽了 400 条样本做人类审核，多数字段准确率超过 95%。情绪和短促事件低一些，但也分别有 89% 和 91.75%。

模型结构反而不是主角。UAS-Audio 可以接连续 audio encoder，也可以接离散 audio tokenizer。论文验证了两种架构，重点不是发明一个神奇模块，而是把训练数据从“纯 transcript”改成“完整声学结构”。我觉得这点很重要。很多论文会把故事讲成“我们设计了一个新网络，所以模型变强了”。这篇更像是在说：你不用急着堆新模块，先把老师给学生的答案改对。

这件事放到真实产品里，会变得更明显。一个客服质检系统如果只拿 transcript 做分析，只能知道用户说了“可以”“不用了”“你们处理吧”。但这些词在不同语气下含义差很多。有的人是真的接受了方案，有的人是在压着火结束对话。一个会议助手如果只记文字，也会漏掉谁在迟疑、谁在强硬打断、哪段讨论伴随着明显的笑声或沉默。对人来说，这些都是上下文；对只吃 transcript 的模型来说，它们从数据入口就消失了。所以 UAS 的价值不只是涨 benchmark。它把音频应用从“语音转文字后的 NLP”往前推了一层：声音本身开始成为一等公民。

最关键的数字，不是平均分

看这类论文，平均分通常没那么重要。真正要看的，是它有没有解决原先的能力倒挂。MMSU 是这篇里最有价值的 benchmark，因为它把 perception 和 reasoning 拆开看。UAS-Audio 在 perception 上做到 55.7%，比同尺寸最强 baseline Kimi-Audio 的 44.8% 高 10.9 个点。与此同时，它的 reasoning 是 77.4%，只比 Qwen2.5-Omni 的 77.6% 低 0.2 个点。

主实验结果

这个数字说明一件事：细粒度听觉感知不是非得牺牲推理能力。过去模型听不准，不一定是因为它的语言脑不够强，而是因为音频监督长期把信息压扁了。

消融实验更能打到要害。去掉 UAS annotation，perception 从 55.7% 掉到 50.7%；去掉 UAS-QA，掉到 47.0%；两者都去掉，掉到 42.8%。但 reasoning 几乎一直在 77% 附近。

消融实验

这个结果我觉得比主表更重要。它说明 UAS 和 UAS-QA 不是装饰，而是在专门补感知缺口。UAS annotation 教模型“应该听见什么”，UAS-QA 教模型“怎么把听见的东西拿来回答问题”。

还有一个小实验很漂亮。论文把 structured UAS 和 unstructured caption 做了对比。两边用同样的数据源，也都不加 GRPO，只看监督格式本身的差别。结果 structured UAS 的 perception 是 54.8%，自然语言 caption 是 48.4%，差了 6.4 个点。

结构化格式对比

这就是我最喜欢的工程直觉：不是信息越多越好，而是信息要摆在模型容易学、系统容易取的位置上。自然语言 caption 像一段听感作文，UAS 更像一张表。作文更流畅，表更稳定。

这里也能解释为什么简单加 tag 不够。像“这里有笑声”“这里是开心语气”这种扁平标签，适合少量稀疏事件，但很难覆盖持续存在的声学状态。一个人的语速、停顿、音色、口音、背景噪声，往往不是某个瞬间出现一下，而是贯穿整段音频。UAS 的好处是给这些连续信息留了位置，让模型在训练时反复看到同一类属性应该放在哪里。更现实一点说，如果下游应用只想知道“说话人是不是生气”“背景里有没有报警声”，结构化字段也比一段自然语言更容易接入产品。论文也强调，UAS 主要是训练时的脚手架，推理时不一定非要生成完整 JSON。你可以直接问模型某个属性，让它短答。

声音比表格更滑，这条路还没走完

当然，声音不是天然规整的数据库字段。论文自己承认了两个限制。验证主要集中在中英文等高资源语言，低资源语言和 code-switching 场景还没充分测。当前 schema 也主要围绕单个主说话人，对多人重叠说话、鸡尾酒会式场景还不够完整。

我额外有一点存疑。UAS 的自动生成依赖 caption model 和 LLM 合成，虽然人类抽检整体不错，但 emotion 只有 89%，离散事件 91.75%。这两个字段本来就难。一个人到底是疲惫、冷淡还是难过，很多时候连人类都不一定一致；一个很短的碰撞声，到底该不该标出来，也会受听者注意力影响。

还有一个更产品化的问题：schema 一旦固定，系统会天然偏向它已经定义好的属性。年龄、性别、情绪、口音这些字段容易被枚举，但亲密关系里的讽刺、会议里的压迫感、客服场景里的不耐烦，未必能被几个标签完整覆盖。换句话说，UAS 让模型开始认真听声音，但它听见的东西仍然被表格形状限制。

所以 UAS 更像一个好脚手架，不是世界本身。它把混乱声音整理成模型可以学习的结构，但也可能把一些连续、暧昧、上下文相关的信号硬塞进离散字段。这个代价值得接受，但不能忘记它存在。

即便如此，这篇论文的方向我觉得是对的。音频大模型如果只追求更准的 transcript，本质上还是文字模型的外接耳朵。真正的 AudioLLM 应该能听见文字之外的世界：语气里的犹豫，背景里的异常，沉默里的压力。

回到开头那句“我没事”。未来好的语音模型，不该只把它转成三个字。它应该知道，这三个字有时候是真的没事，有时候恰恰是在求救。

云栈社区将持续关注音频人工智能的最新进展，与你一起跟踪那些能让技术“听见人心”的突破。

上一篇：Claude CLI、Agent、Opus 到底有何区别？一篇通俗杂谈
下一篇：Snap创始人谈产品护城河：功能写出来不值钱，关系网才是

AudioLLM, UAS, 语音识别, 情绪感知, 副语言信息