
SAM Audio(Segment Anything Model for Audio)是Meta Research开源的首个“像点选图像一样点选声音”的交互式音频分割模型。它支持文本、视觉点击和时间片段三种提示方式,能够从复杂混合音频中精准分离出用户指定的声音元素。
一、SAM Audio 是什么?
SAM Audio 是SAM(Segment Anything Model)系列在音频领域的重要扩展,旨在构建一个通用、可交互、可扩展的音频分割基础模型。
与传统专注于单一任务(如人声/伴奏分离)的模型不同,SAM Audio的核心创新在于其多模态提示能力。用户无需了解复杂的音频处理参数,只需通过自然语言描述(如“吉他声”)、在视频画面中点击发声物体、或圈定时间范围,即可告诉模型“想要听什么”,模型会自动完成精确的分离工作。

二、SAM Audio 能做什么?
1️⃣ 多模态提示音频分离
SAM Audio支持三类提示,并可灵活组合使用:
- 文本提示:用自然语言描述目标声音,例如“背景中的钢琴声”。
- 视觉提示:在视频中直接点击正在发声的对象(人物、乐器等),模型将结合视觉与音频信息分离对应声源。
- 时间段提示:标注某段时间内出现的声音,模型可在完整音频中提取所有同类声源。
这种直观的交互方式极大地降低了音频分离技术的使用门槛。
2️⃣ 统一的音频分割模型
传统音频分离方案通常是“一事一模型”,人声、乐器、环境音分离各自为政。SAM Audio采用统一模型设计,能够处理语音、音乐、通用音效等多种类型的声音,无需为不同任务重复训练,显著提升了模型的通用性与扩展性。
3️⃣ 无参考音频评测:SAM Audio Judge
Meta同步提出了SAM Audio Judge评测方法。其特点在于不需要干净的参考音轨,直接从感知层面判断分离结果是否“听起来正确”,更贴近人类的主观听觉体验,解决了真实场景中缺乏纯净源音频的评测难题。
4️⃣ 真实环境评测基准:SAM Audio-Bench
为了确保模型在真实场景下的有效性,Meta发布了SAM Audio-Bench评测基准。该基准基于真实环境采集与构建,覆盖多种音频类型与提示方式,并支持上述无参考评测,是首个面向实际应用的多模态音频分割基准。
三、核心技术原理解析
🔹 PE-AV:感知编码器视听模块
模型的核心是Perception Encoder Audiovisual(PE-AV)模块。它能提取视频的逐帧特征,并与音频特征进行时间对齐与语义融合。通过整合视觉线索(如嘴型、物体运动),模型能更精准地判断“哪个声音来自哪个对象”以及“声音何时出现”,为提示式分割提供了精确的时空定位能力。
🔹 生成式音频分离架构
SAM Audio采用了生成式建模思路,而非传统的频谱裁剪方法。它将混合音频与提示信息共同编码,然后通过基于扩散Transformer / Flow Matching的框架生成目标音轨和剩余音轨。这种在人工智能领域,尤其是生成式模型中常见的架构,在处理复杂、重叠的声源时表现更为稳定。
🔹 大规模多模态数据训练
为提升模型的鲁棒性与泛化能力,训练过程中使用了大规模、多样化的数据:
- 包含真实采集与人工合成的混合音频。
- 覆盖语音、音乐、环境音等多种声源类型。
- 对文本、视觉、时间等多种提示形式进行联合训练。
这种利用合成数据增强训练的策略,在大数据处理和模型训练中常被用来扩展数据边界。
四、开源与使用方式
📌 项目地址
📌 推理示例(Python)
官方提供了基于PyTorch的完整推理脚本和Notebook示例。
from sam_audio import SAMAudio, SAMAudioProcessor
model = SAMAudio.from_pretrained("facebook/sam-audio-large")
processor = SAMAudioProcessor.from_pretrained("facebook/sam-audio-large")
audio_path = "example.wav"
text_prompt = "吉他声"
# 后续处理...
五、典型应用场景
- 音频清理与降噪:精准去除视频或录音中特定的背景噪声(如交通声、键盘声)。
- 视频与内容创作:从视频素材中按对象分离声音,极大提升后期剪辑的灵活性。
- 音乐制作:从混合音轨中提取指定乐器、人声或声部,用于混音、采样或再创作。
- 无障碍辅助技术:在助听设备或音频增强应用中,强化对话语音等关键信息声音。
- 音频分析与研究:支持生态声学监测、声音事件检测等学术与工业研究任务。
|