2B 参数、全连续端到端、无离散 Token——这或许是目前开源最强的语音克隆模型。
近日,小红书 AI 团队(rednote-hilab)正式开源了语音合成模型 dots.tts。不同于大多数 TTS 系统依赖离散 Token 中间层的设计,dots.tts 采用了一条极为干净的端到端连续流架构——从文本输入到 48kHz 音频输出,全程无需离散化,直接在连续空间中完成语音生成。
本文首发于 云栈社区,面向研究者、开发者和产品经理的深度解读。
一、它到底有什么不同?
大多数 TTS 系统的管线是这样的:
文本 → 语义编码 → 离散 Token(如 EnCodec)→ 声码器解码 → 音频
离散 Token 是个常见的工程妥协——可以降低复杂度,但也会带来量化损失、音质上限受限的问题。
dots.tts 的架构则完全不同:
文本 → 语义编码器 + LLM 主干 → 自回归流匹配声学头 → 48kHz AudioVAE → 音频
关键点:
- 2B 参数规模,主干为大语言模型
- 语义编码器 + LLM + 自回归流匹配声学头三段式结构
- 基于 48kHz AudioVAE,无任何离散 Token
- 全流程连续,保留了更多细节信息
用一句话概括:dots.tts 是目前开源 TTS 中架构最“干净”的系统之一。
二、性能数据:Seed-TTS-Eval 上的开源第一梯队
在业界权威基准 Seed-TTS-Eval 上,dots.tts 取得了如下成绩:
| 测试集 |
WER(念错率)↓ |
SIM(音色相似度)↑ |
| 中文(zh) |
0.94% |
81.0 |
| 英文(en) |
1.30% |
77.1 |
| 中文-难(zh-hard) |
6.60% |
79.5 |
中文念错率仅 0.94%,在开源模型中处于第一梯队。
在多语言维度,dots.tts 在 MiniMax 24语言 Benchmark 上取得平均说话人相似度 83.9,同样位列最高。
此外,在 Emergent-TTS-Eval 等其他基准上,dots.tts 也展现出一致的开源 SOTA 水平,在以下三个维度表现突出:
- 生成稳定性:长文本不崩溃、不乱读
- 零样本语音克隆能力:仅需几秒参考音频
- 情感表达力:语调自然,情绪有弹性
三、三个版本,各有侧重
团队开源了三个模型变体,开发者可按需选择:
| 版本 |
定位 |
适用场景 |
| soar |
官方默认推荐,音色相似度最高 |
极致克隆效果、专业配音 |
| base |
支持自定义声音训练 |
打造专属音色、企业声音资产 |
| mf(MeanFlow) |
2~4步推理,超低延迟 |
实时交互、智能客服、流式场景 |
其中 mf 版本基于 MeanFlow 方法,大幅减少了流匹配的采样步数,是对实时性有要求场景的首选。
四、应用场景展望
dots.tts 的开源,对以下场景均有直接价值:
内容创作
短视频配音、播客制作、有声书录制、虚拟主播——48kHz 的音质上限让内容更有质感。
智能交互
智能客服、虚拟数字人、教育助手——零样本克隆能力让个性化语音成本趋近于零。
无障碍服务
为阅读障碍、语言障碍用户提供自然度更高的语音转换体验。
游戏与娱乐
NPC 对话、角色配音——高保真音色定制,告别廉价合成感。
多语言企业应用
24 种语言支持,品牌声音全球化资产建设的理想底座。
五、快速上手
官方提供了完整推理示例脚本,零样本克隆只需几行代码,极低上手门槛。Apache 2.0 协议,免费商用,无法律顾虑。
写在最后
dots.tts 的意义不仅在于跑分第一,更在于它验证了一条技术路径:全连续端到端架构完全可以在 TTS 领域做到商用级质量,同时保持开源可用。
这对整个语音生成领域的影响是深远的——它降低了高质量语音克隆的技术门槛,让语音作为“生产力工具”真正走向普及。dots.tts 的开源,也将进一步丰富 开源实战 领域的优质项目。
数据来源:小红书 AI 团队官方发布及 GitHub 技术文档,2026 年 6 月