云栈社区»论坛 › 站务中心「 Forum Service 」 › 深度解读 dots.tts：2B参数全连续端到端语音合成，中文WER 0.94% ...

发回帖发新帖

4146 积分	0 好友	546 主题

发消息

深度解读 dots.tts：2B参数全连续端到端语音合成，中文WER 0.94% 的开源新标杆

发表于 2026-6-7 18:24:38 | 查看: 639| 回复: 0

2B 参数、全连续端到端、无离散 Token——这或许是目前开源最强的语音克隆模型。

近日，小红书 AI 团队（rednote-hilab）正式开源了语音合成模型 dots.tts。不同于大多数 TTS 系统依赖离散 Token 中间层的设计，dots.tts 采用了一条极为干净的端到端连续流架构——从文本输入到 48kHz 音频输出，全程无需离散化，直接在连续空间中完成语音生成。

本文首发于云栈社区，面向研究者、开发者和产品经理的深度解读。

一、它到底有什么不同？

大多数 TTS 系统的管线是这样的：

文本 → 语义编码 → 离散 Token（如 EnCodec）→ 声码器解码 → 音频

离散 Token 是个常见的工程妥协——可以降低复杂度，但也会带来量化损失、音质上限受限的问题。

dots.tts 的架构则完全不同：

文本 → 语义编码器 + LLM 主干 → 自回归流匹配声学头 → 48kHz AudioVAE → 音频

关键点：

2B 参数规模，主干为大语言模型
语义编码器 + LLM + 自回归流匹配声学头三段式结构
基于 48kHz AudioVAE，无任何离散 Token
全流程连续，保留了更多细节信息

用一句话概括：dots.tts 是目前开源 TTS 中架构最“干净”的系统之一。

二、性能数据：Seed-TTS-Eval 上的开源第一梯队

在业界权威基准 Seed-TTS-Eval 上，dots.tts 取得了如下成绩：

测试集	WER（念错率）↓	SIM（音色相似度）↑
中文（zh）	0.94%	81.0
英文（en）	1.30%	77.1
中文-难（zh-hard）	6.60%	79.5

中文念错率仅 0.94%，在开源模型中处于第一梯队。

在多语言维度，dots.tts 在 MiniMax 24语言 Benchmark 上取得平均说话人相似度 83.9，同样位列最高。

此外，在 Emergent-TTS-Eval 等其他基准上，dots.tts 也展现出一致的开源 SOTA 水平，在以下三个维度表现突出：

生成稳定性：长文本不崩溃、不乱读
零样本语音克隆能力：仅需几秒参考音频
情感表达力：语调自然，情绪有弹性

三、三个版本，各有侧重

团队开源了三个模型变体，开发者可按需选择：

版本	定位	适用场景
soar	官方默认推荐，音色相似度最高	极致克隆效果、专业配音
base	支持自定义声音训练	打造专属音色、企业声音资产
mf（MeanFlow）	2~4步推理，超低延迟	实时交互、智能客服、流式场景

其中 mf 版本基于 MeanFlow 方法，大幅减少了流匹配的采样步数，是对实时性有要求场景的首选。

四、应用场景展望

dots.tts 的开源，对以下场景均有直接价值：

内容创作
短视频配音、播客制作、有声书录制、虚拟主播——48kHz 的音质上限让内容更有质感。

智能交互
智能客服、虚拟数字人、教育助手——零样本克隆能力让个性化语音成本趋近于零。

无障碍服务
为阅读障碍、语言障碍用户提供自然度更高的语音转换体验。

游戏与娱乐
NPC 对话、角色配音——高保真音色定制，告别廉价合成感。

多语言企业应用
24 种语言支持，品牌声音全球化资产建设的理想底座。

五、快速上手

资源	链接
GitHub 代码仓库	https://github.com/rednote-hilab/dots.tts
Hugging Face 模型	https://huggingface.co/rednote-hilab/dots.tts
在线 Demo	https://huggingface.co/spaces/rednote-hilab/dots-tts-demo

官方提供了完整推理示例脚本，零样本克隆只需几行代码，极低上手门槛。Apache 2.0 协议，免费商用，无法律顾虑。

写在最后

dots.tts 的意义不仅在于跑分第一，更在于它验证了一条技术路径：全连续端到端架构完全可以在 TTS 领域做到商用级质量，同时保持开源可用。

这对整个语音生成领域的影响是深远的——它降低了高质量语音克隆的技术门槛，让语音作为“生产力工具”真正走向普及。dots.tts 的开源，也将进一步丰富开源实战领域的优质项目。

数据来源：小红书 AI 团队官方发布及 GitHub 技术文档，2026 年 6 月

上一篇：JDK17 前后写法对比：从 switch 到 record，差点没认出是 Java！
下一篇：大疆Pocket 4P vs 影石Luna：价格博弈下，谁先上市就买谁？

TTS, dots．tts, 开源, 深度学习, 语音克隆