找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3721

积分

0

好友

497

主题
发表于 2 小时前 | 查看: 5| 回复: 0

2B 参数、全连续端到端、无离散 Token——这或许是目前开源最强的语音克隆模型。

近日,小红书 AI 团队(rednote-hilab)正式开源了语音合成模型 dots.tts。不同于大多数 TTS 系统依赖离散 Token 中间层的设计,dots.tts 采用了一条极为干净的端到端连续流架构——从文本输入到 48kHz 音频输出,全程无需离散化,直接在连续空间中完成语音生成。

本文首发于 云栈社区,面向研究者、开发者和产品经理的深度解读。

一、它到底有什么不同?

大多数 TTS 系统的管线是这样的:

文本 → 语义编码 → 离散 Token(如 EnCodec)→ 声码器解码 → 音频

离散 Token 是个常见的工程妥协——可以降低复杂度,但也会带来量化损失、音质上限受限的问题。

dots.tts 的架构则完全不同:

文本 → 语义编码器 + LLM 主干 → 自回归流匹配声学头 → 48kHz AudioVAE → 音频

关键点:

  • 2B 参数规模,主干为大语言模型
  • 语义编码器 + LLM + 自回归流匹配声学头三段式结构
  • 基于 48kHz AudioVAE,无任何离散 Token
  • 全流程连续,保留了更多细节信息

用一句话概括:dots.tts 是目前开源 TTS 中架构最“干净”的系统之一。

二、性能数据:Seed-TTS-Eval 上的开源第一梯队

在业界权威基准 Seed-TTS-Eval 上,dots.tts 取得了如下成绩:

测试集 WER(念错率)↓ SIM(音色相似度)↑
中文(zh) 0.94% 81.0
英文(en) 1.30% 77.1
中文-难(zh-hard) 6.60% 79.5

中文念错率仅 0.94%,在开源模型中处于第一梯队。

在多语言维度,dots.tts 在 MiniMax 24语言 Benchmark 上取得平均说话人相似度 83.9,同样位列最高。

此外,在 Emergent-TTS-Eval 等其他基准上,dots.tts 也展现出一致的开源 SOTA 水平,在以下三个维度表现突出:

  • 生成稳定性:长文本不崩溃、不乱读
  • 零样本语音克隆能力:仅需几秒参考音频
  • 情感表达力:语调自然,情绪有弹性

三、三个版本,各有侧重

团队开源了三个模型变体,开发者可按需选择:

版本 定位 适用场景
soar 官方默认推荐,音色相似度最高 极致克隆效果、专业配音
base 支持自定义声音训练 打造专属音色、企业声音资产
mf(MeanFlow) 2~4步推理,超低延迟 实时交互、智能客服、流式场景

其中 mf 版本基于 MeanFlow 方法,大幅减少了流匹配的采样步数,是对实时性有要求场景的首选。

四、应用场景展望

dots.tts 的开源,对以下场景均有直接价值:

内容创作
短视频配音、播客制作、有声书录制、虚拟主播——48kHz 的音质上限让内容更有质感。

智能交互
智能客服、虚拟数字人、教育助手——零样本克隆能力让个性化语音成本趋近于零。

无障碍服务
为阅读障碍、语言障碍用户提供自然度更高的语音转换体验。

游戏与娱乐
NPC 对话、角色配音——高保真音色定制,告别廉价合成感。

多语言企业应用
24 种语言支持,品牌声音全球化资产建设的理想底座。

五、快速上手

资源 链接
GitHub 代码仓库 https://github.com/rednote-hilab/dots.tts
Hugging Face 模型 https://huggingface.co/rednote-hilab/dots.tts
在线 Demo https://huggingface.co/spaces/rednote-hilab/dots-tts-demo

官方提供了完整推理示例脚本,零样本克隆只需几行代码,极低上手门槛。Apache 2.0 协议,免费商用,无法律顾虑

写在最后

dots.tts 的意义不仅在于跑分第一,更在于它验证了一条技术路径:全连续端到端架构完全可以在 TTS 领域做到商用级质量,同时保持开源可用。

这对整个语音生成领域的影响是深远的——它降低了高质量语音克隆的技术门槛,让语音作为“生产力工具”真正走向普及。dots.tts 的开源,也将进一步丰富 开源实战 领域的优质项目。

数据来源:小红书 AI 团队官方发布及 GitHub 技术文档,2026 年 6 月




上一篇:JDK17 前后写法对比:从 switch 到 record,差点没认出是 Java!
下一篇:大疆Pocket 4P vs 影石Luna:价格博弈下,谁先上市就买谁?
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-7 20:26 , Processed in 1.215866 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表