云栈社区»论坛 › 站务中心「 Forum Service 」 › 99M参数端侧TTS引擎实测：Supertonic 3能做什么，又能跑在哪里 ...

发回帖发新帖

4124 积分	0 好友	532 主题

发消息

99M参数端侧TTS引擎实测：Supertonic 3能做什么，又能跑在哪里

发表于 2026-6-10 21:21:03 | 查看: 169| 回复: 0

项目卡片

项目：Supertonic [1]

状态：v3 / 11.1k Star / 1.1k Fork / 2025.11 开源至今半年迭代 3 个大版本

一句话判断：目前开源阵营里覆盖面最广的 TTS 引擎，仅凭 99M 参数就实现了 0.7B-2B 级模型才有的多语言覆盖与音质水平。

这是什么

Supertonic 是一款完全本地运行的文本转语音（TTS）引擎。输入一段文字，输出一段 44.1kHz 16-bit WAV 音频。没有云端 API 调用，没有数据上传，模型就在你的设备上跑。

背后的推理引擎是 ONNX Runtime，模型以 ONNX 格式发布。这意味着它天然跨平台：Python、Node.js、浏览器（WebGPU + WASM）、C++、C#、Go、Rust、Swift、Java、Flutter、iOS——同一个模型，12 种运行时。在云栈社区的开发者圈子里，这种“一次导出，到处部署”的思路一直是大家讨论的热点。

核心数字：99M 参数。

当前开源 TTS 的主流选手大多在 0.7B 到 2B 参数区间。Supertonic 的体量只占它们的十分之一到二十分之一，但在多语言朗读准确率和音质上保持在同一梯队。仓库的 benchmark 数据显示，在 MiniMax-MLS-Test 基准上，Supertonic 3 的词错率（WER）和多数大模型处于同一范围内，英语 2.06、德语 0.86、西班牙语 1.13，部分语言甚至优于更大的竞品。

Supertonic 3 的核心定位：99M参数端侧TTS引擎，覆盖12种运行时和31种语言

值得关注的三个点

跨平台覆盖面。 开源 TTS 项目不少，但一个仓库同时给出 12 种运行时示例的非常罕见。ONNX 在这里起到了关键作用——模型只导出一份，各平台通过 ONNX Runtime 绑定来加载推理，不需要为每个平台单独训练或转换。

端侧推理是真能用的，不是 demo。 树莓派、电子书阅读器、Chrome 浏览器——仓库里有 Onyx Boox Go 6 电子书在飞行模式下跑 TTS 的演示，平均 RTF（实时率）0.3 倍，生成速度是播放速度的三倍。Chrome 扩展 TLDRL 能在一秒内把整个网页转成语音朗读，推理全在浏览器内完成，零网络请求。

文本规范化能力是个意外的强项。 在处理金融数字（$5.2M → “five point two million dollars”）、电话号码（(212) 555-0142 ext. 402）、技术单位（30kph → “thirty kilometers per hour”）时，不需要任何预处理就能正确朗读。仓库的对比测试中，ElevenLabs Flash v2.5、OpenAI TTS-1、Gemini 2.5 Flash TTS 在这三类文本上全部失败，只有 Supertonic 全部通过。对需要朗读带数字、符号、缩写的实际文本（财报、技术文档、地址）的场景来说，这个能力很实用。

文本规范化能力对比：Supertonic在金融数字、电话号码、技术单位三类场景中全部通过

快速上手

最简单的路径是 Python：

pip install supertonic

三行代码出声：

from supertonic import TTS

tts = TTS(auto_download=True)           # 首次运行自动从 Hugging Face 下载模型
style = tts.get_voice_style("M1")         # 10 种预设音色（M1-M5 男声，F1-F5 女声）

wav, duration = tts.synthesize(
    text="Hello, this is a quick demo.",
    lang="en",                            # 31 种语言，不确定时传 lang="na"
    voice_style=style,
    total_steps=8,                        # 5(低)~12(高)，默认 8
    speed=1.05,
)
tts.save_audio(wav, "output.wav")

首次运行自动从 HuggingFace 下载模型，之后完全离线可用。模型文件不大，下载一次就能反复使用。

如果你的工具链已经走 HTTP 协议——比如本地 agent、Electron 应用、OpenAI 兼容的音频客户端——SDK 自带本地 HTTP 服务：

pip install 'supertonic[serve]'
supertonic serve --host 127.0.0.1 --port 7788

启动后暴露原生 /v1/tts 端点和 OpenAI 兼容的 /v1/audio/speech 端点，可以直接对接现有工具链。

supertonic serve本地服务架构：从客户端请求到ONNX推理再到WAV输出的完整链路

谁该关注这个项目

需要离线或隐私优先 TTS 的开发者。 医疗、法律、教育场景下，语音合成涉及的文本可能包含敏感信息，不适合上传云端 API。Supertonic 全程本地运行，数据不出设备。

做浏览器或移动端产品的团队。 WebGPU + WASM 推理支持意味着 TTS 可以嵌入网页前端或 Electron 应用，不依赖后端服务。iOS 和 Flutter SDK 也直接可用。

想给工具加语音反馈的开发者。 仓库已列出不少实际案例：Claude Code / Cursor 的本地语音回复工具 Aftertone、开源浏览器朗读扩展 Read Aloud、ePub 阅读器 PageEcho、talking avatar 生成器 OmniAvatar。还有一个基于 MNN 的轻量化移植版 supertonic-mnn，支持 fp32/fp16/int8 量化，进一步降低部署门槛。

Supertonic生态案例：浏览器扩展、移动端应用、开发工具、AI应用等多个场景中的实际集成

需要注意的边界

不支持中文。 31 种语言包含日语和韩语，但不包括中文普通话或粤语。中文场景需要另找方案。

音色固定，无内置声音克隆。 开源仓库提供 10 种预设音色，不包含声音克隆管线。自定义音色需要通过官方在线工具 Voice Builder [2] 上传参考录音生成配置文件，这是云端服务，不是本地操作。

模型许可和代码许可不同。 代码是 MIT，模型是 OpenRAIL-M。嵌入模型权重前需确认条款是否满足商用需求。

GPU 推理未就绪。 Python SDK 中 GPU 路径标注为 “not fully tested”，当前推荐 CPU 推理。好在 99M 参数体量下 CPU 推理已经足够快。

没有流式输出。 当前实现是生成完整音频后返回，不支持边生成边播放。长文本场景下，用户可能会有等待感。

Supertonic选型指南：左侧适合场景与右侧不适合场景的明确对比

总结

99M 参数、CPU 推理、31 种语言、12 种运行时、零网络依赖——这些标签堆在一起，Supertonic 基本上是目前开源 TTS 里端侧覆盖面最广的选择。pip install supertonic 加几行代码就能出声，上手门槛几乎为零。

前提是你接受它的边界：没有中文、没有内置声音克隆、没有流式输出。它适合嵌入工具和产品做功能性语音，但别指望它当专业配音引擎。

引用链接
[1] Supertonic: https://github.com/supertone-inc/supertonic
[2] Voice Builder: https://supertonic.supertone.ai/voice-builder

上一篇：苹果低价MacBook曝光：搭载A系列芯片入门级轻薄本或定价4000元档
下一篇：Claude Fable 5重磅发布：一天迁移5000万行代码，开发者直呼离谱

Supertonic, TTS, ONNX, 端侧部署, 多语言