云栈社区»论坛 › 回收站「 Recycle Bin 」 › Fish Audio创始人复盘：如何用情感语音TTS模型与端到端架构挑战 ...

发回帖发新帖

5672 积分	0 好友	745 主题

发消息

Fish Audio创始人复盘：如何用情感语音TTS模型与端到端架构挑战行业巨头

发表于 2026-2-27 05:33:13 | 查看: 324| 回复: 0

The Alphaist播客第5期封面：AI Voice 2.0与Fish Audio

从智能客服到AI陪伴，从游戏NPC到虚拟主播——语音正迅速成为人机交互的核心界面。当GPT-4o这类多模态模型已能“开口说话”，独立的语音模型还有存在的价值吗？面对大公司动辄万卡集群和海量数据的碾压，创业公司又凭什么能够胜出？

Fish Audio用过去12个月实现13倍增长、达成千万美元年经常性收入的成绩，给出了自己的答案。作为全球第二大AI语音生成平台，Fish Audio拥有350万用户和超过110万个用户生成的声音模型。其核心产品S1模型，是世界上首个支持通过自然语言描述来控制情感的TTS（文本转语音）模型。

本期内容源自对Fish Audio两位联合创始人的深度访谈：CEO Rissa（前Meta/Amazon增长与开发者社区负责人）与CTO冷月（00后，前英伟达算法研究员）。我们将探讨他们如何从开源社区起步，构建起独特的竞争壁垒；为什么“高噪音数据往往蕴含更高表现力”；端到端架构如何将语音生成延迟压缩到100毫秒以内；以及两位年轻创始人如何在创业早期化解股权危机、完成团队重组。

核心洞察：语音是情感交互的下一代入口

我一直相信语音会是人类与 AI 交互的一个非常重要的入口。如果我们要让语音模型变得更自然，它一定得是一个大模型，一定得是自回归架构，一定得尽可能多地建模语义信息和声学信息。Noisy 数据往往是更有高表现力的数据——你想，人什么时候的情绪最丰富？往往是两个人在吵架，在争论，或在很高兴地讨论什么事情的时候。—— 冷月

我们的切入口正好是更有趣的声音，更有灵魂的声音，更适用于游戏和娱乐场景。而这些公司也在快速发展，他们很可能在未来两到三年里成为接下来的世界 500 强。——Rissa

我们先从 Content Creator 这个事情开始，做出一个足够好的 Content Creator Platform——就像 Claude Code 让普通人能够实现原本只有经过多年训练的程序员才能做到的事情一样，我们希望 Fish Audio 让每一个普通人也可以成为一个资深的内容创作者，然后再一步一步走向 AGI。——冷月

1. Fish Audio：定位AI语音2.0的破局者

Fish Audio将自己定位为AI Voice 2.0的推动者。所谓1.0，是清晰、正式但单调的广播式语音；而2.0，则是具备情感、能够交互、让人感觉在与真人对话的智能语音。团队坚信，TTS技术远未触及天花板，在可控性、与视觉结合等方面仍有巨大突破空间。

Peter： 请用一两句话介绍一下Fish Audio是做什么的？

Rissa： Fish Audio是一个AI语音生成平台，目前已经是世界第二大的AI voice generation platform。我们提供多语言文本转语音和高精度声音克隆，目标是让每个人都能拥有人类水平的AI配音能力。我们的用户包括游戏开发者、内容创作者以及各类企业客户。

当前数据指标：

增长： 过去12个月ARR增长13倍，达到1000万美元。
用户： 积累350万用户，月活超过100万。
生态： 拥有业界最大的UGC声音模型市场，公开模型达110万个。
开源影响： 相关开源仓库累计获得超过10万GitHub Stars。

2. 技术信仰：为什么语音模型必须独立且强大？

选择语音赛道并非偶然。CTO冷月在英伟达期间就观察到市场空白，并形成了坚定的技术判断：未来的语音交互核心必须是一个大型、自回归、端到端建模语义与声学信息的统一模型。

冷月： 大概两三年前，市场上最知名的玩家是ElevenLabs，但效果并不理想，生成的语音不够自然。我们相信，语音是人机交互的关键入口。要让语音自然，模型必须足够大，必须是自回归架构，必须采用端到端方式联合建模。这让我们很早就开始在数据收集和强化学习管线上投入，走在了行业前面。

关于“被多模态大模型吸收”的争议：
冷月认为，普通的TTS任务确实可能被吸收，但高情感、高可控的语音则不然。其核心壁垒在于数据——互联网上不存在大量带有细腻情感标注的（文本-语音）配对数据。构建这类数据集极其困难，而这正是Fish Audio的护城河所在。此外，依赖TTS模型合成的数据训练大模型，存在“数据毒性”问题，会限制模型上限。因此，高质量、人工标注的真实数据至关重要。

3. Scaling Law、数据飞轮与“脏数据”的宝藏

参数规模与架构选择：
冷月指出，如果只做纯TTS任务，模型参数超过40亿后收益会递减。但若要实现真正的Voice Agent（语音智能体）能力，则需要百亿级参数。为此，Fish Audio采用了MOE（混合专家）架构，例如用“30B参数，每次激活3个专家”的配置，其训练和推理成本仅相当于一个60亿参数的稠密模型，在创业公司可承受范围内。

数据策略：反直觉的发现
数据是另一个核心战场。Fish Audio预计在数据标注上的投入将达到百万美元级别。最具反直觉的发现是：传统数据清洗中会被丢弃的“脏数据”——如多人同时说话、带有背景噪音的片段——恰恰是情感最丰富、表现力最高的数据。

冷月： 人什么时候情绪最丰富？往往是吵架、争论或兴奋讨论的时候，这时声音经常会重叠。传统清洗会直接扔掉这些数据，而我们选择尽可能保留。Noisy数据往往是高表现力的数据。

此外，Fish Audio采取了一种更高效的策略：利用现有强大的文本模型，通过“在线蒸馏”的方式，将文本知识迁移到语音模型中，这比从零开始积累高质量语音数据更快。

4. 技术演进：三代TTS架构与端到端的终局

冷月梳理了TTS架构的三代演进：

第一代（如StyleTTS）： 延迟低，但韵律弱，语音单调。
第二代（如Tortoise，CoSyVoice）： 先产生语义token，再解码为音频。稳定性好，表现力有提升，是当前主流部署方案。
第三代（如Fish Speech，千问TTS）： 端到端联合建模语义和声学信息。表现力更强，天生支持多说话人，且延迟潜力巨大。

Fish Audio坚定押注端到端路线，并将其视为未来主流。其巨大优势在于可大幅降低延迟——理论上生成第一个token后即可开始解码音频。团队正在研发更激进的模型，旨在完全去掉声码器模块，实现文本到波形的完整端到端生成，目标是将延迟压至30-50毫秒。

对于Voice Agent整体架构，冷月指出，传统的级联方案（语音识别→大语言模型→TTS）实际延迟常超过1秒。而真正的端到端语音智能体模型，可以将用户停止说话到AI开始回应的时间压缩到100毫秒以内，最终形态将是支持实时插话、反馈的全双工交互模型。

5. 商业化飞轮：从开源社区到企业级爆发

Fish Audio采用了独特的“模型矩阵”策略来匹配不同商业场景，而非追求单一模型通吃：

S1 / S2 Pro： 主打高表现力，服务于内容创作、游戏、AI陪伴等场景。
S2 Flash： 主打低延迟与高稳定性，面向实时客服、销售等企业场景。

差异化的市场切入：
与ElevenLabs主要服务传统500强企业不同，Fish Audio瞄准了快速增长的AI Native应用（如Character.AI）和游戏公司。Rissa认为，这些公司正是未来两三年内的“新世界500强”。

增长路径：Product-Led Growth
公司收入约60%来自专业内容创作者（Prosumer），40%来自企业API。其B2B增长很大程度上是PLG模式的自然结果：开源社区的用户、平台上的创作者，将Fish Audio推荐给自己所在的公司，从而带来企业合约。

核心壁垒：四大飞轮

UGC音色生态： 110万个用户生成的声音模型，构成了丰富的选择和市场。
RLHF（基于人类反馈的强化学习）管线： 用户使用越多，模型表现越好，形成数据飞轮。
高效架构： 端到端设计带来训练和推理的成本优势。
开源获客： 通过开源核心模型和工具，以极低的客户获取成本吸引开发者，再转化为商业用户。

冷月： 开发者不相信Demo，只相信代码。开源是让他们测试、感知我们模型优势的最佳方式。当他们需要规模化部署并赚钱时，自然会转向我们的闭源商业模型。

6. 产品与全球化：围绕创作者构建生态

Fish Audio正在从单一的语音API，向一个多模态内容创作平台“Fish Studio”演进。其用户画像已从早期的游戏开发者，转变为使用AI工具来赚钱的专业内容创作者（如Vlogger、播客主）。这群用户付费意愿强、粘性高。

产品需求也在反向驱动技术研发，例如更精确的时间戳、唇形同步等功能，都直接来自创作者工作流的需求。

在全球化方面，Fish Audio凭借其出色的声音克隆技术和数据飞轮，在小语种和带口音的语言上建立了独特优势。例如，阿拉伯语模型因平台上的特定使用热潮而实现了性能突破，从而吸引了企业客户。

7. 创始故事：至暗时刻与团队锻造

Fish Audio的创立源于冷月对语音技术的热爱与洞察，而Rissa的加入则充满了“命运驱使”的色彩。Rissa曾担任冷月的增长顾问，在合作中被其技术激情、学习能力和商业嗅觉所打动，最终决定全职加入。

最大的危机发生在2024年7月：公司面临股权结构问题，老股东阻碍融资，现金流紧张。在至暗时刻，Rissa选择all-in加入，与冷月并肩在两个月内完成了公司重组、股权清理和团队重建，拒绝了所有收购要约。

Rissa： 那段时间我们每天都在打仗。但冷月没有认命或放弃，我们背靠背解决了所有问题。这次危机不是插曲，而是我们团队和合伙关系的‘成人礼’。

8. 团队文化与终极愿景

Fish Audio团队几乎全是00后，崇尚“奖励功劳而非苦劳”的文化。团队成员多是来自开源社区的“隐藏宝石”，招聘方式也别具一格：给予候选人充足的计算资源和一个月时间，让其自由探索感兴趣的方向，以此筛选出真正热爱且能交付成果的人。

终极愿景是赋能创作。冷月希望，Fish Audio能像Claude Code降低编程门槛一样，降低内容创作的门槛，让每个普通人都能成为资深创作者。在此基础上，逐步向着更通用的人工智能（AGI）迈进。

Rissa： 我们希望，任何一个有想象力的人，都能借助AI创造出美好的作品，并传播到全世界。

对于AI语音赛道和Fish Audio的实践，你有什么看法？欢迎在云栈社区的开发者广场交流讨论。

上一篇：网传魅族手机团队将解散，19年自研业务或迎重大调整
下一篇：API接口设计：业务失败时该返回HTTP 200还是4xx/5xx？

AI语音合成, TTS, 多模态, 数据, 开源