云栈社区»论坛 › 开发者广场「Dev Plaza」 › ACE Studio：以IDE思路打造AI音乐专业工具，月入200万美元背后的 ...

5507 积分	0 好友	757 主题

发消息

ACE Studio：以IDE思路打造AI音乐专业工具，月入200万美元背后的差异化路径

发表于 2026-3-12 02:27:22 | 查看: 98| 回复: 0

过去一年，AI音乐无疑是生成式 AI 领域最出圈的 ToC 应用赛道之一。Suno刚刚完成了2.5亿美金的融资，年化收入超过2亿美金，吸引了千万级用户。

然而，并非所有玩家都选择同一条赛道。AI音乐平台 ACE Studio 就选择了一条截然不同的路径：从制作人、电影配乐师等专业用户切入市场，帮助他们更快速地把创意转化为达到发布标准的作品。不到一年时间，ACE Studio 实现了超千万美元的年度经常性收入（ARR）。在其2.0版本于25年12月初上线后，短短3个月月收入翻了三倍，达到200万美元。

近期，Alphaist Partners 合伙人陈哲（Peter）与ACE创始人郭靖（Joe）进行了一场深度对话，探讨了七年创业历程、如何在Suno的“阴影”下找到市场突破口，以及对AI音乐未来的一些核心思考。

01 ACE Studio，更像是音乐人的「Cursor」

Peter：ACE Studio 跟 Suno 最大的区别是什么？

Joe： 可以类比 Cursor 跟其他 AI 编程工具的区别。许多工具偏向于一句话生成完整项目，而 Cursor 更像是一个“人在回路中”（human in the loop）的、被AI加持的IDE。今天的 ACE Studio 就类似音乐界的 Cursor —— 它完全基于 AI 的新能力，旨在重新创造工作流、重塑创作环境，是音乐人的专属IDE。而 Suno 则更偏向于“模型即产品”（model as a product），用户输入提示词即生成完整音乐，门槛虽低，但后期编辑控制困难。

我们的策略与 Suno 正好相反——先从专业人士切入，凭借对音乐创作工作流的深刻理解来打磨更好的模型、收集更专业的反馈，之后再赋能消费者端。我们的模型也比 Suno 更轻、更快，在一张 RTX 3090 GPU 上仅需几秒钟就能生成一首完整的歌曲。目前，无论是开源还是闭源的 AI 音乐模型，都很难在同等速度下达到我们的音质水平。

Peter：在专业级市场，ACE Studio 发布之前其实并没有什么竞争对手？

Joe： 是的。用 AI 的方式系统性重塑专业音乐创作的工作流，这件事几乎是我们首创的，目前也处于比较领先的位置。

Peter：AI 在打破专业和非专业用户之间的壁垒上，有哪些实际例子？

Joe： 国内一家头部音乐教育机构正在使用我们的工具教学。他们的一位学员是三线城市的音乐老师，开设了一个为期两个月的培训班，教孩子们写提示词、生成歌曲。结果令人惊讶——这些初高中学生在两个月内创作出了质量很高的作品。更震撼的是，老师将其中一些优秀作品代理给版权公司并上架到QQ音乐等流媒体平台，其中一首歌连续数周位居榜首，最终带来的版权分成接近500万人民币。

你可以想象这意味着什么：一个高中生报了个399元的兴趣班，两个月后带回家500万。这个信号已经非常强烈。当一部分人还在争论AI创作是否有“灵魂”时，另一部分曾经的非专业人士已经在利用AI音乐系统性地赚取巨额收益。

这让我们看到，AI音乐的影响可能远超音乐本身，因为它有望让数千年来一直被少数人掌握的内容创作模式实现真正的普惠。音乐是情绪的延伸，每个人都有情绪，但并非所有人都有能力用音乐表达。现在，主流模式是人们在他人的音乐中寻找共鸣，是一种情绪的“代餐”。如果能让你用自己的音乐表达自己的情绪，这难道不是一项价值十倍、市场更广阔的事业吗？

Peter：做一款成功的专业工具，最大的门槛或困难是什么？

Joe： 这里有一个有趣的对比。对于C端产品（如抖音），其核心用例占据了用户90%以上的注意力和价值。但专业产品正好相反，它需要尽可能覆盖更多的“边角案例”，并以一种优雅的方式整合进统一的工作流中，这要求你对专业人士的实际工作流有极其深刻的理解。

例如，我们与 Suno Studio 的一个巨大区别在于产品形态。Suno Studio 是网页版产品，这源于其从消费者端起步的背景。但网页端产品很难满足专业用户的某些硬性需求，比如作为插件集成到他们现有的数字音频工作站（DAW）中。而 ACE Studio 虽然本身是一个独立的 IDE，但我们也开发了插件，能够桥接到传统音乐创作者的既有工作站里，实现无缝对接。

在模型能力上，Suno 偏向于端到端的生成模型。我们也有一套与之能力不相上下的端到端生成模型。但同时，我们拥有众多“专家模型”——例如，可以输入音符生成高质量人声的模型，输入音符生成高质量乐器音色的模型。音符是专业用户最常使用的“语言”，他们的核心需求在于精准地表达自己的音乐构思。

当前的问题不仅仅是音质。对于普通人而言，AI生成的音乐在听感上已与专业人士的作品难分伯仲。但为什么至今没有出现基于AI音乐创作的超级明星或个人IP？因为AI生成是一个相对黑盒的随机过程，创作者即使做出了一首好歌，也难以持续保持其独特的个人风格。

02 AI 音乐，是最接近可直接消费的 AI 生成内容

Peter：ACE Studio 对音符有完整控制力，这本质上也是一种 human in the loop 的创作方法？

Joe： 是的。音符之于音乐，正如代码之于程序。我认为未来即使在专业工具内，音乐创作的颗粒度也会不断提升。内容创作之所以始终需要“人在回路中”，是因为内容没有标准答案，没有可验证的明确奖励函数。你喜欢什么，我喜欢什么，这很难通过设定一个固定目标来解决。

举个例子，摇滚乐刚被发明时，有什么AI能帮助发明这种划时代的音乐类型？任何AI都做不到，因为在训练数据中根本不存在这种类型。而当一个新类型刚诞生时，公众评价往往褒贬不一，充满争议，因此强化学习也无法在早期奖励这种真正的革命性创新。

端到端的AI方法能很好地让人参与到内容创作中，但很难帮助人类探索出那些划时代的、改变范式的内容形式。因此从长远看，端到端生成与人在回路中创作会相结合——端到端生成能让人快速进入创作心流；当人人都能几秒钟上手且作品质量相当时，竞争的维度就会转向谁能够更可控、更精确地表达自己独特的想法，而不仅仅是比拼音质。

Peter：所以，更独特、更有创造力的内容会始终被奖励。

Joe： 没错。可以拿照相机做类比。在照相机出现之前，画师的核心价值是将人画得逼真。但照相机普及后，人们开始重新思考绘画和艺术的本质，从而催生了现代主义、抽象主义等流派。

Peter：你之前提到，AI 音乐甚至可能“大于音乐本身”。这个市场究竟有多大？

Joe： 目前还无法精确计算，只能做一些定性判断。当AI视频出现时，大家的想象是每个人都能制作自己的电影——如果成真，这个市场将远大于传统电影业。但问题在于，当前AI视频距离普通人可直接消费的电影还有很大差距，因为它涉及镜头语言、表演、剧情设计等太多复杂元素。

然而你会发现，AI音乐似乎是目前最接近“AI直出内容能被终端消费者直接消费”的领域。当前AI音乐面临的问题不是供给不足，反而是消费端平台（如腾讯音乐、Spotify）在打压这类供给，因为它们与传统版权方的利益产生了冲突。但这些平台会给AI生成音乐打上标签，进行流量限制。不过，这个势头已经难以阻挡，AI产生的大量作品在听感上已超越许多人类作品，并且能够批量产生播放量过亿的热门歌曲。

Peter：终端消费者其实并不在乎音乐是不是AI生成的？

Joe： 对，消费者向来不在乎。一个普通人去听AI音乐平台的歌单，很难分辨出哪些是AI生成的，哪些是人类创作的。大家可以想想这件事的深远影响——AI直接生成的内容已经达到了能让消费者直接消费的水平，目前还有哪个领域接近这一点？

03 自建专家模型矩阵，不止一个模型

Peter：Studio 2.0 发布三个月来，你观察到的用户是如何使用这款新产品的？

Joe： 随着我们在 Studio 2.0 中开放更多样、质量更高的模型能力，出现了一种明显的“涌现”效应——每个模型能力都是一个原子，用户通过排列组合这些原子，创造出了许多连我们都意想不到的工作流。

例如，有用户先哼唱一个旋律创意，然后通过我们的“人声转MIDI”模型将哼唱转化为乐谱，接着利用“AI乐器”模型将乐谱变成小提琴音色，最后通过“音乐增强器”模型，将这个简单的音乐灵感直接扩展、完善为一首达到出版品质的完整歌曲——整个工作流全部在 ACE Studio 内完成，最终做出了好莱坞史诗级别的弦乐配乐作品。

目前没有一个独立的AI工具能实现这样的效果。值得注意的是，使用者中不乏好莱坞的音乐制作人和格莱美获奖者等行业顶尖人士。

Peter：能否展开介绍一下你们的模型能力？其他通用大模型公司有可能复现或超越吗？

Joe： 首先，我们不止一个模型。刚才提到的工作流中就涉及旋律识别模型、乐器合成模型、基于音频提示的端到端音乐生成模型，此外还有类似Suno的文本生成音乐模型、音频分轨模型、音乐续写或加花模型等。

理论上，作为产品公司我们不应该自己训练所有模型。但音乐领域的第三方或开源模型非常稀缺，这反而倒逼我们成为了一个既做产品、又自建模型壁垒的公司，这是我们比较独特的地方。大厂如果想做这件事，需要沉下心来深入理解音乐产业的需求，逐个构建这些专用模型，每个模型都需要特定的数据和标注，这是一个极其耗时费力的过程。目前看来，大语言模型内生地长出强大音乐创作能力的路径尚不明确，仍需调用外部的专用音乐模型。

Peter：训练这一系列专用模型需要什么样的数据？

Joe： 数据需求千差万别。例如，我们的歌声模型，数据来源于在专业录音棚中精致采集的职业歌手录音，并由音乐专家进行标注，总数据量大约在1万小时左右。而端到端的音乐生成模型，则会用到上百万甚至更大量的完整音乐数据。我们通过版权公司购买授权，加上开源社区的捐赠数据，再通过内部的合成数据生成管线进行增强和组合，最终构建了一个包含两三千万首歌曲、总时长一两百万小时的数据集。

我们采用 Audio LLM 进行预标注，然后人工清洗和精调，再用这些高质量数据去强化训练 Audio LLM，使其标注更精准。这里就引出一个关键问题：当你听到一段被标注为“典型的鼓打贝斯风格律动”的音乐时，一个没有音乐知识背景的普通人，能判断这个标注是否正确吗？如果一个团队缺乏音乐领域的专业知识，就像盲人在做图像生成模型，评估环节会非常困难。

04 Flux 式商业模式：免费是漏斗，闭源是变现

Peter：2.0 产品发布后，你们的用户群和用户画像有什么变化？

Joe： 我们有两个产品线：ACE Music 面向消费者，ACE Studio 面向专业人士。但即使在 ACE Studio 上，随着更多端到端生成模型的引入，“专业人士”的定义也发生了扩散。

原先我们定义的“专业人士”是音乐制作人——那些能熟练操作专业软件、拥有各种硬件设备的人。但在音乐制作人和“懂音乐的人”之间，还存在一个巨大的人群缺口。例如音乐老师、全中国几千万琴童、会弹吉他、业余玩乐队的人……我们将这些人视为“新专业人士”（new professionals），但他们并非都是传统意义上的制作人。

在 ACE Studio 2.0 上，我们看到了大量这类用户。例如一位马来西亚的用户，他用 ACE Studio 创作的音乐已经用于与刘德华电影的合作，而他此前并非职业音乐制作人，也不会使用传统的制作软件，只是一个从小喜爱唱歌、会弹琴、拥有良好音乐审美的人。这说明，在AI工具的加持下，“专业”的定义本身也在变化——当门槛降低而能力增强时，谁能成为“专业人士”的边界正在拓宽。

Peter：作为市场后进者，ACE Music 如何与 Suno 竞争？

Joe： 许多模仿 Suno 的产品很难杀出重围。因为 Suno 拥有全球最好的模型，如果你的模型接近但稍差一点，就很难构建增长——用户为什么要花钱用一个稍差的产品？

我们短期的答案是：开源和免费。Suno 是云端封闭生态，没有第三方API。如果对用户说“我们有个类似产品，模型稍差但更便宜”，这没有吸引力。但如果说“我们有一个效果接近 Suno 的模型，完全免费，并且你可以下载到本地电脑上运行甚至训练，用你自己的音乐数据将模型微调成你想要的风格”——这就是一个巨大的卖点。

因此，我们把模型做得极快，在一张3090 GPU上11秒即可生成完整音乐，在A100上仅需2秒。这使端侧运行和训练成为可能，这是我们短期内撕开市场口子的手段。

但从长期战略看，开源只是手段，真正的胜算在于构建开放生态。这也是为什么我们宣称要打造全球首个开放生态的 AI 音乐平台——我们应该充分利用世界上现存的所有优秀音乐模型，包括我们自己的开源模型、其他开源模型，乃至提供API的闭源模型（如OpenAI、ElevenLabs、千问、MiniMax等都在研发音乐模型）。

Suno 走的是封闭路线，它与版权公司的和解协议也限制了其平台上只能使用自家模型。但纵观任何技术领域，即便是大语言模型这样高度集中的领域，如今也呈现出百花齐放的态势，开源与闭源模型各有千秋。在此基础上构建的智能体（Agent）产品才能获得系统性赋能。我们的愿景与此一致：我们相信，所有音乐模型联合起来，其力量一定能超越 Suno。

Peter：过去两三年在 Studio 产品上的积累，对今天推出 Music 有什么直接帮助？

Joe： 从专业用户切入，使我们获得了大量关于模型质量和音乐性的深度反馈与洞见。这就像 Midjourney 在强化学习阶段有一个由300名顶尖艺术家组成的核心用户池，仅根据他们的反馈进行迭代，从而打造出全球审美最好的图片社区。同样，ACE Studio 通过与顶级音乐人合作，他们的反馈无论在模型调优还是功能设计上，都为我们构建更好的 AI 音乐平台提供了不可替代的价值。

Peter：ACE Music 采用开源和免费模式，靠什么盈利？

Joe： 我研究过不少开源商业模式，发现 Flux 在图像领域的策略很有借鉴意义：先开源一个小模型，再半开源一个效果更好但商业用途需授权的中模型，最后提供一个效果最强的闭源大模型API。小模型通过开源获得大量开发者和用户，构建起市场声量和用户习惯；当生态形成后，有付费能力和需求的用户自然愿意为更强大的闭源版本付费。

在 ACE Music 上，直接使用基础模型目前仍是免费的——这是漏斗的最上层，目的是吸引更多人参与进来，培养兴趣和习惯，最终实现向高级功能的付费转化。

Peter：按照 Studio 现在的增长趋势，今年全年收入可能达到 3000 万美元。目前 Studio 的毛利率如何？

Joe： 推理成本很低，因为模型都是自建的，并且我们有很好的推理优化框架——每100美元收入，推理成本大约只有5-6美元。市场营销费用约占20%，主要用于持续的用户获取和教育。我们的订阅年费是200美元，另有一档264美元的套餐。用户也倾向于购买两年期的订阅。

Peter：专业工具市场的天花板有多高？

Joe： 2024年，全球音乐专业软硬件市场总规模约为150亿美元，其中软件部分（各种效果器、音源、插件等）接近80亿美元。所有这些复杂工具链的目标，都只是为了帮助创作者最终产出那一个3分45秒的MP3文件。传统的数字音频工作站（DAW）设置对新手来说可能就需要一周时间。ACE Studio 未来能否至少拿下这个市场的10%或20%？这是我们看到的专业市场保底天花板。

05 创业维艰：看着 Suno 从零做到世界级

Peter：我们认识快7年了。是什么支撑你一直坚持做这件事？

Joe： 是一种清晰的愿景。从第一天起我就坚信：音乐不应该是少数人垄断的高雅艺术，而应该是每个人表达自我的方式，这其实是人类的古老本能。原始人在发明语言之前就创造了音乐。

是什么让音乐创作变得高不可攀？不是音乐本身，而是以数字信号处理为基础的技术体系所构建起来的软硬件生态，倒逼创作者必须花费数年学习乐理和制作技术。如果能发明一种全新方式，让普通人也能将情绪注入并创造出可被他人欣赏的音乐，那将是彻底而正确的变革。这个信念从未动摇。

Peter：创业过程中有哪些特别痛苦或至暗的时刻？

Joe： 我们在2022年初完成了一轮融资，那时AIGC浪潮还未兴起。有段时间我们不够专注，同时尝试了智能体、语音生成、声音陪伴等多个项目。事后反思，这些尝试本质上都是在回避AI音乐这个核心难题——能否用AI真正创作出可消费的音乐。

到了2022年，我们甚至开始自我怀疑，因为迟迟没有突破。但讽刺的是，那恰恰是技术开始奏效的时候——Suno的第一个版本就在那时发布了。在那个过程中，我们被太多事情分散精力，视野局限在国内，对技术的前瞻性不足。我们既误判了训练Suno这类模型的成本，也低估了这件事的潜力，只能眼睁睁看着它从默默无闻成长为今天的巨头。那段时间极度痛苦，公司多头并进却都无法全力投入。我不断反问自己究竟相信什么，最终发现那是一种源于恐惧的回避。

2024年初，我和两位合伙人在飞往美国参加音乐展的飞机上进行了长达十几小时的讨论，最终决定：砍掉所有其他项目，All in AI Music。这个决定异常艰难，但做完之后，公司才真正在2024年中走上了增长轨道。

这是我最大的教训：可能出发过早，长期没有技术突破，做不出成绩，于是从其他路径寻找出路，结果却发现只是没等到技术奇点，而别人却在你眼前实现了你的梦想。我们在2024年才反应过来要追赶模型，开始训练自己的音乐大模型。2025年初进行了第一次开源，那个模型当时是开源领域的SOTA，但与Suno仍有巨大差距。直到2026年初，我们的第二代开源模型才达到了非常接近Suno的水平。

Peter：如果回到两年前，你会给当时的自己或同行什么建议？

Joe： 第一，尽快出海；第二，尽快与全球最优秀、最前沿的从业者混在一起。离你的用户和技术引领者越近越好。

06 个性化，才是AI音乐未来的竞争核心

Joe： 既然AI生成的音乐在听感上已媲美人类作品，为什么至今没有诞生基于AI音乐的超级明星或创作者IP？

比如中国94红磡那种窦唯、张楚式的“土摇滚”风格，现在的AI能生成吗？很难。生成的结果往往过于“完美”和统一。一个模型最终会拟合到一个平均的分布上，但人类喜爱的音乐风格分布是极度多样和长尾的。

我最近在Instagram上看到一个很火的网红歌手，他在美国达人秀上的表演很“尴尬”——背景是有点机械感的Hip-hop节奏，而他只是像说话一样念词，并非激昂的说唱。但他在Instagram上有几百万粉丝，Spotify上的销量也很好。这就是典型的极度个性化内容，不经过专门微调，任何现有的AI音乐模型都很难生成。

因此，我们计划在基础模型之上构建大量LoRA（低秩适应）模块，让每个人都能将自己的个性注入模型。长期来看，AI赋能的音乐必将走向高度个性化，而不是所有人都听着Suno生成的那种统一华丽的“标准品”。

Peter：传统音乐分发渠道的核心价值，会因AI音乐普及而被颠覆吗？

Joe： 一定会。音乐流媒体平台的巨大成本来自存量版权，这建立在人类心智份额有限的基础上，也导致行业创新缓慢、普通人难以参与。AI可以打破这一点，例如，它能让经典IP以新的方式“重生”。现在通过AI Remix，你可以将任何名曲改造成你喜欢的样子。创作本身正在成为一种新的消费形式。

传统流媒体平台是否要重新定义人与音乐的交互方式？是否要重塑产品形态和商业模式？如果重塑，是否会触怒现有版权方？这正是传统商业模式转型的艰难所在。

Peter：你们会涉足内容分发环节吗？

Joe： 一定会。ACE Music 从第一天起就是一个集创作与消费于一体的社区，并且会逐渐与 ACE Studio 打通。我们认为未来的AI音乐创作与消费是一体化的，从一开始就应该结合在一起。

Peter：对于AI音乐领域，长期来看最重要的竞争要素是什么？

Joe： 我认为是某种形式的用户IP或个性化资产。例如“声音”——我们问普通人为什么喜欢某首歌，90%的原因可能与歌手的演唱有关，声音构建了音乐一致性的风格和个性。如何帮助用户保有并发展其音乐中的个性化资产（如独特的嗓音、唱腔），并以此为基础持续创作风格统一的内容，从而在互联网上建立长期的IP和粉丝忠诚度，这无疑是未来最重要的竞争要素。

Peter：你们为什么选择将总部设在洛杉矶而非硅谷？

Joe： 首要原因是市场在欧美，我们必须离市场更近。在选择湾区还是洛杉矶时，本质上是选择靠近资本还是靠近用户。对我们而言，靠近用户更根本。洛杉矶是全球音乐制作中心，格莱美在这里，我们所在的区域就叫“Studio City”，聚集了大量影视音乐工作室。搬来这里后，我们已经在这间办公室里接待了不下十位格莱美获奖者，他们常来坐坐，看看新功能，聊聊使用体验，这种近距离的交流非常宝贵。

Peter：对于ACE来说，2026年最重要的几件事是什么？

Joe： 最重要的是将 ACE Music 和 ACE Studio 的生态完全打通，形成一个统一、开放的AI音乐生产平台——真正实现让每个人都能创造出具有个人风格的音乐，而不是千篇一律的“好听但无个性”的作品。

这涉及多种手段：例如利用智能体（Agent）来辅助规划创作构思，并在各个环节智能调用最合适的模型；支持用户自主训练和微调自己的模型，甚至可以托管和分享；推动音乐的多模态化——我们认为未来的音乐必然与视频结合，为已有视频智能配乐或为音乐自动生成匹配的视频，都是有待解决的重要问题。

Peter：如果ACE最终成功了，10年后的音乐产业会是什么样子？

Joe： AI 将从生产、消费、线下互动、偶像与粉丝的社交方式等所有层面，彻头彻尾地重构音乐产业。如果有幸，ACE 能成为这个新生态中最重要的基础设施，接管音乐的产生、分发、消费乃至线下演艺，那么它将是一个价值至少数千亿美元的平台。

上一篇：2026年ETL工具选型终极指南：10款主流工具深度测评与场景推荐
下一篇：具身智能数据驱动新纪元：光轮智能获10亿融资，自研物理仿真引擎定义AI新基建

AI音乐, Suno, ACE, 模型训练, 音乐制作