Gemini 新推出的 TTS 模型在音质、情绪表达和可控性方面都远超预期。它最核心的特点可以用一句话概括:不仅知道说什么,而且知道如何说。
无论是儿童故事的温馨细腻、悬疑剧情的紧张压抑,还是电竞解说的激情澎湃,Gemini 2.5 TTS 都能游刃有余地驾驭。本文将系统介绍它的效果、特点和实际应用方法。
一、先听效果:多风格音频示例
示例一:儿童睡前故事(温柔风格)
效果评价:语调温柔、节奏舒缓,带有近距离耳语感。在停顿、轻重、音色上的处理都非常自然,几乎可以直接作为成品音频使用。

AUDIO PROFILE: 月亮姐姐"枕边的星星"
THE SCENE: 柔软的梦境入口
夜晚九点,一间布置温馨的儿童房。小夜灯投射出旋转的星星和月亮,在天花板上缓缓流动。窗外有轻柔的风声和远处偶尔传来的蛐蛐叫声。小朋友已经钻进了软绵绵的被窝,抱着最爱的小兔子玩偶,眼皮有些沉,却还舍不得闭上,等待着今晚的故事。房间里弥漫着淡淡的薰衣草香气,一切都在轻轻地说:该睡啦。
DIRECTOR'S NOTES
Style:
"云朵般的柔软":声音轻盈、温暖,像被棉花糖包裹。每一个字都带着微笑和拥抱的感觉,让孩子感到绝对的安全。
情感基调:满溢的爱意和耐心,仿佛整个世界都慢了下来,此刻只有你和这个小小的听众。
气息控制:呼吸平稳而深长,带有轻微的气声,营造出亲密的"悄悄话"感觉,像妈妈趴在床边耳语。
Pace:
缓——慢——的节奏,像摇篮轻轻晃动。
句与句之间留有足够的停顿,让小朋友的想象力跟上画面。
语调渐渐走低、变轻,像一条小溪慢慢流进梦乡。
关键的可爱词汇轻轻上扬,如"小~兔子""软~绵绵""亮晶晶~"
Accent: 标准而柔和的普通话,咬字清晰但不生硬,带有天然的"妈妈音"——圆润、包容、甜而不腻。
SAMPLE CONTEXT
月亮姐姐适合用于:儿童睡前故事音频、冥想引导、亲子类播客、儿童有声读物,或任何需要"安心入睡"氛围的内容。
TRANSCRIPT
(轻柔地)好啦,小宝贝……被子盖好了吗?今天呀,月亮姐姐要给你讲一个——小星星找妈妈的故事。
(停顿,声音更轻)从前呢,在很远很远的天上,住着一颗小~星星。它呀,是天空中最小最小的那一颗,亮晶晶的,就像你眼睛里闪闪的光。
有一天晚上呢,小星星一不小心,从云朵做的小床上——滚了下来。(轻轻的)"咕噜噜,咕噜噜……"它滚呀滚,滚到了一片软~绵绵的棉花云上。
"妈妈?妈妈在哪里呀?"小星星眨了眨眼睛,四周都是白白的云,好安静呀……
(声音渐渐变得更轻、更慢)可是它一点都不害怕。你知道为什么吗?因为啊……月亮妈妈一直在天上,轻轻地、轻轻地看着它呢……就像现在,有人在轻轻地、轻轻地……看着你……
(近乎耳语)闭上眼睛吧,小宝贝……小星星找到妈妈了……你也要去找你的梦了……晚安……
示例二:32年老刑警的悬疑独白
效果评价:成功营造出广播剧式的悬疑氛围。语速偏慢、情绪压抑,关键句子带有停顿和气声,能稳定地呈现“克制的恐怖感”。

示例三:深夜食堂的烟火气独白
效果评价:语速适中、略带笑意、偶尔拉长尾音,呈现出一种“回家了”的温暖与松弛感。

示例四:电竞解说(情绪递进爆发)
效果评价:完美呈现“前期紧张克制 → 中段语速加快 → 团战情绪爆发 → 最后略带沙哑的兴奋感”的节奏曲线,非常接近真人解说。

二、Gemini 2.5 TTS 核心特点
模型版本
Gemini 2.5 TTS 分为 Flash 和 Pro 两个版本,核心能力包括:

| 特性 |
说明 |
| 风格控制 |
通过自然语言指导音频的风格、口音、节奏和语调 |
| 语速调节 |
可根据场景需求灵活调整 |
| 多角色对话 |
最多支持 2 个说话人 |
| 语音选项 |
提供约 30 种音色 |
| 上下文窗口 |
32K Token |
语言支持
官方列出的 24 种支持语言中虽然没有明确标注中文,但实际体验下来,对中文(普通话)的支持相当出色,包括口语化表达都能处理得很自然。

与传统 TTS 的核心区别
传统 TTS 的工作模式通常是“选择音色 + 输入文本”。而 Gemini 原生 TTS 的底层是大型语言模型(LLM),它能根据你提供的提示词深入理解 “该如何表达”,这属于 人工智能 技术在语音合成领域的深度应用。具体包括:
- 情绪曲线的精细控制
- 气息变化的自然处理
- 停顿和重音的精准把握
- 整体氛围的主动营造
三、提示词构建方法与工程实践
要让 Gemini TTS 发挥最佳效果,构建高质量的提示词至关重要,这本质上是一种 提示词工程。

一个完整的 TTS 提示词通常包含以下部分:

情绪标注技巧
在转录文本中,可以使用括号来标注情绪和表演指示,例如:
Gemini 会自动识别这些括号内的内容(不会朗读出来),并据此调整语音的情感表达。虽然不能做到百分百精确匹配,但整体效果已经相当出色。
实用技巧
无需特别记忆复杂的提示词格式。你可以直接参考 Gemini 官方文档中的示例,然后将其发送给其他大语言模型(如 Claude),让它帮你生成针对特定场景的定制化提示词。官方文档地址:https://ai.google.dev/gemini-api/docs/speech-generation?hl=zh-cn
四、AI Studio 使用指南
基本流程
- 进入
ai.dev 首页。
- 选择 Audio 能力。
- 选择 Gemini 2.5 Pro TTS 模型。

界面说明
进入 TTS 页面后,你会看到以下主要区域:
- 风格指示区域:用于描述整段音频的整体气质和场景。
- Speaker 1 / Speaker 2:两个独立的说话人配置选项,支持构建多人对话场景。也可切换回单人模式。
预制应用
AI Studio 提供了一个非常实用的预制应用 synergy_intro,链接为:https://aistudio.google.com/app/apps/bundled/synergy_intro

- 左侧:可选择不同的音频类型(如 Podcast、电台、电影预告、睡前故事等),点击即可查看对应的系统提示词模板。

- 右侧:显示支持的语言列表(包括普通话)。每个音频示例旁都标注了推荐的音色和性别信息,方便快速试用。

双人对话示例
通过为不同说话人设置独立的音色和提示,可以实现年龄感、语气截然不同的角色分离,非常适合制作对话类内容。这种通过 云原生 平台提供的 API 和服务,能够高效完成复杂的语音合成任务。

五、推荐音色速查表
| 场景类型 |
推荐音色 |
特点 |
| 睡前故事 / ASMR |
Vindemiatrix |
温柔、细腻、有强烈的“哄睡感” |
| Podcast |
Zubenelgenubi |
自然、亲和,适合长时间聆听 |
| 电台广播 |
Vindemiatrix |
声音舒适、听感专业 |
| 悬疑故事 / 电影风格 |
Algieba |
富有张力、氛围感强 |
提示:官方预制应用已经完成了初步的“音色-场景”匹配,直接点选即可试听,非常方便。
六、总结
Gemini 2.5 TTS 真正强大的地方在于:给定同一段文本,它能根据你撰写的音频档案、场景描述和导演笔记,产出风格迥异却同样自然的声音表现。
如果你愿意投入时间细致打磨提示词,将角色定位、氛围营造和情绪节奏都描述清晰,那么 Gemini 2.5 TTS 完全有潜力成为一个可以长期、稳定复用的“虚拟配音演员”,为各类音频内容创作提供强大助力。