云栈社区»论坛 › 技术文档「 Note & Doc 」 › 使用pyttsx3实现Python文本转语音：从朗读到音频文件生成 ...

5802 积分	0 好友	762 主题

发消息

使用pyttsx3实现Python文本转语音：从朗读到音频文件生成

发表于 2026-3-31 07:18:42 | 查看: 108| 回复: 0

在现代应用程序中，文本转语音（Text-to-Speech, TTS）技术扮演着越来越重要的角色，无论是为应用程序添加无障碍功能，还是创建语音助手或生成有声内容。pyttsx3 库正是这样一款工具，它能帮助开发者轻松地将文本转换为语音。

它的一个显著优点是跨平台支持。在不同的操作系统上，它会自动调用系统默认的语音合成引擎：在 Windows 上是 SAPI5，而在 Linux 或 macOS 上则会使用 espeak。这使得我们无需为不同平台编写复杂的适配代码。

一、安装

安装过程非常简单，只需要一条 pip 命令：

pip install pyttsx3

安装完成后，我们来创建一个 main.py 文件，并输入以下代码进行最简单的测试：

import pyttsx3
pyttsx3.speak("I will speak this text")

运行这个脚本，你就能立刻听到电脑朗读出文本内容：

python main.py

二、具体执行流程

一个完整的 pyttsx3 使用流程通常包含以下几个步骤：

初始化语音引擎
设置语音参数（如语速、音量、声音类型）
朗读文本
将语音保存为音频文件

下面我们详细拆解每一个环节。

2.1、初始化语音引擎

初始化是使用库的第一步。通常我们使用默认的初始化方式，库会自动选择合适的引擎。

engine = pyttsx3.init()

如果你有特殊需求，也可以显式地指定驱动名称，这在跨平台部署时非常有用：

# Windows 系统
engine = pyttsx3.init(driverName=“sapi5”)
# Linux 系统，需要确保已安装 espeak
engine = pyttsx3.init(driverName=“espeak”)

2.2、设置语音参数

引擎初始化后，我们可以对语音的各个方面进行精细调整，以获得最佳的听觉效果。

语速设置（RATE）
语速单位是每分钟的单词数。你可以获取当前值，也可以设定一个新值。

rate = engine.getProperty('rate')  # 获取当前语速（默认约200）
engine.setProperty('rate', 125)    # 设置较慢的语速（125字/分钟）

音量设置（VOLUME）
音量的范围是 0.0 到 1.0，1.0 代表最大音量。

volume = engine.getProperty('volume')  # 获取当前音量（0.0-1.0）
engine.setProperty('volume', 1.0)      # 设置最大音量

声音选择（VOICE）
不同的系统提供了不同的语音库，你可以从中选择喜欢的声音，甚至可以区分男女声或不同语言。

voices = engine.getProperty('voices')  # 获取可用声音列表
for voice in voices:
    print(f“支持的声音列表: {voice}“)

# 输出示例如下，我们可以选择中文、英文等语音。
<Voice id=HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Speech\Voices\Tokens\TTS_MS_ZH-CN_HUIHUI_11.0
          name=Microsoft Huihui Desktop - Chinese (Simplified)
          languages=[‘zh-CN’]
          gender=Female
          age=Adult>
<Voice id=HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Speech\Voices\Tokens\TTS_MS_EN-US_ZIRA_11.0
          name=Microsoft Zira Desktop - English (United States)
          languages=[‘en-US’]
          gender=Female
          age=Adult>

2.3、朗读文本

设置好参数后，就可以让引擎“开口说话”了。

engine.say(“Hello World!”)  # 添加要朗读的文本
engine.runAndWait()         # 执行并等待播放完成

这里需要注意，say() 方法只是将文本加入队列，必须调用 runAndWait() 才能真正开始播放并阻塞程序直到播放结束。

2.4、保存语音文件

除了实时播放，pyttsx3 还允许你将生成的语音直接保存为音频文件，这对于制作有声内容或离线使用非常方便。

engine.save_to_file(‘Hello World’， ‘test.mp3’)
engine.runAndWait()  # 必须调用才能生成文件

三、优化与进阶使用

通过以上基础步骤，我们已经可以让电脑朗读文本了。但实际应用中，我们可能需要更贴合场景的设置，比如使用中文声音并调整语速。

engine = pyttsx3.init(driverName=“sapi5”)

# 设置中文女声
voices = engine.getProperty('voices')
for voice in voices:
    if “Chinese” in voice.name:
        engine.setProperty('voice’, voice.id)
        break

# 设置较慢的语速
engine.setProperty('rate’, 125)
engine.say(“你好，世界”)
engine.runAndWait()

此外，pyttsx3 还提供了事件回调机制，让你能在语音合成的不同阶段（如开始、结束或出错时）执行自定义操作，这为开发交互性更强的应用提供了可能。

def onStart(name):
    print(f'开始: {name}‘)

def onWord(name, location, length):
    print(f'词: {name}， 位置: {location}， 长度: {length}‘)

def onEnd(name, completed):
    print(f'结束: {name}， 完成: {completed}‘)

def onError(name, exception):
    print(f“错误: {name}， 异常: {exception}”)

# 连接回调函数
engine = pyttsx3.init()
engine.connect(‘started-utterance’， onStart)
engine.connect(‘started-word’， onWord)
engine.connect(‘finished-utterance’， onEnd)
engine.connect(‘error’， onError)

engine.say(‘这段文本将触发回调函数’)
engine.runAndWait()

四、注意事项

在实际使用 pyttsx3 时，有几个关键点需要留意：

「阻塞与非阻塞」：runAndWait() 是阻塞方法，它会确保语音播放完毕后再继续执行后续程序。如果你的应用需要同时处理其他任务，可以考虑异步方案。
「异步支持」：虽然库本身是同步的，但可以通过其事件循环接口 engine.startLoop() 配合异步框架来实现非阻塞的语音播放。
「跨平台差异」：不同操作系统的语音合成质量和可用声音库存在差异。通常，Windows 系统通过 SAPI5 提供了更丰富、更自然的声音选项。
「中文支持」：在某些系统（特别是 Linux）上，可能需要单独安装和配置中文语音包才能正常合成中文语音。

五、常见问题与排查

「报错 No module named ‘pyttsx3’」：请确认是否已通过 pip 正确安装了该库。如果是在虚拟环境中开发，请确保在正确的环境中操作，必要时可以尝试重启 Python 解释器。
「无法播放中文或语音奇怪」：首先检查你的操作系统是否安装了对应的中文语音库。在 Windows 上，可以进入“设置” -> “时间和语言” -> “语音”来管理和下载语音包。
「保存文件失败或找不到文件」：检查你指定的文件保存路径是否具有写入权限。为了避免路径问题，在调试阶段可以尝试使用绝对路径来保存文件。

通过上述步骤和说明，你应该可以熟练地使用 pyttsx3 为你的 Python 项目添加文本转语音功能了。无论是构建一个简单的朗读脚本，还是集成到更复杂的应用程序中，它都是一个强大且易用的选择。如果想了解更多 Python 开发技巧或与其他开发者交流，欢迎访问云栈社区。

上一篇：教育部新规解读：保研“第一学历”门槛松动，双非学子如何把握升学机遇？
下一篇：Vite 8架构革命：用Rolldown统一构建引擎，性能实测提升10-30倍

pyttsx3, Python, 语音合成, 语音引擎, 跨平台