今天分享一个非常有意思的实践:如何给你的 OpenClaw AI 助手(我亲切地称之为“小龙虾”)装上会说话的“嘴巴”。
最近在 GitHub 上发现了一个刚开源不久的项目——NoizAI/skills,它能让你的 AI 助手开口说话,甚至克隆任何人的音色。我已经体验上了,效果相当让人上瘾。
一旦你的 AI 助手拥有了声音,那种心理层面的感知会变得非常微妙,你会更真切地感受到它的“存在感”。最棒的是,安装过程极其简单,你只需要对 AI 说一句话,它就能自己完成安装。
先听听实际效果
安装好 NoizAI 的 Skill 后,我做了一个有趣的实验:丢了一段川普的演讲音频给我的 OpenClaw 小龙虾。
它立即对这段音频的音色进行了克隆,并将其转化成了自己的默认语音。我告诉它,以后就用这个声音和我对话。
实际听一下效果如何?(由于无法嵌入音频,此处描述效果:经过克隆,AI 助手用带有川普特色的音色,以中文流利地说出了指定的内容,听起来既熟悉又带有一种奇妙的“电子感”。)
听到自己的 AI 助手用这样一个鲜明的声音说话,确实让人忍俊不禁。在我脑海中,它瞬间成了一个说中文、带点嬉皮笑脸特质的形象。
我看已经有不少开发者也接入了这个 NoizAI Skill,在飞书、WhatsApp、Telegram 等各种平台里用了起来。

尤其是在当下 Multi-Agent(多智能体)团队协作很火的背景下,你可以配置一群 AI 助手帮你处理不同事务,有的负责运营,有的当客服,有的写代码。

想象一下,你可以为团队中不同的 AI 助手设置不同的音色。当它们通过语音向你汇报或交互时,你仿佛拥有了一群性格各异的小助手在身边。特别是在开车、做家务等不便看屏幕的场景下,声音成了传递 AI “人设”和身份的最直接方式。无需视觉确认,仅凭声音就能分辨出是哪个助手在发言,这种高辨识度的交互体验,才是更贴近人性的智能。
如何为你的 AI 助手安装语音技能?
安装方法特别简单。只要你的 OpenClaw 助手具备网页内容读取能力,你直接对它发送下面这条指令即可:
帮我装这个 Skill:https://github.com/NoizAI/skills

安装完成后,你会发现这个 Skill 支持两种后端模式:本地运行的 Kokoro 和云端服务的 Noiz。
- Kokoro:纯本地化运行,需要下载模型,优点是隐私性好,但功能上暂不支持音色克隆。
- Noiz:云端服务,拥有高质量的语音克隆能力,并且提供相当慷慨的免费额度。我本次体验使用的就是 Noiz 云端方案。
整个过程如果遇到任何卡点,直接问你的 AI 助手就行,它会引导你完成。核心步骤是配置 Noiz 的 API Key。

配置好 API Key 后,你的 AI 助手就具备了语音能力。想让它的声音是什么样的呢?你可以去 Noiz 官方音色库挑选,或者更直接一点:丢给它一段任何人的参考音频,它会自动完成音色克隆。

克隆成功后,记得告诉你的 AI 助手:“记住,刚才克隆的这个音色就是你的声音了。以后我让你发语音时,或者你觉得适合用语音回复的场景,就用这个音色。”
一个小提示:如果 AI 助手在特定平台(如飞书)发送语音遇到问题,可能是格式要求导致的。你可以让它自行学习正确的 API 调用方式,或直接提供以下技术要点供其参考:
飞书语音条正确的发送方式:
上传文件:file_type=opus(不是 mp3),需要 receive_id_type=chat_id 和 receive_id
发送消息:msg_type=audio,receive_id_type=chat_id,content 包含 file_key 和 duration
关于 NoizAI/skills 开源项目
这个项目由 Noiz AI 平台开源。Noiz AI 本身是一个专注于 语音AI 的平台,提供高质量的语音克隆、情感化文本转语音(TTS)等能力。
这次开源的 skills 项目封装了数个核心技能,几乎涵盖了 AI 智能体与语音结合的各种实用场景:

开源地址:https://github.com/NoizAI/skills
- 文本转语音 (TTS) Skill:支持 Kokoro / Noiz 两种后端,包含简单模式、支持时间轴精确渲染的字幕对齐配音、精确时长控制,以及基于参考音频的音色克隆。
- 与任何人对话 (Chat-with-anyone) Skill:自动在线寻找目标人物(真实或虚构)的语音样本,提取干净音频后,用其音色生成语音回复。
- 特色语音 (Characteristic-voice) Skill:通过添加语气词(如hmm, haha)、调节情绪参数和场景预设(晚安、庆祝等),让生成的语音更具陪伴感和人格化表达。
- 视频翻译 (Video-translation) Skill:将视频中的语音翻译成另一种语言,用 TTS 生成配音并替换原始音轨,同时保留原始视频画面。
你可以通过以下命令管理这些技能:
# 查看 GitHub 仓库可安装技能
npx skills add NoizAI/skills --list --full-depth
# 从 GitHub 仓库安装指定技能(如 tts)
npx skills add NoizAI/skills --full-depth --skill tts -y
# 通用安装命令格式
npx skills add <owner>/<repo>
# 本地开发调试(在仓库目录执行)
npx skills add . --list --full-depth
简单来说,NoizAI 将高级的音视频 AI 处理能力,封装成了开发者可以轻松调用的原子化技能。如果你也想让自己的 AI 助手告别冰冷的文字框,成为一个会用人声说话、富有情感的伙伴,不妨试试这个项目。
技术的乐趣在于探索与创造,将不同的 开源项目 组合,就能为 AI Agent 赋予意想不到的新能力。如果你有更多关于 AI 应用的有趣想法,欢迎到 云栈社区 与更多开发者一起交流探讨。