找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

635

积分

0

好友

79

主题
发表于 5 天前 | 查看: 22| 回复: 0

最近发现一个功能相当全面的开源项目 Voice-Pro 。虽然作者(ABUS团队)为了启动新项目已经停止了更新,但其最后一个版本(v3.2.0)的功能已经非常完善,基本整合了市面上好用的开源语音模型。

简单来说,这是一个基于 Gradio 构建的本地化工作站,主要目标是替代 ElevenLabs、Kapwing 这类昂贵的 SaaS 服务。

Voice-Pro v3.2.0 主界面 - 视频翻译与字幕生成

1. 核心功能(集成式解决方案)

该项目最大的价值在于将众多分散的工具整合到一个统一的 WebUI 中,省去了用户自行编写脚本调用多个组件的麻烦。

  • 语音识别 (STT)
    • 底层支持 Whisper, Faster-Whisper, Whisper-TimestampedWhisperX
    • 支持 90+ 种语言,能够生成带单词级高亮标记的字幕文件。
  • TTS & 语音克隆
    • Edge-TTS:微软的免费服务,支持 100+ 种语言和 400+ 种声音。
    • Kokoro:在 HuggingFace TTS Arena 排行榜上表现优异的模型。
    • 零样本语音克隆 (Zero-shot Voice Cloning):集成了 F5-TTS, E2-TTS 以及阿里开源的 CosyVoice。无需训练,直接提供一段参考音频即可克隆声音。项目内甚至预置了 Elon Musk、Joe Rogan 及 BTS 成员等人的参考音源。
  • 多媒体处理 (Dubbing Studio)
    • 内置 yt-dlp:可直接下载 YouTube 视频进行处理。
    • 人声分离:调用 Demucs 模型,将背景音乐与人声分离。
    • 字幕处理:支持字幕去噪,并可导出多种音频 (WAV, FLAC, MP3) 和字幕格式 (SRT, ASS 等)。
  • 翻译
    • 支持超过 100 种语言的即时翻译,免费版本使用 Deep-Translator,也支持接入 Azure Translator API。
    • 利用 spaCy 进行自然语言分句,使逐句翻译的结果更加自然。

Voice-Pro 功能展示图 - 语音克隆、实时转录与视频超分辨率

2. 技术栈与硬件要求

项目代码主要由 Python (93.9%) 编写,UI 框架为 Gradio

  • 系统:Windows 10/11 (64-bit) 体验最佳。Mac 和 Linux 仅有脚本支持,官方未进行完整验证。
  • GPU:强烈建议使用 NVIDIA 显卡。
    • 需要 CUDA 12.4 版本。
    • 显存:最低 4GB 可运行基础功能。但如果开启 Demucs 降噪或运行大型模型,推荐 8GB+。若显存不足,记得在设置中将计算精度调整为 int8,虽然 float 模式质量更好。
  • 存储:建议预留 20GB 以上的空间,主要用于下载各类模型。

3. 部署与常见问题

虽然项目已停止更新,但代码完全开源且免费,用于本地运行没有问题。

  • 安装
    • Windows 用户直接运行 configure.bat,脚本会自动配置 Git、ffmpeg、CUDA 等环境。
    • 环境配置完成后,运行 start.bat 启动服务。
  • 故障排除
    • 如果环境错乱或安装失败,最直接的方法是删除 installer_files 文件夹,然后重新运行配置脚本。
  • 现状:目前版本停留在 v3.2.0 (发布日期 2025-12-05)。虽然有些遗憾,但作为一个离线工具,现有功能已经相当强大且实用。

总结

Voice-Pro 主要适合两类用户:一是自媒体从业者,需要大量处理字幕和配音,又不愿为 SaaS 平台支付月费;二是希望体验 F5-TTS 或 CosyVoice 等先进模型,但不愿一个个单独部署环境的开发者。

无论是用于视频内容搬运、本地字幕生成,还是进行简单的变声处理,这都是一个非常趁手的工具。对于对 Python 和 AI 音视频处理感兴趣的开发者,可以在 云栈社区 进一步交流相关技术。

项目地址: https://github.com/abus-aikorea/voice-pro?tab=readme-ov-file




上一篇:TaskExplorer:替代Windows任务管理器,实现进程与系统性能深度监控
下一篇:SQL窗口函数OVER详解:一条示例看懂其核心计算逻辑与滑动窗口机制
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-24 02:48 , Processed in 0.378623 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表