🎙️ Faster Whisper TransWithAI ChickenRice 是一个专注于日文视频处理的开源工具。它基于改进版的 Faster Whisper 和专门优化的语音活动检测(VAD)模型,能够自动识别视频中的日语语音,并将其翻译成中文字幕。这个项目源自 AI 汉化组 的实践,展示了爱好者们如何从使用工具进化到创造工具。

核心功能:识别音视频中的日文,并翻译为中文字幕
工具的核心是两款经过针对性训练的模型:
- 翻译模型:
chickenrice0721/whisper-large-v2-translate-zh-v0.2-st,这是一个在大量日文数据上微调过的 Whisper 模型,专门优化日文到中文的翻译质量。
- 识别与VAD模型:
TransWithAI/Whisper-Vad-EncDec-ASMR-onnx,针对语音(尤其是可能包含背景音或低语的情景)优化过的语音识别与端点检测模型。
需要注意的是,主要的翻译模型(海南鸡模型)设计为直接输出中文,因此它不具备输出日文原文的能力。
使用方法极其简单:只需要将需要处理的音频或视频文件(或者整个文件夹)拖放到工具提供的批处理文件(.bat)上即可运行。整个工具包大小约为 4.4GB。
你可以在 GitHub 上找到它的仓库:https://github.com/TransWithAI/Faster-Whisper-TransWithAI-ChickenRice
功能特性
- 🎯 高精度日文转中文翻译:基于超过5000小时音频数据训练的“海南鸡v2”优化模型。
- 🚀 GPU加速:支持 CUDA 11.8/12.2/12.8,可充分利用 NVIDIA 显卡进行加速推理。
- ☁️ 云端推理:支持 Modal 云端 GPU 服务,没有本地显卡的用户也能使用。
- 📝 多格式输出:支持生成 SRT、VTT、LRC 等多种常用的字幕文件格式。
- 🎬 广泛的音视频支持:支持处理常见的音频格式(如 mp3, wav, flac)和视频格式(如 mp4, mkv, avi)。
- 💾 智能缓存:自动跳过已经处理过的文件,大幅提升批量处理任务的效率。
- 🔧 灵活配置:允许用户自定义转录的各种参数,以适应不同清晰度、语速的视频内容。
对显卡的要求比较友好,即便是几年前的 GTX 10 系列显卡也能运行,只是速度会慢一些。以下是不同显卡系列推荐的 CUDA 版本:
| 显卡系列 |
推荐 CUDA 版本 |
| GTX 10/16系列 |
CUDA 11.8 |
| RTX 20/30系列 |
CUDA 11.8 或 12.2 |
| RTX 40系列 |
CUDA 12.2 或 12.8 |
| RTX 50系列 |
必须使用 CUDA 12.8 |
这个工具能用来做什么?
对于喜欢观看日语原声视频(如动漫、日剧、Vlog、教程等)但苦于没有或缺少中文字幕的用户来说,这个工具提供了一个高效的自动化解决方案。它可以帮你快速为本地视频生成可用的中文字幕,省去手动寻找和匹配字幕的麻烦。无论是个人学习娱乐,还是为小型创作者处理素材,它都是一个值得尝试的开源实战项目。
原文参考:https://www.appinn.com/faster-whisper-transwithai-chickenrice/
|