找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2945

积分

0

好友

407

主题
发表于 11 小时前 | 查看: 1| 回复: 0

🎙️ Faster Whisper TransWithAI ChickenRice 是一个专注于日文视频处理的开源工具。它基于改进版的 Faster Whisper 和专门优化的语音活动检测(VAD)模型,能够自动识别视频中的日语语音,并将其翻译成中文字幕。这个项目源自 AI 汉化组 的实践,展示了爱好者们如何从使用工具进化到创造工具。

Faster Whisper日文视频AI翻译工具功能示意图

核心功能:识别音视频中的日文,并翻译为中文字幕

工具的核心是两款经过针对性训练的模型:

  • 翻译模型chickenrice0721/whisper-large-v2-translate-zh-v0.2-st,这是一个在大量日文数据上微调过的 Whisper 模型,专门优化日文到中文的翻译质量。
  • 识别与VAD模型TransWithAI/Whisper-Vad-EncDec-ASMR-onnx,针对语音(尤其是可能包含背景音或低语的情景)优化过的语音识别与端点检测模型。

需要注意的是,主要的翻译模型(海南鸡模型)设计为直接输出中文,因此它不具备输出日文原文的能力。

使用方法极其简单:只需要将需要处理的音频或视频文件(或者整个文件夹)拖放到工具提供的批处理文件(.bat)上即可运行。整个工具包大小约为 4.4GB。

你可以在 GitHub 上找到它的仓库:https://github.com/TransWithAI/Faster-Whisper-TransWithAI-ChickenRice

功能特性

  • 🎯 高精度日文转中文翻译:基于超过5000小时音频数据训练的“海南鸡v2”优化模型。
  • 🚀 GPU加速:支持 CUDA 11.8/12.2/12.8,可充分利用 NVIDIA 显卡进行加速推理。
  • ☁️ 云端推理:支持 Modal 云端 GPU 服务,没有本地显卡的用户也能使用。
  • 📝 多格式输出:支持生成 SRT、VTT、LRC 等多种常用的字幕文件格式。
  • 🎬 广泛的音视频支持:支持处理常见的音频格式(如 mp3, wav, flac)和视频格式(如 mp4, mkv, avi)。
  • 💾 智能缓存:自动跳过已经处理过的文件,大幅提升批量处理任务的效率。
  • 🔧 灵活配置:允许用户自定义转录的各种参数,以适应不同清晰度、语速的视频内容。

对显卡的要求比较友好,即便是几年前的 GTX 10 系列显卡也能运行,只是速度会慢一些。以下是不同显卡系列推荐的 CUDA 版本:

显卡系列 推荐 CUDA 版本
GTX 10/16系列 CUDA 11.8
RTX 20/30系列 CUDA 11.8 或 12.2
RTX 40系列 CUDA 12.2 或 12.8
RTX 50系列 必须使用 CUDA 12.8

这个工具能用来做什么?

对于喜欢观看日语原声视频(如动漫、日剧、Vlog、教程等)但苦于没有或缺少中文字幕的用户来说,这个工具提供了一个高效的自动化解决方案。它可以帮你快速为本地视频生成可用的中文字幕,省去手动寻找和匹配字幕的麻烦。无论是个人学习娱乐,还是为小型创作者处理素材,它都是一个值得尝试的开源实战项目。

原文参考:https://www.appinn.com/faster-whisper-transwithai-chickenrice/




上一篇:基于Kafka与SeaTunnel实现飞书群聊的实时消息通知:零代码方案详解
下一篇:苹果iPhone Air再创价格新低:北京地区联通补贴后入手价仅5099元
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-9 21:40 , Processed in 0.317692 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表