找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2655

积分

0

好友

375

主题
发表于 20 小时前 | 查看: 0| 回复: 0

VideoCaptioner 是一款基于大语言模型(LLM)的视频字幕处理助手。它支持 API 和本地离线两种语音识别方式,并能利用 LLM 对字幕进行智能断句、校正和翻译,实现从视频到字幕的全流程一键处理。

VideoCaptioner软件主界面

需要留意的是,其电脑版功能更为全面,而 Docker 版本的功能相对较少。

字幕样式配置界面

安装

Docker Compose

使用 Docker Compose 部署是最简单的方式,配置文件示例如下:

services:
  video-captioner:
    image: ywsj/video-captioner:latest
    container_name: video-captioner
    ports:
      - 8501:8501
    volumes:
      - ./temp:/app/temp
    restart: always

参数说明(更多参数建议查阅项目文档)

  • OPENAI_BASE_URL(环境变量,可选):OpenAI 的基础 URL。
  • OPENAI_API_KEY(环境变量,可选):OpenAI API 的密钥。

使用

容器启动后,在浏览器中输入 http://你的NAS_IP:8501 即可访问其 Web 界面。

软件初始界面

为了方便截图展示,下图已切换为深色主题模式。

深色模式界面

第一步:上传视频
点击“Browse files”或拖拽文件到指定区域,注意单个文件大小不能超过 200MB。

视频上传区域

第二步:开始字幕识别
视频上传成功后,右侧操作面板会提示“视频上传成功!”,点击“开始识别”按钮即可。

开始识别按钮

识别过程在本地进行,资源消耗极低,几乎可以忽略不计。

Docker容器监控图

对于较短的视频,字幕识别通常在几秒钟内即可完成。

字幕识别结果预览

第三步:下载字幕文件
滚动页面到底部,点击“导出字幕”即可下载生成的 SRT 格式字幕文件。

导出字幕按钮

识别出的字幕效果准确,时间轴匹配良好。

带识别字幕的视频画面

第四步:字幕翻译
切换到“字幕翻译”功能标签页,上传刚才下载的 SRT 字幕文件。

字幕翻译功能上传区域

选择需要翻译的目标语言(这里以粤语为例),然后点击“开始翻译”。

选择目标语言并开始翻译

翻译过程几乎是实时的,且翻译结果地道自然。

翻译结果预览

确认翻译无误后,点击“下载翻译后的字幕”即可获得双语字幕文件。

下载翻译后字幕

最终,你将得到一个包含原文和译文的双字幕视频。

带双语字幕的视频画面

总结

VideoCaptioner 本身是一个理念不错的项目,但其完整功能主要体现在电脑版上。Docker 版本目前的功能相对单一,且维护似乎不够活跃。不过,对于仅有少量小体积视频需要快速添加或翻译字幕的用户而言,在 NAS 上部署其 Docker 版本仍是一个可行的选择。它完全本地运行,资源占用低,处理速度也很快。

如果你对这类能提升本地媒体处理效率的工具感兴趣,欢迎到云栈社区探索更多相关的开源项目和实战教程。

  • 综合推荐:⭐⭐⭐(适合快速处理小体积视频字幕)
  • 使用体验:⭐⭐⭐(功能较基础,期待后续完善)
  • 部署难易:⭐⭐(非常简单)



上一篇:量化投研中本地化因子系统的构建与AI自动化分析实践
下一篇:2025年Go语言开发者调查报告:91%高满意度下的挑战与AI工具影响分析
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-25 22:16 , Processed in 0.282703 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表