云栈社区»论坛 › 开源实战「 OpenSource 」 › NAS Docker 部署 VideoCaptioner：离线字幕识别与翻译一站式解决 ...

发回帖发新帖

5662 积分	0 好友	756 主题

发消息

[Python] NAS Docker 部署 VideoCaptioner：离线字幕识别与翻译一站式解决方案

发表于 2026-1-25 02:10:50 | 查看: 222| 回复: 0

VideoCaptioner 是一款基于大语言模型（LLM）的视频字幕处理助手。它支持 API 和本地离线两种语音识别方式，并能利用 LLM 对字幕进行智能断句、校正和翻译，实现从视频到字幕的全流程一键处理。

VideoCaptioner软件主界面

需要留意的是，其电脑版功能更为全面，而 Docker 版本的功能相对较少。

字幕样式配置界面

安装

Docker Compose

使用 Docker Compose 部署是最简单的方式，配置文件示例如下：

services:
  video-captioner:
    image: ywsj/video-captioner:latest
    container_name: video-captioner
    ports:
      - 8501:8501
    volumes:
      - ./temp:/app/temp
    restart: always

参数说明（更多参数建议查阅项目文档）

OPENAI_BASE_URL（环境变量，可选）：OpenAI 的基础 URL。
OPENAI_API_KEY（环境变量，可选）：OpenAI API 的密钥。

使用

容器启动后，在浏览器中输入 http://你的NAS_IP:8501 即可访问其 Web 界面。

软件初始界面

为了方便截图展示，下图已切换为深色主题模式。

深色模式界面

第一步：上传视频
点击“Browse files”或拖拽文件到指定区域，注意单个文件大小不能超过 200MB。

视频上传区域

第二步：开始字幕识别
视频上传成功后，右侧操作面板会提示“视频上传成功！”，点击“开始识别”按钮即可。

开始识别按钮

识别过程在本地进行，资源消耗极低，几乎可以忽略不计。

Docker容器监控图

对于较短的视频，字幕识别通常在几秒钟内即可完成。

字幕识别结果预览

第三步：下载字幕文件
滚动页面到底部，点击“导出字幕”即可下载生成的 SRT 格式字幕文件。

导出字幕按钮

识别出的字幕效果准确，时间轴匹配良好。

带识别字幕的视频画面

第四步：字幕翻译
切换到“字幕翻译”功能标签页，上传刚才下载的 SRT 字幕文件。

字幕翻译功能上传区域

选择需要翻译的目标语言（这里以粤语为例），然后点击“开始翻译”。

选择目标语言并开始翻译

翻译过程几乎是实时的，且翻译结果地道自然。

翻译结果预览

确认翻译无误后，点击“下载翻译后的字幕”即可获得双语字幕文件。

下载翻译后字幕

最终，你将得到一个包含原文和译文的双字幕视频。

带双语字幕的视频画面

总结

VideoCaptioner 本身是一个理念不错的项目，但其完整功能主要体现在电脑版上。Docker 版本目前的功能相对单一，且维护似乎不够活跃。不过，对于仅有少量小体积视频需要快速添加或翻译字幕的用户而言，在 NAS 上部署其 Docker 版本仍是一个可行的选择。它完全本地运行，资源占用低，处理速度也很快。

如果你对这类能提升本地媒体处理效率的工具感兴趣，欢迎到云栈社区探索更多相关的开源项目和实战教程。

综合推荐：⭐⭐⭐（适合快速处理小体积视频字幕）
使用体验：⭐⭐⭐（功能较基础，期待后续完善）
部署难易：⭐⭐（非常简单）

上一篇：量化投研中本地化因子系统的构建与AI自动化分析实践
下一篇：2025年Go语言开发者调查报告：91%高满意度下的挑战与AI工具影响分析

Docker, NAS, LLM, 视频字幕, VideoCaptioner

[Python] NAS Docker 部署 VideoCaptioner：离线字幕识别与翻译一站式解决方案

安装

Docker Compose

使用

总结

相关帖子