录制完一段视频,最耗时的往往不是拍摄过程,而是后期的剪辑环节。口误、长时间的停顿、反复说废话的片段……这些冗余内容充斥其中,导致真正有价值的干货部分,可能只占原始录制时长的六七成。
剩下的无用部分,需要我们一帧一帧地找,一刀一刀地剪,在时间轴上反复拖拽确认。如果素材稍多一些,一个下午的时间可能就这么悄然溜走了。
最近,我在 GitHub 上发现了一个名为 FlyCut Caption 的开源项目,它正是为解决这个痛点而生。它的核心思路非常直接高效:先利用 AI 将视频语音转为带精确时间戳的字幕,然后用户只需像阅读文章一样勾选要删除的废话片段,最后即可一键导出剪辑完成的视频。这样一来,“找废话”从一项需要高度集中注意力的视觉体力活,变成了轻松的文本筛选工作,效率提升非常显著。

上传视频,AI 自动生成字幕
将视频文件拖拽或上传到界面后,会进入语音识别(ASR)配置页面。在这里选择识别语言(如中文或英文),然后点击开始识别即可。
工具底层使用的是强大的 Whisper 语音识别模型,支持多种语言,识别准确度高,且时间戳可以精确到字词级别,为后续的精准剪辑打下了坚实基础。识别过程在浏览器的 Web Worker 后台运行,不会阻塞界面操作。你只需等待进度条走完,一份带时间戳的字幕列表就会呈现在眼前。

勾选要删的片段,实时预览效果
字幕生成后,便进入核心的编辑界面。哪句话说错了、哪里在无意义地重复,直接在字幕列表中勾选对应的条目即可。工具支持全选、反选等批量操作,十分方便。
点击任意一条字幕,视频播放器会自动跳转到对应的时间点,方便你确认内容后再决定是否删除,避免误操作。开启“预览模式”后,播放器会自动跳过所有被标记删除的片段,让你在导出前就能预览到最终的成片效果。如果操作有误,撤销和重做功能也随时待命。

字幕样式调整与最终导出
剪辑完成后,你还可以选择为视频“烧录”硬字幕。工具提供了所见即所得的字幕样式编辑器,字体、大小、颜色、背景、显示位置等均可自由调整,确保字幕观感符合你的需求。
导出时,选择好视频质量和格式,工具会自动将你未删除的视频片段拼接起来,生成最终文件。同时,处理后的字幕文件也可以单独导出为 SRT 或 JSON 格式,用于其他用途。
一个至关重要的细节:全流程本地处理
值得一提的是,FlyCut Caption 的整个处理流程,包括 AI 语音识别和视频裁剪合成,完全在用户的浏览器本地完成。
语音识别依赖的 Whisper 模型通过 Transformers.js 在本地运行,视频处理则交由 WebAV 库处理。你的视频数据无需上传到任何远程服务器。这对于处理涉密资料、商业素材或单纯注重隐私的用户来说,是一个非常重要的安全保障。

本地部署,快速上手体验
如果你希望自己部署或进行二次开发,项目对环境的要求很简单:Node.js 18+ 和 pnpm。通过以下几步即可在本地运行起来:
1)克隆项目仓库:
git clone https://github.com/x007xyz/flycut-caption.git
cd flycut-caption
2)安装项目依赖:
pnpm install
3)启动开发服务器:
pnpm dev
启动成功后,在浏览器中访问 http://localhost:5173 即可使用。
当然,如果你只是想快速体验一下它的核心功能,也可以直接访问作者提供的在线演示站点,省去本地搭建的步骤。
结语
在视频创作中,最消耗心力的往往不是产生创意想法,而是将原始、粗糙的素材“整理干净”的过程。FlyCut Caption 所做的,正是将这个过程中最枯燥的“定位并删除冗余”环节自动化、简单化,将其从一项费时费力的体力活,变成了几乎只需“扫一眼”就能完成的轻量操作。
对于经常需要录制教程、制作知识分享内容或进行视频复盘的朋友来说,这无疑是一个值得尝试的效率工具。其开源特性也意味着有更多的定制和探索空间,欢迎在 云栈社区 与其他开发者交流使用心得。
项目地址:https://github.com/x007xyz/flycut-caption