对于视频创作者来说,最耗时的环节往往不是撰写脚本或录制素材,而是后期的剪辑工作。你需要一帧帧地剪掉那些“呃”、“嗯”等无意义的口头禅和停顿,手动为素材调色,再逐句配上字幕。整个过程重复枯燥,一段几分钟的视频常常需要耗费数小时。
最近,一个名为 video-use 的 Claude Code 技能项目在 开源实战 社区引发了关注。它旨在将我们从繁琐的剪辑工作中解放出来。

该项目由 Browser Use 团队开源,此前他们开发的让 AI 自动操控浏览器的 browser-use 项目已获得 8.8 万 Star。这次,团队将同样的 人工智能 代理(Agent)思路应用到了视频编辑领域。
它的使用方式非常直观:你无需打开任何专业的剪辑软件。只需将原始视频素材放入一个文件夹,然后在 Claude Code 中,用一句简单的自然语言告诉它你的需求。

例如,你可以说:“请把这个文件夹里的视频剪辑成一条可以发布的成品视频。” 接下来,video-use 会自动化执行一系列任务:
- 盘点素材:自动分析文件夹内的所有视频文件。
- 制定策略:基于转录文本,提出具体的剪辑方案并等待你的确认。
- 智能剪辑:自动识别并剪掉多余的语气词和空白停顿。
- 后期处理:为素材进行色彩分级、添加字幕,并在每个剪切点自动添加30毫秒的音频淡入淡出效果。
- 输出成品:最终将剪辑合并完成的视频输出到源文件夹旁边的
edit 目录中。
然而,这个项目最精妙之处并非其功能列表,而是其底层的实现逻辑。
传统让多模态大模型“理解”视频的做法,通常需要将视频逐帧抽取并送入模型,这会导致 token 消耗量极大。video-use 采用了一种更高效、更聪明的两层策略:
第一层:音频层(常驻加载)
使用 ElevenLabs Scribe 服务进行转写,获取带词级时间戳的文稿。同时,它会标记说话人、笑声、叹息等音频事件。词级时间戳是剪辑精度的关键,而 Scribe 是少数能同时提供精细时间戳和说话人区分的工具。
第二层:视觉层(按需调用)
当遇到模糊的停顿点、需要确认剪辑位置或进行重录比对等关键决策时,video-use 会调用 timeline_view 工具。它会实时合成一张“决策图”送给大模型(LLM),这张图叠加了胶片缩略图、音频波形、单词标签等多种信息。

这个思路曾在 browser-use 项目中被验证:用结构化的 DOM 数据代替网页截图喂给 LLM。在 video-use 中,无非是将 DOM 换成了带时间戳的转录文本,原理相通。
渲染完成后,工具还会进行自我检查:扫描输出结果,检查是否存在画面跳跃、爆音或字幕遮挡等问题。如果发现问题,会自动回炉重制,最多尝试3次,直至通过检查才会将预览交给你。
整个流程可以概括为:转录 → 打包 → 模型推理 → 生成剪辑决策(需确认)→ 渲染 → 自检。每一步策略都需经你确认,保证了可控性。
此外,还有一个贴心的设计:每次剪辑的上下文会被记录在 project.md 文件中。这意味着当你剪辑同一个系列项目时,它可以从上次中断的地方继续,对于制作课程、长播客或连载 Vlog 的创作者非常实用。
安装与使用
安装过程并不复杂,主要分为以下几步:
- 克隆并链接项目:将项目克隆到本地,并创建符号链接到 Claude Code 的技能目录。
- 安装依赖:安装必要的 Python 包和系统工具。
具体命令如下:
git clone https://github.com/browser-use/video-use
cd video-use
ln -s “$(pwd)“ ~/.claude/skills/video-use
然后安装依赖,其中 ffmpeg 是必须的,yt-dlp 是可选的(用于下载在线视频素材):
pip install -e .
brew install ffmpeg
brew install yt-dlp
最后,你还需要一个 ElevenLabs 的 API Key 用于语音转录。将其配置到项目目录下的 .env 文件中后,即可在 Claude Code 中启用并使用该技能。

目前项目仍处于早期阶段,处理复杂场景时可能仍需多轮对话才能达到理想效果。你对需求的描述越具体,最终成片的效果就越精准。
思考与展望
video-use 真正引人深思的地方,在于它再次验证了一套行之有效的 AI 代理方法论。browser-use 的成功在于让 LLM 从“看网页截图”变为“读结构化 DOM”;video-use 则是让 LLM 从“看视频帧”变为“读带时间戳的转录文本”。
这种将高维、冗余的媒体信息,压缩为低维、结构化的文本数据供 LLM 处理的核心思路,极大地降低了计算成本并提升了决策效率。再结合 Claude Opus 等模型日益强大的自我验证与规划能力,AI 智能体正开始具备独立完成复杂工作流并交付成品的能力,而不再仅仅是人类的辅助工具。
未来,创作者或许能将更多精力专注于创意与内容本身,而那些重复、琐碎的执行环节,可以放心地交给这些不断进化的 AI 助手。
如果你对 AI 智能体的实际应用和开源项目实践感兴趣,欢迎在 云栈社区 与更多开发者交流探讨。
项目地址:https://github.com/browser-use/video-use