5838 积分	0 好友	727 主题

[Python] 开源video-use项目：用Claude Code智能代理实现全自动视频剪辑

发表于 2026-4-20 08:00:23 | 查看: 245| 回复: 0

对于视频创作者来说，最耗时的环节往往不是撰写脚本或录制素材，而是后期的剪辑工作。你需要一帧帧地剪掉那些“呃”、“嗯”等无意义的口头禅和停顿，手动为素材调色，再逐句配上字幕。整个过程重复枯燥，一段几分钟的视频常常需要耗费数小时。

最近，一个名为 video-use 的 Claude Code 技能项目在开源实战社区引发了关注。它旨在将我们从繁琐的剪辑工作中解放出来。

video-use项目功能与终端界面截图

该项目由 Browser Use 团队开源，此前他们开发的让 AI 自动操控浏览器的 browser-use 项目已获得 8.8 万 Star。这次，团队将同样的人工智能代理（Agent）思路应用到了视频编辑领域。

它的使用方式非常直观：你无需打开任何专业的剪辑软件。只需将原始视频素材放入一个文件夹，然后在 Claude Code 中，用一句简单的自然语言告诉它你的需求。

视频素材文件夹截图

例如，你可以说：“请把这个文件夹里的视频剪辑成一条可以发布的成品视频。” 接下来，video-use 会自动化执行一系列任务：

然而，这个项目最精妙之处并非其功能列表，而是其底层的实现逻辑。

传统让多模态大模型“理解”视频的做法，通常需要将视频逐帧抽取并送入模型，这会导致 token 消耗量极大。video-use 采用了一种更高效、更聪明的两层策略：

第一层：音频层（常驻加载）
使用 ElevenLabs Scribe 服务进行转写，获取带词级时间戳的文稿。同时，它会标记说话人、笑声、叹息等音频事件。词级时间戳是剪辑精度的关键，而 Scribe 是少数能同时提供精细时间戳和说话人区分的工具。

第二层：视觉层（按需调用）
当遇到模糊的停顿点、需要确认剪辑位置或进行重录比对等关键决策时，video-use 会调用 timeline_view 工具。它会实时合成一张“决策图”送给大模型（LLM），这张图叠加了胶片缩略图、音频波形、单词标签等多种信息。

音频编辑与剪辑决策界面截图

这个思路曾在 browser-use 项目中被验证：用结构化的 DOM 数据代替网页截图喂给 LLM。在 video-use 中，无非是将 DOM 换成了带时间戳的转录文本，原理相通。

渲染完成后，工具还会进行自我检查：扫描输出结果，检查是否存在画面跳跃、爆音或字幕遮挡等问题。如果发现问题，会自动回炉重制，最多尝试3次，直至通过检查才会将预览交给你。

整个流程可以概括为：转录 → 打包 → 模型推理 → 生成剪辑决策（需确认）→ 渲染 → 自检。每一步策略都需经你确认，保证了可控性。

此外，还有一个贴心的设计：每次剪辑的上下文会被记录在 project.md 文件中。这意味着当你剪辑同一个系列项目时，它可以从上次中断的地方继续，对于制作课程、长播客或连载 Vlog 的创作者非常实用。

安装过程并不复杂，主要分为以下几步：

具体命令如下：

git clone https://github.com/browser-use/video-use
cd video-use
ln -s “$(pwd)“ ~/.claude/skills/video-use

然后安装依赖，其中 ffmpeg 是必须的，yt-dlp 是可选的（用于下载在线视频素材）：

pip install -e .
brew install ffmpeg
brew install yt-dlp

最后，你还需要一个 ElevenLabs 的 API Key 用于语音转录。将其配置到项目目录下的 .env 文件中后，即可在 Claude Code 中启用并使用该技能。

Claude Code 调用 video-use 技能界面

目前项目仍处于早期阶段，处理复杂场景时可能仍需多轮对话才能达到理想效果。你对需求的描述越具体，最终成片的效果就越精准。

video-use 真正引人深思的地方，在于它再次验证了一套行之有效的 AI 代理方法论。browser-use 的成功在于让 LLM 从“看网页截图”变为“读结构化 DOM”；video-use 则是让 LLM 从“看视频帧”变为“读带时间戳的转录文本”。

这种将高维、冗余的媒体信息，压缩为低维、结构化的文本数据供 LLM 处理的核心思路，极大地降低了计算成本并提升了决策效率。再结合 Claude Opus 等模型日益强大的自我验证与规划能力，AI 智能体正开始具备独立完成复杂工作流并交付成品的能力，而不再仅仅是人类的辅助工具。

未来，创作者或许能将更多精力专注于创意与内容本身，而那些重复、琐碎的执行环节，可以放心地交给这些不断进化的 AI 助手。

如果你对 AI 智能体的实际应用和开源项目实践感兴趣，欢迎在云栈社区与更多开发者交流探讨。