日新月异啊,朋友们!上面这个视频,我只是输入了几句话就把它做出来了。
视频推荐的是克里斯托弗·毕晓普(Christopher Bishop)的经典著作《模式识别与机器学习》(Pattern Recognition and Machine Learning, 即传说中的PRML)。以前啃PRML这本书,你可能需要手边常备好几本数学参考书。但现在,人工智能大模型就是你随时待命的万能助教。它能将书中那些被省略的推导步骤一步步清晰地铺开,让顶级学者的思维过程对你而言变得透明易懂。
准备工作:Skill与MCP配置
大家千万别看见“Skill”、“MCP”这些词就觉得特别专业、很难,你实际体验一下就会全明白了。如果你光靠想象就觉得难,请立刻停止这种自我设限的脑补。直接上手操作,理解起来的实际难度,可能远低于理解一个复杂的八卦(这真的一点都不夸张)。
我这个视频是在智谱GLM-4.7驱动的Claude Code里完成的,核心用到了两个Skill和一个MCP(Model Context Protocol):
- Skill 1: remotion-best-practices
- 地址:
https://github.com/remotion-dev/skills/tree/main/skills/remotion
- 安装命令:
npx skills add remotion-dev/skills --skill “remotion-best-practices”
- Skill 2: text-to-speech
- 这个是我自己做的。方法是找到火山引擎的语音合成(TTS)文档,完成充值,然后把文档扔给Claude Code里的GLM-4,让它帮我封装成一个可用的Skill。
- MCP: zhipu-web-search
- 去智谱AI官网购买搜索服务包,然后在Claude Code里提供MCP的安装地址,让它自行安装配置即可。
这个过程本身就是一次有趣的开源实战,将现有API能力封装成AI可调用的工具。
视频制作:动嘴即可成片
整个制作流程其实非常清晰,你甚至不需要理解底层代码。
1. 用自然语言说出你的需求
打开Claude Code,直接、清晰地向它描述你想做什么。因为我已经配置了搜索MCP、文生语音Skill和动画制作Skill,所以下面这条指令已经包含了全部必要信息:

如果你额外配置了“下载素材”相关的Skill,整个过程可能会更简单,作品质感也会更丰富。我目前还没弄这个,所以就不展开说了。
接收到指令后,Claude Code会在指定位置生成一个项目文件夹。我要求它生成在桌面,名字叫 prml_video:

文件夹里的内容结构是这样的:

当你在Claude Code中与AI对话、提出修改要求时,本质上是在让它自动修改这个文件夹里的源代码文件。你不需要关心具体细节,最终的视频会输出在 out 文件夹里。
当AI初步完成代码编写后,它会自动启动一个本地开发服务器并在浏览器中打开预览界面:

2. 通过对话调整序列与动画
这个预览界面看起来是不是很像专业的剪辑软件?注意左下方的时间轴,你可以看到 loop、mp3 文件和多个 Sequence(序列)。
loop 是循环播放控制,预览时可选,不影响导出。
- 两个
mp3 文件分别是AI生成的配音音频和我准备好的背景音乐。你只需要把准备好的音乐文件放到项目下的 public 文件夹里,代码中引用即可。
- 调整的关键在于各个
Sequence。除非使用非常顶尖的模型,否则AI第一次生成的动画时间线大概率需要微调。
由于我这个作品以音频节奏为主导,所以调整需求很简单:只需要告诉AI,“第X个Sequence应该在音频的第Y秒开始”。整个对话过程就像和一位剪辑师沟通一样自然:

这绝对比大多数人想象的要容易。添加或修改背景元素也是几句话的事。经过若干轮沟通和调整,作品就基本成型了。全程我都没有打开过任何传统的剪辑软件(如Premiere、Final Cut)。
不过后来我反思,像音画对齐这种重复性计算,其实也应该让代码自动完成。例如,通过读取音频文件的 duration 属性,自动计算下一段素材的 startFrame。所以目前的流程还有优化空间。
作品导出与成果
对预览效果满意后,直接点击界面上的“Render”按钮即可导出视频:

完成后,去项目文件夹下的 out 目录里就能找到最终生成的视频文件。我强烈建议你自己动手试一试,感受一下这个工作流的魅力。
核心要义:别多想,直接做
关于Claude Code以及各种Skill的下载安装教程,网上已经非常多,本文就不赘述了。在这个领域入门,几乎不需要你“动脑筋”创新,只要跟着可靠的教程一步步做下去就能成功。
但是,想要真正把它“用好”,创造出高质量的作品,确实需要动很多脑筋。这是一个“下限极低、上限极高”的领域,关键在于你的行动力要跟上。它没有想象中那么难,但却为你提供了一个前所未有的巨大创作空间。
真正的挑战:耐心与排查
当然,如果说这个过程完全没有一点门槛,那也是不客观的。对于像我这样的非专业程序员来说,npx 安装命令、MCP配置、Node.js环境变量设置、API Key的妥善保管等,都是一些小小的挑战。
然而,现在每个人手边都有像豆包、DeepSeek、GLM这样的智能助手。所以,当你遇到任何报错信息时,直接复制粘贴扔给它,基本上都能得到解决方案。这里唯一需要的就是基本的阅读能力和解决问题的耐心。
回顾整个流程,最具技术挑战的部分其实是自制“文生语音Skill”。这涉及到第三方API的鉴权(Authentication)、请求签名计算、异步回调处理、严格的JSON格式定义等,任何一个标点符号错误都可能导致Skill无法运行。
但是,有趣的地方来了:当我这么说的时候,它听起来是个专业开发问题。可一旦我把火山引擎的官方API文档全文丢给大模型,它就变成了一个“复制、粘贴、微调”的体力活。我就是通过十几轮的复制粘贴和验证,成功制作了这个Skill,使得调用复杂API的过程变得“无感”。
这里必须吐槽一下,火山引擎这类中文API文档及其复杂的鉴权机制,对新手确实不够友好。他们的计费逻辑严格依赖于HTTP请求头(Header)中的特定字段。如果代码没有准确透传这些字段,网关将无法识别你的预付费资源包,从而直接按量计费扣现金。不过,你不需要完全看懂这段话,因为我的解决方法也是“让AI帮我复制粘贴”。
总之,记住一个原则:遇到任何不懂的,就去问你的AI助手。这件事最终考验的是你的耐心和细致,而非高深的编程能力。
写在最后
当你开始尝试这些从前似乎只有程序员才能驾驭的工具,动手创造内容时,很可能会遇到一些真正的、具体的阻碍。保持探索和学习的心态至关重要。如果你对这类融合了创意与技术的实践感兴趣,欢迎来云栈社区与更多开发者交流心得。这里是一个专注于技术实战与资源共享的开发者广场,也许你能发现更多有趣的玩法和项目。
参考链接
- Remotion Skill 官方仓库:
https://github.com/remotion-dev/skills/tree/main/skills/remotion