找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

811

积分

0

好友

109

主题
发表于 11 小时前 | 查看: 2| 回复: 0

日新月异啊,朋友们!上面这个视频,我只是输入了几句话就把它做出来了。

视频推荐的是克里斯托弗·毕晓普(Christopher Bishop)的经典著作《模式识别与机器学习》(Pattern Recognition and Machine Learning, 即传说中的PRML)。以前啃PRML这本书,你可能需要手边常备好几本数学参考书。但现在,人工智能大模型就是你随时待命的万能助教。它能将书中那些被省略的推导步骤一步步清晰地铺开,让顶级学者的思维过程对你而言变得透明易懂。

准备工作:Skill与MCP配置

大家千万别看见“Skill”、“MCP”这些词就觉得特别专业、很难,你实际体验一下就会全明白了。如果你光靠想象就觉得难,请立刻停止这种自我设限的脑补。直接上手操作,理解起来的实际难度,可能远低于理解一个复杂的八卦(这真的一点都不夸张)。

我这个视频是在智谱GLM-4.7驱动的Claude Code里完成的,核心用到了两个Skill和一个MCP(Model Context Protocol):

  • Skill 1: remotion-best-practices
    • 地址:https://github.com/remotion-dev/skills/tree/main/skills/remotion
    • 安装命令:npx skills add remotion-dev/skills --skill “remotion-best-practices”
  • Skill 2: text-to-speech
    • 这个是我自己做的。方法是找到火山引擎的语音合成(TTS)文档,完成充值,然后把文档扔给Claude Code里的GLM-4,让它帮我封装成一个可用的Skill。
  • MCP: zhipu-web-search
    • 去智谱AI官网购买搜索服务包,然后在Claude Code里提供MCP的安装地址,让它自行安装配置即可。

这个过程本身就是一次有趣的开源实战,将现有API能力封装成AI可调用的工具。

视频制作:动嘴即可成片

整个制作流程其实非常清晰,你甚至不需要理解底层代码。

1. 用自然语言说出你的需求

打开Claude Code,直接、清晰地向它描述你想做什么。因为我已经配置了搜索MCP、文生语音Skill和动画制作Skill,所以下面这条指令已经包含了全部必要信息:

Claude Code中输入的制作指令截图

如果你额外配置了“下载素材”相关的Skill,整个过程可能会更简单,作品质感也会更丰富。我目前还没弄这个,所以就不展开说了。

接收到指令后,Claude Code会在指定位置生成一个项目文件夹。我要求它生成在桌面,名字叫 prml_video

桌面生成的prml_video文件夹图标

文件夹里的内容结构是这样的:

prml_video项目文件夹内部文件结构截图

当你在Claude Code中与AI对话、提出修改要求时,本质上是在让它自动修改这个文件夹里的源代码文件。你不需要关心具体细节,最终的视频会输出在 out 文件夹里。

当AI初步完成代码编写后,它会自动启动一个本地开发服务器并在浏览器中打开预览界面:

Remotion视频编辑预览界面截图

2. 通过对话调整序列与动画

这个预览界面看起来是不是很像专业的剪辑软件?注意左下方的时间轴,你可以看到 loopmp3 文件和多个 Sequence(序列)。

  • loop 是循环播放控制,预览时可选,不影响导出。
  • 两个 mp3 文件分别是AI生成的配音音频和我准备好的背景音乐。你只需要把准备好的音乐文件放到项目下的 public 文件夹里,代码中引用即可。
  • 调整的关键在于各个 Sequence。除非使用非常顶尖的模型,否则AI第一次生成的动画时间线大概率需要微调。

由于我这个作品以音频节奏为主导,所以调整需求很简单:只需要告诉AI,“第X个Sequence应该在音频的第Y秒开始”。整个对话过程就像和一位剪辑师沟通一样自然:

与AI沟通调整动画时间线的对话记录截图

这绝对比大多数人想象的要容易。添加或修改背景元素也是几句话的事。经过若干轮沟通和调整,作品就基本成型了。全程我都没有打开过任何传统的剪辑软件(如Premiere、Final Cut)。

不过后来我反思,像音画对齐这种重复性计算,其实也应该让代码自动完成。例如,通过读取音频文件的 duration 属性,自动计算下一段素材的 startFrame。所以目前的流程还有优化空间。

作品导出与成果

对预览效果满意后,直接点击界面上的“Render”按钮即可导出视频:

点击Remotion预览界面的Render按钮进行导出

完成后,去项目文件夹下的 out 目录里就能找到最终生成的视频文件。我强烈建议你自己动手试一试,感受一下这个工作流的魅力。

核心要义:别多想,直接做

关于Claude Code以及各种Skill的下载安装教程,网上已经非常多,本文就不赘述了。在这个领域入门,几乎不需要你“动脑筋”创新,只要跟着可靠的教程一步步做下去就能成功。

但是,想要真正把它“用好”,创造出高质量的作品,确实需要动很多脑筋。这是一个“下限极低、上限极高”的领域,关键在于你的行动力要跟上。它没有想象中那么难,但却为你提供了一个前所未有的巨大创作空间。

真正的挑战:耐心与排查

当然,如果说这个过程完全没有一点门槛,那也是不客观的。对于像我这样的非专业程序员来说,npx 安装命令、MCP配置、Node.js环境变量设置、API Key的妥善保管等,都是一些小小的挑战。

然而,现在每个人手边都有像豆包、DeepSeek、GLM这样的智能助手。所以,当你遇到任何报错信息时,直接复制粘贴扔给它,基本上都能得到解决方案。这里唯一需要的就是基本的阅读能力和解决问题的耐心

回顾整个流程,最具技术挑战的部分其实是自制“文生语音Skill”。这涉及到第三方API的鉴权(Authentication)、请求签名计算、异步回调处理、严格的JSON格式定义等,任何一个标点符号错误都可能导致Skill无法运行。

但是,有趣的地方来了:当我这么说的时候,它听起来是个专业开发问题。可一旦我把火山引擎的官方API文档全文丢给大模型,它就变成了一个“复制、粘贴、微调”的体力活。我就是通过十几轮的复制粘贴和验证,成功制作了这个Skill,使得调用复杂API的过程变得“无感”。

这里必须吐槽一下,火山引擎这类中文API文档及其复杂的鉴权机制,对新手确实不够友好。他们的计费逻辑严格依赖于HTTP请求头(Header)中的特定字段。如果代码没有准确透传这些字段,网关将无法识别你的预付费资源包,从而直接按量计费扣现金。不过,你不需要完全看懂这段话,因为我的解决方法也是“让AI帮我复制粘贴”。

总之,记住一个原则:遇到任何不懂的,就去问你的AI助手。这件事最终考验的是你的耐心和细致,而非高深的编程能力。

写在最后

当你开始尝试这些从前似乎只有程序员才能驾驭的工具,动手创造内容时,很可能会遇到一些真正的、具体的阻碍。保持探索和学习的心态至关重要。如果你对这类融合了创意与技术的实践感兴趣,欢迎来云栈社区与更多开发者交流心得。这里是一个专注于技术实战与资源共享的开发者广场,也许你能发现更多有趣的玩法和项目。

参考链接

  1. Remotion Skill 官方仓库:https://github.com/remotion-dev/skills/tree/main/skills/remotion



上一篇:企业级 Kubernetes 多集群一站式管理平台 KubePolaris,集成 DevOps 工作流
下一篇:OpenAI商业模式新动向:考虑对AI辅助的药物发现等成果收入分成
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-26 18:43 , Processed in 0.431438 second(s), 38 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表