有个做短剧的朋友最近跟我说,他们几乎不用真人拍了——一条 Stable Diffusion 加 Agent 搭起来的流水线,一天能出好几集。我动手试过,结果画面一帧一帧地飘,人物换个镜头就变脸,配音和口型对不上,两个分镜接在一起像两部片子。朋友说得很轻巧,却没讲清他们怎么把这些坑填平的。
于是我把整条链路从头扒了一遍。扒完最大的感受是:这套流水线要解决的核心问题,是让一台每次输出都不一样的概率机器,每次都对得上号——生成画面本身反倒是最容易的一步。 AI 生成天生随机,抽一百次有一百个样子;而一部短剧要的是同一个人、同一个场景、连贯的动作和声音。把随机变成可控,这中间的全部工程,才是这条流水线的含金量所在。
下面用一个框架来拆它。你可以把整条 AI 短剧流水线,理解成给生成模型上的四道收敛闸门——角色锁、镜头锁、声画锁、编排锁。卡住大多数人的,就是这四道关。
成熟团队的工作流,骨架基本统一:
主题 / IP → 大模型生成结构化剧本(场次、对白、运镜、情绪标签)→ 提取角色描述生成立绘、建角色库 → 提取场景描述生成分镜图 → 图生视频做动态 → 配音 + 口型同步 → FFmpeg 合成字幕/BGM/转场 → 成片
工具分工上,目前最主流的是 Dify 当大脑、ComfyUI 当双手 的组合。Dify 负责编排:多 Agent 协作、生成剧本和分镜、结构化 JSON 输出、循环批量跑多集;ComfyUI 负责干活:本地跑 Flux、SDXL 这类模型出图,专攻角色一致性和图生视频。新手会直接用即梦、海螺这类一体化平台三天跑通第一集,工作室则倾向本地部署 ComfyUI,长期更省钱也更可控。
注意这里有个关键设计:剧本得写成机器能读的格式。 它要带场次编号、运镜建议、情绪标签这些结构化字段,下游的图像、视频、配音模块才能自动解析、各取所需。一个能被 Agent 逐字段消费的剧本,才是这条流水线的起点。链路本身不复杂,难的是每一环都在跟不确定性搏斗。
第一道关:角色锁——人物为什么不再变脸
人物一致性是所有人第一个翻车的地方。同一个角色,这个镜头是瓜子脸,下个镜头变圆脸,观众立刻出戏。
行业现在是一套叠加式的方案,按精度从低到高往上摞:
- 参考图绑定:先生成一张角色定妆图,后续每次生成都把它作为参考喂进去。最轻量,适合快速起量。
- IP-Adapter:把参考图的特征向量提取出来,引导新图保持五官特征。一张图就能起到接近 LoRA 的效果,省掉训练成本,还能多图叠加。
- LoRA 微调:针对某个角色,用一组图训练一个专属小模型。这是上限最高的做法,成熟团队能把同一角色多场景的五官相似度做到 90% 以上。
- ControlNet 兜姿态:在上面任意一层再叠 ControlNet——OpenPose 控骨架动作、Depth 控空间关系、Canny 控边缘轮廓。它不替代前面任何一环,是再加一道约束。
这套组合拳的逻辑很清楚:先用 LoRA 或 IP-Adapter 锁住“这个人长什么样”,再用 ControlNet 锁住“这个人此刻在做什么”。 一致性这件事,从来不靠某个单一神器,得靠多道约束叠在一起,把生成模型的自由度一点点压下去。最后这些定妆图沉淀成一个角色库,整部剧反复调用,人就不会跑了。
第二道关:镜头锁——分镜之间怎么不像两部片
第二个坑是拼接。单条 AI 视频生成五到十秒还行,一旦把多个分镜接起来,转场生硬、动作不接、画面跳变,一眼假。
现在的解法分两路走。
一路是模型层面原生支持多镜头。Kling 3.0 这一代提供了统一的分镜工作流,一次生成里就能处理镜头切换和正反打对话,单次最多串联 6 个连续场景,时序稳定性也明显提升,角色和背景跨帧不再频繁闪烁。这等于把“拼接”这个动作前置到了生成阶段,而不是事后硬剪。
另一路是首尾帧控制。Vidu Q3 Pro、即梦这些都支持给定第一帧和最后一帧,让模型自己补中间的过渡。要做一个平滑转场,就把上一镜头的末帧设成下一镜头的首帧,画面自然咬合。
但真正让成片看起来连贯的,其实是一个很朴素的剪辑常识:视觉可以硬切,听觉必须连续。 后面会细讲,这里先记住——画面跳一下观众能忍,声音断一下立刻穿帮。所以镜头锁这道关,一半靠生成模型,一半靠声音去盖。
第三道关:声画锁——配音和口型这道最隐蔽的坎
配音是我自己卡得最久的地方,也是最容易被低估的一关。它其实是两个独立问题:声音像不像人,嘴型对不对得上。
声音这一侧,现在已经基本不是问题。 主流是语音克隆:MiniMax 的 speech-2.5 只要 10 秒样本就能复刻音色,连口音和发音习惯都能带上;中文场景开源的 GPT-SoVITS 三到十秒样本就能克隆;出海规模化则用火山语音按量付费。流程都是准备干净样本 → 训练声纹 → 输入台词生成 → 调语速情感。
TTS 现在最大的短板是没感情。实操上的破法很土但有效:用标点控制停顿节奏,长句分句生成再拼接,关键台词干脆自己录一条盖上去。
口型这一侧,是声画合一的最后一公里。 主流开源方案是 Wav2Lip,靠音频特征驱动嘴唇变化;腾讯音乐天琴(Lyra)实验室的 MuseTalk 支持中英日多语言、画质更好;商业方案里硅基智能的中文口型驱动几乎没有对手,连方言都能对得很准。
但成熟团队真正聪明的地方,是用结构设计绕开难点,而不是硬刚每一帧。一人剧组的省力策略很值得抄:
- 能用旁白就不用对白——旁白根本不需要口型同步,直接省掉一整道工序;
- 对话镜头优先用中景、远景,脸小,口型误差看不出来,只有关键特写才上精确 Lip Sync;
- 音频盖切——视频硬切的同一瞬间,让配乐或环境音连续不断,听觉的连贯直接弥补视觉的跳变。
这三条合起来,背景音连贯和口型这两个看似要硬啃的技术难题,一大半是被剪辑策略消化掉的,而不是被某个模型一次性解决的。这也是朋友嘴上不会讲、但区分老手和新手的地方。
第四道关:编排锁——Agent 到底锁住了什么
前面三道关,会用工具的人都摸得到。第四道关才是把能做变成能量产的分水岭。
Agent 和 Dify 这类编排层,把原本散落在人脑里的判断,固化成了一条可重复跑的工作流。 剧本怎么切分镜、什么情绪配什么运镜、角色库怎么调用、生成失败了怎么自动重抽——这些决策本来每一集都要人重新做一遍,编排层把它们写成节点和循环,一次配置,批量复用。
这就是为什么同样的工具,有人三天磨一集,有人一天出二十部。差距从来不在模型本身,拉开距离的,是有没有把生产经验沉淀成一条不依赖具体某个人的流水线。Agent 在这里更像工厂的传送带,谈不上是个更聪明的工人。
值得泼一盆冷水的是:所谓全自动目前都有水分。纯算力跑出来的是半成品,成本大头藏在人力——审核、调提示词、重新抽卡、剪辑合成,这些时间没人能省掉。这条流水线现在的状态,是把人从执行里解放出来,塞进了质检环节,离把人彻底拿掉还很远。
算一笔账:成本塌方了,token 烧穿了
把技术讲完,得算钱,不然不知道这事到底成不成立。
制作成本是真的塌方了。 AI 漫剧一分钟的制作成本,2024 年初接近 1.5 万元,2025 年 3 月降到 1500 元,到 2025 年底只要 1000 元左右。横向比真人短剧更夸张:传统真人单集成本 5 万到 10 万、周期 2 到 4 周,AI 介入后单集压进 5000 元、周期 3 到 7 天。一部 80 集的真人短剧通常 30 万到 50 万,同体量的普通 AI 短剧只要 3000 到 5000 元;连特效单帧成本都从真人的 3000 元砸到 3 元,降幅 99.9%。
代价是 token 烧得惊人。按漫剧类型不同,每分钟成片要消耗 50 万到数百万 token;叠加反复抽卡、多版本生成、废镜头重跑,一部短剧从头做下来就要烧掉过亿 token——成片那几十分钟只占一小部分,大头都烧在中间反复重抽、扔掉的九成废片上。火山引擎 Seedance 2.0 的定价能给个参照:纯生视频 46 元/百万 tokens,含视频输入 28 元/百万 tokens,按一段视频的实际消耗折算,业内大致落在 1 元/秒上下(随分辨率和帧率浮动)。这个量级有多猛?中文在线已经披露,AI 短剧是它第一大 token 消耗场景,占到自身 token 调用的 55%,周均调用规模环比还在以超过 20% 的速度涨。
但最该被记住的,是下面这组数字背后的拧巴:
| 主体 |
关键数据 |
| 中文在线 |
AI 短剧占其 token 调用 55%,第一大场景;月产能 150 部,年化目标 3000 部;2025 全年净亏 6.71 亿、同比扩大 176%;毛利率从 36% 升到 47% |
| 掌阅科技 |
2025 上半年短剧收入 8.38 亿,同期仍亏 1.7 亿 |
产能在涨、毛利在改善、收入在增长,公司却在巨亏。 这不是技术不行,恰恰是技术太行——制作门槛被砸穿之后,供给瞬间过剩,竞争从“谁能做出来”转移到了“谁能让人看见”。这就引出了最后、也是最反直觉的一环。
第五道关,也是分钱的那道关:钱不在制作,在投流
整篇扒下来,最值得划出来的一句是:当制作成本逼近于零,护城河就从制作环节整体迁移到了投流环节。
短剧的变现现在主要走 IAA(看广告免费看)和 IAP(付费解锁)的混合模式,头部玩家几乎清一色 IAA+IAP 一起上,靠微信小程序成熟的投放链路拉量。投流的玩法已经金融化到什么程度——业内自己形容是像玩老虎机:先投一个小币(CBO 单计划预算 300、配 5 到 8 条素材)观察回款,ROI 系数压在 1.05 以上、跑得动就放量加投,跑不动立刻关停。一部剧的生死,往往不在拍得好不好,而在第一批素材的投放数据撑不撑得起后续加码。
所以这条链路真实的能力结构是这样的:
- 会用工具——能跑通流水线,但这是入场券,不是壁垒,门槛正在飞速归零;
- 会收敛不确定性——能把一致性、连贯性、口型这些坑稳定填平,决定你的片子能不能看,是工程能力;
- 会算投流 ROI——能在买量市场里用数据撬动杠杆、控制回款,决定你能不能赚钱,是金融能力。
大多数人卡在第一层,以为打通流水线就赢了。但 AI 把第一层的价值抽干之后,钱流向了第二层和第三层。制作便宜了千分之一,赚钱这件事不但没变容易,反而被推到了一个更考验工程沉淀和流量金融能力的位置上。
这大概就是那位朋友轻描淡写、没细说的部分——他给你看的是流水线跑起来有多快,没说的是,跑起来之后,更难的一仗才刚开始。
参考来源
- Dify + ComfyUI:零代码打造 AI 漫剧全自动生产线(2026 实战指南)
- AI 短剧创作系统实战:从剧本生成到视频成片的完整技术栈解析
- AI 图像生成模型一致性角色生成技术对比 - 腾讯云开发者社区
- Kling AI Video Generator Models Explained - Artlist Blog
- 短剧爆款配音神器:MiniMax 语音一键定制角色音色 - 腾讯新闻
- AI 短剧狂飙:一天能上 20 部,成本千元一分钟 - 第一财经
- 中文在线 AI 短剧成第一大 Token 消耗场景,亏损压力仍在 - i 黑马
- 2026 风口:日耗 3 千万,AI 漫剧如何投流加速变现 - 买量小飞机
- 2025 微信小程序短剧投放:如何玩转 IAA 实现流量变现 - 买量小飞机