AI编写代码已渐成常态,但让AI制作一份得体的PPT,对许多人来说仍是痛点。随着Anthropic发布Agent Skills功能,其官方的PPTX Skill示例宣称能让Claude具备生成专业演示文稿的能力。这究竟是终结PPT噩梦的利器,还是另一个“看上去很美”的试验品?本文将从代码层面拆解这个Skill,带你经历一次从“翻车”到“魔改”的完整探索,并横向对比市面上其他AI工具的表现。
深度拆解:PPTX Skill 的核心工作机制
在人机协作中,Prompt的质量直接决定了AI产出的上限。Agent Skills的本质,正是可复用的、系统化的Prompt工程。要真正用好PPTX Skill,我们有必要深入理解其内部逻辑。
PPTX Skill是Anthropic为展示Agent Skills能力而发布的官方示例。其 SKILL.md 文件定义了三种核心能力:无模板创建演示文稿、基于模板创建演示文稿,以及编辑现有演示文稿。
本文聚焦于“无模板创建”这一最具挑战性的场景。其预设的工作流包含四个关键步骤:
- 根据用户提供的内容,设计演示文稿的结构与视觉方案。
- 为每一张幻灯片生成对应的、符合规范的HTML文件。
- 使用转换脚本,将所有的HTML文件合并转换成一个完整的PPTX演示文稿。
- 将生成的演示文稿转换为缩略图,通过视觉验证每张幻灯片的布局与设计。
随着大模型能力的进化,生成美观的HTML已非难事。PPTX Skill在 SKILL.md 中为AI提供了详尽的设计指导,包括如何根据内容匹配主题与配色方案,为图表、背景等元素设定具体规则,并优先推荐使用双栏或全幻灯片布局。

我将Skill中提供的18个配色方案转换成了可视化的卡片,你可以在生成演示文稿时直接指定使用某套配色。
然而,将HTML精准还原为PPTX格式,目前尚无通用的完美方案。为确保样式转换的准确性,PPTX Skill在 html2pptx.md 中预设了极为严格的约束条件,例如:
- 文本约束:所有文本必须包裹在特定的
<p>, <h1> 等标签内;禁止使用手动输入的项目符号,必须使用 <ul> 或 <ol> 列表。
- 样式约束:背景、边框、阴影等样式仅允许应用于DIV元素,不能直接用于文本;禁止使用CSS渐变。
- 布局验证:内容绝对不能溢出body边界,底部必须预留足够边距。
Skill要求AI严格遵循这些约束来生成HTML,随后调用 html2pptx.js 脚本进行转换。该脚本内置了严格的校验逻辑,一旦失败便会返回明确的错误信息,从而驱动AI进行自我修正。最后,Skill还要求AI使用 thumbnail.py 脚本生成演示文稿的缩略图,通过视觉方式进行二次验证,这为整个工作流提供了重要的自我纠错能力。
简而言之,PPTX Skill融合了精心设计的提示词、严谨的工程化转换流程以及视觉验证机制。相比其他工具“抽奖”式的生成质量,它更像是一项系统工程。但实际测试结果,却与预期相去甚远。
实战踩坑与“魔改”优化
为了贴近真实工作场景,我选择将一篇关于Claude Code最佳实践的博客文章——《Claude Code 之父 Boris 的 9 条实战技巧》 作为生成PPT的原始材料。
前期准备与环境搭建
SKILL.md 文档末尾列出了所需的依赖,并标注“应该已经安装”。但这显然是从专业开发者视角出发的假设,普通用户的环境通常不具备这些条件。此外,运行过程会产生大量HTML、图片等中间文件,因此建立一个独立的项目目录至关重要。
对于macOS用户,可参考以下步骤搭建环境:
# 1. 创建项目目录
mkdir pptx-project && cd pptx-project
# 2. 初始化 npm
npm init -y
# 3. 安装核心依赖
npm install pptxgenjs playwright react-icons react react-dom sharp
# 4. 安装 Playwright 浏览器
npx playwright install
# 5. 通过 Homebrew 安装其他工具(原文的apt-get适用于Linux)
brew install --cask libreoffice
brew install poppler
# 6. 安装 markitdown (用于转换)
pip install "markitdown[pptx]"
首次尝试:问题重重
我分别使用了 Claude Code + DeepSeek-V3.2 和 Vscode Github Copilot Chat + Claude Sonnet 4.5 两种组合进行测试。提示词为:“根据 file:Claude Code 之父 Boris 的 9 条实战技巧.md 文档,分析Boris的9条技巧,生成Claude Code最佳实践的演示文稿(PPTX)”。
- DeepSeek-V3.2:耗时近25分钟,结果完全不可用。其行为多处违背规范:未阐述设计方案;在
html2pptx.js 校验失败后,竟擅自跳过脚本,直接调用PptxGenJS API;未正确处理渐变和图标;未生成验证缩略图。
- Claude Sonnet 4.5:耗时20分钟,结果稍好但远不及格。虽然提取了内容,但排版简陋,且因脚本校验失败导致了超过40次的反复迭代!

对比发现,Claude模型至少会阐述方案并尝试生成缩略图,而DeepSeek则完全“放飞自我”。两者共同的核心问题在于:html2pptx.js 脚本校验始终失败,错误提示集中在“内容溢出”和“底部边距不足”。这意味着模型设计的幻灯片高度超出了脚本允许的安全范围,它未能严格遵循 html2pptx.md 中的约束。 为了通过校验,模型在修复过程中大幅简化了HTML,严重牺牲了视觉效果。
此外,thumbnail.py 脚本生成的缩略图清晰度极差,使得基于缩略图的视觉验证形同虚设。
根因分析:Skill 文档的设计缺陷
仔细研读 SKILL.md 后,我发现了几个关键问题:
- 文档冗长且结构混乱:文档长达484行,接近Anthropic官方最佳实践中建议的500行上限。它没有目录,且将三种场景的工作流混杂在一起,违反了“渐进式披露”和“按需加载”原则。
- 工作流步骤存在误导:在“无模板生成”场景中,文档要求模型先阅读
html2pptx.md 规范,再进行设计。这导致设计内容的上下文干扰了模型对约束条件的记忆和理解。更合理的流程应是:先设计内容,再阅读规范并立即生成HTML。
- 设计原则“水土不服”:原文档的设计原则完全针对英文环境,直接套用中文会出现诸多问题,如强制使用英文字体导致中文回退显示异常、强调“全大写标题”对中文无意义、推荐的英文字号对比在中文场景下正文过小等。
针对性优化方案
针对上述缺陷,我进行了如下“魔改”:
- 精简文档:直接删除
SKILL.md 中“使用模板”和“编辑”两个场景的提示词,大幅缩减上下文长度。
- 调整结构:将“工作流步骤”部分移至文档开头,“设计原则”之前,让模型能优先遵循正确的执行路径。
- 修正流程:在工作流中明确增加“第一步:设计演示文稿内容”,确保模型先完成内容构思,再接触
html2pptx.md 的约束。
- 本地化设计原则:修改字体、字号、标题等规则,使其符合中文排版习惯。
- 优化缩略图脚本:修改
thumbnail.py,提高输出图片的尺寸和DPI,生成更清晰的缩略图以支持有效验证。
二次挑战:初见成效
除了优化Skill文件,我还基于40多次的失败迭代,总结出一份“HTML2PPTX安全尺寸规范”文档,在对话初期就提供给模型,明确告知其布局限制。
同时,我优化了初始提示词:“分析Boris的9条技巧,使用pptx Skill生成Claude Code最佳实践的演示文稿(PPTX),务必遵循 html2pptx.md 文档中的约束,了解所有验证规则(特别是底部边距要求),然后再开始设计HTML。严格遵守HTML2PPTX安全尺寸规范文档来设计页面布局。”
本轮测试仅耗时3分钟即成功生成PPTX,且过程中未出现任何校验错误!这说明优化策略是有效的。不过,最终成品的视觉质量仍只是“勉强及格”。

我注意到“安全尺寸规范”中预留的60pt底部边距可能过于保守,且模型自选的配色不佳。于是我将边距调整为50pt,并强制指定 Sage & Terracotta 配色方案要求重制。这次的结果在视觉上有所提升,但距离“专业”或“精美”仍有明显差距。
结论是: 通过对原生PPTX Skill进行针对性的文档和脚本优化,可以解决其工作流执行失败的问题,但最终生成的内容质量,距离“开箱即用”还有很长的路要走。将内容设计拆分为独立阶段,或许能进一步优化质量,但这需要更复杂的Prompt工程,本次探索暂不深入。
横向评测:AI PPT 生成工具哪家强?
既然经过一番折腾的PPTX Skill只能交出60分的答卷,我便测试了市面上其他几款主流AI演示文稿工具。
最强王者:Manus
上传文档并输入提示词“分析Boris的9条技巧,生成Claude Code最佳实践的演示文稿(PPTX)。”,Manus 1.6 Lite 模型在4分钟内交出了一份85分的答案。其内容和排版逻辑清晰,更令人惊喜的是,它能自动将Boris的推文截图融入PPT,大大增强了说服力。额外加分!
Manus的主要缺点是成本较高。最便宜的套餐月费17美元提供4000积分,而上述任务消耗了142积分。不过,免费用户每日可获得300积分,足以应对日常轻度使用(需科学上网)。
食之无味:NotebookLM
NotebookLM生成了视觉设计最惊艳的“演示文稿”——它本质上是生成一系列图片。其配图质量很高,与内容契合度好。
但成也图片,败也图片。所有文字都被“画”在图片上,细节处模糊甚至结构错乱,且最终仅输出为PDF格式,完全无法进行任何后期编辑,实用性大打折扣。
勉强及格:Gemini Canvas
在Gemini网页端选择 Canvas 模式,输入提示词“分析Boris的9条技巧,生成Claude Code最佳实践的 PPT 。使用16:9 的比例,浅色背景,所有内容必须使用中文。”即可生成。完成后可导出到Google Slides,再下载为PPTX。
我使用Gemini Pro模型测试,产出质量不稳定,需多次尝试。其内容和排版“勉强可用”,但所有图标、图表均被转换为低清晰度图片,且文字被合并其中,二次调整工作量巨大。

(注:缩略图中的字体样式与原始文件有出入,请忽略此细节)
值得期待:Ima
腾讯的Ima近期上线了与Manus类似的“任务模式”,号称能处理复杂任务并自主交付。实测生成一份PPT需要20-40分钟,最终能交付一份60分水平的演示文稿。考虑到该功能尚处内测阶段,其未来迭代值得关注。目前每日可使用5次,通过邀请码可增加次数。
总结与展望
实际上,优化Skill的过程远非文中描述的“发现-分析-解决”这般线性顺畅。这背后是超过二十次的反复试错,耗费了整整一周业余时间的深度探索。
当前的PPTX Skill驾驭门槛依然不低,使用者不仅需要理解Agent Skills的原理,还需具备一定的代码阅读和调试能力。它更像一个为开发者和高阶技术用户准备的“乐高套件”,距离大众化的“一键生成”还有相当距离。
若要问我现在会选择哪个工具来辅助生成PPT?我的答案是Manus。它在质量、速度和可控性之间取得了较好的平衡。当然,对于热衷于折腾、希望深度定制AI工作流的技术爱好者而言,深入研究并优化Claude的PPTX Skill,无疑是探索AI与知识工作流融合的绝佳实践,你也可以在 云栈社区 的智能与数据板块找到更多关于AIGC应用的前沿讨论。这次深入的实践也再次证明,精良的 Prompt工程 是将大模型潜力转化为实际生产力的关键桥梁。