云栈社区»论坛 › 技术文档「 Note & Doc 」 › 使用nano-banana-pro与Whisper实现AI图像生成与视频字幕自动化 ...

发回帖发新帖

5683 积分	0 好友	742 主题

发消息

使用nano-banana-pro与Whisper实现AI图像生成与视频字幕自动化

发表于 2026-3-9 08:44:00 | 查看: 249| 回复: 0

适合人群：内容创作者、设计师、营销人员、视频制作者
类别规模：169+ Skills
核心价值：将 AI 生成式能力融入视觉内容创作流程，实现图像、音频和视频内容的智能化生产

生成式 AI 正在重塑视觉内容的生产方式。无论是设计营销海报、构思产品原型，还是为视频添加字幕、整理会议记录，AI Agent 已经能够接手创作流程中大量重复性的工作，让创作者得以专注于真正需要人类创意与判断的核心环节。

在 ClawHub 的庞大生态中，“图像与视频生成”类别汇聚了超过 160 个 Skill，它们整合了业界领先的生成式 AI 模型和多媒体处理工具。本文将深入剖析该类别下最具代表性的三个核心 Skill，展示如何利用 AI Agent 构建高效、自动化的视觉内容生产线。

分类概览

Skill 名称	作者	安装量	核心功能
`nano-banana-pro`	@steipete	高	基于 Gemini 3 Pro 的高质量图像生成与编辑
`openai-whisper`	@steipete	高	基于 OpenAI Whisper 的高精度语音转文字
`summarize`	@steipete	高	长文本摘要提取，与 Whisper 构成黄金组合

Top 1：nano-banana-pro

nano-banana-pro 是一个功能强大的图像生成与编辑 Skill。它集成了 Google 的 Gemini 3 Pro Image 模型，能够根据简单的文字描述生成高质量、富有创意的图像。这个 Skill 不仅支持从零开始的文生图（Text-to-Image），还具备对现有图像进行智能编辑和修改的能力（Image-to-Image），为视觉创作提供了极大的灵活性。

你可能好奇它的名字为何如此特别。在 OpenClaw 社区中，“nano banana” 是图像生成 Skill 的一个特殊标识，这代表着该 Skill 生成的每张图片都是一个独立的、可直接使用的渲染图像，而非 HTML/CSS 代码。这意味着生成的图像能无缝应用于各种场景，无需任何额外的渲染步骤。

集成到 OpenClaw

安装命令

npx clawhub@latest install steipete/nano-banana-pro

API Key 配置

nano-banana-pro 需要 Google Gemini API Key。你可以在 Google AI Studio 获取免费的 API Key，然后将其配置到 OpenClaw 的环境变量中（通常是 GEMINI_API_KEY）。

实际应用场景

场景：自动化内容营销素材生产

想象一下，一个内容营销团队每周都需要为多个社交媒体平台制作大量视觉素材。使用 nano-banana-pro，AI Agent 可以轻松实现：

博客封面图：当编辑完成一篇博客文章后，只需向 Agent 发出指令：“根据这篇关于‘远程工作的未来’的文章，生成一张适合作为博客封面的图片，风格要求现代、专业，主色调为蓝色和白色。” Agent 便会调用 nano-banana-pro，生成多个候选图片供编辑挑选。
社交媒体海报：Agent 可以根据预设的模板和品牌规范，自动为每篇新文章生成适配不同平台（如 Instagram 的 1:1 方图、Twitter 的 16:9 横幅、LinkedIn 的 1.91:1 封面图）的海报图片。
产品概念图：在产品设计的早期阶段，产品经理可以用自然语言描述产品功能和界面设想，Agent 利用 nano-banana-pro 快速生成多个视觉概念图，高效帮助团队对齐产品愿景。

Top 2：openai-whisper

openai-whisper 是一个基于 OpenAI Whisper 模型的高精度语音转文字 Skill。Whisper 是当前业界公认最优秀的开源语音识别模型之一，其核心优势包括：

多语言支持：支持 99 种语言的语音识别，并能自动检测语言种类。
高鲁棒性：能够较好地处理各种口音、背景噪音和不同音质的录音文件。
时间戳精度：提供词级别的时间戳，使生成的字幕文件具备精确到秒的时间同步能力。
翻译能力：支持将其他语言的语音直接转录为英文文本。

在视频内容创作流程中，openai-whisper 是生成字幕、整理会议纪要、转录采访录音不可或缺的关键工具。

集成到 OpenClaw

安装命令

npx clawhub@latest install steipete/openai-whisper

API Key 配置

该 Skill 调用 OpenAI 的 Whisper API，因此需要配置 OPENAI_API_KEY 环境变量。如果你想在本地运行 Whisper 模型（无需 API Key），可以参考该 Skill 的 SKILL.md 文件中关于本地部署的详细说明。

实际应用场景

场景：播客内容的全自动化处理

一个播客团队每周录制一期节目，后期需要手动生成字幕、文字稿和内容摘要。使用 openai-whisper 可以将这个繁琐的流程完全自动化：

录音文件完成后，直接将其发送给 Agent，并指示：“处理这期播客录音。”
Agent 调用 openai-whisper Skill，将整段录音转换成带精确时间戳的文字稿。这个过程通常只需几分钟，而人工转录可能需要数小时。
Agent 将文字稿自动格式化为 .srt 字幕文件，可直接导入任何主流视频编辑软件。
Agent 可以进一步调用 summarize Skill（下文介绍），从长篇文字稿中提取关键观点，生成节目摘要和章节划分，用于在播客平台发布。

Top 3：summarize

summarize Skill 专注于从长篇文本中提取核心要点，生成简洁、准确的摘要。它与 openai-whisper 堪称“黄金搭档”，共同构成了一个强大的“音视频内容处理管道”：Whisper 负责将语音转化为文字，Summarize 负责将文字提炼为精华。

summarize 不仅仅是简单的文本截断。它能够理解文本的语义结构，识别出最重要的信息，并以连贯、易读的方式呈现。它支持多种摘要模式，包括：执行摘要、要点列表、章节划分等，以适应不同的业务场景。

集成到 OpenClaw

安装命令

npx clawhub@latest install steipete/summarize

运行时依赖

summarize Skill 通常调用大语言模型（LLM）来生成摘要，因此需要配置相应的 LLM API Key（例如 OPENAI_API_KEY 或 ANTHROPIC_API_KEY）。

实际应用场景

场景：视频内容的智能分发

一个教育机构的 YouTube 频道每周发布多个长篇教学视频（通常超过1小时）。为了提升内容的可发现性和用户体验，需要为每个视频手动撰写详细描述、划分章节、提取关键词。使用 openai-whisper 和 summarize 的组合，可以实现全自动化：

Agent 首先使用 openai-whisper 将视频的音频轨道转录为完整的文字稿。
Agent 调用 summarize Skill，对长篇文字稿进行语义分析，自动识别视频中的主要话题转换点，生成带时间戳的章节划分（例如：“00:00 - 引言”、“05:30 - 核心概念讲解”、“25:00 - 实战演示”）。
Agent 进一步生成一段约200字的视频描述，精炼概括视频的核心内容和学习价值。
Agent 还能提取出10-15个与视频内容高度相关的关键词，用于优化视频的SEO。
所有生成的内容（字幕、描述、章节）可以通过其他集成 Skill（如 gog）自动填写到 YouTube Studio 的视频编辑页面，完成发布前的所有准备工作。

如何编写自己的图像生成 Skill

如果你有特定的、重复性的图像生成需求，完全可以编写一个自定义的 Skill。下面是一个示例，展示了如何创建一个专门用于生成符合品牌规范的营销图片的 Skill。这种通过代码定义工作流的方式，正是开源实战精神的体现。

---
name: brand-image-generator
description: 根据品牌规范生成营销图片，确保颜色、字体和风格的一致性。
metadata: {"openclaw": {"requires": {"env": ["GEMINI_API_KEY"]}, "emoji": "🎨"}}
---

# Brand Image Generator Skill

当用户请求生成品牌营销图片时，执行以下步骤：

## 品牌规范

- **主色调**：深蓝色 (#1A237E) 和金色 (#FFC107)
- **字体风格**：现代、简洁、专业
- **图片风格**：商业摄影风格，避免卡通或插画风格
- **尺寸**：默认生成 1200x630 像素（适合社交媒体分享）

## 生成流程

1.  询问用户图片的主题和核心信息。
2.  根据用户提供的信息，结合品牌规范，构建详细的图像生成提示词（Prompt）。
3.  调用图像生成工具，生成 3 个候选图片。
4.  将生成的图片展示给用户，并询问是否需要调整。
5.  根据用户反馈进行迭代，直到满意为止。

## 提示词模板

"A professional marketing image for [主题], featuring [核心元素], in a modern corporate style with deep blue and gold color scheme, high quality photography, clean and minimalist design, 1200x630 pixels."

场景选用指南

在“图像与视频生成”这个庞大的类别中，如何快速选择最合适的 Skill？下表为你提供了一个清晰的决策参考：

工作场景	推荐 Skill	核心理由
需要根据文字描述生成原创图片	`nano-banana-pro`	集成 Gemini 3 Pro，生成质量高，风格可控
需要将音频/视频转录为文字	`openai-whisper`	业界领先的语音识别精度，支持多语言和时间戳
需要从长文本（如转录稿）中提取摘要	`summarize`	语义理解能力强，支持多种摘要格式（列表、章节等）
需要处理完整的音视频内容后期流程	`openai-whisper` + `summarize`	两者组合构成从“声音”到“摘要”的完整内容处理管道
需要生成符合特定品牌规范的图片	基于 `nano-banana-pro` 的自定义 Skill	将品牌规范（色彩、字体、风格）嵌入 Skill 指令，确保输出一致性

关键决策原则：在图像生成场景中，提示词（Prompt）的质量直接决定了最终结果的优劣。强烈建议在自定义 Skill 的指令中内置详细的提示词模板和品牌规范，而不是每次都依赖用户的临时描述。这样做能极大提升生成结果的稳定性、专业性和与品牌形象的一致性。

通过合理组合运用这些 Skill，你可以构建出高度自动化的视觉内容生产线，从而将宝贵的人力资源投入到更具创造性的工作中。如果你想了解更多类似的AI工具实践，欢迎在云栈社区与广大开发者交流探讨。

上一篇：从Claude Code编译器到团队管理：AI编程的确定性边界实践
下一篇：Claude Code之父深度访谈：从开发心路到AI时代工程实践，Anthropic如何重塑开发范式

Gemini, Whisper, AI图像生成, 语音识别, OpenClaw

使用nano-banana-pro与Whisper实现AI图像生成与视频字幕自动化

分类概览

Top 1：nano-banana-pro

集成到 OpenClaw

实际应用场景

Top 2：openai-whisper

集成到 OpenClaw

实际应用场景

Top 3：summarize

集成到 OpenClaw

实际应用场景

如何编写自己的图像生成 Skill

场景选用指南

相关帖子

浏览过的版块