找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

581

积分

0

好友

75

主题
发表于 前天 03:39 | 查看: 8| 回复: 0

昨天我写了一篇关于在扣子上使用Skills的文章。文中用了一个简单的案例:将一个非常经典的GitHub开源项目封装成一个Skill,方便后续调用。

在Claude中输入请求,将FFmpeg打包成Skill

这么做的原因很简单:我一直认为重复造轮子是一件效率很低的事情。互联网发展几十年,开源世界里大神云集,你能想象到的绝大多数需求,都有前辈们铺好了路,做出了现成的产品并开源出来。

如今很多商业APP,特别是那些所谓的“格式工厂”、“压缩工具”,绝大多数都是给某些大佬的开源工具套了个图形界面。

以前我觉得这没问题。确实,GitHub 上很多开源项目都没有 GUI,需要部署并用命令行操作。光是配置环境这一步,就足以劝退绝大多数普通用户。我自己曾经也是被挡在门外的“普通用户”之一,有太多有趣、实用、厉害的开源项目用不了。

比如格式转换这件“小事”,在没有 AI 之前,我每次都是去 Google 搜索“MP3转WAV”...

Google搜索MP3转WAV的结果,显示多个在线转换器

然后看着各种各样你也不知道是不是有“刺客”的链接向你招手。

所以,当 Skills 出现时,我发现它从文件结构上可以将脚本和 Prompt 打包在一起,这一点与单 Prompt 或单脚本完全不同。再加上现在一些编码能力强的基模和 Agent,我觉得它天然适合将很多大佬的开源项目“Skill 化”,从而在 Agent 中为我所用。

你要相信那些历史悠久的经典开源项目,经历了无数时间和使用者的“鞭打”,其成功率、稳定性、效率都远超绝大多数根据需求让 AI 临时编写的代码。

因此就实践了这个想法。其实不止 Coze,在 OpenCode 或者 Claude Code 这类支持 Skills 的产品里,只要你安装了 Claude 官方那个能生成 Skills 的 Skill——也就是 skill-creator,打包 GitHub 上的开源项目也完全没问题。

skill-creator项目的GitHub仓库文件结构

这种方式能以最快速度,越过所谓的“本地整合包”,变成一个类似 Agent 的产物,让你能快速用上。关于技能创建的具体方法,你可以参考云栈社区上的相关技术文档和教程。

例如昨天文章中,我把视频处理的开源项目 FFmpeg 和图片处理项目 ImageMagick,封装成了一个多模态素材处理的 Skill,效果如下。

视频帧提取与处理流程结果展示

随后,文章下的一个有趣评论引起了我的注意。

用户评论:GitHub上的好项目对普通人不可观测

这个评论提的问题很实际:GitHub 上那么多开源项目,离大众依然非常遥远。我因为知道有特定项目可以处理特定事情,所以封装成 Skill 很简单。但大多数普通人可能连 GitHub 是什么都不知道,那该怎么封装呢?

这确实是个问题。我当时想了两分钟,忽然意识到:不对啊,这不都有 AI 了吗?

于是,我回复了一句:

作者回复:可以问AI推荐GitHub开源项目

没想到,引起了好几位朋友非常正向的反馈。

其他用户的赞同与讨论

这时我才意识到,我的很多小技巧对不少人来说还挺有价值。所以,我觉得可以单独写一篇文章,讲讲普通人如何把整个 GitHub 当成自己的弹药库,做成 Skill,让自己真正变得“三头六臂”。

比如,我自己现在已经封装了很多 Skills。

已封装的Skills列表,包括视频下载、格式转换等

哦,这个管理 Skills 的 Skill 也是我自己建的一个 Skill。因为每次进文件夹查看太麻烦,我可以用这个 Skill 对本地的所有 Skill 进行卸载、删除、修改等操作。

实战:创建一个视频下载 Skill

举个具体的例子。我相信大家经常有去各种视频网站(如 YouTube、B站)下载视频的需求,我自己也有。

那我们就可以直接打开 ChatGPT,选中 GPT-5.2 Thinking(目前我认为搜索能力最好、幻觉程度最低的模型之一),当然用别的也行,一般问题不大。

然后直接提出你的问题:

有没有那种就是去各种视频网站上,下载视频,比如Youtube、B站等等的github上的开源项目。

在AI聊天界面中询问视频下载工具

AI 搜索一阵后,就会给你推荐一个在 GitHub 上几乎封神的项目。

AI回复,推荐多个视频下载工具及GitHub链接

它叫做 yt-dlp。GitHub 上 143k 的 star,说是“真神”也不为过。

yt-dlp的GitHub仓库概览,显示高星标数

它支持上千个网站。

yt-dlp项目介绍页面,强调其支持数千站点

这就是 yt-dlp,最伟大的开源项目之一。它提醒我们,这个世界上有无数的大神和前人,已经为我们铺好了前路。你的需求,很可能早已被解决,并且解决方案就安静地躺在某个代码仓库里。

我们直接复制 yt-dlp 的 GitHub 链接,然后把这段 Prompt 发给你装好了 skill-creator 的 OpenCode 或者 Claude Code:

帮我把这个开源工具https://github.com/yt-dlp/yt-dlp打包成一个Skill,只要我后续给出视频链接,就可以帮我下载视频。

我的做法是,对于打包任务,先让 Agent 进行规划,然后再去写整个 Skill。这样我感觉成功率和后期稳定性都会更高。在 OpenCode 中,就是开启 Plan 模式。

Claude界面中启用Planner-Sisyphus模式

然后,Agent 就会开始调用 skill-creator 这个生成器,开始分析 yt-dlp 项目,并规划如何将其打包封装成一个 Skill。

AI分析yt-dlp并规划创建Skill的思考过程

规划一通后,OpenCode 分析完毕,向我提出了几个定制化问题。

AI询问下载目录、视频质量等偏好设置

我给出了我的回答。

用户回复偏好设置:下载到Downloads,1080p MP4格式

然后它会继续规划,最终给出一个非常明确的计划。

AI给出的最终Skill创建计划,含目录结构与配置

我觉得没问题后,就会切换到正式的开发模式,然后发一句话:“开始开发!”

用户确认并指示AI开始开发

OpenCode 就会开始工作。过一会儿,大概 2 分钟,这个基于 yt-dlp 的视频下载 Skill 就开发完成了。

Skill开发完成报告,显示文件结构与使用方法

测试与迭代优化

我们来试一试。比如 OpenAI 刚出的一个 YouTube 访谈视频,我想下载下来。

YouTube视频截图,内容为AI行业讨论

直接把链接扔给 OpenCode 就行。这里有个小技巧:所有涉及运行程序的 Skills,在第一次运行时,都无脑推荐在 OpenCode 里使用 GPT 5.2 Codex(如果有的话),体验会比 Claude 4.5 Opus 好很多。大致原则是:构建 Skills 时用 Claude 4.5 Opus,首次运行封装好的开源项目用 GPT 5.2 Codex,后续就无所谓了。

用户发送YouTube链接请求下载

第一次运行,其实会遇到很多实际问题,比如 YouTube 防爬机制很强,需要安装浏览器扩展导出 Cookie,或者要安装一些额外的依赖(如 JavaScript 运行时)。不过,AI 会一步步指导你完成。

终端截图,显示下载过程遇到的cookie和JS运行时问题

一顿操作后,视频就下载好了,全程大概几分钟。

PowerShell命令显示已成功下载的MP4文件信息

之所以是几分钟,因为这是第一次。而后续,可能只需要十几秒。

这时,你还可以做一件事:把前面为了下载视频而做的那些操作和经验,直接告诉 AI:

把这些经验,都更新到video-downloader这个skill里,下次就别这么慢了。

然后,它就会自己修改对应的 Skill 文件。下次再需要下载时,这些前置步骤就不用重复了,真正做到随开随下。

AI回复,已更新Skill文件以包含首次运行的经验

这就是我为自己方便而总结的 Skill 全流程:根据需求,用 AI 搜索 GitHub 上的开源项目;使用 AI 将开源项目 Skill 化;首次运行后,寻找并修复问题;重新迭代优化 Skill;最终 Skill 固化,成为你的主 Agent 中一个可靠的技能。这个流程本身,就是一次高效的开源实战

更多可能性

不止是下载视频的需求。这个模式可以扩展到无数场景。

1. 网页打包成桌面APP
你可以问:“有没有github上把网页打包成轻量级桌面APP的很棒的开源项目?”

AI回复,推荐Pake和Tauri等项目

于是,找到了 Pake

Pake项目介绍页面,可将网页转为桌面应用

GitHub 上一个 star 数很高的超棒项目。那就直接 Skill 化,以后你的网页开发完,一句话就能用 Pake Skill 变成桌面 APP。

2. 万能格式转换工厂
你可以直接做一个究极万能的格式转换工厂。问 AI:“我要文档、表格、电子书、图片、视频、音频、3D格式的最牛逼的转换项目,每个给我列一个 GitHub 链接。”

AI回复,列出各领域顶级格式转换工具及GitHub链接

直接把这些最牛的格式转换项目封装在一起,做成一个万能的格式转换 Skill。从此,无需各种奇怪的格式转换器,一个 Skill 解决所有。

3. 网页归档工具
你可以把 ArchiveBox 转成 Skill。从此,任何你想保存下来的网页,都可以发送给 ArchiveBox Skill,让它以无数种你想要的格式(HTML、PDF、截图等)帮你保存下来。

ArchiveBox项目介绍页面,支持多种格式保存

它支持非常多的格式。

ArchiveBox支持的输出格式列表

4. 密码破译工具
甚至,你可以把著名的 Ciphey(一个 AI 驱动的自动解密/解码工具)转成一个 Skill。从此,你就可以在本地配合 Agent,尝试破译一些密码或编码文本。

Ciphey工具介绍与演示

这些,全部都可以 Skill 化,全部都可以加入到你的 Agent 之中,成为你最坚实的技能,最庞大的弹药库。

我提到的这些,仅仅是 GitHub 开源世界的冰山一角。GitHub 上那些凝聚了人类经验与智慧的开源项目,本就灿烂如星海。

因为 Skills 的诞生,因为 Agent 的强大,现在,每个人、每个普通人的背后,都站着全人类过去数十年的知识积累。只要你想,它们就可以为你所用。

你无需三头六臂,但你已经拥有了调用海量知识和技能的能力。如果回到三年前,那时的你与现在能做到的事情、能力边界,还有任何可比性吗?

朋友,这样璀璨、能让你便捷获取人类集体智慧成果的时代,真的不会让你兴奋吗?探索这些技术,并与更多开发者交流心得,正是像云栈社区这样的平台存在的意义。




上一篇:OpenCPU开发环境搭建:基于ML307C与Windows 10的Python及SCons工具链配置指南
下一篇:FastAPI开发10个高频问题与解决方案:类型校验、异步、部署避坑指南
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-24 01:41 , Processed in 0.330311 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表