云栈社区»论坛 › 开源实战「 OpenSource 」 › 干货实操：基于 Claude Code + CLI-Anything 为任意软件生成 Age ...

发回帖发新帖

3702 积分	0 好友	492 主题

发消息

[Python] 干货实操：基于 Claude Code + CLI-Anything 为任意软件生成 Agent 原生命令行

发表于 2026-3-25 05:18:38 | 查看: 191| 回复: 0

上周，一份来自投资机构的文章引发业内讨论，其中一个核心观点是：未来的软件用户将是 AI Agent，因此基于 CLI 和 API 的工具将捕获更多价值。

昨天看到真格基金关于“不再投资 GUI 思维公司”的讨论，我本以为行业对 CLI 的共识达成会更晚一些，没想到这个认知统一得如此之快。

社交媒体关于 CLI 与 Agent 的讨论截图

文章中一些值得深思的观点摘录如下：

人类是效率更低的 Agent，是被注意力系统限制的 Agent。

GUI 是一种界面税，是一种为人类认知缺陷支付的补偿成本。

谁成为 Agent 的默认工具，谁就将捕获更多的价值。

把核心资源投在 CLI、API、官方 Skills 上，你真正的用户在那里——那个世界，即将山呼海啸而来。

巧合的是，上周在 GitHub Trending 上，一个名为 CLI-Anything 的项目迅速冲到首位，一周内收获了上万颗 Star。这个由香港大学数据智能实验室（HKUDS）开发的项目，可以直接作为 Claude Code 的插件使用。快速体验后，我认为它本身就在践行上述的软件发展趋势。

CLI-Anything 的 GitHub 仓库页面截图

使用 Claude Code（或类似的 AI 编程工具）进行“Vibe Coding”已有一年多，我有一个强烈的感受：Claude Code 写代码能力很强，但它与专业软件之间总存在一层隔阂。例如，让它处理图片，它只能写 Python 脚本调用 PIL 库；让它剪辑视频，也只能生成 FFmpeg 命令。而对于像 GIMP、Blender、Audacity 这类拥有复杂交互逻辑的专业软件，Claude Code 要么无法直接交互，要么只能通过功能有限的 MCP（模型上下文协议）进行有限操作。

CLI-Anything 就是为了解决这个问题而生的：它能将任意开源软件自动转换为命令行接口（CLI），从而让 AI Agent 可以直接操控这些专业软件。

简单来说，就是为软件安装一个 AI 能听懂的“遥控器”。

CLI-Anything 是什么？

先说背景。这个项目来自香港大学 HKUDS 实验室，在 GitHub 上采用 MIT 协议开源，目前已获得超过 21k Star。

项目的核心理念可以用一句话概括：今天的软件服务于人类，明天的用户将是 AI Agent。 这与前文的投资观点不谋而合。

如何理解呢？我们现在使用 GIMP 修图，依靠的是鼠标点击菜单、拖拽滑块。但 AI Agent 没有眼睛和手，它需要的是结构化的命令行接口。CLI-Anything 就是自动将一个 GUI 软件的能力，“翻译”成一套 CLI 命令。

这里有一个关键区别：它完全不同于基于坐标模拟点击的 GUI 自动化工具。CLI-Anything 会真正分析软件源代码，将 GUI 操作映射到后端的 API，然后生成一套完整的、高质量的命令行工具。生成的 CLI 支持 JSON 输出，AI Agent 可以直接解析结构化数据，无需费力猜测非标准的文本输出格式。

CLI-Anything 概念漫画：从困惑到发现再到转变

安装 CLI-Anything

CLI-Anything 本身是一个 Claude Code 插件，安装过程非常简单，只需两行命令：

# 添加 CLI-Anything 插件市场
/plugin marketplace add HKUDS/CLI-Anything
# 从市场安装 cli-anything 插件
/plugin install cli-anything

第一行命令是将 HKUDS 的插件市场添加到你的 Claude Code 中，第二行是安装具体的 CLI-Anything 插件。

安装 CLI-Anything 插件后的终端界面

安装完成后，你将获得两个核心命令：

/cli-anything：用于为目标软件生成 CLI。
/cli-anything:refine：用于迭代优化已生成的 CLI，补充缺失的功能。

七阶段自动化流水线

CLI-Anything 的核心是一条七阶段的自动化流水线。整个过程由一行命令触发，无需人工干预。

CLI-Anything 七阶段自动化流水线示意图

以 GIMP 为例，你只需执行：

/cli-anything ./gimp

之后的一切都是自动完成的。

Analyze (分析): 扫描 GIMP 的源代码，将 GUI 操作映射到后端 API。
Design (设计): 设计命令分组、状态模型和输出格式。
Implement (实现): 使用 Python 的 Click 框架实现 CLI，支持子命令模式和交互式 REPL。
Plan Tests (规划测试): 创建 TEST.md 文件，包含单元测试和端到端测试计划。
Write Tests (编写测试): 实现全面的测试套件。
Document (文档): 更新测试文档并生成最终的 SKILL.md。
Publish (发布): 创建 setup.py，将 CLI 安装到系统 PATH。

请注意：这条流水线需要前沿的大语言模型才能可靠运行，目前推荐使用 Claude Opus 或 GPT-4 级别及以上的模型。使用能力较弱的模型，转换质量会显著下降。

支持哪些软件？

目前，官方已验证了超过 16 款软件，覆盖面相当广泛。

图像处理：GIMP, Inkscape, Krita, Draw.io
3D建模：Blender
音频处理：Audacity, MuseScore
视频编辑：Kdenlive, Shotcut, OBS Studio
办公软件：LibreOffice
AI 工具：ComfyUI, Ollama
服务类软件：Zoom, AdGuard Home

这些并非玩具级别的 Demo。根据官方数据，整个项目通过了 1858 个测试用例，覆盖率达到 100%，其中包括 1355 个单元测试和 484 个端到端测试。以 Blender 为例，仅这一个软件就有 208 个测试用例覆盖。

此外，CLI-Anything 还建立了一个 CLI-Hub，类似于一个 CLI 应用市场。目前已有超过 20 个由社区贡献的 CLI 可以直接通过 pip 安装使用，无需自己从头生成。

CLI-Anything Hub 网页界面

CLI-Anything 实战演示

下面，我将以自己去年开发的一个 AI 面相分析 SaaS 产品“玄机”的代码库为例，演示如何使用 CLI-Anything 为其生成一套 CLI。

首先，在 Claude Code 中，使用 /cli-anything 命令指向代码库路径：

/cli-anything:cli-anything ./AI-Physiognomy-Master

随后，Claude Code 会按照 CLI-Anything 预设的七步流程开始执行转换。

CLI-Anything 开始分析并构建代码库的终端输出

CLI-Anything 运行测试并生成文档的终端输出

大约 10 到 15 分钟后，CLI-Anything 就成功将“玄机”转换为了一个可通过命令行执行的工具。

生成的 CLI 命令示例及验证信息

生成的 CLI 有两种使用方式：

子命令模式：像普通命令行工具一样使用。

# 执行AI面相分析
cli-anything-physiognomy -p p.json analyze run photo.jpg
# 配置API密钥
cli-anything-physiognomy config set api-key YOUR_KEY

交互式 REPL 模式：输入软件名进入一个专属终端，可连续操作。
```
cli-anything-physiognomy
```

每个生成的 CLI 还会附带一个 SKILL.md 文件，这是专门写给 AI Agent 看的“说明书”。Agent 读取此文件后，就能了解该 CLI 具备哪些能力以及如何调用。这个设计充分体现了对“Agent 原生”的考量。

最后，我们可以在终端中直接使用生成的 cli-anything-physiognomy 命令进行 AI 面相分析。

在 CLI 中执行 AI 面相分析并查看结构化结果

总结与思考

通过这次实测，我有一个强烈的感受：很多人仍将 CLI 视为开发者偏好的“旧式”入口，但它实际上更像是 Agent 时代的软件“母语”。这并非简单的技术复兴，而是一个新时代的底层入口。

前文投资观点中有一个判断我非常认同：人类本质上也只是 Agent 的一种形态，只不过我们的注意力带宽有限，因此才需要 GUI 这种“认知补丁”来辅助完成复杂的任务。

从这个视角回看 CLI-Anything，它的价值远不止于“把命令行玩出花样”。它更是在提示我们一个更底层的变化：未来的软件，必须首先对 Agent 友好，其次才是对人友好。

GUI 不会消失，但它的角色正从“执行层工具”逐渐退化为“控制面板”，更多地承担确认、审阅、干预和心理安抚的作用（许多人看不到图形界面就会感到不安）。

真正承接生产力主链路的，将越来越多地落在 CLI、API、MCP、Skills 这类可编排、可授权、可自动化调用的接口层上。正如那篇文章所言，软件竞争正在从“让用户走进来”，转向“把自己暴露在 Agent 的必经之路上”。

也正因如此，我越来越倾向于认为，软件的终局未必是一个功能无限叠加的“超级应用”，而更可能是一组稳定的协议、清晰的权限系统和高效执行节点的组合。谁能在信息获取、可信授权、决策支持和执行落地这些关键环节上，成为 AI Agent 默认调用的基础设施，谁就更有可能拿到下一代软件生态的入场券。

从这个意义上说，产品的 GUI 交互思维依然重要，但它正在让位于更底层的协议与接口思维。

CLI 不是 GUI 的补充，它正在成为下一代软件世界真正的地基。对于开发者而言，掌握如何利用像 CLI-Anything 这样的工具，为自己或开源软件创建 Agent 友好的接口，将是一项越来越重要的技能。

技术的浪潮总是超乎想象，保持学习与探索，才能在变化中找到自己的位置。欢迎大家在云栈社区交流更多关于 AI 编程与未来开发范式的想法。

上一篇：OpenClaw 深度解析：开源AI Agent框架的架构设计与运行原理
下一篇：多轨快传技术解析：如何聚合USB与WiFi实现手机电脑传大文件速度翻倍？

CLI-Anything, Python, 人工智能代理, 自动化, 命令行工具