上周,一份来自投资机构的文章引发业内讨论,其中一个核心观点是:未来的软件用户将是 AI Agent,因此基于 CLI 和 API 的工具将捕获更多价值。
昨天看到真格基金关于“不再投资 GUI 思维公司”的讨论,我本以为行业对 CLI 的共识达成会更晚一些,没想到这个认知统一得如此之快。

文章中一些值得深思的观点摘录如下:
人类是效率更低的 Agent,是被注意力系统限制的 Agent。
GUI 是一种界面税,是一种为人类认知缺陷支付的补偿成本。
谁成为 Agent 的默认工具,谁就将捕获更多的价值。
把核心资源投在 CLI、API、官方 Skills 上,你真正的用户在那里——那个世界,即将山呼海啸而来。
巧合的是,上周在 GitHub Trending 上,一个名为 CLI-Anything 的项目迅速冲到首位,一周内收获了上万颗 Star。这个由香港大学数据智能实验室(HKUDS)开发的项目,可以直接作为 Claude Code 的插件使用。快速体验后,我认为它本身就在践行上述的软件发展趋势。

使用 Claude Code(或类似的 AI 编程工具)进行“Vibe Coding”已有一年多,我有一个强烈的感受:Claude Code 写代码能力很强,但它与专业软件之间总存在一层隔阂。例如,让它处理图片,它只能写 Python 脚本调用 PIL 库;让它剪辑视频,也只能生成 FFmpeg 命令。而对于像 GIMP、Blender、Audacity 这类拥有复杂交互逻辑的专业软件,Claude Code 要么无法直接交互,要么只能通过功能有限的 MCP(模型上下文协议)进行有限操作。
CLI-Anything 就是为了解决这个问题而生的:它能将任意开源软件自动转换为命令行接口(CLI),从而让 AI Agent 可以直接操控这些专业软件。
简单来说,就是为软件安装一个 AI 能听懂的“遥控器”。
CLI-Anything 是什么?
先说背景。这个项目来自香港大学 HKUDS 实验室,在 GitHub 上采用 MIT 协议开源,目前已获得超过 21k Star。
项目的核心理念可以用一句话概括:今天的软件服务于人类,明天的用户将是 AI Agent。 这与前文的投资观点不谋而合。
如何理解呢?我们现在使用 GIMP 修图,依靠的是鼠标点击菜单、拖拽滑块。但 AI Agent 没有眼睛和手,它需要的是结构化的命令行接口。CLI-Anything 就是自动将一个 GUI 软件的能力,“翻译”成一套 CLI 命令。
这里有一个关键区别:它完全不同于基于坐标模拟点击的 GUI 自动化工具。CLI-Anything 会真正分析软件源代码,将 GUI 操作映射到后端的 API,然后生成一套完整的、高质量的命令行工具。生成的 CLI 支持 JSON 输出,AI Agent 可以直接解析结构化数据,无需费力猜测非标准的文本输出格式。

安装 CLI-Anything
CLI-Anything 本身是一个 Claude Code 插件,安装过程非常简单,只需两行命令:
# 添加 CLI-Anything 插件市场
/plugin marketplace add HKUDS/CLI-Anything
# 从市场安装 cli-anything 插件
/plugin install cli-anything
第一行命令是将 HKUDS 的插件市场添加到你的 Claude Code 中,第二行是安装具体的 CLI-Anything 插件。

安装完成后,你将获得两个核心命令:
/cli-anything:用于为目标软件生成 CLI。
/cli-anything:refine:用于迭代优化已生成的 CLI,补充缺失的功能。
七阶段自动化流水线
CLI-Anything 的核心是一条七阶段的自动化流水线。整个过程由一行命令触发,无需人工干预。

以 GIMP 为例,你只需执行:
/cli-anything ./gimp
之后的一切都是自动完成的。
- Analyze (分析): 扫描 GIMP 的源代码,将 GUI 操作映射到后端 API。
- Design (设计): 设计命令分组、状态模型和输出格式。
- Implement (实现): 使用 Python 的 Click 框架实现 CLI,支持子命令模式和交互式 REPL。
- Plan Tests (规划测试): 创建 TEST.md 文件,包含单元测试和端到端测试计划。
- Write Tests (编写测试): 实现全面的测试套件。
- Document (文档): 更新测试文档并生成最终的 SKILL.md。
- Publish (发布): 创建
setup.py,将 CLI 安装到系统 PATH。
请注意:这条流水线需要前沿的大语言模型才能可靠运行,目前推荐使用 Claude Opus 或 GPT-4 级别及以上的模型。使用能力较弱的模型,转换质量会显著下降。
支持哪些软件?
目前,官方已验证了超过 16 款软件,覆盖面相当广泛。
- 图像处理:GIMP, Inkscape, Krita, Draw.io
- 3D建模:Blender
- 音频处理:Audacity, MuseScore
- 视频编辑:Kdenlive, Shotcut, OBS Studio
- 办公软件:LibreOffice
- AI 工具:ComfyUI, Ollama
- 服务类软件:Zoom, AdGuard Home
这些并非玩具级别的 Demo。根据官方数据,整个项目通过了 1858 个测试用例,覆盖率达到 100%,其中包括 1355 个单元测试和 484 个端到端测试。以 Blender 为例,仅这一个软件就有 208 个测试用例覆盖。
此外,CLI-Anything 还建立了一个 CLI-Hub,类似于一个 CLI 应用市场。目前已有超过 20 个由社区贡献的 CLI 可以直接通过 pip 安装使用,无需自己从头生成。

CLI-Anything 实战演示
下面,我将以自己去年开发的一个 AI 面相分析 SaaS 产品“玄机”的代码库为例,演示如何使用 CLI-Anything 为其生成一套 CLI。
首先,在 Claude Code 中,使用 /cli-anything 命令指向代码库路径:
/cli-anything:cli-anything ./AI-Physiognomy-Master
随后,Claude Code 会按照 CLI-Anything 预设的七步流程开始执行转换。


大约 10 到 15 分钟后,CLI-Anything 就成功将“玄机”转换为了一个可通过命令行执行的工具。

生成的 CLI 有两种使用方式:
-
子命令模式:像普通命令行工具一样使用。
# 执行AI面相分析
cli-anything-physiognomy -p p.json analyze run photo.jpg
# 配置API密钥
cli-anything-physiognomy config set api-key YOUR_KEY
-
交互式 REPL 模式:输入软件名进入一个专属终端,可连续操作。
cli-anything-physiognomy

每个生成的 CLI 还会附带一个 SKILL.md 文件,这是专门写给 AI Agent 看的“说明书”。Agent 读取此文件后,就能了解该 CLI 具备哪些能力以及如何调用。这个设计充分体现了对“Agent 原生”的考量。
最后,我们可以在终端中直接使用生成的 cli-anything-physiognomy 命令进行 AI 面相分析。

总结与思考
通过这次实测,我有一个强烈的感受:很多人仍将 CLI 视为开发者偏好的“旧式”入口,但它实际上更像是 Agent 时代的软件“母语”。这并非简单的技术复兴,而是一个新时代的底层入口。
前文投资观点中有一个判断我非常认同:人类本质上也只是 Agent 的一种形态,只不过我们的注意力带宽有限,因此才需要 GUI 这种“认知补丁”来辅助完成复杂的任务。
从这个视角回看 CLI-Anything,它的价值远不止于“把命令行玩出花样”。它更是在提示我们一个更底层的变化:未来的软件,必须首先对 Agent 友好,其次才是对人友好。
GUI 不会消失,但它的角色正从“执行层工具”逐渐退化为“控制面板”,更多地承担确认、审阅、干预和心理安抚的作用(许多人看不到图形界面就会感到不安)。
真正承接生产力主链路的,将越来越多地落在 CLI、API、MCP、Skills 这类可编排、可授权、可自动化调用的接口层上。正如那篇文章所言,软件竞争正在从“让用户走进来”,转向“把自己暴露在 Agent 的必经之路上”。
也正因如此,我越来越倾向于认为,软件的终局未必是一个功能无限叠加的“超级应用”,而更可能是一组稳定的协议、清晰的权限系统和高效执行节点的组合。谁能在信息获取、可信授权、决策支持和执行落地这些关键环节上,成为 AI Agent 默认调用的基础设施,谁就更有可能拿到下一代软件生态的入场券。
从这个意义上说,产品的 GUI 交互思维依然重要,但它正在让位于更底层的协议与接口思维。
CLI 不是 GUI 的补充,它正在成为下一代软件世界真正的地基。对于开发者而言,掌握如何利用像 CLI-Anything 这样的工具,为自己或开源软件创建 Agent 友好的接口,将是一项越来越重要的技能。
技术的浪潮总是超乎想象,保持学习与探索,才能在变化中找到自己的位置。欢迎大家在云栈社区交流更多关于 AI 编程与未来开发范式的想法。