找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2665

积分

0

好友

359

主题
发表于 1 小时前 | 查看: 2| 回复: 0

上周,一份来自投资机构的文章引发业内讨论,其中一个核心观点是:未来的软件用户将是 AI Agent,因此基于 CLI 和 API 的工具将捕获更多价值。

昨天看到真格基金关于“不再投资 GUI 思维公司”的讨论,我本以为行业对 CLI 的共识达成会更晚一些,没想到这个认知统一得如此之快。

社交媒体关于 CLI 与 Agent 的讨论截图

文章中一些值得深思的观点摘录如下:

人类是效率更低的 Agent,是被注意力系统限制的 Agent。

GUI 是一种界面税,是一种为人类认知缺陷支付的补偿成本。

谁成为 Agent 的默认工具,谁就将捕获更多的价值。

把核心资源投在 CLI、API、官方 Skills 上,你真正的用户在那里——那个世界,即将山呼海啸而来。

巧合的是,上周在 GitHub Trending 上,一个名为 CLI-Anything 的项目迅速冲到首位,一周内收获了上万颗 Star。这个由香港大学数据智能实验室(HKUDS)开发的项目,可以直接作为 Claude Code 的插件使用。快速体验后,我认为它本身就在践行上述的软件发展趋势。

CLI-Anything 的 GitHub 仓库页面截图

使用 Claude Code(或类似的 AI 编程工具)进行“Vibe Coding”已有一年多,我有一个强烈的感受:Claude Code 写代码能力很强,但它与专业软件之间总存在一层隔阂。例如,让它处理图片,它只能写 Python 脚本调用 PIL 库;让它剪辑视频,也只能生成 FFmpeg 命令。而对于像 GIMP、Blender、Audacity 这类拥有复杂交互逻辑的专业软件,Claude Code 要么无法直接交互,要么只能通过功能有限的 MCP(模型上下文协议)进行有限操作。

CLI-Anything 就是为了解决这个问题而生的:它能将任意开源软件自动转换为命令行接口(CLI),从而让 AI Agent 可以直接操控这些专业软件。

简单来说,就是为软件安装一个 AI 能听懂的“遥控器”。

CLI-Anything 是什么?

先说背景。这个项目来自香港大学 HKUDS 实验室,在 GitHub 上采用 MIT 协议开源,目前已获得超过 21k Star。

项目的核心理念可以用一句话概括:今天的软件服务于人类,明天的用户将是 AI Agent。 这与前文的投资观点不谋而合。

如何理解呢?我们现在使用 GIMP 修图,依靠的是鼠标点击菜单、拖拽滑块。但 AI Agent 没有眼睛和手,它需要的是结构化的命令行接口。CLI-Anything 就是自动将一个 GUI 软件的能力,“翻译”成一套 CLI 命令。

这里有一个关键区别:它完全不同于基于坐标模拟点击的 GUI 自动化工具。CLI-Anything 会真正分析软件源代码,将 GUI 操作映射到后端的 API,然后生成一套完整的、高质量的命令行工具。生成的 CLI 支持 JSON 输出,AI Agent 可以直接解析结构化数据,无需费力猜测非标准的文本输出格式。

CLI-Anything 概念漫画:从困惑到发现再到转变

安装 CLI-Anything

CLI-Anything 本身是一个 Claude Code 插件,安装过程非常简单,只需两行命令:

# 添加 CLI-Anything 插件市场
/plugin marketplace add HKUDS/CLI-Anything
# 从市场安装 cli-anything 插件
/plugin install cli-anything

第一行命令是将 HKUDS 的插件市场添加到你的 Claude Code 中,第二行是安装具体的 CLI-Anything 插件。

安装 CLI-Anything 插件后的终端界面

安装完成后,你将获得两个核心命令:

  • /cli-anything:用于为目标软件生成 CLI。
  • /cli-anything:refine:用于迭代优化已生成的 CLI,补充缺失的功能。

七阶段自动化流水线

CLI-Anything 的核心是一条七阶段的自动化流水线。整个过程由一行命令触发,无需人工干预。

CLI-Anything 七阶段自动化流水线示意图

以 GIMP 为例,你只需执行:

/cli-anything ./gimp

之后的一切都是自动完成的。

  1. Analyze (分析): 扫描 GIMP 的源代码,将 GUI 操作映射到后端 API。
  2. Design (设计): 设计命令分组、状态模型和输出格式。
  3. Implement (实现): 使用 Python 的 Click 框架实现 CLI,支持子命令模式和交互式 REPL。
  4. Plan Tests (规划测试): 创建 TEST.md 文件,包含单元测试和端到端测试计划。
  5. Write Tests (编写测试): 实现全面的测试套件。
  6. Document (文档): 更新测试文档并生成最终的 SKILL.md。
  7. Publish (发布): 创建 setup.py,将 CLI 安装到系统 PATH。

请注意:这条流水线需要前沿的大语言模型才能可靠运行,目前推荐使用 Claude Opus 或 GPT-4 级别及以上的模型。使用能力较弱的模型,转换质量会显著下降。

支持哪些软件?

目前,官方已验证了超过 16 款软件,覆盖面相当广泛。

  • 图像处理:GIMP, Inkscape, Krita, Draw.io
  • 3D建模:Blender
  • 音频处理:Audacity, MuseScore
  • 视频编辑:Kdenlive, Shotcut, OBS Studio
  • 办公软件:LibreOffice
  • AI 工具:ComfyUI, Ollama
  • 服务类软件:Zoom, AdGuard Home

这些并非玩具级别的 Demo。根据官方数据,整个项目通过了 1858 个测试用例,覆盖率达到 100%,其中包括 1355 个单元测试和 484 个端到端测试。以 Blender 为例,仅这一个软件就有 208 个测试用例覆盖。

此外,CLI-Anything 还建立了一个 CLI-Hub,类似于一个 CLI 应用市场。目前已有超过 20 个由社区贡献的 CLI 可以直接通过 pip 安装使用,无需自己从头生成。

CLI-Anything Hub 网页界面

CLI-Anything 实战演示

下面,我将以自己去年开发的一个 AI 面相分析 SaaS 产品“玄机”的代码库为例,演示如何使用 CLI-Anything 为其生成一套 CLI。

首先,在 Claude Code 中,使用 /cli-anything 命令指向代码库路径:

/cli-anything:cli-anything ./AI-Physiognomy-Master

随后,Claude Code 会按照 CLI-Anything 预设的七步流程开始执行转换。

CLI-Anything 开始分析并构建代码库的终端输出

CLI-Anything 运行测试并生成文档的终端输出

大约 10 到 15 分钟后,CLI-Anything 就成功将“玄机”转换为了一个可通过命令行执行的工具。

生成的 CLI 命令示例及验证信息

生成的 CLI 有两种使用方式:

  1. 子命令模式:像普通命令行工具一样使用。

    # 执行AI面相分析
    cli-anything-physiognomy -p p.json analyze run photo.jpg
    # 配置API密钥
    cli-anything-physiognomy config set api-key YOUR_KEY
  2. 交互式 REPL 模式:输入软件名进入一个专属终端,可连续操作。

    cli-anything-physiognomy

    进入 CLI 交互式 REPL 模式的界面

每个生成的 CLI 还会附带一个 SKILL.md 文件,这是专门写给 AI Agent 看的“说明书”。Agent 读取此文件后,就能了解该 CLI 具备哪些能力以及如何调用。这个设计充分体现了对“Agent 原生”的考量。

最后,我们可以在终端中直接使用生成的 cli-anything-physiognomy 命令进行 AI 面相分析。

在 CLI 中执行 AI 面相分析并查看结构化结果

总结与思考

通过这次实测,我有一个强烈的感受:很多人仍将 CLI 视为开发者偏好的“旧式”入口,但它实际上更像是 Agent 时代的软件“母语”。这并非简单的技术复兴,而是一个新时代的底层入口。

前文投资观点中有一个判断我非常认同:人类本质上也只是 Agent 的一种形态,只不过我们的注意力带宽有限,因此才需要 GUI 这种“认知补丁”来辅助完成复杂的任务。

从这个视角回看 CLI-Anything,它的价值远不止于“把命令行玩出花样”。它更是在提示我们一个更底层的变化:未来的软件,必须首先对 Agent 友好,其次才是对人友好。

GUI 不会消失,但它的角色正从“执行层工具”逐渐退化为“控制面板”,更多地承担确认、审阅、干预和心理安抚的作用(许多人看不到图形界面就会感到不安)。

真正承接生产力主链路的,将越来越多地落在 CLI、API、MCP、Skills 这类可编排、可授权、可自动化调用的接口层上。正如那篇文章所言,软件竞争正在从“让用户走进来”,转向“把自己暴露在 Agent 的必经之路上”。

也正因如此,我越来越倾向于认为,软件的终局未必是一个功能无限叠加的“超级应用”,而更可能是一组稳定的协议、清晰的权限系统和高效执行节点的组合。谁能在信息获取、可信授权、决策支持和执行落地这些关键环节上,成为 AI Agent 默认调用的基础设施,谁就更有可能拿到下一代软件生态的入场券。

从这个意义上说,产品的 GUI 交互思维依然重要,但它正在让位于更底层的协议与接口思维

CLI 不是 GUI 的补充,它正在成为下一代软件世界真正的地基。对于开发者而言,掌握如何利用像 CLI-Anything 这样的工具,为自己或开源软件创建 Agent 友好的接口,将是一项越来越重要的技能。

技术的浪潮总是超乎想象,保持学习与探索,才能在变化中找到自己的位置。欢迎大家在云栈社区交流更多关于 AI 编程与未来开发范式的想法。




上一篇:OpenClaw 深度解析:开源AI Agent框架的架构设计与运行原理
下一篇:多轨快传技术解析:如何聚合USB与WiFi实现手机电脑传大文件速度翻倍?
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-25 06:40 , Processed in 0.520584 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表