云栈社区»论坛 › 站务中心「 Forum Service 」 › StrongDM开源AI驱动软件工厂：7000行NLSpec实现零人工编码与审查 ...

发回帖发新帖

1171 积分	0 好友	149 主题

发消息

StrongDM开源AI驱动软件工厂：7000行NLSpec实现零人工编码与审查

发表于 4 小时前 | 查看: 3| 回复: 0

编译 | Tina

在软件开发领域，一家名为StrongDM的基础设施安全公司进行了一场颠覆性的实验。2026年2月，他们公开了其“软件黑灯工厂”式的生产线成果。在这条产线上，人类工程师不再直接编写代码，甚至不承担代码审查的职责。开发过程从传统的协作模式，转变为向一个自治系统“投喂”规格说明（spec）和测试场景。随后，由人工智能代理（Agent）自动生成代码、运行端到端测试，并在一个反馈循环中反复迭代，直到结果收敛、达到可交付状态。他们将这一核心理念写入了团队章程，其中最引人注目的一条是：No hand-coded software（禁止手写代码）。

NO HAND-CODED SV 红色手写体标语

更不寻常的是，StrongDM将这套方法论的核心部分进行了开源。此次开源主要包含两个项目：

第一个仓库是：https://github.com/strongdm/attractor。
这是他们“软件工厂”体系中最核心的非交互式编码代理（Coding Agent）的规格定义。有趣的是，这个仓库本身没有一行可执行代码，里面只有三份极其详尽的Markdown文件，描述了构建这样一个代理所需的完整规格说明（NLSpec）。README中的提示很直接：将这些规格说明交给你选择的任何现代编码代理（如Claude Code、Cursor等）去执行即可。

StrongDM Attractor GitHub仓库页面

第二个仓库是：https://github.com/strongdm/cxdb。
这个项目则更接近一个传统的软件发布，包含了约1.6万行Rust、9500行Go以及6700行TypeScript代码。它是一个“AI上下文存储”系统，用于以不可变有向无环图（DAG）的形式存储对话历史和工具输出。

StrongDM cxdb GitHub仓库页面

在Hacker News的讨论中，有开发者按照StrongDM提供的规范进行了实践。他仔细阅读了Attractor仓库中大约6000至7000行的规格说明，并让Claude基于这些spec构建了一个完整的应用。最终生成的AI代理质量，据他反馈“明显好于让模型自由发挥时生成的结果”。让他印象深刻的是这套规格说明的细节密度，远超他过去给代理布置任务时“一页纸”的规模。

当然，开源版本也并非完美。代码一经放出，便有开发者指出了其中存在的疑似bug、Rust反模式以及相对宽松的错误处理。StrongDM团队成员Jay Taylor在评论区回应称，这些项目是近期才决定开源的，尚未经过充分优化，已经安排代理对CXDB进行持续的清理和改进。

这套激进的实践很快引起了学界关注。沃顿商学院教授Ethan Mollick在社交媒体上转发并评论道，这是一种“真正激进的软件开发方式”，几乎没有任何人类干预。他认为，重要的进步不在于往旧流程里“塞点AI”，而在于围绕AI的能力，把整个流程本身重新设计一遍。

Ethan Mollick关于激进AI软件开发的推文

一条“禁止手写代码”的内部实验线

StrongDM的AI团队成立于2025年7月。团队成立的第一天，他们并未着手写代码，而是先制定了一份必须遵守的“宪法”，其中明确列出了三条核心约束：

代码不得由人类编写。

代码不得由人类审查。

如果你今天在每位人类工程师身上花费的token成本还不到1000美元，那么你的软件工厂还有很大的改进空间。

这个决定并非一时兴起。其背景可追溯到2024年末，随着Claude 3.5等模型的迭代，团队观察到在长时序的Agentic编程任务中，结果开始出现“正确性叠加”的迹象，而不再是错误累积。到了2024年12月，结合Cursor编辑器的YOLO模式，这种“非交互式开发”或“成长型软件”的雏形变得清晰。

描述增长与衰减的示意图

在彻底放弃人工编写和审查代码的前提下，一个根本性问题浮现出来：如何确保由Agent生成的代码和测试是真正可工作的？StrongDM的答案受到了“场景测试”的启发。他们重新定义了“场景（scenario）”，用它表示一个端到端的“用户故事”。这些场景如同机器学习中的“留出集”，存放在代码库之外，既能被LLM理解，又可进行灵活验证。

由于软件本身常包含智能体组件，他们放弃了简单的“测试通过/失败”二元判断，引入了“满意度（satisfaction）”作为度量标准，量化在所有场景的执行轨迹中，有多大比例可能令真实用户满意。

展示AI与用户交互创建Okta账户的聊天界面

他们将整个软件工厂的核心哲学总结为一条清晰流程：种子（Seed）→ 验证（Validation）→ 反馈回路（Feedback Loop）。系统从一个最小起点（几句话、一张截图或一个现有代码库）开始，在尽可能贴近真实世界的验证环境中运行场景，并将输出持续反馈给输入，形成一个让系统自我纠错、叠加正确性的闭环。这个循环会一直运行，直到所有隔离的场景不仅通过，而且能持续稳定地通过。

软件工厂核心哲学流程图：种子、验证、反馈回路

将“验收”的权柄交给Spec与场景

在StrongDM的体系里，规格说明（spec）的角色发生了根本性转变。它不再是给人参考的设计文档，而是整个自治系统得以启动、运行和收敛的核心控制面。

他们要求系统能够“从层层递进的自然语言规范中生长”，并且必须能在“不对源代码做任何语义层面检查的情况下完成验证”。在这种设定下，代码本身变得类似于机器学习模型的权重快照，其正确性完全通过外部的、可观察的行为来推断。

The Validation Constraint 说明图

正如一位开发者在社交媒体上指出的，这里的隐藏转变是：代码不再是最终的“产物”，而更像是“编译器的输出”。人类的工作重心从“阅读和审查代码”转移到了“定义约束和规范”上。另一位评论者则补充道，只有当规范和测试本身成为最终产品的一部分，并辅以严密的评估、回滚和可观测性机制时，这种“无人审查”的模式才能真正奏效，否则只是将缺陷转移到了生产环境。

关于代码审查角色转变的推文讨论

关于规范和测试成为产品的推文

数字孪生宇宙：不受限的测试沙盒

为了支撑高频率、大规模的验证，StrongDM提出了一个关键概念：数字孪生宇宙（Digital Twin Universe, DTU）。这是一组对第三方服务（如Okta、Jira、Slack、Google Docs等）的行为级克隆体。它们复刻了这些服务的API、边界情况以及可观察行为。

有了DTU，团队就能在远超真实生产环境限制的规模和速率下进行验证。他们可以安全地测试各种危险或不可能的故障模式，也可以每小时运行成千上万个场景，而完全不必担心触发限流、滥用检测或产生高昂的API成本。

关于数字孪生重要性的推文讨论

那么，如何克隆这些复杂服务的关键行为？答案依然是：使用编码代理。团队将某个服务的完整公开API文档喂给Agent，让它生成一个自包含的、模拟这些API的Go二进制程序，再快速搭建一个简化UI。Jay Taylor分享了一个关键提示策略：以最流行、公开可用的官方SDK客户端库作为兼容性目标，并始终追求100%的行为兼容。

当这些不受约束的服务克隆体运行起来后，“模拟测试Agent”便能彻底放开手脚。场景测试变成了持续、自动执行的脚本，系统在构建的同时，就被反复拉出来验证。

模拟的Okta管理后台用户列表

模拟的Jira问题管理界面

模拟的Slack频道中新用户自我介绍

无法回避的现实：成本与未来

惊艳的理念背后，一个现实问题无法回避：高昂的成本。有实践者反馈，按照StrongDM的spec让Claude构建完整应用时，Token消耗极高，不得不中途充值才能完成流程。StrongDM内部那条“人均每日token成本应超1000美元”的衡量标准，更像是对商业模式的一次拷问：你能否打造出足够盈利的产品线，来负担这种开发方式的巨大成本？

有观点将成本与人力进行对比：按每月20个工作日、日均2万美元token成本计算，年化成本约24万美元，接近硅谷大厂（FANG）应届生的总包。该观点进一步指出，许多初级工程师的产出未必优于当前的AI，而AI正在将软件工程推向一个更极端的金字塔结构，顶层只需极少数人类定义战略和约束。

关于AI开发成本与人力成本对比的论坛评论