云栈社区»论坛 › 站务中心「 Forum Service 」 › Coding Agent安全治理实践：OpenAI内部沙箱、审批与遥测架构 ...

发回帖发新帖

3416 积分	0 好友	458 主题

发消息

Coding Agent安全治理实践：OpenAI内部沙箱、审批与遥测架构

发表于 4 小时前 | 查看: 6| 回复: 0

Coding Agent安全管控架构插画：沙箱、审批与网络策略

当AI不仅能写代码，还能自己跑命令、连网络、调工具时，安全团队的血压大概和开发者的效率一起飙升了。

OpenAI最近分享了他们在内部“拴住”Codex的工程实践。不聊模型架构，也不谈Scaling Law，只谈一件很现实的事：怎么给具备自主执行能力的Agent上缰绳。

这篇博文的核心不是能力突破，而是一套企业级安全治理架构的披露。

说白了，它试图回答一个让所有引入Coding Agent的团队头疼的问题：放权怕出事，管死没效率，中间的平衡点到底怎么找？

当AI开始自己跑命令，安全团队的“缰绳”在哪？

Coding Agent正在从“补全建议”快速迈向“自主执行”。

它能直接操作仓库、运行Shell、调用外部API。问题来了：传统安全日志（及部分基础端点告警）主要记录“某个进程启动了”或“某个文件被改了”。

这就像看默片，只知道动作，看不懂意图。安全团队面对的是一个黑盒，开发者面对的是频繁的安全拦截。

企业落地卡在了合规与效率的夹缝里。OpenAI的这篇分享，正是把镜头从模型能力转向了控制面设计。

控制面设计：沙箱、审批与网络策略的联动逻辑

官方给出的方案并不玄幻，而是典型的系统工程思路：划边界、设关卡、管身份。

沙箱负责划定技术执行边界（能写哪、能不能联网），审批策略负责处理越界请求。

两者联动，相当于给Agent圈了一个“带电子围栏的测试场”，出圈必须打报告。

网络访问默认不开绿灯。通过代理策略做域名黑白名单，只放行预期目标。

凭证则强制托管进系统密钥环，并绑定企业工作区登录，确保所有操作都能追溯到具体身份。

Codex config.toml 沙箱与自动审查配置示例

这段配置展示了官方如何通过TOML文件将开发目录纳入沙箱白名单，并开启自动审查模式。

它说明控制策略已经高度配置化，但不能说明这套语法是否已随公开版CLI全量发布。目前更合理的理解是，它反映了OpenAI内部或企业版的基线实践。

网络策略的配置同样遵循“最小权限”原则。看这份名单时，注意缓存搜索限制与域名拦截的粒度：

requirements.toml 网络策略与域名黑白名单配置

这里明确了搜索仅允许缓存模式、拦截特定域名、放行内部及认证域名。

它说明了网络边界可控，但不能说明维护这份名单的运维开销与误拦率。工程上最麻烦的地方往往不是写规则，而是动态更新。

规则过滤与自动审批：在“管死”和“放养”之间找平衡

如果每个命令都要人工点“允许”，开发者的心流大概会被切得稀碎。

OpenAI引入了两层机制来保效率：基于前缀的命令规则引擎，以及Auto-review子智能体。

规则引擎负责处理确定性高的日常操作。比如gh pr view或kubectl get，直接免审放行。

看这段规则时，重点看前缀匹配与参数组合的白名单逻辑：

命令前缀规则引擎配置允许gh和kubectl只读操作

这种基于前缀和参数组合的机制，在工程上非常直观。它说明了常见良性操作可以被快速放行。

但它不能说明面对复杂管道命令或动态生成脚本时的覆盖边界。静态规则本质上需要持续迭代。

更值得关注的是Auto-review子智能体。官方称，当遇到常规审批请求时，Codex会把计划和上下文发给这个子智能体，由它自动批准低风险操作。

这听起来很美好，但账还是要算的。子智能体本身也是LLM，“低风险”的定义权交回给模型，意味着审批链路引入了新的不确定性。

目前尚未确认该子智能体的误放行率、对抗鲁棒性（如提示注入诱导审批）以及具体的模型架构。在缺乏量化拦截数据的情况下，它更适合作为辅助减负工具，而非绝对的安全闸门，初期落地建议保留人工复核兜底机制。

可观测性升级：从“发生了什么”到“为什么发生”

控制只是前半段，出事之后怎么查才是安全团队的日常。

OpenAI明确提出“Agent原生遥测”的概念。说白了，就是给Agent装上行车记录仪和黑匣子，而不是只依赖路口监控。

传统日志记录进程和文件变动，Agent原生遥测则结构化导出用户提示、工具审批决策、执行结果、MCP调用和网络拦截事件。

看这段导出配置时，重点看日志捕获的字段范围与OTLP端点设置：

OpenTelemetry遥测配置日志导出至OTLP端点

配合OpenTelemetry标准导出，这些日志可以直接接入企业SIEM。它说明了意图与决策链的可追溯性设计。

但它不能说明数据集中导出后的隐私脱敏策略是否符合GDPR或严格的企业合规要求。

官方在文中也直言了传统日志的局限：

传统日志只能说明发生了什么而不能解释为什么的安全挑战

这句话点出了Agent安全治理的核心痛点：意图可解释性。

OpenAI内部还接入了一个AI安全分诊智能体，用日志去反推用户意图和Agent决策链，做告警降噪。

这套“用AI管AI”的闭环在逻辑上是自洽的，但分诊智能体的降噪效果、误报/漏报率同样缺乏第三方验证。

官方声称 vs 工程现实：哪些能抄作业，哪些得自己趟？

读完全文，需要明确几个边界。

首先，这是一篇官方工程经验总结，而非经过同行评议的安全协议。

所有“确保安全采用”“自动放行低风险”的表述，均基于OpenAI内部技术栈（如macOS托管偏好、特定CLI版本）和单方声称。

对国内AI团队和Agent开发者的启发在于：Agent安全早已超出“模型对齐”的范畴，进入了系统工程深水区。

沙箱隔离、细粒度审批流、结构化意图日志，这三件套有望成为企业级Coding Agent的参考基线。

Auto-review和AI分诊展示了LLM实时风控的可行路径，但在对抗场景（恶意仓库诱导、越狱Prompt）下的防护边界，仍需各团队根据自身业务数据做红蓝对抗测试。

这套范式能抄的是架构思路和控制面设计逻辑；不能直接照搬的，是具体的配置依赖、未公开的模型阈值，以及缺少量化指标的安全承诺。

给Agent上缰绳，没有一劳永逸的开关，只有持续迭代的工程权衡。

参考：Running Codex safely at OpenAI
来源：OpenAI Blog
链接：https://openai.com/index/running-codex-safely

上一篇：MySQL 最容易踩的 15 个坑及避坑指南
下一篇：Agent 协同调参优化：MASPO 框架如何破解多智能体“局部达标全局崩坏”

代码智能体, 安全治理, 沙箱, 审批流, OpenTelemetry