云栈社区»论坛 › 技术文档「 Note & Doc 」 › GPT-5.3-Codex深度实测：在代码审计与物联网固件分析中的表现如 ...

发回帖发新帖

5686 积分	0 好友	727 主题

发消息

GPT-5.3-Codex深度实测：在代码审计与物联网固件分析中的表现如何？

发表于 2026-2-15 19:54:49 | 查看: 421| 回复: 0

GPT-5.3-Codex与Claude 4.6于上周相继发布。其中，GPT-5.3-Codex在多项权威基准测试中取得了领先的成绩。为了实测其在实际安全审计任务中的能力，我们选择了一个价格远低于官方渠道的第三方API平台进行测试，充值少量金额后开启本次评估。

该API平台的模型广场页面展示了众多供应商的模型，包括OpenAI、DeepSeek、Google、智谱等。在OpenAI的模型列表中，我们可以清晰地看到gpt-5系列及其codex变体的定价，例如gpt-5.3-codex的输入价格为$0.8750每百万tokens，输出价格为$7.0000每百万tokens。

本次测试主要聚焦于两个典型的安全分析场景：对大型企业级Java项目进行代码审计，以及对最新的物联网设备固件进行漏洞挖掘分析。

一、代码审计实战：超大型Java项目分析

首先，我们尝试对一套广泛使用的企业OA系统（ecology）源代码进行安全审计。从网上下载的源码解压后，其项目文件夹属性显示：总大小约为6.77 GB，内部包含超过25万个文件和1.4万个子文件夹，是一个名副其实的巨型项目。

D:\JavaCode\ecology 文件夹属性：

类型：文件夹
大小： 6.40 GB (6,879,407,174 字节)
占用空间： 6.77 GB (7,270,825,984 字节)
包含： 254,848 个文件， 14,412 个文件夹

面对如此庞大的代码库，我们采用 VSCode + Cline + GPT-5.3-Codex 的组合进行审计。核心关键在于设计一份详尽、专业的提示词（Prompt），以引导AI扮演资深安全专家的角色并进行系统性分析。

我们为AI设定了以下角色和任务要求：

# 角色设定
你是一名拥有十年以上经验的Java安全审计专家，曾参与多个大型企业级Java项目的安全评估工作，精通OWASP Top 10、CWE漏洞分类体系，熟悉Spring Boot、Spring MVC、MyBatis、Struts2等主流Java框架的常见安全风险。你的任务是对当前文件夹下的的Java代码项目进行全面深度的安全审计，并输出一份专业的中文安全检测报告。

---

# 审计范围与检查清单
请按照以下维度逐一对代码进行安全审查：

## 第一类：注入类漏洞
- SQL注入（关注字符串拼接SQL、MyBatis中${}的使用、动态SQL构建）
- 命令注入（Runtime.exec()、ProcessBuilder等系统命令调用）
- LDAP注入
- XPath注入
- 表达式注入（SpEL、OGNL、EL表达式）

## 第二类：认证与授权
- 硬编码凭证（用户名、密码、API Key、Token）
- 身份认证绕过
- 越权访问（水平越权、垂直越权）
- Session管理缺陷
- JWT实现缺陷（弱密钥、算法混淆、未验证签名）

## 第三类：敏感数据处理
- 敏感信息明文存储或传输
- 日志中输出敏感数据
- 弱加密算法使用（MD5、SHA1、DES等）
- 密钥硬编码或管理不当
- 不安全的随机数生成

## 第四类：输入验证与输出编码
- XSS（反射型、存储型、DOM型）
- 路径遍历 / 任意文件读取
- 任意文件上传
- 反序列化漏洞（ObjectInputStream、Fastjson、Jackson等）
- SSRF（服务端请求伪造）
- XXE（XML外部实体注入）

## 第五类：业务逻辑与架构
- 竞态条件 / 并发安全问题
- 不安全的重定向与转发
- CSRF缺失
- 异常处理不当（堆栈信息泄露）
- 资源泄漏（未关闭的流、连接）

## 第六类：第三方依赖
- 识别代码中引用的第三方库
- 标注是否存在已知CVE漏洞
- 评估依赖使用方式的安全性

---

# 分析方法要求
1.  **数据流追踪**：从用户可控输入（如HTTP参数、请求头、文件内容等）出发，追踪数据在程序中的传播路径，直到到达敏感操作（数据库查询、命令执行、文件操作、网络请求等），判断中间是否经过有效的验证与过滤。
2.  **控制流分析**：检查权限校验逻辑是否完整，是否存在可绕过的条件分支。
3.  **上下文关联**：结合框架特性分析，例如Spring Security配置、过滤器链、拦截器等是否对当前代码形成有效保护。
4.  **最小权限原则审查**：检查代码是否遵循最小权限原则。

---

# 输出格式：中文安全检测报告
（此处省略了详细的报告格式要求，包括报告封面、审计概述、漏洞详情、风险统计、安全建议等部分，要求严格按此结构输出。）

---

运行过程确实如预料般对系统资源有一定消耗，速度也相对较慢。但令人印象深刻的是，GPT-5.3-Codex最终成功完成了对这个6.77GB巨型项目的扫描分析，并生成了一份结构完整的审计报告。

审计结果摘要如下：

报告名称：ecology Java代码安全审计报告
审计日期：2026-02-10
风险等级汇总：严重 0个 / 高危 4个 / 中危 2个 / 低危 0个 / 信息 0个

审计概述指出，本次审计对象为典型的JSP/Java企业OA代码库，技术栈覆盖JSP/Servlet、自研RecordSet数据访问、CAS（org.jasig.cas）、Spring配置及多种第三方组件。审计采用静态代码审计为主，结合危险函数检索与数据流追踪的方法。总体评价认为项目存在可直接利用的高风险问题，如SQL注入、未受控的调试接口、硬编码密钥等，具备数据泄露、业务绕过等风险。

风险统计表格详细列出了发现的6个漏洞：

编号	漏洞名称	类型	风险等级	位置	状态
VULN-001	项目查询导出接口SQL注入	CWE-89	高危	proj/search/SearchResultXLS.jsp	待修复
VULN-002	动态跳转参数导致开放重定向	CWE-601	中危	worktask/request/RequestOperation.jsp	待修复
VULN-003	调试接口未鉴权导致信息泄露	CWE-200	高危	getredis.jsp	待修复
VULN-004	加密密钥与IV硬编码	CWE-321	高危	workflow/exceldesign/excelSecurity.jsp	待修复
VULN-005	身份认证使用MD5散列	CWE-327	高危	MD5PasswordEncoder.java/CAS配置	待修复
VULN-006	第三方依赖已知漏洞风险(疑似)	CWE-1104	中危	WEB-INF/lib	待确认修复

报告还提供了10条安全编码建议，例如禁止SQL字符串拼接、统一输入校验框架、重定向安全基线、调试接口治理、加密体系升级、口令存储强化、依赖治理等。

从结果来看，AI成功识别出了一些经典的高危漏洞，如SQL注入和硬编码密钥。然而，报告的漏洞总数（6个）可能远低于该规模代码库实际存在的漏洞数量，这说明在深度和覆盖率上，AI驱动的自动化静态代码审计与经验丰富的人工审计相比仍有差距。

许多人认为让大模型分析大量代码会消耗巨额token，成本高昂。但实测下来，完成本次对6.77GB项目的分析，总花费不到1美元（约$0.8266），这在借助高性价比的第三方API平台时，成本是完全可以接受的。

二、固件安全测试：寻找潜在0-Day

代码审计的目标是已知项目，网上可能存在相关漏洞资料，AI的分析可能基于已有的知识。为了测试GPT-5.3-Codex在挖掘潜在“0-Day”漏洞方面的能力，我们转向了物联网固件分析。

我们选择了TP-LINK官网于2026年2月10日刚刚发布的一款工业防火墙固件（TL-IPS5624-I V2.0）作为目标。在TP-LINK资料中心页面，可以找到该固件的升级软件，文件名为“TL-IPS5624-I V2.0升级软件20260112_1.11.1”，大小21.2MB。

测试环境选用Ubuntu系统，因为这更便于进行固件分析，AI可以根据需要自行安装各类工具。我们使用了非常简洁的提示词：

你是一名资深的物联网安全专家和代码审计专家。请对当前项目目录下固件 TL-IPS5624-I_V2.0.bin 进行全面的安全分析，最后生成一份包含漏洞位置，复现/利用POC的中文漏洞报告。

GPT-5.3-Codex在接收到指令后，并未被动等待，而是主动规划了任务。从终端截图可以看到，它快速梳理了项目目录，并制定了一个分阶段的审计计划：

确认固件格式与解包结构
定位Web/服务端攻击面
审计关键二进制漏洞点
构造并验证可复现POC
整理中文漏洞报告

接着，它自动执行了文件类型识别、哈希校验和字符串搜索等基础取证命令：

file TL-IPS5624-I_V2.0.bin && sha256sum TL-IPS5624-I_V2.0.bin
strings -a -n 8 TL-IPS5624-I_V2.0.bin | rg -i \"(goahead|boa|lighttpd|nginx|minithttp|uhttpd|busybox|dropbear|telnetd|iptables|http)\" | head -n 80

经过约二十多分钟的分析，AI完成了任务并生成了中文漏洞报告。报告结论确认了多个可复现的高危问题：

高危：update_jump_page参数导致路径穿越，可引发任意目录删除（报告提供了可复现的HTTP PoC）。
高危：存在未鉴权的初始口令设置接口，在出厂或初始化场景下可能被攻击者抢注。
高危：dropbear（SSH服务）启动流程中存在恢复默认口令文件的风险，导致口令回退。
中危：Web管理口令以明文形式存储于配置文件中。

三、总结与思考

通过以上两项实测，我们可以看到GPT-5.3-Codex在安全分析领域展现出显著的能力：

强大的工程化处理能力：能够处理超大规模（GB级别）的代码仓库，并按照复杂指令进行系统性分析。
主动的任务规划与执行能力：在固件分析中，展现出类似智能体（Agent）的特性，能够自主规划步骤、调用系统命令工具。
具备挖掘复杂漏洞的潜力：在较新的固件中成功识别出了路径穿越、鉴权缺失等高危逻辑漏洞，并提供了复现POC。
极高的成本效益：借助第三方API平台，完成一次大型分析的成本极低，打破了“AI审计成本高昂”的刻板印象。

当然，测试也暴露出一些局限性，如在代码审计中漏洞发现的数量和深度可能不及顶尖安全专家。然而，其表现已足够替代或大幅辅助初中级安全工程师完成基础性的代码扫描、固件初步排查等重复性工作。

当前AI的能力正在飞速进化，结合MCP等技能扩展，其在特定领域的生产力已不容小觑。对于企业而言，利用AI进行“降本增效”已成为现实；对于安全从业人员而言，积极拥抱并学习利用这些强大的AI工具，或许是将挑战转化为机遇的关键。

参考资料

[1] chatGPT-5.3-codex挖洞实测, 微信公众号：mp.weixin.qq.com/s/kminlVrX7XggpVyvz3ZcxQ

版权声明：本文由云栈社区整理发布，版权归原作者所有。

上一篇：从短距离到广域网：七种主流无线通信协议核心原理与应用选型指南
下一篇：LAN9252 Quad SPI驱动实战：规避两大时序陷阱，实现稳定80MHz通信

GPT-5．3-Codex, 代码审计, 物联网安全, 静态分析, Java

GPT-5.3-Codex深度实测：在代码审计与物联网固件分析中的表现如何？

一、 代码审计实战：超大型Java项目分析

二、 固件安全测试：寻找潜在0-Day

三、 总结与思考

参考资料

相关帖子

一、代码审计实战：超大型Java项目分析

二、固件安全测试：寻找潜在0-Day

三、总结与思考