云栈社区»论坛 › 开发者广场「Dev Plaza」 › AI生成代码安全实证研究：基于开源项目的在野风险与漏洞特征分析 ...

发回帖发新帖

5601 积分	0 好友	745 主题

发消息

AI生成代码安全实证研究：基于开源项目的在野风险与漏洞特征分析

发表于 2025-12-20 08:11:07 | 查看: 261| 回复: 0

随着 AI 技术加速融入软件研发流程，AI 已成为新时代的“代码贡献者”。在显著提升研发效率的同时，AI 生成代码也对软件安全、漏洞治理和工程责任边界提出了新的挑战。

围绕“AI 生成代码在真实世界中的表现与安全性”这一问题，腾讯安全平台部代码安全团队联合北京大学与复旦大学的相关实验室，基于开源项目与真实漏洞数据，开展了系统性的实证研究，分析 AI 生成代码的使用趋势、安全风险及其在漏洞生命周期中的角色演变，并提出面向工程实践的治理思路。

引言

近年来，随着大语言模型（LLM）和生成式 AI 技术的快速发展，AI 在编程领域的能力持续跃迁，从智能补全、模板生成，逐步走向能够理解逻辑、优化结构甚至自动生成模块级代码的阶段。AI 编程工具已深度融入开发者的日常工作流，在提高生产力和工程效率方面展现出实质性效果，越来越多的工程团队在 IDE、代码审查和测试环节中将其作为重要助力。

当 AI 生成代码从“效率工具”走向规模化落地，其引入的安全问题也随之被放大，并在真实项目中多次显现，已成为软件安全生态中的潜在风险。在此背景下，行业与学术界已展开针对性研究与评估，共同表明随着 AI 更深度地参与软件开发流程，其安全表现已成为一个无法回避、且亟需被系统性理解的问题。

然而，在真实世界中，AI生成代码究竟如何被使用、如何演化，以及如何影响软件的安全性，仍缺乏系统性的量化分析。因此，我们开展了本次联合研究，尝试从真实世界视角对该问题进行系统性刻画。依托开源生态与真实漏洞数据，我们对 AI 生成代码在实际项目中的使用情况进行分析，重点关注其在不同开发阶段中的分布特征、演化方式以及在漏洞生命周期中的角色变化。

一、 AI生成代码的趋势与特点

1.1 AI生成代码的演进趋势

基于对 GitHub Top1000 项目历史提交记录的系统性分析，我们观察到，AI 生成代码在开源生态中的渗透并非线性增长，而是呈现出明显的阶段性演进特征。这一过程既反映了模型能力的持续提升，也折射出软件工程实践对新技术的适应与调整路径。

真实开发场景 AI 生成代码演进轨迹

阶段 1：爆发式探索期
在 AI 辅助编程工具进入开发者视野的早期阶段，开源社区经历了一段明显的快速扩散期。受益于 IDE 插件等低门槛形态，AI 生成代码在短时间内被广泛尝试，并在新增代码中占比快速上升。

阶段 2：理性回归期
随着使用场景的深入，行业逐步进入理性调整阶段。随着代码规模扩大和工程复杂度提升，AI 在长上下文理解、领域语义把握及非功能性需求上的局限性开始显现，部分场景下的调试与维护成本逐渐放大。相应地，开发者对 AI 的使用开始趋于审慎。

阶段 3：稳定协作期
进入近期阶段，AI 生成代码的整体规模在调整后趋于稳定，其在软件开发流程中的角色也发生了结构性变化。AI 更多承担高重复性、模式化、易验证的任务（如测试代码、文档等），而由人类开发者主导系统设计、业务决策与安全把关。

1.2 AI 生成代码编程语言分布

AI 代码生成技术在不同技术栈中的渗透程度并不均衡，而是呈现出明显的层次差异。这种差异主要受到两个因素影响：一是相关语言在开源生态中的训练语料规模，二是语言本身的语法特性与开发范式。

AI 生成代码在不同编程语言中的相对比例

在整体层面，Python、JavaScript、TypeScript 等拥有庞大开源生态的语言，构成了 AI 生成代码的主要来源。这类语言语法灵活、容错性较高，AI 更容易生成较完整的业务逻辑代码。
其次是 Java、Go 等企业级语言，尽管其语义和类型约束更严格，但由于存在大量结构化、重复性的样板代码，开发者普遍倾向于借助 AI 来提升开发效率。
相比之下，在 Rust、C++ 等系统级语言中，受限于更严格的内存安全和生命周期约束，AI 生成代码的采纳程度明显较低。

二、AI 生成代码的安全风险与漏洞特征

2.1 漏洞生命周期中 AI生成代码的角色

AI 代码生成技术不仅影响代码的生产阶段，也正在深度介入漏洞的发现、修复与演化过程。基于已披露 CVE 漏洞直接相关的修复提交记录，我们分析了AI生成代码在漏洞修复前后的变化情况。

漏洞修复前后AI生成代码变化统计

在3.5%的漏洞修复中，原本由 AI 生成的代码，会被开发者用人工代码替换掉。也就是说，当漏洞被定位并进入修复阶段时，开发者会意识到现有实现存在问题，并选择回到人工实现，以获得更高的可控性和确定性。

与上述现象形成对比，在9.4%的CVE 修复案例中，大量原本由人工编写的代码在修复后被转换为AI 生成代码。这种“人工转AI”的模式，体现了开发者正在借助 AI 工具，加速完成修复逻辑的实现，减少重复性劳动。

这两种变化方向同时存在，说明 AI 在漏洞生命周期中的角色并不是固定的。它既可能成为漏洞产生的一部分，也可能成为漏洞修复过程中的重要助手。关键不在于“用不用 AI”，而在于“怎么用 AI”。

2.2 AI生成代码引入的漏洞特征画像

与人类开发者因复杂的业务逻辑疏忽或需求理解偏差而导致的漏洞不同，AI 生成代码所引入的缺陷表现出强烈的“模式化”特征。这种特征本质上源于大语言模型对训练数据中历史编码模式的机械模仿，而非对安全原则的深层理解。

AI生成代码引入漏洞类型偏好

我们的实证研究表明，AI 引入的漏洞高度集中在少数几类常见场景中。其中最突出的两类是：输入验证与数据处理不当，以及 不安全的 API 调用。

值得注意的是，AI 引入的漏洞极少涉及深层的业务逻辑错误。相反，它们更多体现为代码片段层面的、局部的实现瑕疵。这种“浅层但高频”的分布特征表明，尽管AI 引入了新的风险源，但这些风险在很大程度上是可以通过成熟的静态分析工具与自动化扫描规则进行有效识别和拦截的。

此外，分析发现，AI 引入漏洞的风险特征呈现出“严重度拟人化”与“攻击面网络化”的双重趋势。统计结果显示，AI 引入漏洞的严重等级分布与人工代码高度一致，其风险上限同样覆盖高危场景。在攻击向量维度上，AI 引入的漏洞呈现出更明显的网络侧集中趋势，尤其聚焦于 API 接口、Web 服务交互及网络协议相关代码。

AI生成代码引入的风险特征分析

三、 AI生成代码安全风险缓解建议

针对 AI 代码生成技术的内生缺陷及其带来的软件安全挑战，需要从模型接入、代码生成到工程落地的全流程入手，围绕评测机制、模型本体能力提升和人机协同治理等多维度协同发力，构建贯穿软件生命周期的多层安全防护体系。

AI 生成代码安全风险缓解框架

维度一：建立多维度的评测基准

由于大语言模型输出具有概率性和非确定性特征，传统安全分析方法难以全面刻画其安全边界。在模型引入前，有必要建立面向 LLM 的代码生成安全评测机制，作为第一道安全防线。

企业应当在模型引入阶段建立基于成熟基准的“红队测试”与准入机制，通过严格的基线测试与持续的攻防演练，确保上线模型具备足够的鲁棒性，从源头上减少存在原生安全缺陷的模型应用。

维度二：增强模型本体安全性

提升模型本体的安全性是解决代码幻觉、逻辑漏洞与知识截断问题的根本途径，需要从训练对齐与推理增强两个关键阶段入手。

在训练阶段，应强调源头治理，引入包含安全编码规范的高质量数据集并进行严格的数据清洗。利用人类反馈强化学习（RLHF）技术进行深度的安全对齐，引导模型内化安全编程范式。
在推理阶段，针对模型训练数据的知识滞后性问题，建议采用检索增强生成（RAG）技术，动态挂载最新的安全漏洞情报作为外部知识源。同时，可结合受限解码技术，从抽象语法树层面强制约束模型的输出结构，阻断非安全API 的调用与危险代码模式的生成。

维度三：人机协同治理

在当前技术条件下，AI 尚无法实现零误报和零风险，人工审查仍是安全闭环中不可替代的一环。治理层面需要重构适应 AI 辅助编程的开发规范，明确开发者对生成代码的最终安全责任。

对于 AI 自动生成的代码，应加强可追溯管理；在审查过程中，将关注重点从语法和风格检查，转向业务逻辑一致性、数据流和权限边界等关键安全属性，并结合静态与动态分析手段识别潜在风险，确保最终安全决策始终由人工把控。

总体而言，AI 生成代码的安全治理是一项系统工程。评测基准提供客观度量，模型本体安全夯实技术基础，人机协同治理构筑最后防线。三者协同作用，才能在充分释放 AI 编程效率的同时，控制其引入的安全风险。

四、总结

AI 参与代码生成已成为现代软件工程发展的既定趋势。研究更加清晰地表明，AI 生成代码在显著提升开发效率的同时，也放大了既有的软件工程复杂性与安全边界。

从安全研究的视角来看，未来的关注重点应转向如何通过工程化手段理解其行为特征，并将其系统性地纳入可治理的开发流程之中。安全应与评估方法、工程流程以及人机协作方式协同演进，从而推动 AI 生成代码逐步融入一个更高效、更可靠、也更可持续的软件开发生态。

参考文献

[1]. Veracode Research: AI-Generated Code Poses Major Security Risks.
[2]. A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code.
[3]. Is Vibe Coding Safe? Benchmarking Vulnerability of Agent-Generated Code in Real-World Tasks.

上一篇：AWS Trainium 3/4架构深度解析：性能优势与未来AI基础设施演进趋势
下一篇：智谱AI GLM大模型招股书解析：年营收超3亿，冲刺大模型第一股

人工智能, 大语言模型, Python, JavaScript, 软件安全