这篇发表于 MSR ’26 的论文针对开源软件中 AI 智能体的上下文工程展开了首次系统性初步研究。它分析了 466 个 采用了 AI 上下文文件的开源项目,并聚焦于其中的 155 个 AGENTS.md 文件。研究发现,当前 AI 上下文文件的采用率仅为 5%,处于早期阶段,且尚无统一的内容结构。信息的呈现包含描述性、指令性等五种风格,文件演化则以指令的增改为主。研究还界定了上下文工程与提示工程的区别,梳理了 AGENTS.md 等主流 AI 上下文文件格式,识别出代码规范、贡献指南等 14 类 核心信息及 9 类 文件修改类型。该研究为 AI 智能体上下文工程的实践与后续研究提供了首个实证参考。


本文是首个针对开源软件(OSS)中 AI 智能体上下文工程的系统性实证初步研究,发表于 2026 年第 23 届挖掘软件仓库国际会议(MSR ’26)。研究团队通过挖掘 GitHub 开源仓库数据,围绕 AI 上下文文件的采纳、内容结构、演化三大核心问题展开分析,为该领域提供了首个实证参考。

一、研究背景与核心概念
-
AI 编码工具发展
2021 年 GitHub Copilot、2022 年 ChatGPT 开启了生成式 AI 编码时代。2024 年 Devin AI 引发了智能体化开发热潮。到了 2025 年,Anthropic 发布了 Claude Code,标志着 AI 编码工具正向高自治性发展,甚至可以脱离人工监督独立工作。
-
核心概念界定
- 上下文工程:为人工智能大语言模型(LLMs)设计、构建并提供任务相关信息的刻意过程。它聚焦于模型可以获取的信息,例如项目指南、配置文件、代码片段等。
- 提示工程:聚焦于如何向模型描述任务,比如具体的指令和期望的输出格式。这两者是互补的 AI 工程手段。
-
AI 上下文文件
这类文件区别于面向人类的 README 文件,是专门为 AI 智能体设计的机器可读文件,其内容会被自动加入到智能体的提示词中。主流格式包括 AGENTS.md(一个工具无关的开放规范)、CLAUDE.md、copilot-instructions.md 和 GEMINI.md 等。其中,AGENTS.md 已被纳入 Agentic AI Foundation 项目。
二、研究设计与数据收集
-
研究问题(RQ)
研究提出了 3 个核心问题,分别探究 AI 上下文文件的采纳程度、信息内容与呈现方式以及演化规律。
-
仓库筛选流程
- 初筛:通过 SEART 工具筛选出 228,890 个非复刻、拥有 ≥2 位贡献者、有许可证、在 2024 年 1 月前创建且在 2024 年 6 月后仍有提交的仓库。
- 精筛:仅保留采用 OSI 合规许可证、使用十大主流开发语言(如 Python、TypeScript、Go 等)、提交次数 ≥271 次、关注者 ≥7 个的仓库,得到 48,795 个。
- 最终分析:从上述仓库中选取 10,000 个,这些仓库在流行度(星标/关注者/贡献者)和成熟度(提交数/项目年龄/代码量)之间取得了平衡。
-
分析对象
研究扫描了这 10,000 个仓库中的 4 类 AI 上下文文件,并针对其中最具通用性的 AGENTS.md 文件进行了深度分析。最终,有效分析了 155 个 AGENTS.md 文件及其相关的 453 次提交记录。
三、研究结果
(一)采纳程度(RQ1):整体处于早期,语言与工具存在偏好
-
整体采纳率
仅有 466 个(5%) 仓库采用了至少一种 AI 上下文文件。这个数据反映出该实践目前仍处于非常早期的探索阶段。
-
开发语言分布
采用 AI 上下文文件的仓库在语言分布上与整体样本基本一致,其中 Go 语言占比略高。具体来看,TypeScript(135个)、Go(58个)和 Python(58个)是采用此类文件最多的三种语言。
-
工具偏好
不同编程语言的仓库对 AI 上下文文件的格式有明显偏好。例如,C# 项目更偏爱 Copilot 格式,而 TypeScript 项目则更偏爱 Claude Code 格式。在文件共存方面,最常见的组合是 AGENTS.md + CLAUDE.md,共有 25 个仓库同时采用了这两种格式。
(二)信息内容与呈现方式(RQ2):无统一结构,风格多样
-
文件长度特征
不同格式的文件长度差异显著。其中,AGENTS.md 文件长度的变异度最高,具体数据如下:
| 文件格式 |
平均行数(M) |
标准差(SD) |
核心特征 |
| Copilot instructions |
310 |
127 |
最长,内容最丰富 |
| CLAUDE.md |
287 |
112 |
次长 |
| AGENTS.md |
142 |
231 |
变异度最高 |
| GEMINI.md |
106 |
65 |
最短 |
-
核心信息分类
通过对 155 个 AGENTS.md 文件的标题进行词形还原和编码归类,研究识别出 14 类 一级/二级核心信息。下表列出了前 5 类高频信息:
| 信息类别 |
标题数量 |
核心内容 |
| Conventions(代码规范) |
50 |
编码标准、命名格式、可维护性最佳实践 |
| Contribution guidelines(贡献指南) |
48 |
分支策略、代码审查、CI 要求 |
| Architecture/structure(架构/结构) |
47 |
项目目录、模块、组件及相互关系 |
| Build commands(构建命令) |
40 |
构建、运行、部署的终端命令 |
| Goals/purposes(项目目标) |
32 |
项目功能、智能体任务、核心能力 |
-
五大呈现风格
在分析了 50 个关于代码规范的章节后,研究发现开发者主要采用五种风格向 AI 智能体传递信息,并且常常混合使用:
- 描述性:仅记录现有的规范,不给出明确指令。例如:“本项目采用 Linux 内核风格指南”。
- 指令性:直接下达行为指令,常以项目符号列表形式呈现。例如:“遵循现有代码风格与规范”。
- 禁止性:明确界定智能体不应采取的行为边界。例如:“切勿直接向主分支提交代码”。
- 解释性:在给出规则后附加原因或解释。例如:“避免硬编码等待,防止 CI 环境的时序问题”。
- 条件性:根据特定场景来指定行为。例如:“若需使用反射,请调用 ReflectionUtils APIs”。

(三)演化规律(RQ3):修改以指令微调为主,无明确规律
-
修改频次分布
对 155 个 AGENTS.md 文件的提交历史进行分析后发现:
- 50%(77 个) 文件没有任何修改。
- 23%(36 个)文件仅修改过 1 次。
- 21%(32 个)文件修改了 2-7 次。
- 6%(10 个) 文件修改次数 ≥10 次,这 10 个文件是核心分析对象。
-
修改时间特征
文件的修改周期差异巨大。例如,neomjs/neo 项目在 19 天内修改了 49 次,而 gofiber/fiber 项目在 148 天内修改了 11 次。
-
9 类修改类型
研究对 10 个高频修改文件的 169 次提交(占总提交数的 37%)进行编码,识别出 9 类修改类型。下表列出了前 5 类高频修改:
| 修改类型 |
频次 |
核心内容 |
| Add instruction(s)(新增指令) |
78 |
向现有章节添加指令行 |
| Modify instruction(s)(修改指令) |
59 |
调整现有章节指令行(排除笔误/引用修改) |
| Add section(s)(新增章节) |
26 |
为文件添加新的章节 |
| Remove instruction(s)(删除指令) |
23 |
从现有章节删除指令行 |
| Modify heading(s)(修改标题) |
23 |
调整章节标题名称或层级 |
-
演化核心特征
文件的修改行为以指令的精细化调整(增/改/删)为主。并且,新增或修改指令是绝大多数文件第一次或第二次修改的主要内容。目前,研究暂未发现明确的修改时间规律或频次模式。
四、研究结论与未来展望
-
核心结论
- AI 上下文文件已成为开源项目的新型软件工件。它们被纳入版本控制、接受审查和质量保证,是开发者为机器编写的一种新型文档。
- 这类文件的规范仍处于变动期,没有统一的内容结构,信息呈现风格多样。这反映出开发者仍在实验如何与 AI 智能体进行高效沟通。
- 开源仓库成为研究上下文工程的天然实验室,其中的实践为我们理解人类与 AI 智能体的交互提供了独特视角。
-
未来研究方向
- 探究文件的内容、结构、风格对 AI 智能体行为和任务表现的具体影响。
- 分析源码与 AI 上下文文件的协同演化,类似过去对源代码与注释协同演化的研究。
- 研究标准化模式对提升工具互操作性的作用,以及多智能体场景下的指令协调方案。
- 探索这类文件对软件团队内部沟通、审查、协作模式的重塑作用。
- 构建基于 AI 智能体表现的自动化反馈循环,以实现上下文文件的动态优化,这将是AIGC应用走向成熟的关键一步。
关键问题 Q&A
问题 1(研究方法与数据层面):该研究为保证分析样本的有效性,对 GitHub 仓库进行了哪些关键筛选条件?最终用于核心分析的 AGENTS.md 文件数量是多少?
答:为保证分析的是活跃、成熟的工程化开源软件仓库,研究设置了多轮筛选条件:
- 初筛:选取非复刻仓库、拥有 ≥2 位贡献者、有许可证、在 2024 年 1 月前创建且在 2024 年 6 月后有提交的仓库,得到 228,890 个。
- 精筛:从初筛结果中,仅保留采用 OSI 合规许可证、使用十大主流开发语言、提交次数 ≥271 次、关注者 ≥7 个的仓库,得到 48,795 个。
- 最终样本:从精筛结果中选取 10,000 个在流行度与成熟度之间平衡的仓库。
最终用于核心分析的 AGENTS.md 文件数量为 155 个(排除了创建于 2025 年 1 月前的 15 个文件和无标题结构的 5 个文件)。
问题 2(研究结果与特征层面):开源项目中 AGENTS.md 文件的核心信息呈现有哪五种风格?该文件在长度和演化上的核心特征分别是什么?
答:AGENTS.md 文件的信息呈现包含 描述性、指令性、禁止性、解释性、条件性 五种风格,分别对应记录现有规范、下达直接指令、界定行为边界、附加规则原因、场景化指定行为的表达逻辑。
在长度上,AGENTS.md 的核心特征是 变异度最高,平均 142 行,标准差高达 231 行,反映出不同开发者提供的信息体量差异极大。
在演化上,核心特征为 50% 的文件无任何修改,且修改行为以指令的精细化调整(新增/修改/删除)为主。目前暂未发现明确的修改时间和频次规律,仅有 6% 的文件修改次数 ≥10 次。
问题 3(研究意义与展望层面):该研究作为首个开源软件 AI 智能体上下文工程的实证研究,其核心价值是什么?未来该领域的核心研究方向有哪些?
答:该研究的核心价值体现在三方面:
- 首次系统性探究了开源项目对 AI 上下文文件的采纳现状,填补了该领域缺乏整体实证分析的空白。
- 识别出 AI 上下文文件的核心信息类别、呈现风格和演化类型,为后续研究提供了统一的编码框架和实证基础。
- 清晰界定了上下文工程与提示工程的区别,明确了 AI 上下文文件作为 新型软件工件 的属性,为工业界的实践提供了直接参考。
未来该领域的核心研究方向包括:探究文件内容/结构/风格对 AI 智能体任务表现的影响;分析源码与 AI 上下文文件的协同演化;研究标准化模式与多智能体指令协调方案;探索该类文件对软件团队协作模式的重塑作用;以及构建基于 AI 表现的自动化反馈循环以优化上下文文件。
|