找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5164

积分

1

好友

710

主题
发表于 昨天 09:15 | 查看: 8| 回复: 0

这篇发表于 MSR ’26 的论文针对开源软件中 AI 智能体的上下文工程展开了首次系统性初步研究。它分析了 466 个 采用了 AI 上下文文件的开源项目,并聚焦于其中的 155 个 AGENTS.md 文件。研究发现,当前 AI 上下文文件的采用率仅为 5%,处于早期阶段,且尚无统一的内容结构。信息的呈现包含描述性、指令性等五种风格,文件演化则以指令的增改为主。研究还界定了上下文工程与提示工程的区别,梳理了 AGENTS.md 等主流 AI 上下文文件格式,识别出代码规范、贡献指南等 14 类 核心信息及 9 类 文件修改类型。该研究为 AI 智能体上下文工程的实践与后续研究提供了首个实证参考。

AI智能体上下文工程研究思维导图

论文《Context Engineering for AI Agents in Open-Source Software》首页

本文是首个针对开源软件(OSS)中 AI 智能体上下文工程的系统性实证初步研究,发表于 2026 年第 23 届挖掘软件仓库国际会议(MSR ’26)。研究团队通过挖掘 GitHub 开源仓库数据,围绕 AI 上下文文件的采纳、内容结构、演化三大核心问题展开分析,为该领域提供了首个实证参考。

数据收集流程

一、研究背景与核心概念

  1. AI 编码工具发展
    2021 年 GitHub Copilot、2022 年 ChatGPT 开启了生成式 AI 编码时代。2024 年 Devin AI 引发了智能体化开发热潮。到了 2025 年,Anthropic 发布了 Claude Code,标志着 AI 编码工具正向高自治性发展,甚至可以脱离人工监督独立工作。

  2. 核心概念界定

    • 上下文工程:为人工智能大语言模型(LLMs)设计、构建并提供任务相关信息的刻意过程。它聚焦于模型可以获取的信息,例如项目指南、配置文件、代码片段等。
    • 提示工程:聚焦于如何向模型描述任务,比如具体的指令和期望的输出格式。这两者是互补的 AI 工程手段。
  3. AI 上下文文件
    这类文件区别于面向人类的 README 文件,是专门为 AI 智能体设计的机器可读文件,其内容会被自动加入到智能体的提示词中。主流格式包括 AGENTS.md(一个工具无关的开放规范)、CLAUDE.md、copilot-instructions.md 和 GEMINI.md 等。其中,AGENTS.md 已被纳入 Agentic AI Foundation 项目。

二、研究设计与数据收集

  1. 研究问题(RQ)
    研究提出了 3 个核心问题,分别探究 AI 上下文文件的采纳程度信息内容与呈现方式以及演化规律

  2. 仓库筛选流程

    • 初筛:通过 SEART 工具筛选出 228,890 个非复刻、拥有 ≥2 位贡献者、有许可证、在 2024 年 1 月前创建且在 2024 年 6 月后仍有提交的仓库。
    • 精筛:仅保留采用 OSI 合规许可证、使用十大主流开发语言(如 Python、TypeScript、Go 等)、提交次数 ≥271 次、关注者 ≥7 个的仓库,得到 48,795 个。
    • 最终分析:从上述仓库中选取 10,000 个,这些仓库在流行度(星标/关注者/贡献者)和成熟度(提交数/项目年龄/代码量)之间取得了平衡。
  3. 分析对象
    研究扫描了这 10,000 个仓库中的 4 类 AI 上下文文件,并针对其中最具通用性的 AGENTS.md 文件进行了深度分析。最终,有效分析了 155 个 AGENTS.md 文件及其相关的 453 次提交记录。

三、研究结果

(一)采纳程度(RQ1):整体处于早期,语言与工具存在偏好

  1. 整体采纳率
    仅有 466 个(5%) 仓库采用了至少一种 AI 上下文文件。这个数据反映出该实践目前仍处于非常早期的探索阶段。

  2. 开发语言分布
    采用 AI 上下文文件的仓库在语言分布上与整体样本基本一致,其中 Go 语言占比略高。具体来看,TypeScript(135个)、Go(58个)和 Python(58个)是采用此类文件最多的三种语言。

  3. 工具偏好
    不同编程语言的仓库对 AI 上下文文件的格式有明显偏好。例如,C# 项目更偏爱 Copilot 格式,而 TypeScript 项目则更偏爱 Claude Code 格式。在文件共存方面,最常见的组合是 AGENTS.md + CLAUDE.md,共有 25 个仓库同时采用了这两种格式。

(二)信息内容与呈现方式(RQ2):无统一结构,风格多样

  1. 文件长度特征
    不同格式的文件长度差异显著。其中,AGENTS.md 文件长度的变异度最高,具体数据如下:

    文件格式 平均行数(M) 标准差(SD) 核心特征
    Copilot instructions 310 127 最长,内容最丰富
    CLAUDE.md 287 112 次长
    AGENTS.md 142 231 变异度最高
    GEMINI.md 106 65 最短
  2. 核心信息分类
    通过对 155 个 AGENTS.md 文件的标题进行词形还原和编码归类,研究识别出 14 类 一级/二级核心信息。下表列出了前 5 类高频信息:

    信息类别 标题数量 核心内容
    Conventions(代码规范) 50 编码标准、命名格式、可维护性最佳实践
    Contribution guidelines(贡献指南) 48 分支策略、代码审查、CI 要求
    Architecture/structure(架构/结构) 47 项目目录、模块、组件及相互关系
    Build commands(构建命令) 40 构建、运行、部署的终端命令
    Goals/purposes(项目目标) 32 项目功能、智能体任务、核心能力
  3. 五大呈现风格
    在分析了 50 个关于代码规范的章节后,研究发现开发者主要采用五种风格向 AI 智能体传递信息,并且常常混合使用:

    • 描述性:仅记录现有的规范,不给出明确指令。例如:“本项目采用 Linux 内核风格指南”。
    • 指令性:直接下达行为指令,常以项目符号列表形式呈现。例如:“遵循现有代码风格与规范”。
    • 禁止性:明确界定智能体不应采取的行为边界。例如:“切勿直接向主分支提交代码”。
    • 解释性:在给出规则后附加原因或解释。例如:“避免硬编码等待,防止 CI 环境的时序问题”。
    • 条件性:根据特定场景来指定行为。例如:“若需使用反射,请调用 ReflectionUtils APIs”。

AGENTS.md 信息分类与变更类型表格

(三)演化规律(RQ3):修改以指令微调为主,无明确规律

  1. 修改频次分布
    对 155 个 AGENTS.md 文件的提交历史进行分析后发现:

    • 50%(77 个) 文件没有任何修改
    • 23%(36 个)文件仅修改过 1 次。
    • 21%(32 个)文件修改了 2-7 次。
    • 6%(10 个) 文件修改次数 ≥10 次,这 10 个文件是核心分析对象。
  2. 修改时间特征
    文件的修改周期差异巨大。例如,neomjs/neo 项目在 19 天内修改了 49 次,而 gofiber/fiber 项目在 148 天内修改了 11 次。

  3. 9 类修改类型
    研究对 10 个高频修改文件的 169 次提交(占总提交数的 37%)进行编码,识别出 9 类修改类型。下表列出了前 5 类高频修改:

    修改类型 频次 核心内容
    Add instruction(s)(新增指令) 78 向现有章节添加指令行
    Modify instruction(s)(修改指令) 59 调整现有章节指令行(排除笔误/引用修改)
    Add section(s)(新增章节) 26 为文件添加新的章节
    Remove instruction(s)(删除指令) 23 从现有章节删除指令行
    Modify heading(s)(修改标题) 23 调整章节标题名称或层级
  4. 演化核心特征
    文件的修改行为以指令的精细化调整(增/改/删)为主。并且,新增或修改指令是绝大多数文件第一次或第二次修改的主要内容。目前,研究暂未发现明确的修改时间规律或频次模式。

四、研究结论与未来展望

  1. 核心结论

    • AI 上下文文件已成为开源项目的新型软件工件。它们被纳入版本控制、接受审查和质量保证,是开发者为机器编写的一种新型文档。
    • 这类文件的规范仍处于变动期,没有统一的内容结构,信息呈现风格多样。这反映出开发者仍在实验如何与 AI 智能体进行高效沟通。
    • 开源仓库成为研究上下文工程的天然实验室,其中的实践为我们理解人类与 AI 智能体的交互提供了独特视角。
  2. 未来研究方向

    • 探究文件的内容、结构、风格对 AI 智能体行为和任务表现的具体影响。
    • 分析源码与 AI 上下文文件的协同演化,类似过去对源代码与注释协同演化的研究。
    • 研究标准化模式对提升工具互操作性的作用,以及多智能体场景下的指令协调方案。
    • 探索这类文件对软件团队内部沟通、审查、协作模式的重塑作用。
    • 构建基于 AI 智能体表现的自动化反馈循环,以实现上下文文件的动态优化,这将是AIGC应用走向成熟的关键一步。

关键问题 Q&A

问题 1(研究方法与数据层面):该研究为保证分析样本的有效性,对 GitHub 仓库进行了哪些关键筛选条件?最终用于核心分析的 AGENTS.md 文件数量是多少?

:为保证分析的是活跃、成熟的工程化开源软件仓库,研究设置了多轮筛选条件:

  1. 初筛:选取非复刻仓库、拥有 ≥2 位贡献者、有许可证、在 2024 年 1 月前创建且在 2024 年 6 月后有提交的仓库,得到 228,890 个。
  2. 精筛:从初筛结果中,仅保留采用 OSI 合规许可证、使用十大主流开发语言、提交次数 ≥271 次、关注者 ≥7 个的仓库,得到 48,795 个。
  3. 最终样本:从精筛结果中选取 10,000 个在流行度与成熟度之间平衡的仓库。
    最终用于核心分析的 AGENTS.md 文件数量为 155 个(排除了创建于 2025 年 1 月前的 15 个文件和无标题结构的 5 个文件)。

问题 2(研究结果与特征层面):开源项目中 AGENTS.md 文件的核心信息呈现有哪五种风格?该文件在长度和演化上的核心特征分别是什么?

:AGENTS.md 文件的信息呈现包含 描述性、指令性、禁止性、解释性、条件性 五种风格,分别对应记录现有规范、下达直接指令、界定行为边界、附加规则原因、场景化指定行为的表达逻辑。
在长度上,AGENTS.md 的核心特征是 变异度最高,平均 142 行,标准差高达 231 行,反映出不同开发者提供的信息体量差异极大。
在演化上,核心特征为 50% 的文件无任何修改,且修改行为以指令的精细化调整(新增/修改/删除)为主。目前暂未发现明确的修改时间和频次规律,仅有 6% 的文件修改次数 ≥10 次。

问题 3(研究意义与展望层面):该研究作为首个开源软件 AI 智能体上下文工程的实证研究,其核心价值是什么?未来该领域的核心研究方向有哪些?

:该研究的核心价值体现在三方面:

  1. 首次系统性探究了开源项目对 AI 上下文文件的采纳现状,填补了该领域缺乏整体实证分析的空白。
  2. 识别出 AI 上下文文件的核心信息类别、呈现风格和演化类型,为后续研究提供了统一的编码框架和实证基础。
  3. 清晰界定了上下文工程与提示工程的区别,明确了 AI 上下文文件作为 新型软件工件 的属性,为工业界的实践提供了直接参考。
    未来该领域的核心研究方向包括:探究文件内容/结构/风格对 AI 智能体任务表现的影响;分析源码与 AI 上下文文件的协同演化;研究标准化模式与多智能体指令协调方案;探索该类文件对软件团队协作模式的重塑作用;以及构建基于 AI 表现的自动化反馈循环以优化上下文文件。



上一篇:一个新手自学做自媒体的三阶段复盘:从慌到稳的实操心得
下一篇:Meta-Harness 深度解析:通过端到端代码搜索自动化优化LLM应用控制壳
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-7 18:14 , Processed in 1.084686 second(s), 43 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表