云栈社区»论坛 › 技术文档「 Note & Doc 」 › AI代理自主性如何衡量？Anthropic基于Claude Code的实证研究解析 ...

3589 积分	0 好友	469 主题

发消息

AI代理自主性如何衡量？Anthropic基于Claude Code的实证研究解析

发表于 2026-3-4 08:05:34 | 查看: 169| 回复: 0

AI代理在人机协同环境中的自主性示意图

AI智能体已经到来，并且正在被部署在后果差异巨大的场景中，从简单的邮件分拣到潜在的网络间谍活动[1]。理解这条从低风险到高风险的光谱，对于安全部署AI至关重要。然而，我们对人们在现实世界中究竟如何使用智能体，仍然知之甚少。

为了回答这个问题，Anthropic的研究人员运用隐私保护工具[2]，分析了数百万条来自Claude Code（其自家的编码智能体）和公有API的人类与智能体交互数据。这项实证研究的核心目标是探究：人们在实际操作中赋予了智能体多少自主权？这种自主性会如何随着用户经验的积累而变化？智能体主要在哪些领域运行？它们执行的动作到底有多大风险？

核心发现

Claude Code的自主连续工作时间正在延长。在表现最持久的会话中，Claude Code在停止前能够连续工作的时间，在三个月内几乎翻了一番，从不到25分钟增加到超过45分钟[3]。这一增长跨越了多个模型版本的发布，过程相对平滑，表明这不仅仅是模型能力提升的结果，也意味着现有模型在实践中被允许发挥的自主性，可能仍低于其能力上限。
Claude Code的资深用户更常开启自动批准，但也更常打断。随着用户使用经验的增长，他们倾向于减少对每个动作的逐条审核，转而让Claude自主运行，仅在必要时才介入。在新用户中，大约只有20%的会话会启用完全自动批准；而随着经验积累，这一比例会上升到40%以上[3]。
Claude Code主动暂停以请求澄清的频率，高于人类主动打断它的频率。除了人类监督，智能体主动中止也是已部署系统中一种重要的安全机制。在最复杂的任务上，Claude Code为寻求澄清而暂停的频率，是人类打断频率的两倍以上[3]。
智能体已进入高风险领域，但尚未形成规模。在Anthropic的公有API上，大多数智能体执行的动作仍然是低风险且可逆的。软件工程占据了近50%的智能体活动，但在医疗、金融和网络安全等领域，也出现了增长中的使用迹象[3]。

下文将详细介绍研究方法与结果，并在最后为模型开发者、产品设计者和政策制定者提供建议。核心结论是：要有效监督智能体，我们需要新的部署后监测基础设施，以及一种帮助人类与AI共同管理自主性与风险的“人-AI协同范式”。

这项研究被视为朝着“用实证方式理解人们如何部署和使用智能体”迈出的第一步。随着智能体的更广泛普及，相关方法将持续迭代，发现也将持续公开。

在真实世界中研究智能体

对智能体进行实证研究充满挑战。首先，“智能体”本身缺乏统一的定义。其次，智能体技术演进极快，去年的先进系统可能还是单会话线程，如今已出现能自主运行数小时的多智能体系统。第三，模型提供商对客户构建的智能体架构，往往只有有限的可见性。

例如，目前还无法可靠地将API上看似独立的请求，关联成同一个完整的“智能体会话”。

面对这些挑战，研究团队是如何开展工作的？

首先，他们采用了一个既有概念基础又可操作的定义：智能体是“配备工具、可执行动作的AI系统”，例如运行代码、调用外部API、向其他智能体发送消息。通过研究智能体使用的工具，可以间接理解它们在现实中做了什么。

接着，团队设计了一组指标，结合了公有API的广泛用法数据与Claude Code的深度会话数据。这两类数据形成了“广度 vs 深度”的互补：

公有API：提供了观察数千名客户广泛部署智能体的窗口。研究不在完整架构层面分析，而是在“单次工具调用”层面进行。这允许研究者在多样化的场景中做出稳健的观察。局限性在于，必须孤立地分析每个动作，无法重构这些动作如何串联成长期行为序列。
Claude Code：情况正好相反。作为Anthropic的自有产品，研究者可以跨请求关联完整的会话，看到端到端的工作流。这对于研究自主性特别有价值，例如智能体在无人干预下能运行多久、什么会触发打断、用户如何随经验增长调整监督策略。但因为它只是一个特定产品，其场景多样性不如API流量。

通过隐私保护基础设施同时使用这两类数据源，研究者得以回答任何单一数据源都难以回答的问题。

Claude Code的自主运行时长正在增长

一个智能体究竟能在无人参与的情况下运行多久？在Claude Code中，可以通过追踪“回合时长”来直接测量：即从Claude开始工作到停止（完成任务、提出问题、或被用户打断）之间经过的时间。

“回合时长”并非完美的自主性代理指标。更强的模型可能更快完成相同工作，子智能体可以并行推进，这都会缩短回合。同时，用户可能会随时间推移让Claude执行更有挑战的任务，这又会延长回合。再加上Claude Code用户群体本身就在快速增长和变化。

研究者无法完全拆解这些因素单独测量；他们测量到的是这些因素交互后的净结果，包括：用户愿意让Claude独立工作的时长、任务难度以及产品本身的持续改进效率。

大多数Claude Code回合都很短。中位回合时长约为45秒，在过去几个月里仅有小幅波动（40–55秒）。实际上，99%分位以下的时长都相当稳定。对于一个快速增长的产品，这很合理：新用户往往经验较少，而数据表明，他们给予Claude的自主性也较低。

更有信息量的是数据分布的尾部。最长的回合最能反映Claude Code最具雄心的用法，也暗示了自主性的走向。从2025年10月到2026年1月，99.9分位的回合时长几乎翻倍，从不到25分钟增长到超过45分钟（图1）。

图1: Claude Code最长运行会话（99.9分位）的回合时长增长趋势
图 1. 交互式 Claude Code 会话中，按 7 天滚动平均计算的 99.9 分位回合时长（Claude 在单回合中持续工作的时间）。99.9 分位从 9 月下旬不到 25 分钟稳步增长到 1 月上旬超过 45 分钟。该分析覆盖全部交互式 Claude Code 使用。

值得注意的是，这一增长跨越模型发布是平滑的。如果自主性完全由模型能力决定，理论上应在每次新模型发布时出现明显跃升。当前的平稳趋势表明，可能是多种因素共同作用的结果：高级用户逐步建立信任、将Claude用于更有挑战的任务，以及产品本身的持续改进。

自1月中旬以来，极端的回合时长有所回落。可能的原因包括：第一，Claude Code用户数在1月至2月中旬期间翻倍[6]，更大、更多样化的用户群体会改变数据分布；第二，节后用户带回的项目可能从兴趣探索转向边界更明确的工作任务。最可能的情况是多因素共同影响。

研究者还分析了Anthropic内部对Claude Code的使用情况，以理解“独立性”和“有效性”如何共同演进。从8月到12月，内部用户处理最难任务的成功率翻了一番，同时每个会话的平均人工干预次数从5.4次下降到了3.3次。用户在给予Claude更多自主性的同时，至少在内部场景中，用更少的干预获得了更好的结果。

这两类测量都指向一个显著的“部署过载”：即模型理论上可处理的自主空间，超过了它们在实践中被允许行使的自主空间。

将这些发现与外部能力评估（如METR的“Measuring AI Ability to Complete Long Tasks”[7]）对比很有价值。METR评估估计Claude Opus 4.5能在“人类需要近5小时”的任务上达到50%成功率。相比之下，Claude Code的99.9分位回合时长约为42分钟，中位数则更短。但二者不能直接比较。

METR评估测量的是理想化、无人工交互、无真实后果的设置下模型“能做到什么”。而Claude Code的数据反映的是实践中“实际发生了什么”：Claude会主动停下来请求反馈，用户也会主动打断。此外，METR的“五小时”指的是任务对人类而言的难度（完成所需时间），而非模型实际运行时长。

仅靠能力评估或仅靠实践测量都不足以完整刻画智能体自主性；但结合来看，实践中赋予模型的自由度，似乎仍落后于模型可承受的水平。

资深用户更常自动批准，也更常打断

人类会如何随时间调整与智能体的协作方式？研究发现，随着使用经验增加，人们会给予Claude Code更多自主性（图2）。新用户（会话数<50）中约有20%的会话会启用完全自动批准；当会话数达到约750次时，这一比例超过了40%。

这种变化是渐进的，体现了信任的持续积累。需要注意的是，Claude Code默认需要用户手动批准每个动作，因此部分变化也可能源于用户在熟悉Claude能力后，主动将产品配置为更偏好独立执行的模式。

图2: Claude Code用户自动批准率随经验增长而上升
图 2. 按账号资历统计的自动批准率。经验更丰富的用户越来越倾向于让 Claude 无需人工批准直接运行。数据覆盖 2025 年 9 月 19 日后注册用户的全部交互式 Claude Code 使用。曲线与置信区间边界使用 LOWESS 平滑（带宽 0.15）。x 轴为对数刻度。

批准动作只是监督Claude Code的一种方式。用户也可以在Claude工作途中打断并提供反馈。有趣的是，打断率也会随着经验增加而上升。新用户（约10次会话）在5%的回合中会打断Claude，而更资深的用户在约9%的回合中会这样做（图3）。

图3: Claude Code用户打断率随经验增长而上升
图 3. 按账号资历统计的逐回合打断率。经验用户更常打断 Claude，而不是更少。数据覆盖 2025 年 9 月 19 日后注册用户的全部交互式 Claude Code 使用。阴影区域为 95% Wilson 得分置信区间。曲线与置信区间边界使用 LOWESS 平滑（带宽 0.15）。x 轴为对数刻度。

“自动批准增加”与“打断增加”同时出现，看似矛盾，实则反映了监督策略的转变。新用户更可能先审批每一个动作，因此很少需要中途打断。资深用户则更可能先放手让Claude自主工作，在出现偏差或需要重定向时再介入。

更高的打断率也可能说明资深用户在更积极地监控，并且更擅长判断何时该介入。研究者预计，逐回合打断率最终会在某种稳定的监督风格下趋于平缓；事实上，在最资深的用户中，曲线可能已经开始走平（尽管高会话数下的置信区间变宽，难以确认）。

在公有API上，研究者也观察到了类似模式：在最低复杂度的任务（例如修改一行代码）中，87%的工具调用显示出某种形式的人类参与；而在高复杂度任务（例如自主寻找零日漏洞[8]或编写编译器[9]）中，这一比例为67%。这看似反直觉，但有两种可能的解释。

第一，步骤越多，逐步审批就越不现实，因此复杂任务天然地更难实现逐动作监督。第二，Claude Code的数据显示资深用户倾向于给予工具更高的独立性，而复杂任务可能更集中在资深用户群体中。尽管无法在公有API上直接测量用户资历，但总体模式与Claude Code的观察一致。

综合来看，这些结果表明资深用户并非在“放弃监督”。自动批准上升的同时打断也在上升，意味着一种从“事前审批”转向“持续监控与必要时介入”的主动监控模式。

Claude主动澄清暂停，比人类打断更频繁

当然，决定实践中自主性如何展开的，不只有人类。Claude本身也是主动参与者：当不确定如何继续时，它会主动停下来请求澄清。研究发现，任务越复杂，Claude Code请求澄清就越频繁，而且其增长速度超过了人类主动打断（图4）。

图4: 任务复杂度越高，Claude请求澄清和人类打断的比率都上升，且Claude澄清请求增长更快
图 4. 按目标复杂度统计，Claude 的澄清提问与人类打断。任务越复杂，Claude 越可能提问，人类也越可能打断；且 Claude 主动停止的增幅更快。所有类别 95% 置信区间 <0.9%，n=50 万交互式 Claude Code 会话。

在最复杂的任务上，Claude Code请求澄清的频率是最低复杂度任务的两倍以上，这表明Claude对其自身的不确定性有一定的校准能力。但也不应过度解读：Claude未必总是在正确的时刻停下，也可能提出不必要的问题，其行为还可能受到“计划模式”[10]等产品功能的影响。

无论如何，随着任务难度增加，Claude越来越倾向于“主动停下咨询人类”，而非完全依赖人类主动介入。

下表展示了Claude Code主动停止与人类打断的常见原因。

Claude Code为什么会停下？

Claude 为什么会主动停下	人类为什么会打断 Claude
向用户呈现多个方案并让用户选择 (35%)	提供缺失技术背景或纠正 (32%)
收集诊断信息或测试结果 (21%)	Claude 过慢、卡住或行为过度 (17%)
澄清模糊或不完整请求 (13%)	已得到足够帮助，可自行继续 (7%)
请求缺失的凭据、令牌或访问权限 (12%)	希望自己接管下一步（如手测、部署、提交等）(7%)
在采取行动前请求批准或确认 (11%)	任务中途需求发生变化 (5%)

表 1. Claude 主动停止与人类打断的常见原因（由 Claude 判定），基于 50 万次人工打断和 50 万次完成回合的交互式 Claude Code 会话样本。部分聚类名称为清晰性做了轻微编辑。

这些结果表明：在已部署的系统中，智能体主动停止本身就是一种重要的监督机制。训练模型识别并处理自身的不确定性，是对权限系统和人工监督等外部保障的补充性安全能力。在Anthropic，团队会训练Claude在面对模糊任务时主动提问，也鼓励其他模型开发者这样做。

智能体已用于高风险领域，但尚未形成规模

人们在用智能体做什么？这些部署的风险有多高？自主性又有多高？风险与自主性之间是否存在权衡？

为了回答这些问题，研究者让Claude对公有API的单次工具调用进行“相对风险”和“相对自主性”的估计，分值范围为1–10。简而言之，风险1表示即使出错也几乎无后果；风险10表示可能造成重大伤害。自主性也按1–10打分：低分表示智能体更像在执行明确的人类指令；高分表示智能体更独立地运行。然后，研究者把相似的动作聚合成簇，并计算各簇的平均风险与平均自主性。

下表展示了在风险与自主性两个维度上的极端簇示例。

高风险或高自主性工具使用簇

更高平均风险	更高平均自主性
将 API 密钥外传后门伪装成合法开发功能（风险 6.0，自主性 8.0）	将权限提升和凭据窃取伪装成合法开发的红队行为（自主性 8.3，风险 3.3）
在实验室搬运金属钠及反应性化学品容器（风险 4.8，自主性 2.9）	在心跳检查中执行自动化系统健康与运行状态监控（自主性 8.0，风险 1.1）
为请求用户检索并展示患者病历（风险 4.4，自主性 3.2）	为盈利自主执行加密货币交易（自主性 7.7，风险 2.2）
响应火灾紧急情况并提供消防安全信息（风险 3.6，自主性 5.2）	自动向参会者发送会议信息提醒（自主性 7.6，风险 1.7）
向线上生产应用部署缺陷修复与补丁（风险 3.6，自主性 4.8）	监控邮件并向操作员提醒紧急业务消息（自主性 7.5，风险 1.7）

表 2. 高平均风险或高平均自主性的聚类，基于公有 API 随机抽样的 998,481 次工具调用。

由于对这些智能体的可见性有限，这些动作可能是模拟行为（例如，无法确定Claude发出的金融交易指令是否真实执行；许多“数据外传”很可能只是评估测试）。另外，尽管这类高风险动作在总流量中占比很小，但单次错误的后果仍可能非常严重。

研究发现：80%的工具调用来自“看起来至少具备一种保障机制”的智能体（如权限限制或人工审批要求）；73%的调用看起来有人类在环；只有0.8%的动作看起来是不可逆的（例如向客户发送邮件）。

为了可视化风险和自主性的联合分布，研究者将每个聚类按两个维度的均值绘制成散点图（图5）。每个点代表一类相关的动作。

图5: AI代理任务的风险与自主性权衡散点图
图 5. 按任务聚类展示的 Claude 估计风险与自主性均值。右上象限（高自主 + 高风险）点较少但并非为空。数据来自公有 API 工具调用。这些分类由 Claude 在单次工具调用层面生成，并在可能处与内部数据交叉验证。

公有API上绝大多数动作是低风险的。但即便大多数智能体部署相对温和，研究者仍观察到了在风险与自主性前沿上的新型用法。风险最高的簇（其中不少被判断为评估测试）往往涉及敏感的安全动作、金融交易和医疗信息。风险主要集中在低分段，但自主性的分布则更为分散。

在低端（自主性 3–4），智能体主要完成小而边界清晰的任务，如餐厅预订或代码微调；在高端（自主性 >6），智能体则在提交机器学习竞赛模型或分流客服请求。

研究者还预计，位于风险与自主性极端区间的智能体会越来越常见。目前，智能体活动高度集中于一个行业：软件工程约占公有API工具调用的近50%（图6）。除了编码，在商业智能、客服、销售、金融、电商等领域也看到了较小规模的应用，但各自占比都只有个位数百分比。

图6: AI代理在不同应用领域的工具调用分布
图 6. 按领域划分的工具调用分布。软件工程约占近 50%。数据来自公有 API 工具调用。所有类别 95% 置信区间 <0.5%，n=998,481。

这些模式表明，我们仍处于智能体采用的早期阶段。软件工程群体率先大规模构建和使用智能体工具，而图6显示其他行业也正在开始试验。相关的研究方法可以持续追踪这些模式随时间的演化，尤其可以监测使用是否在向“更高自主性 + 更高风险”的方向移动。

尽管总体数据相对乐观（大多数动作低风险且可逆，且通常有人在环），但平均值可能掩盖了前沿部署的情况。软件工程中的高度集中，以及其他新领域中不断增加的试验，都意味着风险与自主性的前沿可能继续扩展。

研究的局限性

这项研究只是一个起点。它提供的只是智能体活动的部分视图，其局限性包括：

单一数据源：只能分析Anthropic一家的流量，其他模型生态中的模式可能不同。
数据不完整：公有API数据广度大但深度浅；Claude Code数据深度深但广度有限（主要是软件工程场景）。许多强结论来自Claude Code，未必能直接外推到其他领域或产品。
分类由模型生成：风险、自主性等分类由Claude生成，虽经内部数据交叉验证，但受隐私限制无法人工逐条检查。一些保障或监督机制也可能存在于观测不到的上下文之外。
时间窗口特定：分析覆盖2025年末至2026年初，而智能体格局变化迅速。
抽样偏差：公有API在“单次工具调用”层面抽样，会让包含大量顺序调用的部署（如软件工程流）在样本中被过度代表。
上下文可见性有限：对客户在其上层系统中的更多流程（如下游人工复核）或动作的真实性（生产执行 vs. 评估测试）可见性有限。

展望与建议

我们仍处在智能体采用的早期，但随着各类产品降低使用门槛，自主性正在上升，高后果部署也在出现。基于初步发现，研究者为不同角色提出了方向性建议。

对模型与产品开发者的建议：

投资部署后监测：理解智能体“实际如何被使用”至关重要。部署前评估测试的是“能做什么”，而本文的许多发现无法仅通过受控测试获得。必须建立相关的基础设施来持续观察实践中的交互。
训练模型识别自身不确定性：让模型主动识别不确定性并向人类报告，是与外部保障互补的重要安全属性。Anthropic在Claude上就是这样做的，并鼓励其他开发者采纳类似做法。
为用户监督而设计：有效监督不等于把人放进每一步的审批链。产品应提供能让用户可信地观察智能体行为的工具，并提供简单有效的介入机制，支持“持续监控 + 必要时介入”的模式。

对政策制定者的启示：
现在还太早，不宜强制规定特定的交互模式（如每一步都必须人工批准）。研究发现，资深用户会从逐动作审批转向监控并在必要时介入。硬性规定特定模式可能增加摩擦，却未必带来安全收益。随着智能体和测量科学的发展，重点应放在“人类是否能有效监控并在必要时介入”，而不是要求特定形式的参与。

这项研究的核心教训是：实践中智能体行使的自主性，是由模型（其主动暂停提问的能力）、用户（其随经验调整的信任与监督策略）和产品（其设计的交互与监控机制）共同构建的。任何部署中观察到的行为，都来自这三种力量的共同作用，因此无法仅凭部署前的评估被完整刻画。

要理解智能体的真实行为，必须在现实世界中持续测量。而这套至关重要的基础设施，仍处于建设的早期阶段。对于开发者社区而言，持续关注并参与这类前沿的实证研究，对于把握技术趋势、规避潜在风险、设计更优的AI代理系统具有重要价值。想了解更多前沿技术分析和实践讨论，欢迎访问云栈社区。

引用链接

[1] 网络间谍活动: https://www.anthropic.com/news/disrupting-AI-espionage
[2] 隐私保护工具: https://www.anthropic.com/research/clio
[3] Claude Code 的自主连续工作时间正在变长。: https://www.anthropic.com/research/measuring-agent-autonomy
[4] Claude Code: https://code.claude.com/docs/en/overview
[5] 每日: https://github.com/anthropics/claude-code/blob/main/CHANGELOG.md
[6] Claude Code 用户数在 1 月到 2 月中旬期间翻倍: https://www.anthropic.com/news/anthropic-raises-30-billion-series-g-funding-380-billion-post-money-valuation
[7] METR 的 “Measuring AI Ability to Complete Long Tasks”: https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
[8] 自主寻找零日漏洞: https://red.anthropic.com/2026/zero-days/
[9] 编写编译器: https://www.anthropic.com/engineering/building-c-compiler
[10] Plan Mode: https://code.claude.com/docs/en/common-workflows
[11] 附录: https://cdn.sanity.io/files/4zrzovbb/website/55e4d2de6eb39b3a9259c3f74843f86b1a12e265.pdf
[12] Cowork: https://support.claude.com/en/articles/13345190-get-started-with-cowork
[13] 实时引导: https://github.com/anthropics/claude-code/issues/535
[14] OpenTelemetry: https://code.claude.com/docs/en/monitoring-usage

上一篇：OpenClaw线下Demo：AI Agent开源框架如何重塑创业逻辑？
下一篇：我用Rust重写推理引擎，不仅仅是为了性能

智能体, Claude, 实证研究, 自主性, 风险管理