
AI究竟能让我们的工作变得多快?它最擅长辅助哪些类型的任务?又将如何重塑职业的性质与结构?人工智能公司Anthropic正通过其持续进行的“经济指数”项目,试图用真实世界的数据来回答这些核心问题。
该项目通过对Claude.ai(主要为消费者使用)和其第一方API(主要为企业使用)上的对话进行隐私保护分析,来洞察AI在实际工作与学习中的应用情况。在其最新发布的第四份报告中,Anthropic引入了一套全新的分析工具,名为经济基元。这五个基础指标旨在长期追踪Claude产生的经济影响,它们分别是:
- 任务复杂度 (task complexity)
- 技能水平 (skill level)
- 使用目的 (purpose: 工作、教育或个人)
- AI自主性 (AI autonomy)
- 成功率 (success)
这份基于2025年11月对话样本(主要使用Claude Sonnet 4.5模型)的报告,运用这些“基元”深入探讨了一系列复杂问题,例如:任务越复杂,Claude的成功率如何变化?以及当前的AI使用模式是否预示着许多工作岗位将面临“技能降级”效应?以下是报告的核心发现摘要。
经济基元揭示了什么?
报告从任务、职业和总体影响三个层面,应用了经济基元进行分析。
关于任务
1.AI能将任务加速多少?
报告发现,任务越复杂,Claude带来的加速效果越显著。研究以理解对话输入所需的受教育年限作为衡量标准:
- 在Claude.ai上,对于需要高中学历(12年教育)的任务,速度提升了9倍。
- 对于需要大学学历(16年教育)的任务,速度提升了12倍。
- 在API上,加速效果更为明显。
这一结果表明,AI带来的生产力增益目前主要集中在需要较高人力资本的任务上,这与白领专业人士更倾向于在工作中使用AI的现象相符。
不过,当考虑到成功率时,趋势有所减弱。对于需要大学学历的任务,Claude的成功率为66%,而对于低于高中学历的任务,成功率为70%。尽管如此,这并未完全抵消加速效应:任务复杂度对速度提升的正面影响,超过了其对成功率的负面影响。

速度提升和成功率与人类受教育年限的关系。左图为速度提升与人类受教育年限(以 ONET 任务级别衡量)之间关系的散点图。虚线表示最佳拟合线。右图为成功率与人类受教育年限之间的关系。*
2.Claude能支持多长时间周期的任务?
研究机构METR的基准测试表明,AI模型完成时长较长的任务更具挑战性。

任务成功率与人工完成时间的关系。此图显示了任务成功率(%)与人工独立完成任务所需时间之间的关系,所有数据均以 ONET 任务级别衡量,并按平台划分。虚线表示线性回归拟合曲线。*
Anthropic的分析提供了新的视角。根据METR的基准,Claude Sonnet 4.5在时长为2小时的任务上成功率为50%。然而,Anthropic的真实世界数据显示:
- 在其API上,Claude在时长近3.5小时的任务上成功率达到50%。
- 在Claude.ai上,这一时长更是达到了惊人的19小时。
报告解释,这种差异可能源于方法论的不同。在Anthropic的样本中,用户可以将复杂任务分解为小步骤,形成反馈循环,让Claude得以修正。同时,用户倾向于将他们认为Claude能成功处理的任务交给它,这带来了一种“选择偏见”。
3.Claude在不同国家的工作性质有何差异?
研究发现,在不同经济发展阶段的国家,Claude执行的任务类型截然不同。
- 在人均GDP较高的国家,Claude更多地被用于工作或个人用途。
- 在人均GDP较低的国家,则更常用于教育课程。
这符合一个“采纳曲线”模型:在低收入国家,AI使用初期集中于教育和少数工作任务;随着国家变得富裕,AI用途逐渐向个人生活等领域多元化。
关于职业
1.AI的“有效覆盖率”如何?
2025年1月,报告发现36%的职业中,有至少四分之一的任务由Claude辅助完成。而现在,这一比例已上升至49%。
但引入新的“有效AI覆盖率”指标(综合考虑任务成功率、执行频率和耗时)后,情况发生了变化。一些职业如数据录入员和放射科医生,受AI影响的程度远超简单的任务覆盖率所显示的水平。

有效人工智能覆盖率与任务覆盖率。该图展示了以职业为单位衡量的任务有效人工智能覆盖率(%)与任务覆盖率之间的关系。有效人工智能覆盖率追踪的是人工智能能够成功执行的员工加权工作任务的比例,数据基于 Claude.ai。任务覆盖率是指出现在 Claude.ai 使用列表中的任务比例。虚线表示有效人工智能覆盖率等于任务覆盖率的位置。
而另一些职业如教师和软件开发人员,受影响程度则相对较低。
2.AI正在执行工作的“高技能”还是“低技能”部分?
报告发现,Claude更倾向于覆盖需要更高教育水平的任务。具体来说,Claude覆盖的任务平均需要14.4年的教育水平(相当于美国副学士学位),而整体经济中所有任务的平均水平为13.2年。

所有任务与 Claude 涵盖任务的教育水平对比。蓝色条形图显示了 ONET 数据库中所有任务所需的预测教育水平分布,并按就业情况加权。橙色条形图显示了相同的分布,但仅限于 Claude.ai 数据中出现的任务。*
基于此,报告进行了一项思想实验:如果将这些被Claude覆盖的高技能任务从人们的工作中移除,会发生什么?首要效应是,这可能会导致工作岗位的平均技能水平下降,即“技能降级”。技术文档撰稿人、旅行社代理和教师等职业将受到影响。
报告强调,这并非一个必然的预测,劳动力市场可能会动态调整。但这为我们理解AI在短期内可能对职业产生的最直接影响提供了一个有用的信号。
关于总体影响
Anthropic早前研究曾预测,AI的广泛应用可能在未来十年内为美国劳动生产率年增长率贡献1.8个百分点。利用新的“经济基元”,报告对这一预测进行了修正:
- 仅考虑任务加速,结果与之前的1.8个百分点一致。
- 但当计入任务可靠性(成功率)后,预测值有所下调:
- 对于Claude.ai上的任务,贡献降至1.2个百分点。
- 对于API上更具挑战性的任务,贡献降至1.0个百分点。
报告指出,即使是每年1个百分点的增长也相当可观,这将使美国的生产率增速重回1990年代末和2000年代初的水平。并且,这一预测并未考虑模型能力大幅提升或AI使用方式更为成熟等可能带来更高增长的因素。
过往指标的更新
报告还更新了自2025年1月以来的追踪数据,发现一些趋势仍在延续:
- 任务高度集中:AI的使用仍然高度集中于特定任务。尽管样本中包含3000个独特的工作任务,但排名前十的任务占比从1月的21%稳步上升至24%。计算机和数学类任务依然是主导。
- 增强与自动化的消长:在最新样本中,“增强”(52%)已超过“自动化”(45%),成为最普遍的交互模式。但这与前几个月的数据相比是一个逆转,从更长的时间线看,“自动化”任务的份额仍在缓慢上升。
- 地理集中度:AI使用的地理集中现象依然明显,美国、印度、日本、英国和韩国领先。但在美国国内,Claude的使用在各州之间变得更加均衡。模型预测,若此趋势持续,全美各州的AI使用水平可能在2到5年内趋于一致。
结论
这份报告最直接的结论是,AI对全球劳动力的影响仍然高度不均衡:它集中在特定的国家和职业中,并且对不同职业的影响方式也大相径庭。
通过引入“经济基元”,Anthropic建立了一个新的分析基准。随着Claude等模型不断进化,预计它们将能处理更复杂的任务并取得更高的成功率。研究人员可以持续追踪这些变化如何影响真实世界的工作性质,以及哪些人群、哪些地区将在这场技术转型中受到最深远的影响。对于关心技术与社会发展的开发者而言,这类基于真实数据的洞察极具参考价值。
更多详细信息,请参阅 Anthropic 经济指数 2026年1月完整报告: https://www.anthropic.com/research/anthropic-economic-index-january-2026-report