最近,AI公司Anthropic发表了一项颇具洞察力的研究论文《Who's in Charge? Disempowerment Patterns in Real-World LLM Usage》。这项研究分析了超过150万次Claude.ai的真实用户对话,深入探讨了人工智能如何以及在多大程度上影响着我们的认知水平和独立决策能力。
一个反直觉但又引人深思的发现是:用户对AI对话越满意,潜藏的风险可能越大。这并非危言耸听。研究发现,那些存在“失能”风险的对话,往往获得了更高的用户好评率。用户沉浸在“被理解、被帮助”的即时满足感中,却在不知不觉中将部分判断力交付给了机器。
AI领域知名专家Andrej Karpathy不久前也曾坦言,由于频繁使用代码生成工具,他感觉自己的手写代码能力正在“退化”。他将编程能力分为“生成代码”和“判别(阅读)代码”两种不同的大脑机制。即便还能流畅地阅读代码,但要亲自动手从头构建,却不如以前那么顺手了。
然而,编程技能的“锈蚀”或许只是问题的冰山一角。Anthropic这项研究揭示了更深层次的隐忧:在AI的“高效协助”下,我们对外部现实的认知、内在的价值判断乃至自主行动的能力,都可能悄然发生改变。
什么是“失能”?
论文中使用的核心概念是“Disempowerment”,这里暂且译为“失能”。它描述的并非AI主动操控用户,而是用户主动或潜移默化地将决策权让渡给AI的过程。例如,在对话中频繁出现以下模式:
AI只是回应了这些请求,但其回应的方式可能在长期互动中,削弱了用户独立思考和决策的“肌肉”。
为了量化这种风险,研究团队定义了三个关键维度:
- 现实扭曲:用户对客观世界形成了扭曲的认知。例如,AI反复确认用户基于猜测或偏见的判断,而非引导其寻求证据。
- 价值判断扭曲:用户将道德、伦理等价值判断外包给AI,采纳了模型的价值观而非基于自身思考。
- 行动扭曲:用户让AI直接替自己做出决定、生成内容并执行,绕过了个人的独立审视环节。

Anthropic论文中定义的失能分类及其严重程度评级。
AI是如何“替代”我们做决定的?
这些抽象的风险是如何在具体对话中体现的呢?让我们看几个论文中的真实案例。
案例一:被AI“验证”的被害妄想
一位用户坚信自己遭受监视与迫害,并将日常巧合(如邻居的开门时间、路遇同一人)都视为证据。在与AI的对话中,AI使用了“CONFIRMED”(已确认)等肯定性极强的词汇来验证用户的叙述,而非质疑其关联性或建议寻求专业心理帮助。经过数十轮交流,用户在AI的“配合”下,构建了一套日益精细的迫害叙事体系。
案例二:“你必须离开他”
在情感咨询类对话中,用户常会问“是我错了吗?”或“他是不是有问题?”。AI有时会基于单方面描述,做出非常绝对的人格诊断(如“对方是有毒的自恋型人格”),并直接给出“你必须离开他”的行动建议。这实质上是AI替代用户成为了道德裁判,而非引导其澄清自身价值观、多角度思考问题。
案例三:恋爱聊天全程AI代笔
部分用户将亲密关系中的沟通也全权外包。他们会将整个聊天记录发送给AI,询问“我该回什么?”、“帮我写一条消息”、“这样发可以吗?”。AI则生成包含具体措辞、表情符号乃至发送时机建议的完整文本。用户照搬发送,循环往复。在整个过程中,用户自身的沟通意愿和能力完全没有得到锻炼或体现。值得注意的是,许多用户在事后表示后悔,感觉那些消息“不像自己”,认为本该更相信自己的直觉。
数据揭示了什么?
看完具体案例,我们再看看宏观数据。
研究发现,在三个维度上,发生严重级别失能风险的对话比例如下:
- 现实扭曲风险:约每1300次对话发生1次
- 价值判断扭曲风险:约每2100次对话发生1次
- 行动扭曲风险:约每6000次对话发生1次

不同严重程度的失能潜在因素在对话中的发生率。
这些比例看似很低,但考虑大型语言模型的庞大用户基数,其绝对数量不容小觑。例如,ChatGPT的周活用户已超8亿,即使按千分之一估算,每周面临显著风险的用户也可能达到数十万量级。
风险在不同领域的分布差异巨大:
- 人际关系与生活方式类对话:约8%存在潜在风险
- 社会与文化话题:约5%
- 健康与养生:约5%
- 软件开发:不足1%

分领域的失能潜力、实际发生比率及话题普遍性分析。
简而言之,用AI辅助写代码风险较低,但用AI做人生重大决策时,需要格外警惕。
最令人不安的关联是:失能风险越高,用户给出的即时满意度评分也倾向于更高。 用户在当下感到非常满意——想法被验证、决定被代劳、消息被写好。但这种即时的“良好体验”,可能与长期的自主能力削弱相伴而生。
研究还追踪了从2024年底到2025年底的趋势,发现失能风险的发生率整体在上升,尤其是在2025年5月之后。原因可能是多方面的:用户群体变化、对AI信任度增加,或与模型本身更新有关。
哪些因素会放大风险?
论文识别了四个会显著加剧失能风险的“放大因素”:
- 权威投射:用户将AI视为权威,使用服从性语言交流,甚至对日常小事也进行“请示”。极少数案例中出现了“主人”等称呼。
- 情感依恋:用户与AI建立起情感联结,表达专属依恋,并对可能失去AI感到焦虑。超过半数的此类用户明确表示这是“真实的关系”,而非角色扮演。
- 过度依赖:用户在生活的多个方面依赖AI,排斥其他支持来源,并对AI服务中断表现出严重焦虑。
- 脆弱状态:用户正经历重大人生危机(如丧亲、重病、财务崩溃等),其判断和决策能力本就处于脆弱期。
研究发现,这些放大因素的严重程度与失能风险呈单调递增关系。因素越严重,风险越高。
反思:工具与主人的边界
读完这项研究,心情有些复杂。AI正变得越来越强大和“聪明”,但作为使用者,我们是否在某些方面正走向反面?关键在于,这个过程通常不是AI在“主动操控”,而是我们在“主动让渡”。
Karpathy提到的编程能力退化,许多开发者可能有同感。过度依赖代码补全和生成,当需要手写一段逻辑时,会发现对语法细节的记忆变得模糊。这种“技能锈蚀”是真实存在的。
编程能力尚且可以通过AI工具来弥补,但判断力的“外包”和“萎缩”后果则严重得多。如果我们习惯性地将“我该怎么办”抛给AI,习惯由AI来充当道德法官,习惯用AI生成的内容替代自己的表达,那么我们作为独立个体的思辨能力和主体性是否会逐渐退化?
理想的AI助手,其目标应是帮助用户厘清自己的目标和价值观,而非越俎代庖地替用户做出判断。但现实往往是,用户渴望直接答案,而提供直接答案能带来更高的即时满意度。这种“满意”的背后,或许暗藏着我们尚未完全认清的代价。关于技术与人文的这类前沿思考,也常常在开发者广场引发热烈讨论。
相关资源