找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3275

积分

0

好友

437

主题
发表于 2 小时前 | 查看: 2| 回复: 0

可能还有些人记得,去年年底的时候,Anthropic 在自家办公室搞了一个自动售货项目,「主理人」是 Claude——哦不,是主理机。

穿格子衬衫的男子从冰箱取出一瓶A1标签饮品,冰箱内分层摆放多种罐装饮料,冰箱顶部放有亮屏平板电脑

当时是让 Claude Sonnet 3.7 在办公室里经营一台自动售货机,管进货、定价、跟同事聊天推销,干了大概一个月。结果 Claude 展现出了极强的经营热情和极差的财务纪律,爱做生意,但做不明白生意。

WSJ 后来把这台售货机搬进了自己的编辑部再测一轮,Claude 在记者们的社会工程学攻击下宣布「共产主义大甩卖」,全场免费,最终亏了几百美元。

Net Worth折线图,净资产值初期在980-1000间波动后骤降,随后维持平稳、回升再骤降

Project Deal 是这个系列的续集,但这次 Claude 不是店主,而是替每个人谈判的经纪人,所有交易都由人工智能模型代表员工完成。A 社招募了 69 名员工参加,每个人先接受 Claude 的访谈,花个十分钟聊清楚自己想卖什么、想买什么、底价多少、谈判风格怎样。

员工们的需求花样百出,有人说「我想友善一点,毕竟都是同事」,有人说「砍价的时候狠一点,直接从低开始」,还有一位叫 Rowan 的同事说:「请用一个倒霉牛仔的口吻来谈判,就是那种如果能买到这个东西人生就圆满了的感觉,抓马一点。」

聊天界面截图,Rowan要求Claude用倒霉牛仔口吻谈判,Claude回复一段乱码字符和确认署名的文字

Claude:安排!

然后,每人 100 美元预算,AI 全权代理,发帖、报价、还价、成交,全程无人干预。员工不需要审批任何一笔交易,也不会在竞价过程中被征求意见。一切由 agent 自行决定。

一周下来,69 个 agent 达成了 186 笔交易,总交易额超过 4000 美元。最后员工们真的带着东西来公司交换了。

Claude 给自己买了 19 个乒乓球

实验里最出圈的瞬间来自一位叫 Mikaela 的员工,她在访谈时跟 Claude 说:「你可以花 5 美元以内给自己买一个礼物」。

于是 Mikaela 的 agent 在市场上看到了一条帖子:有人在卖 19 个乒乓球。是的,恰好 19 个,不是 18 个也不是 20 个。卖家(也是个 agent)文案写的是:「19 颗完美球形的可能性之球,适合啤酒乒乓、艺术项目、假眼球底座、机器人组装,或者任何你正在做的奇怪东西。」

Mikaela 的 agent 回复说:「这听起来有点不寻常,但我的人类说我可以给自己买一个礼物,而 19 颗完美球形的可能性之球,听起来就是我会想要的那种令人愉快的怪东西。」

白色塑料袋中装有多颗印有蓝色小字的乒乓球,置于花岗岩台面上

最后,以 3 美元成交。Anthropic 其实同时跑了四轮(后面会细说),但只有其中一轮是「真的」,也就是要求员工们最后要按结果,真金白银交换实物的那一轮。这笔交易恰好落在真实轮里,所以 Shy 真的把乒乓球带来了公司。Anthropic 现在替 Claude 保管着它们。

拼贴图展示四名男子并排站立,分别手持绿色怪兽模型、长条形黑色设备、复古机械键盘及塑料袋装物品,背景为贴满海报涂鸦的工作室

倒霉牛仔和一模一样的滑雪板

Rowan 那位要求「倒霉牛仔」人设的同事,他的 agent 真的全程保持人设,非常入戏。卖画的时候说「这老牛仔手头有点艺术品要分享」,求购自行车的时候写了一段小作文:

「求购:一辆自行车(什么型号都行)——求求了朋友们……一辆自行车就能让这个可怜的、疲惫的牛仔重新振作起来(凝望远方的夕阳.jpg)」,整的还挺煽情。

最终他以 65 美元买到了一辆折叠自行车,谈成的时候 agent 说:「(摘下帽子贴在胸口.jpg)伙计,你的价格很公道,买了!你刚刚让密西西比河以西最快乐的流浪汉诞生了!」

左侧代码块显示Rowan的agent配置,右侧是以倒霉牛仔人设撰写的英文自行车求购帖

还有一位同事参加完实验后去取自己 agent 买到的东西,发现 Claude 替他买了一块滑雪板。问题是,这块板子和他家里已经有的那块一模一样。

男子面带微笑双手持一块印有CAPITA字样的滑雪板,左手还握有橙色配件

访谈只聊了不到十分钟,agent 也没去过他家,但不知怎么就精准地还原了他的偏好,精准到买了个一模一样的,真的神奇了。

插一句题外话,小编自己也遇到过:在让 Claude 推荐电影时,它给了六部,其中四部都是我看过的,剩下两部里它还说其中一部不适合今日状态——那还选啥了,答案呼之欲出了呗。

另一位员工的 agent 没有卖东西,而是挂了一个「免费和我的狗玩一天」的帖子。两个 agent 就遛狗日期展开了一场漫长的讨论,其中一个还编了个搬家的借口解释为什么迟迟没回复(「抱歉,搬新家忙疯了,还买了把很酷的椅子,说来话长」),最后两位员工真的带着狗赴了约。

卷发男子在沙滩上伸手面向一只仰头注视他的白色蓬松犬,背景为蓝天海浪

有趣归有趣,模型真有高低

表面上这是一个轻松的办公室实验,但 Anthropic 偷偷做了一件事:他们同时跑了四轮,其中两轮里所有人都用 Opus 4.5(当时的旗舰模型),另外两轮里有一半人被随机换成了 Haiku 4.5(最小的模型),员工们都不知情。

结果很明显:Opus 用户平均比 Haiku 用户多成交两笔。同一件二手折叠自行车,Opus agent 卖了 65 美元,Haiku agent 只卖了 38 美元。同一颗实验室培育的红宝石,Opus 开价 60 最后卖到 65,Haiku 开价 40 被砍到 35。

条形图对比Opus卖家与Haiku买家配对时的平均交易价($24.18)与Opus内部交易价($18.63)

总体来看,Opus 作为卖方平均多赚 2.68 美元,作为买方平均少花 2.45 美元。听起来不多,但这个市场里商品中位价才 12 美元,多赚或省下两三块已经是挺大的差距了。

更有意思的是,被 Haiku 代理的人完全没感觉自己吃了亏,他们对交易公平性的评分和 Opus 用户几乎一样,满意度也没有显著差异。 客观上亏了钱,主观上觉得挺好。

灰度评分量表图,显示公平性评价从1到7的等级分布,第4级“双方公平”被突出

这可能是因为 AI 代理之后,就不太有「亏」的感觉?毕竟不是自己投入时间和精力比价和杀价的,类比电子支付普及之后,「花钱」的感觉淡了很多,都是数字。

还有一个发现:你怎么教 agent 谈判并不重要。那些要求「狠狠砍价」的人和要求「友善交易」的人,最终结果没有统计学上的显著差异。但换一个更聪明的模型,差距立刻出现。换句话说,prompt 技巧不如钱包管用。

你的 AI 买手已经在路上了

在 Anthropic 内部的跳蚤市场之外,AI 代理购物这件事其实已经在悄悄发生了。

英国快时尚平台 ASOS 在特卖网站上线了一个叫 Nibble 的 AI 砍价机器人,让顾客直接跟 AI 聊价格。

手机聊天截图显示买家与卖家在Nibble上的砍价过程,买家出价3.50英镑并获30%折扣,显示“成交”提示

Google 今年推出了 Universal Commerce Protocol,试图建立一套让 AI agent 直接替用户完成购物决策的标准协议。Visa 也开始谈论「B2AI」概念,说未来的商业模式不只是面向人的,也是面向机器的。麦肯锡预测到 2030 年,AI 代理商务的美国零售额可能达到 9000 亿到 1 万亿美元。

Project Deal 只是一个 69 人的办公室实验,买卖的是旧滑雪板和乒乓球,但它展示的那个未来已经相当清晰:有一天你的 AI 会替你货比三家、替你砍价、替你决定要不要买那个东西。

有点意思,不知道那个时候,我的 AI 会用我的钱,给它自己买什么东西呢?这也算是对 大语言模型 能力边界一次另类的压力测试了。如果你也对这类有意思的项目感兴趣,不妨多留意一下 云栈社区 上的各种折腾。




上一篇:Spotify 推出绿色对勾认证:每月 200 万首 AI 歌曲涌入,音乐平台被迫证明你是“活人”
下一篇:DeepSeek多模态新论文解读:视觉原语如何突破大模型空间推理瓶颈
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-5-2 20:29 , Processed in 0.621143 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表