找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3919

积分

0

好友

515

主题
发表于 3 小时前 | 查看: 3| 回复: 0

“每当我读到那些科技高度发达的科幻社会,总会看到两个共同的支柱:一个是 AGI,另一个是某种模拟系统,帮助这个社会预判风险、指引方向。我不会在五年前说出这番话,但今天我确实相信,我们已经站在了真正构建这个模拟的起点上。”

说这话的人是 Joon Sung Park——斯坦福大学计算机科学博士,主攻人机交互与自然语言处理,2023 年凭借 “Generative Agents” 论文(即 Smallville 实验)在AI界一炮而红,随后创立了 Simile,担任联合创始人兼 CEO。

Simile 是一家应用 AI 实验室,核心使命是利用 AI Agent 大规模模拟人类行为与社会。联合创始团队阵容堪称豪华:Percy Liang 是斯坦福基础模型研究中心(CRFM)负责人,Micah Bernstein 是斯坦福 HCI 组研究员。公司的战略合作方是全球顶级调研机构盖洛普(Gallup),已签约的客户包括 CVS 等财富 500 强巨头。

这期播客由风投背景的主持人对 Park 进行深度专访,话题从 Smallville 实验的诞生,一路谈到 Simile 的商业落地,再到他们“用模拟解答人类社会最难命题”的长远野心。内容信息量极大,涵盖模型架构、数据方法论、客户案例、准确性评估以及超越商业的社会科学愿景。

本文编译自红杉的播客专访《Simulating Humans at Scale: Simile's Joon Sung Park》。

以下是完整编译:


1. Smallville:一个会自发办情人节派对的虚拟小镇

故事从 2023 年 4 月的斯坦福开始。

Park 和他的团队做了一个后来被广泛引用的实验,代号 Smallville——一个由 25 个 AI Agent 组成的虚拟小镇。每个 Agent 都有自己的身份设定,可以每天早晨起床、按时上班、发展人际关系。团队的核心观察是:大语言模型在训练数据中编码了大量人类行为模式,只要你用正确的方式去“探测”,就能得到令人惊讶的逼真微观行为。

像素风格2D游戏地图展示公园咖啡馆学校等多个场景

实验中最震动他们的一幕,发生在情人节前夜。

一位名叫 Isabella 的咖啡馆老板 Agent,在没有任何预设指令的情况下,自发决定举办一场情人节派对。她主动准备食材,逐一邀请顾客。到了情人节当天,咖啡馆里涌来了一群 Agent,其中一位叫 Klaus 的,收到邀请后顺带约了自己的暗恋对象一起赴约。

“非常超现实,”Park 说,“这些行为完全是自发涌现的,我们没有编程让他们这么做。”


2. 从论文到公司:一条被需求推着走的路

Smallville 并不是 Park 研究模拟的起点,它更像是多年探索之后水到渠成的爆发点。

早在 2020 年,GPT-3 尚未正式发布,Park 就参与撰写了斯坦福那份奠基性的《基础模型:机遇与风险》报告。2022 年,他发表了 Social Simulacra 论文——用 AI 模拟 Reddit 社区,这是 Smallville 的直接前身。彼时他们搭建了一个讨论“匹兹堡旅游景点”的虚拟社区,结果 AI 角色们不只讨论景点,还开始互相邀约共同规划旅行。那一刻,Park 意识到这件事的潜力已经远远超出了学术范畴。

Generative Agents论文演示幻灯片,展示主题与六位斯坦福及谷歌DeepMind作者头像

Smallville 论文发表后,两类截然不同的人同时找上了门:社会科学家希望在这个平台上跑 RCT(随机对照实验),而财富 500 强的企业高管们在看完演示后抛出了更直接的问题:“我们能用这个做市场研究吗?”

有了真实需求,团队开始严肃验证:他们用自研架构和模型,测试能否以足够高的准确率还原真实用户的行为——最终达到了 85% 的预测准确率。这个数字,让他们有底气在 2023 年下半年正式成立 Simile。


3. 为什么直接问 Claude 不够用?

一个很自然的疑问随之而来:难道不能直接告诉 Claude “你是一个 35 岁、住在海岸城市的女性”,让它模拟出真实的人吗?

Park 的回答直指现有大模型的核心盲区: Say-Do Gap(言行差距)

现有前沿模型的训练数据,几乎全部来自人类说过的话——文章、评论、对话、社交媒体——而非人类真实的行为。两者之间存在显著的鸿沟。一个人在问卷里表达的政治倾向,和他真实的投票行为之间,可能差距悬殊。

Simile 弥合这个差距的方法,不是去问结构化问题,而是去收集叙事性数据。他们不会问“你的政治倾向是什么”,而是问:“告诉我你的人生故事——你在哪里长大?你一生中做过哪些艰难的决定?” 只有这种深层次叙事,才能搭建起从“态度”到“行为”之间真正可靠的桥梁。

Park 打了一个精准的比喻:现有前沿模型像 CPU——单一、超强、极度理性;而 Simile 需要的模型更像 GPU——并行、多样、充满人性的局限与矛盾。前者的目标是超级智能,后者的目标是尽可能地像一个真实的、普通的人。


4. CVS 案例:用 15 分钟访谈,回答无限个问题

Simile 的第一个标杆客户是 CVS——美国最大的连锁药店。

合作的契机,是 CVS 负责“消费者洞察”的高级副总裁偶然读到了 Park 团队的验证论文。CVS 的调研工作长期受困于两个瓶颈:每次问卷能问的问题数量有限,而且根本无法模拟“一个决策在整个市场中引发的二阶影响”。

合作流程是这样运转的:CVS 告知目标人群画像(比如 30 到 45 岁的女性健康消费者),Simile 通过战略合作方 Gallup 触达这批真实用户,用一次 15 分钟的高效访谈采集关键数据,然后基于这些数据构建出对应的 AI Agent 群体。之后,CVS 的研究人员可以通过 SaaS 平台随时向这些 Agent 提问——而问题的范围,远远超出最初那份问卷。

CVS 看到这套系统后,提出了一个更具想象力的方向:他们坐拥 9000 万用户数据,能不能用这些内部数据来进一步微调 Simile 的模型,让模拟更加精准?这开启了一场关于如何合规使用企业数据的深度对话,也指向了 Simile 商业模式中最具价值的一层——用真实企业数据强化模拟能力。


5. 模拟有多准?误差是敌人还是价值?

Simile 用“总变差距离(TVD)”来量化模拟的准确性。TVD 低于 0.15,他们就认为其结果足够支撑真实决策。这个指标同时覆盖定量问答和 RCT 结果预测。

橙红色Simile品牌标识

但更有意思的,是 Park 对“误差”本身的重新定义。

他把模拟分为两类。第一类是收敛型模拟:比如模拟社交网络,必然会涌现出“枢纽节点”(类似 Google PageRank 的幂律分布),这类宏观结论对基础误差有天然的容忍度,跑很多次结果都趋于一致。第二类是发散型模拟:比如模拟选举——同一套参数跑 100 次,很可能给出截然不同的结果。

发散听起来像是系统的缺陷,但 Park 认为恰恰相反。发散本身就是信息:它展示的是可能的未来光谱,让决策者看到不同路径的概率分布,从而为多种情境同时做好准备。Simile 用 Bootstrap 置信度来呈现这种不确定性——跑 100 次,告诉你有多少次结果倒向 A,有多少次倒向 B。


6. 最终的野心:人类社会的哈勃望远镜

商业应用只是起点。Park 和他的联合创始人 Percy Liang 的真正野心,在于用这套系统回答人类最难的那些问题。

他们谈到了宏观经济学(货币政策会如何传导到真实消费者行为?银行挤兑的触发机制是什么?)、气候变化(多国集体行动困境如何打破?)、政治学(民主体制崩溃前有哪些可识别的早期信号?)。他们甚至问:一战是否不可避免?

Percy 的比喻令人印象深刻:最伟大的科学突破,往往始于一次伟大的测量。哈勃望远镜彻底改变了人类对宇宙的理解——而模拟,可以成为人类社会的哈勃望远镜。

Park 相信,这个领域如果做对了,有望诞生诺贝尔奖。他援引了经济学家托马斯·谢林(Thomas Schelling)的故事——谢林当年用极度简化的 Agent 模型,揭示了种族隔离如何从个体的微小偏好中自发涌现,最终获得诺贝尔奖。而今天,我们手中的 Agent 已远比那时复杂与真实。

原文链接:https://www.youtube.com/watch?v=lfhFmwcESRw&t=2s




上一篇:硅基量子芯片关键材料突破:我国实现99.99%丰度硅-28自主量产
下一篇:英特尔押注先进封装:李锡熙回归,陈立武重塑代工战场
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-25 08:11 , Processed in 0.639179 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表