云栈社区»论坛 › 站务中心「 Forum Service 」 › 斯坦福AI模拟人类行为新突破：Simile用Agent预测社会，准确率达8 ...

发回帖发新帖

3919 积分	0 好友	515 主题

发消息

斯坦福AI模拟人类行为新突破：Simile用Agent预测社会，准确率达85%

发表于 3 小时前 | 查看: 3| 回复: 0

“每当我读到那些科技高度发达的科幻社会，总会看到两个共同的支柱：一个是 AGI，另一个是某种模拟系统，帮助这个社会预判风险、指引方向。我不会在五年前说出这番话，但今天我确实相信，我们已经站在了真正构建这个模拟的起点上。”

说这话的人是 Joon Sung Park——斯坦福大学计算机科学博士，主攻人机交互与自然语言处理，2023 年凭借 “Generative Agents” 论文（即 Smallville 实验）在AI界一炮而红，随后创立了 Simile，担任联合创始人兼 CEO。

Simile 是一家应用 AI 实验室，核心使命是利用 AI Agent 大规模模拟人类行为与社会。联合创始团队阵容堪称豪华：Percy Liang 是斯坦福基础模型研究中心（CRFM）负责人，Micah Bernstein 是斯坦福 HCI 组研究员。公司的战略合作方是全球顶级调研机构盖洛普（Gallup），已签约的客户包括 CVS 等财富 500 强巨头。

这期播客由风投背景的主持人对 Park 进行深度专访，话题从 Smallville 实验的诞生，一路谈到 Simile 的商业落地，再到他们“用模拟解答人类社会最难命题”的长远野心。内容信息量极大，涵盖模型架构、数据方法论、客户案例、准确性评估以及超越商业的社会科学愿景。

本文编译自红杉的播客专访《Simulating Humans at Scale: Simile's Joon Sung Park》。

以下是完整编译：

1. Smallville：一个会自发办情人节派对的虚拟小镇

故事从 2023 年 4 月的斯坦福开始。

Park 和他的团队做了一个后来被广泛引用的实验，代号 Smallville——一个由 25 个 AI Agent 组成的虚拟小镇。每个 Agent 都有自己的身份设定，可以每天早晨起床、按时上班、发展人际关系。团队的核心观察是：大语言模型在训练数据中编码了大量人类行为模式，只要你用正确的方式去“探测”，就能得到令人惊讶的逼真微观行为。

像素风格2D游戏地图展示公园咖啡馆学校等多个场景

实验中最震动他们的一幕，发生在情人节前夜。

一位名叫 Isabella 的咖啡馆老板 Agent，在没有任何预设指令的情况下，自发决定举办一场情人节派对。她主动准备食材，逐一邀请顾客。到了情人节当天，咖啡馆里涌来了一群 Agent，其中一位叫 Klaus 的，收到邀请后顺带约了自己的暗恋对象一起赴约。

“非常超现实，”Park 说，“这些行为完全是自发涌现的，我们没有编程让他们这么做。”

2. 从论文到公司：一条被需求推着走的路

Smallville 并不是 Park 研究模拟的起点，它更像是多年探索之后水到渠成的爆发点。

早在 2020 年，GPT-3 尚未正式发布，Park 就参与撰写了斯坦福那份奠基性的《基础模型：机遇与风险》报告。2022 年，他发表了 Social Simulacra 论文——用 AI 模拟 Reddit 社区，这是 Smallville 的直接前身。彼时他们搭建了一个讨论“匹兹堡旅游景点”的虚拟社区，结果 AI 角色们不只讨论景点，还开始互相邀约共同规划旅行。那一刻，Park 意识到这件事的潜力已经远远超出了学术范畴。

Generative Agents论文演示幻灯片，展示主题与六位斯坦福及谷歌DeepMind作者头像

Smallville 论文发表后，两类截然不同的人同时找上了门：社会科学家希望在这个平台上跑 RCT（随机对照实验），而财富 500 强的企业高管们在看完演示后抛出了更直接的问题：“我们能用这个做市场研究吗？”

有了真实需求，团队开始严肃验证：他们用自研架构和模型，测试能否以足够高的准确率还原真实用户的行为——最终达到了 85% 的预测准确率。这个数字，让他们有底气在 2023 年下半年正式成立 Simile。

3. 为什么直接问 Claude 不够用？

一个很自然的疑问随之而来：难道不能直接告诉 Claude “你是一个 35 岁、住在海岸城市的女性”，让它模拟出真实的人吗？

Park 的回答直指现有大模型的核心盲区： Say-Do Gap（言行差距）。

现有前沿模型的训练数据，几乎全部来自人类说过的话——文章、评论、对话、社交媒体——而非人类真实的行为。两者之间存在显著的鸿沟。一个人在问卷里表达的政治倾向，和他真实的投票行为之间，可能差距悬殊。

Simile 弥合这个差距的方法，不是去问结构化问题，而是去收集叙事性数据。他们不会问“你的政治倾向是什么”，而是问：“告诉我你的人生故事——你在哪里长大？你一生中做过哪些艰难的决定？” 只有这种深层次叙事，才能搭建起从“态度”到“行为”之间真正可靠的桥梁。

Park 打了一个精准的比喻：现有前沿模型像 CPU——单一、超强、极度理性；而 Simile 需要的模型更像 GPU——并行、多样、充满人性的局限与矛盾。前者的目标是超级智能，后者的目标是尽可能地像一个真实的、普通的人。

4. CVS 案例：用 15 分钟访谈，回答无限个问题

Simile 的第一个标杆客户是 CVS——美国最大的连锁药店。

合作的契机，是 CVS 负责“消费者洞察”的高级副总裁偶然读到了 Park 团队的验证论文。CVS 的调研工作长期受困于两个瓶颈：每次问卷能问的问题数量有限，而且根本无法模拟“一个决策在整个市场中引发的二阶影响”。

合作流程是这样运转的：CVS 告知目标人群画像（比如 30 到 45 岁的女性健康消费者），Simile 通过战略合作方 Gallup 触达这批真实用户，用一次 15 分钟的高效访谈采集关键数据，然后基于这些数据构建出对应的 AI Agent 群体。之后，CVS 的研究人员可以通过 SaaS 平台随时向这些 Agent 提问——而问题的范围，远远超出最初那份问卷。

CVS 看到这套系统后，提出了一个更具想象力的方向：他们坐拥 9000 万用户数据，能不能用这些内部数据来进一步微调 Simile 的模型，让模拟更加精准？这开启了一场关于如何合规使用企业数据的深度对话，也指向了 Simile 商业模式中最具价值的一层——用真实企业数据强化模拟能力。

5. 模拟有多准？误差是敌人还是价值？

Simile 用“总变差距离（TVD）”来量化模拟的准确性。TVD 低于 0.15，他们就认为其结果足够支撑真实决策。这个指标同时覆盖定量问答和 RCT 结果预测。

橙红色Simile品牌标识

但更有意思的，是 Park 对“误差”本身的重新定义。

他把模拟分为两类。第一类是收敛型模拟：比如模拟社交网络，必然会涌现出“枢纽节点”（类似 Google PageRank 的幂律分布），这类宏观结论对基础误差有天然的容忍度，跑很多次结果都趋于一致。第二类是发散型模拟：比如模拟选举——同一套参数跑 100 次，很可能给出截然不同的结果。

发散听起来像是系统的缺陷，但 Park 认为恰恰相反。发散本身就是信息：它展示的是可能的未来光谱，让决策者看到不同路径的概率分布，从而为多种情境同时做好准备。Simile 用 Bootstrap 置信度来呈现这种不确定性——跑 100 次，告诉你有多少次结果倒向 A，有多少次倒向 B。

6. 最终的野心：人类社会的哈勃望远镜

商业应用只是起点。Park 和他的联合创始人 Percy Liang 的真正野心，在于用这套系统回答人类最难的那些问题。

他们谈到了宏观经济学（货币政策会如何传导到真实消费者行为？银行挤兑的触发机制是什么？）、气候变化（多国集体行动困境如何打破？）、政治学（民主体制崩溃前有哪些可识别的早期信号？）。他们甚至问：一战是否不可避免？

Percy 的比喻令人印象深刻：最伟大的科学突破，往往始于一次伟大的测量。哈勃望远镜彻底改变了人类对宇宙的理解——而模拟，可以成为人类社会的哈勃望远镜。

Park 相信，这个领域如果做对了，有望诞生诺贝尔奖。他援引了经济学家托马斯·谢林（Thomas Schelling）的故事——谢林当年用极度简化的 Agent 模型，揭示了种族隔离如何从个体的微小偏好中自发涌现，最终获得诺贝尔奖。而今天，我们手中的 Agent 已远比那时复杂与真实。

原文链接：https://www.youtube.com/watch?v=lfhFmwcESRw&t=2s

上一篇：硅基量子芯片关键材料突破：我国实现99.99%丰度硅-28自主量产
下一篇：英特尔押注先进封装：李锡熙回归，陈立武重塑代工战场

AI Agent, 人类行为模拟, Simile, 斯坦福, CVS