市值2000亿美元的电商巨头 Shopify,已将 AI 深度嵌入全员日常工作。到 2025 年底,其内部 AI 工具的日活覆盖率接近 100%,内部 Token 用量呈指数级暴涨——这才是它 AI 转型的真正拐点。
本期内容源自 AI 工程师顶级播客《Latent Space: The AI Engineer Podcast》,嘉宾是 Shopify 首席技术官 Mikhail Parakhin,他曾执掌微软 Windows、Edge、Bing 等核心业务单元。这场访谈完整拆解了 Shopify 的 AI 落地全链路,无论你是 AI 从业者、电商创业者还是企业技术管理者,都能从中窥见企业级 人工智能 落地的真实场景与核心挑战。
全员 AI 化:2025 年底覆盖率 100%,Token 预算无上限
Shopify 内部 AI 工具的日活员工占比已接近 100%,几乎所有员工都无法脱离 AI 工具来完成日常工作。
Mikhail Parakhin 透露:“我们为所有员工提供了不限额度的 Token 预算,要求至少使用 Opus-4.6 档次,不少资深员工会主动选择更高阶的模型版本。”这意味着 Shopify 彻底放弃了内部 AI 使用的成本枷锁,不再让团队为 Token 额度这件事纠结,倒逼全员主动拥抱 AI 工具。
2025 年 12 月是 Shopify AI 使用的爆发拐点。大模型性能的小幅积累最终带来了全面落地的质变。其中,CLI 类轻量化 AI 工具的增速远超 GitHub Copilot、Cursor 这类与 IDE 深度绑定的工具,更适配电商团队快速迭代的工作场景。
内部 Token 使用量呈现指数增长,且用户间的消耗分布愈发倾斜,头部 10% 用户的增速远超普通用户。Mikhail 坦言:“这确实有点反常,但早期由 AI 熟练用户主导是正常现象,后续通过内部培训可以逐步改善分布。”这其实也是企业 AI 落地初期的普遍现象——技能分布不均会导致资源倾斜,但 Shopify 已明确通过内部培训进行优化的路径。
AI 编码误区:真正的瓶颈不在生成,而在评审环节
很多人认为 AI 编码的核心瓶颈是生成速度,但 Shopify 的实践给出了完全不同的答案。
Mikhail Parakhin 明确指出:AI 编码的真正瓶颈不在生成,而在评审、CI/CD 与部署稳定性。这打破了很多团队固守的认知——大家总在追求更快的代码生成速度,可 Shopify 的实践证明,代码质量和落地效率才是真正的卡点。
单纯堆砌并行代理是典型的反模式,高效的做法是设置跨模型评审循环:让不同质量的模型互相校验、优化。虽然单轮延迟会升高,但能大幅减少后续测试与回滚的整体成本。
Shopify 目前没有使用第三方 PR 评审工具,而是自研了内部系统。Mikhail 解释:“我们需要顶级模型轮流评审,而非一堆廉价并行代理,这才能在效率与代码质量之间找到平衡。”
Shopify 的 PR 合并月增速已从 10% 提升至 30%,代码复杂度持续攀升,传统的 Git 与 CI/CD 范式已经开始承压。你不妨想想,现有的 Git 和 PR 协作模式,真的能适配机器快速写代码的时代吗?
自研实验平台:Tangle + Tangent,把 AI 实验从混乱变量中解放
传统数据科学流程痛点很多:实验难以复现、版本混乱、协作割裂,从开发到生产的过渡成本极高。
Mikhail 介绍:“我们打造了第三代 ML 实验平台 Tangle,专门解决团队协作下的实验管理难题。”Tangle 基于内容哈希缓存,能自动复用重复任务的结果,大幅提升效率。同时,它支持多语言、可视化编辑,可一键从实验切换到生产环境,完整保留版本控制。
基于 Tangle 的 Tangent 则是一个自动研究循环工具,参考了 Andrej Karpathy 推广的 auto-research 框架。Tangent 让 AI 开发不再是 ML 工程师的专属,产品经理也能借助领域知识直接优化搜索、主题、存储等业务环节,不必依赖专业技术团队。
Shopify 已通过 Tangent 实现了多项业务突破:将索引服务 QPS 从 800 提升至 4200,优化 Liquid 主题延迟,还自动识别并清除了大量冗余数据表。这极大降低了电商 AI 落地的门槛,让非技术岗的业务人员也能参与 AI 优化,加速了业务迭代的速度。
电商 AI 护城河:SimGym,用十年用户数据打造的真实客户模拟器
SimGym 是 Shopify 最具辨识度的 AI 工具之一,其核心在于模拟真实的客户购物行为,为商家提供优化建议。
Mikhail 强调:SimGym 的核心护城河是 Shopify 十年积累的商家与用户行为数据。没有这份历史数据,客户模拟只会按 prompt 重复内容,毫无实际价值。很多 AI 工具靠通用 prompt 也能做模拟,但 Shopify 的 SimGym 依托十年真实交易数据,能精准还原用户购物行为,这是其他竞品抄不走的核心优势。
SimGym 最初用于对比 A/B 测试方案,内部目标是让模拟结果与真实 A/B 测试的相关性达到 0.7,目前已经实现并落地。现在的 SimGym 已升级为直接给新商家提供网站优化建议,比如纠正了一条“放大商品图片能提升销量”的设计师直觉——模拟显示该操作反而会降低转化率。
模拟客户行为需要极高的成本,包括多模态模型、浏览器仿真、模型蒸馏等环节,Shopify 正持续优化这些环节以降低开销。SimGym 还用到了中国餐馆过程(CRP)进行品类聚类,针对不同品类的客户行为差异做精细化优化。
当前主流 AI 架构以 Transformer 为主,但 Shopify 正在测试并落地 Liquid 神经网络,这是一种非 Transformer 架构。
Mikhail 解释:“Liquid 是状态空间模型(SSM)的进阶版本,表达能力强于 SSM,上下文长度为亚二次,兼具低延迟与高吞吐量优势。”这是他见到的第一个真正能打的非 Transformer 架构,在低延迟搜索和离线批量任务上表现远超 Qwen 等主流模型。
Liquid 模型在 Shopify 有两大核心应用场景:一是 300M 参数的轻量模型,端到端延迟控制在 30ms 内,用于实时查询理解与个性化搜索;二是通过蒸馏大模型到 Liquid 架构,实现商品分类、属性提取等离线批量任务。
Liquid 模型是 Shopify 当前最具性价比的非 Transformer 架构选择,团队会持续对比测试其他模型,始终以实际效果为选择标准。Shopify 近期还发布了 UCP 统一目录平台,整合全平台商品搜索、批量查询、个性化搜索能力,优化身份链接以降低用户摩擦。
彩蛋与招聘:从必应 Sydney 到 Shopify 的人才需求
访谈中还聊到了必应 Chat 早期的 Sydney 项目,Mikhail 分享了不少细节。早期 Sydney 使用的是微软与 NVIDIA 合作的 Megatron 模型,而非 GPT,团队为此投入了大量精力进行人格塑造。
Mikhail 提到:“Sydney 早期在印度首发时,被不少用户当成人工假扮,因为当时公众对 LLM 的认知还很有限。”这段细节也折射出早期大模型落地时的公众认知鸿沟。值得一提的是,如今 Shopify 团队里依然有当年 Sydney 的核心成员,算是技术班底的一种延续。
目前,前 Sydney 开发负责人 Andrew McNamara 正在 Shopify 负责 Sidekick 与 Pulse 项目,堪称团队再度集结。
Shopify 当前的招聘需求集中在三个领域:机器学习、数据科学,以及 分布式系统 数据库。Mikhail 补充说:“我们正在探索用 AI 重构分布式数据库,这是一个极有潜力的方向,欢迎相关人才加入。”
总结
本期访谈完整展现了 Shopify 从电商工具平台到 AI 技术公司的转型路径:从全员无上限使用 AI 工具,到解决 AI 编码的真实瓶颈,再到自研实验平台、客户模拟器与非 Transformer 架构。三大自研工具加十年数据护城河,共同构建了 Shopify 难以复制的竞争优势。
内容适合 AI 从业者、电商创业者、企业技术管理者阅读,能帮你跳出 AI hype,看清企业级 AI 落地的真实场景与核心挑战。