云栈社区»论坛 › 技术文档「 Note & Doc 」 › 剖析Kimi的AI Agent：基于阿里云ACK与ACS的弹性架构与实战 ...

发回帖发新帖

4000 积分	0 好友	560 主题

发消息

剖析Kimi的AI Agent：基于阿里云ACK与ACS的弹性架构与实战

发表于 2026-1-25 12:37:16 | 查看: 77| 回复: 0

Kimi 已将 AI Agent 能力成功落地为多种产品形态，在常规对话之外，相继推出了“深度研究”、“Agentic PPT”、“OK Computer”及“数据分析”等多项 Agent 技能。

其 C 端 Agent 业务在高峰期需要承载数以万计的并发请求，每次请求都需要快速分配独立的算力资源来保障用户体验。而在模型训练阶段，强化学习与数据合成同样依赖于海量、隔离的计算资源进行频繁的并行启停。要让智能体真正服务于广大用户，无疑对底层基础设施提出了全新的挑战。

为此，Kimi 与阿里云展开了深度合作，以阿里云容器服务 Kubernetes 版 ACK 和阿里云容器计算服务 ACS 的 Agent Sandbox 为核心，构建了一套端到端的 AI Agent 基础设施体系。

Kimi OK Computer 介绍图

AI Agent 落地需要什么样的基础设施？

Agent 产品并非简单的功能叠加，它代表了一种全新的交互范式：让 AI 能够理解复杂的用户意图，并自主分解任务、调用工具、执行并完成一系列多步骤工作流，从而替代人类完成创造性或分析性工作。

例如，“深度研究”和“OK Computer”功能，主要通过接收自然语言指令，由模型自主规划与反思，驱动一个虚拟的计算机沙箱环境，自动化执行复杂的任务流，包括工具调用、联网搜索、代码调试等。在业务高峰期，系统需要同时处理数以万计的用户请求，每个请求都可能触发一次或多次 Agent 的复杂推理和工具调用。 这就要求系统必须能够为每个用户请求快速分配独立的计算资源，以避免任务间的相互干扰和资源争抢。

除了面向用户的服务，Kimi 在 K2 等新一代模型训练过程中，也进行了大规模的强化学习训练和 Agentic 数据合成。这个过程需要快速启停、并行运行海量的 Agent 实例，以模拟各种复杂的用户行为和任务场景，生成高质量、多样化的交互轨迹数据。因此，Kimi 对于海量算力的弹性供给和运行稳定性提出了极高的要求。

Kimi Agent 场景架构示意图

Kimi Agent 场景示意图

挑战一：沙箱环境如何支撑 Agent 服务的即时响应

沙箱环境的弹性能力与启动速度是首要挑战。AI Agent 任务具有高度的突发性，用户请求可能瞬间激增。传统的虚拟机或容器动辄数分钟的启动时间，对于需要即时响应的 Agent 服务而言是不可接受的。

同时，沙箱环境的隔离性与安全性至关重要。由于 Agent 会执行由大模型生成的、未经人工验证的代码，沙箱必须提供强隔离能力，防止其对其他租户、宿主机或关键系统造成影响。

挑战二：如何满足状态连续性并应对大规模并发调度压力

对于需要长时间运行的 Agent 任务，沙箱需具备灵活的状态保持与恢复能力，以便任务暂停后能快速恢复到之前的执行点，提升任务成功率。

此外，随着用户规模扩大，大规模并发带来的系统稳定性问题日益凸显。当大量用户同时使用 Agent 服务时，整个集群的调度能力、资源争抢以及控制面的压力都将面临巨大考验。

挑战三：如何以最低成本支撑海量并发

合理的成本控制是现实问题。AI Agent 任务通常呈现短时高峰特征，若为峰值需求预置大量资源，会造成巨大浪费。因此，如何实现按需弹性、稳定调度，以最低成本支撑海量并发，是另一大挑战。

Agent Infra 架构图

Agent Infra 架构图

综上所述，AI Agent 对基础设施的核心诉求包括：

大规模弹性的沙箱环境支持，这是保证 Agent 任务执行能力的基石，同时也要求沙箱具备快速启停、安全隔离等特性；
会话级状态保持与长时间运行支持，以满足多轮推理与复杂任务编排的需求；
灵活的工具调用服务和强大的知识与记忆能力，是 Agent 实现更高智能化和持续学习的关键；
完善的 Agent 开发平台和安全监控服务，为产品顺利上线提供保障。

兼具性能、成本与可靠性的 AI Agent 运行底座

通过与阿里云的深度技术协同，Kimi 的 AI Agent 基础设施成功落地，稳定高效地支撑了面向 C 端用户和算法研究员的生产服务。双方合作解决了一系列复杂的技术挑战，涵盖了弹性、成本、稳定性、状态保持和安全等多个维度。

一个快、准、稳的弹性沙箱调度机制

AI Agent 的在线服务流量像潮水一样起伏不定。例如工作日高峰期，系统需要在几秒内启动数千上万个新的沙箱实例，每个都需独立运行、互不干扰。类似需求也出现在模型训练阶段：强化学习或数据合成任务常常要批量启动成百上千个 Agent 实例，需要频繁创建和销毁沙箱环境。

面对这种“既要快、又要准、还得稳”的挑战，阿里云以 ACK 的节点池即时弹性能力和 ACS Agent Sandbox 为核心，为 Kimi 打造了一个高性能、低成本的沙箱环境解决方案。该方案通过容器节点池即时扩容、ACS Agent Sandbox 资源预调度以及智能的资源策略，实现了对 Agent 沙箱环境的精细化管理和高效调度。

ACK 节点池即时弹性与 ACS Agent Sandbox 协同调度架构图

ACK 节点池即时弹性能力与 ACS Agent Sandbox 协同调度

ACK 节点池保障“即时弹性”快速扩容

面对突发流量，ACK 节点池通过支持跨可用区创建、并根据实时负载动态选择最优实例规格，保障了计算资源的快速扩容。这既避免了因单一可用区资源不足导致的扩容失败，又通过多规格适配提升了资源利用率。

为缩短节点初始化时间，ACK 支持将业务镜像、依赖组件预打包至自定义镜像，节点启动时无需重复拉取，初始化时间可降低 60% 以上。同时，ACK 支持数据盘快照加速，通过预置快照快速克隆，使初始化耗时从分钟级降至秒级，非常适合 Agent 沙箱的快速启动场景。

节点池即时弹性扩容流程图

节点池即时弹性扩容

在网络层面，ACK 节点池结合 Terway 网络插件优化，通过预先分配弹性网卡并绑定到待扩容节点，有效避免了网络就绪的无效等待，显著加速了 Pod 的业务流量接入。

结合以上优化，ACK 节点弹性扩容实现了高成功率和分钟级千节点的扩容效率。

ACS Agent Sandbox 实现沙箱环境极速秒级启动

为了进一步满足 Agent 对瞬时、海量、碎片化算力的极致要求，Kimi 使用了 ACS Agent Sandbox 来实现 Agent 沙箱环境的极速启动。

ACS Agent Sandbox 底层采用轻量级虚拟机技术，将虚拟化开销大幅降低。在实际场景中，它实现了大规模并发弹性，满足了数千沙箱秒级启动的要求，能在业务负载突增时即时提供计算资源。这得益于以下优化：

基于阿里云大规模弹性资源池，结合用户负载特征的沙箱资源预调度优化，通过预测预调度、资源复用等手段，节省了调度与创建时间。同时优化了网络、存储端到端的方案，有效缩短单个沙箱冷启动时间。
在镜像拉取维度，ACS Agent Sandbox 基于云盘快照技术提供镜像缓存功能。通过预先将需要使用的镜像制作成镜像缓存，然后基于该缓存来大规模创建沙箱，避免或减少镜像层下载，从而进一步提升启动速度。

此外，Agent 应用启动时往往面临组件依赖加载、应用初始化等资源密集型任务，瞬时资源需求可达稳定态的 2-3 倍。ACS Agent Sandbox 通过 Quota 热更新技术，允许沙箱在创建初期自动获取临时突发资源，待应用启动完成后再平滑回退至基准规格。这一机制避免了因资源不足导致的启动阻塞，实测可使 Python 类沙箱应用启动时间缩短 60% 以上，同时确保了成本可控。

ResourcePolicy 资源调度策略，构建算力分级调度

为整体应对 AI Agent 瞬时高并发、请求高频波动的特性，Kimi 采用阿里云的 ACK ResourcePolicy 构建了常态算力与 Serverless 算力的分级调度体系。

该策略通过声明式配置定义算力分配优先级规则，将预留节点作为基线容量池保障日常稳定负载。当 Pod 排队数超过阈值或等待超时后，系统自动将超额请求溢出调度至 ACS Agent Sandbox 提供的 Serverless 资源池。这种混合模式不仅使 Kimi Agent 的综合成本降低，还将突发峰值承载能力提升了数倍，实现了容量确定性、弹性速度与成本优化的平衡。

一套保障 Agent「持续」待命的机制

另一方面，越来越多的 Agent 任务不再是“一问一答”的短交互，而是需要长时间思考、多步规划的连续过程。如果在这期间系统因资源紧张把沙箱直接销毁，所有中间成果都会丢失。

为避免这种体验，Kimi 要求即使沙箱的计算资源被释放，其内存状态和磁盘数据也能安全保存。当下次用户发起请求时，系统能快速从存储中还原整个环境，实现“秒级唤醒”。这套“休眠-唤醒-克隆”机制不仅保障了任务的连续性，还带来了额外收益：同一个 Agent 状态可以被快速克隆出多个副本，用于强化学习中的多路径探索，既提升了资源利用率，也加速了算法迭代。

实例休眠及唤醒能力

ACS Agent Sandbox 提供了状态保持功能，支持沙箱环境的一键休眠和快速唤醒。使用方式灵活，支持通过原生 K8s Pod 协议、Sandbox CR 或 E2B SDK 触发。

ACS 沙箱休眠与唤醒状态转换图

ACS Agent Sandbox 休眠能力

在成本方面，ACS Agent Sandbox 支持内存状态的持久化。在休眠期间，沙箱的 CPU 和内存资源被释放，从而降低了资源持有成本。休眠期间可按需选择保留内存数据、临时存储文件数据、IP 等。同时，支持数秒快速唤醒 Pod，并完整恢复到休眠前的沙箱环境，实现了成本与体验之间的最佳平衡。

克隆能力，实现 Agent RL 分支路径探索

在休眠功能的基础上，阿里云容器服务团队同步研发了实例克隆能力。它支持制作内存级别的快照，并基于一个快照瞬时创建大量初始状态一致的实例。通过在存算分离架构下复用同一份底层快照，克隆操作无需重新加载依赖或初始化内存，大规模实例可以在数秒内并行就绪。

在 AI Agent 的强化学习场景中，常见如蒙特卡洛树搜索这类算法，需要在一个节点的基础上同时模拟多条不同的未来路径以评估最佳行动。通过克隆能力，可以瞬间生成数千个拥有相同状态的沙箱副本，每个副本负责一条路径的模拟，极大地加速了搜索过程。

一个扛住十万级 Pod 的稳定调度底座

随着使用 Kimi Agent 的用户持续增长，后台并发运行的 Pod 规模迅速攀升至数万甚至十万级别。如此大规模的 Pod 频繁创建、调度和销毁，对 Kubernetes 集群的核心组件，尤其是调度器和 API Server 带来了巨大压力。

调度器性能大幅提升

阿里云容器服务 ACK 针对大规模 AI 负载场景，对 Kubernetes 核心组件进行了深度优化。在调度器层面，通过参数调整提高了队列处理深度以及单个 Pod 的处理速度。同时，通过对相似 Pod 调度结果的中间缓存以及不同链路的并行处理，成倍减少了相似 Pod 的调度开销，最终实现了千节点规模下每秒数百 Pod 的调度效率，性能提升至开源版本的数倍。

API Server 稳定性改进

ACK 管控侧针对 Agent 场景沙箱快速弹起、快速释放的特点，基于大规模多可用区高可用架构部署。并对 ETCD、API Server、KCM、VK、Scheduler、ACS 管控等组件做了全链路端到端参数优化。管控组件支持动态弹性扩容，以满足 Agent 沙箱秒级弹性和高并发 API 访问的诉求。

一套让 Agent“记得住、找得准”的搜索与记忆机制

高质量的搜索和记忆服务，是构建复杂 Agent 的关键基础。在 Agent 任务执行前、中，都会高频依赖搜索从互联网精准获取高质量信息。而 Agent 的“记忆”能力，能保证其在跨会话场景中维持连贯性，带来更多个性化体验。

阿里云多模数据库 Lindorm 通过存储计算分离、多引擎共享融合的云原生架构，帮助 Kimi 构建了具备高效检索和海量存储能力的记忆与搜索模块，这也是构建智能系统的重要环节。

Lindorm 多引擎能力架构图

Lindorm 多引擎能力

通过该方案，Kimi 取得了如下收益：

稳定易开发：Lindorm 集成了宽表引擎、搜索引擎、向量引擎、AI 引擎四大核心组件，数据在内部自动流转，无需自建同步链路。对比开源自建方案，提供了更稳定、统一便捷的开发方式。
双路召回：Lindorm 原生支持基于 RRF 的全文-向量双路召回能力，并支持用户设置自定义权重。
存储成本优化：Lindorm 支持云盘、OSS 等多种存储，并内置深度优化的压缩算法，比开源方案减少 30%~50% 存储成本。

一套让 Agent“互不打扰”的安全隔离防护

在多租户环境下，不同用户的 AI Agent 实例共享同一套物理集群资源，安全隔离是底线：必须确保每个用户的 Agent 都运行在独立的环境中，既不能读取或干扰他人的数据，也无法越权执行系统操作。

运行时安全隔离

ACS Agent Sandbox 基于 MicroVM 安全沙箱技术，为每个 Agent 任务提供独立的、硬件级别的计算安全隔离环境。同时，结合 Network Policy、Fluid 等能力，提供 Pod 级别网络、存储的端到端安全运行环境。

存储挂载隔离能力

在 Agent 持久化存储方面，文件存储支持为每个 Agent 实例动态分配独立的子目录或存储卷，在共享存储池上构建逻辑隔离的存储空间，同时通过访问控制列表严格限制各实例的读写权限。这种架构既发挥了共享存储的弹性优势，又实现了存储层面的强隔离。

网络隔离能力 NetworkPolicy

在 Kimi 的 Agent 服务中，使用了阿里云 NetworkPolicy 来限制 Agent 之间的网络通信，防止恶意访问。NetworkPolicy 支持命名空间隔离、端口控制及流量路由。在大规模集群场景下，阿里云还提供了优化方案，确保策略管理不会给 Kubernetes 管控带来过大压力。

面向生产级 AI Agent，兼具效率和成本的落地基础

面向企业级 AI Agent 应用的规模化落地，Kimi 借助阿里云全新推出的 ACS Agent Sandbox 这一高性能、低成本、开箱即用的沙箱环境解决方案，协同 ACK 构建了坚实的 AI Agent 基础设施。

该方案成功支撑了“深度研究”和“OK Computer”等产品的顺利上线，不仅在高峰场景下实现了数万沙箱/分钟的极致弹性扩容能力，还将沙箱启动时间缩短了一半以上。在保障系统在大规模并发下稳定运行的同时，极大地降低了任务响应延迟，并有力提升了模型后训练阶段的效率。

此外，通过常态算力与 Serverless 算力的智能调度策略，Kimi Agent 的整体 TCO 成本大幅降低。使用实例休眠唤醒能力，也进一步优化了长周期任务的资源持有成本。综合阿里云上丰富的 PaaS 及安全监控能力，这套基础设施方案不仅满足了当前复杂的 AI Agent 应用场景，更为未来构建更智能、更自主的 AI 系统奠定了坚实的技术基础。

想深入探讨更多关于云原生与 AI 基础设施的实践，欢迎访问云栈社区，与广大开发者交流分享。

上一篇：创业项目实战：倾听机App情绪化表情设计全流程解析
下一篇：大厂技术选型：为何Go语言在高并发与工程效率上脱颖而出

智能体, Kubernetes, 云原生, 强化学习, 容器计算

剖析Kimi的AI Agent：基于阿里云ACK与ACS的弹性架构与实战

AI Agent 落地需要什么样的基础设施？

兼具性能、成本与可靠性的 AI Agent 运行底座

面向生产级 AI Agent，兼具效率和成本的落地基础

相关帖子