在大模型能力如此强大的当下,模型背后智能的生产和交付,仍远没有实现工业化。
九章云极副总裁胡宗星给出了一个直观的数据对比:顶级 8 卡 GPU 服务器的聚合内存带宽,理论上支持每秒生成约 1000 个 Token;但在实际工程中,主流推理框架的解码速度往往只有几十 Token/s,中间存在超过 10 倍的性能鸿沟。
这道鸿沟来自推理系统里的“执行间隙”。GPU 本身并不缺理论算力,但在真实推理链路中,不同计算任务之间会出现等待,通信和计算也很难充分并行。尤其在解码阶段,单个 Kernel 的执行时间可能只有微秒级,CPU 与 GPU 之间频繁的启动、调度和同步,反而会成为关键瓶颈。再加上 KV Cache 等推理状态需要在 HBM、DRAM、NVMe 等不同存储层级之间反复搬运,这些都使得算力消耗在等待、同步和数据移动中,而客户最后为这道性能鸿沟买单。
这说明,智能的工业化不能只追求更大的算力规模,也不能只比较更低的 Token 单价。真正重要的是同样的能源和算力投入,能不能生产出更多有效 Token;同样的 Token 消耗,能不能完成更多业务任务。因此,AI 基础设施需要同时回答智能如何计量,以及智能如何生产。
“我们正处于智能工业化时代的拐点,但现在,一个更根本、更现实的考验摆在我们所有人面前:时代所需要的不仅是技术突破,更是‘智能生产力’的突破。”九章云极 DataCanvas 公司创始人、董事长方磊说。

在 6 月 17 日的发布会上,九章云极提出 AI 工厂战略,并发布 Alaya NeW Cloud 3.0。训练工厂负责把通用智能生产为专业模型,Token 工厂负责把专业模型封装为可调用、可计量、可保障的专业 Token。与此同时,九章还提出了 DCU 与 Token 的度量体系,以及围绕推理效率、状态复用、跨集群调度和算电协同展开的一系列底层工程设计。

成立 13 年来,九章云极经历了 AI 的多轮浪潮,也走过了 PaaS、云、智算平台的多次转型。现在,它试图把自己从算力资源提供者,进一步推向智能工业生产者,组织智能的生产、计量、流通和交付。走进云栈社区,你会发现类似的从底层算力到上层服务的架构演进,正成为技术人热议的焦点。
1 智能工业化的第一步:统一度量衡
智能走向工业化的第一道关卡,是建立统一度量衡,即用什么指标,来衡量智能的生产、交易与交付。
过去,AI 基础设施主要围绕资源计量。企业买算力,看 GPU 数量、显存规模、集群性能;买模型服务,看参数规模、API 调用量、Token 单价。这些指标都重要,但它们描述的主要是供给侧。它们能说明厂商有多少资源、模型有多大、调用有多便宜,却不能回答企业真正关心的问题:一次任务能不能完成,结果是否可靠,响应是否够快,失败和重试会不会把总成本推高。
因此,九章云极提出,AI 基础设施要从“资源计量”转向“智能计量”。
在九章云极看来,Token 是最适合作为智能计量的基础单位。模型接收输入、处理信息、生成输出,都围绕 Token 展开。相比 GPU、参数和 API 调用量,Token 更接近智能被加工和交付的过程。但 Token 只是基础单位,还不是价值单位,更有计量价值的概念是“有效 Token”。一个模型可以生成很多 Token,但如果回答错误、响应超时、无法进入业务流程,这些 Token 对客户来说仍然没有意义。
一个有效 Token,至少要同时满足几个条件:请求成功,质量达标,时延达标,并且能够进入真实业务流程。只有这样的 Token,才构成可交付的智能产出。
胡宗星指出,企业真正关心的不是 Token 单价,而是有效 Token——那些请求成功、质量达标、时延可控、能够进入真实业务流程的 Token。客户买的不是便宜 Token,而是更低的任务完成成本。
基于这一判断,九章云极对 Token 进行了重新分级:将专业 Token 划分为消费级、专业级和前沿级三个层级。消费级 Token 是智能社会的“基础电力”;专业级 Token 封装行业知识与合规逻辑,让企业购买的是效率、风控与决策支持;前沿级 Token 面向高复杂度科研场景。九章云极的战略聚焦,在于企业级与前沿级 Token。
当计量单位发生变化,基础设施的形态也必须发生变化。企业需要的就是一套完整的生产体系:它既要把通用模型训练成能解决具体业务问题的专业模型,也要把这些模型能力封装成稳定、可计量、可调度、可保障的专业 Token。也是在这个背景下,九章云极提出了“训练工厂 + Token 工厂”。
2 打造智能工业化的训练和 Token 工厂
统一度量衡之后,新的问题出现了:有效 Token 从哪里来?
九章云极认为,有效 Token 不能单纯通过通用模型得到,它需要被专业生产。训练工厂负责生产专业模型,Token 工厂负责交付专业 Token。前者解决模型能力是否足够专业,后者解决专业能力能否稳定进入业务。
训练工厂把通用模型加工成能处理具体业务任务的专业模型。这个过程需要领域数据、强化学习、精调、评测反馈和持续优化。通用模型提供基础能力,训练工厂负责把这些基础能力压进具体行业、具体场景、具体任务里。专业模型训练出来之后,还不能直接变成企业可消费的智能商品。企业需要的不是一个模型文件,而是稳定 API、权限管理、版本管理、SLA 保障、成本控制和按需调用能力。Token 工厂要做的,是把专业模型封装成标准化、可计量、可调度、可保障的专业 Token。这样,模型能力才能从一次性项目交付,变成可以反复调用、持续复用、按量计费的智能服务。
训练工厂的算力投入用 DCU 衡量,Token 工厂的智能产出用专业 Token 衡量。DCU 解决算力侧的问题:传统算力计量往往围绕 GPU 卡数、核时或集群规模展开,但这些指标很难反映不同硬件、不同架构、不同调度方式之间的真实效率差异。DCU 的意义,是把复杂的异构算力抽象成更统一的计算单位,让客户不必理解底层硬件拓扑,也能像采购电力一样采购算力。Token 解决智能侧的问题:抽象的模型能力无法直接买卖,必须变成可度量、可定价、可交付的商品。专业 Token 的意义,是把昂贵、复杂、稀缺的模型能力,转化为可以按量调用、持续复用、标准化交付的智能单元。
这就意味着,企业可以按业务需求调用专业智能。AI 服务可以像水电一样,按需接入、按量计费、持续运营。
3 如何通过 AI 工厂,把算力转化为更多有效 Token?
水电之所以能被按需使用,背后有发电、输配、计量、调度和运维系统。专业智能也一样。一个模型能力要变成企业可以稳定购买和使用的专业 Token,背后要先经过接入、训练、封装、推理、缓存、调度和计费。九章云极这次发布的产品体系,正是沿着这条链路展开。
最前端的 Aladdin 处理算力入口问题。过去,算力大多藏在后台。客户买 GPU、开实例、配环境、调集群,再把模型和应用部署上去。算力已经存在,但离开发者、Agent 和业务流程还有距离。每一次接入、调试、迁移、部署,都会消耗工程时间,也会拉长 AI 应用进入生产的周期。Aladdin 要把算力推到使用者手边。通过 IDE 插件、CLI、SDK、Skills Hub 等入口,开发者和 Agent 可以更直接地调用算力、工具和模型能力。算力不再只是后台资源池里的配额,而变成开发链路和任务链路中的可调用能力。这一步影响的是智能生产的起点:企业要使用专业 Token,首先要让算力和模型能力进入业务系统。如果每次调用都要从环境配置、资源申请、接口适配开始,智能服务就很难像水电一样即插即用。Aladdin 缩短的是从算力资源到业务任务的距离。
第二层是训练工厂。它处理的是专业能力来源问题。通用模型具备基础能力,但企业场景里的问题通常更具体。金融、制造、政务、科研,对数据结构、行业知识、业务流程、合规边界和结果稳定性都有要求。模型能生成一段流畅文本,不代表它能完成一个生产任务。训练工厂负责把通用模型加工成专业模型。它通过大规模训练底座、领域精调、强化学习、评测反馈和持续优化,把模型能力压进具体行业、具体场景、具体任务里。这一步决定专业 Token 的质量基础。模型越懂业务,越能减少无效回答、失败重试和人工兜底。客户消耗的 Token 数量未必最低,但更大比例会变成可用结果。对企业来说,重要的不是一次调用生成多少内容,而是一个任务最终花了多少成本完成。
第三层是 Token 工厂。它处理的是专业能力的商品化问题。专业模型训练出来之后,还不能直接成为企业可消费的智能商品。企业需要稳定 API、权限体系、版本管理、密钥管理、计量计费、SLA 保障和成本控制。模型能力只有经过这层封装,才能进入企业系统,成为可以采购、调用和结算的服务。Token 工厂把专业模型封装成专业 Token。一方面,它完成服务封装:专业模型通过 API、SDK、权限、版本和计量体系进入企业应用,客户可以按任务、按服务等级、按调用规模使用模型能力。另一方面,它完成推理优化:不同任务需要的模型、上下文长度、响应速度和成本约束不同。简单任务调用大模型,会浪费算力;复杂任务交给小模型,会带来失败和重试。Token 工厂通过量化、动态路由、KV 缓存、弹性伸缩等机制,为不同任务选择更合适的模型和推理路径。
胡宗星介绍,目前 Alaya NeW 平台预制了 DeepSeek、GLM、Kimi、Minimax、Qwen 等 50 余款主流大模型,并且还在此基础上沉淀了 100 多款精调版本,覆盖金融、制造、政务、科研等真实行业场景。
再往下,是 Inference OS。它处理的是推理过程中的状态管理和执行调度。

Agent 时代的推理中,一个任务可能包含多轮对话、长上下文、多次工具调用、失败重试和中间结果。成本也不只发生在 Token 生成本身,还发生在上下文重算、状态搬运、工具等待和跨节点同步里。Inference OS 管理 KV cache、会话状态、历史上下文、工具调用结果、prefill/decode 分工、模型路由、内存层级和跨节点状态迁移。在长上下文和 Agent 任务中,这些状态会直接影响推理成本。已经计算过的上下文,需要尽量复用;需要长期保留的会话状态,需要放在合适的内存或存储层级;prefill 和 decode,需要根据硬件条件、任务类型和服务等级拆开调度;工具调用结果和中间状态,也需要被记录、复用和管理。Inference OS 提升的是整条推理链路的执行效率。它压低等待、同步、搬运和重复计算,让更多算力进入真正的 Token 生成。
DingoFS Connector 则进一步处理 KV cache 的跨请求、跨节点复用。KV cache 是长上下文和多轮任务里的重要状态资产。上下文越长,工具调用越多,重复 prefill 的成本越高。如果每次请求都重新计算相同上下文,推理成本会被不断放大。如果 KV cache 只能留在单卡、单节点、单请求里,复用范围也会受限。DingoFS Connector 把已经计算过的 KV cache 纳入统一管理,让它可以跨请求、跨节点复用。这对 Agent 任务尤其重要。多轮对话、长文档处理、复杂工具链调用,都会产生大量可复用的上下文和中间状态。KV cache 复用做得越好,专业 Token 的交付成本越低,响应也越稳定。
最底层是全栈智算底座。它处理的是生产和交付的稳定性。训练需要大规模集群,推理需要精细调度,缓存需要高性能存储,模型需要版本和权限,跨地域资源需要统一管理,计费系统也要跟着每一次调用发生。这些能力分散在算力、存储、网络、数据库、调度和运维系统里,任何一层不稳定,都会影响上层专业 Token 的交付。Alaya NeW Cloud 3.0 纳管英伟达、AMD、昇腾等异构算力,把不同地域、不同架构、不同集群放进统一调度体系。同时,DingoStack 负责承接底层算力和网络资源,DingoFS 和 DingoDB 承接训练和推理中不断流动的数据、模型、状态和缓存。当资源分布在多个智算中心,调度还要跨地域发生。当 Token 成本越来越接近能源成本,计算任务也要和电力条件联动。九章云极还提供算电协同,任务根据资源空闲度、电力价格和能源供给,被安排到更合适的时间和地点运行。底座的价值最终体现在资源组织效率上。工业化的智能竞争走到最后,不再只拼单个模型、单块芯片或单次推理请求,而是拼能源、算力、存储、网络、模型和调度之间的协同效率。在智能 & 数据 & 云板块,你可以看到更多关于异构算力调度与模型服务化的深度讨论。
4 从能力和资源供给,到交付智能
算力仍是 AI 的底座,但企业购买 AI 的理由正在变化。它们需要的,已经不只是更大的集群、更便宜的调用,而是能进入业务流程的模型能力,更低的任务成本,以及可持续保障的服务结果。这也意味着,AI 基础设施的竞争正在向中间层深入。训练、推理、缓存、调度、计量、计费和 SLA,不再只是后台工程,而会直接影响客户每一次任务的成本、成功率和稳定性。
九章云极提出 AI 工厂战略,正试图回应这个变化。训练工厂负责把通用智能加工成专业模型,Token 工厂负责把模型能力封装成可计量、可调度、可交付的专业 Token。两者连接起来,指向的是算力到可用智能的转换效率。“同样的 DCU,能不能生产出更多、更稳定、更高价值的专业 Token,这就是工厂效率,也是客户价值。”胡宗星说。这也意味着,Result as a Service 的压力,正从 SaaS 平台延伸到 AI 基础设施。AI 基础设施供应商要面对更高标准。资源规模和调用价格之外,行业会继续追问:客户购买的 Token,能在多大程度上转化为可验证的业务结果。