云栈社区»论坛 › 站务中心「 Forum Service 」 › Token 成计量单位，AI 基础设施如何构建双工厂模式？ ...

发回帖发新帖

4298 积分	0 好友	560 主题

发消息

Token 成计量单位，AI 基础设施如何构建双工厂模式？

发表于 2026-6-18 23:54:40 | 查看: 93| 回复: 0

在大模型能力如此强大的当下，模型背后智能的生产和交付，仍远没有实现工业化。

九章云极副总裁胡宗星给出了一个直观的数据对比：顶级 8 卡 GPU 服务器的聚合内存带宽，理论上支持每秒生成约 1000 个 Token；但在实际工程中，主流推理框架的解码速度往往只有几十 Token/s，中间存在超过 10 倍的性能鸿沟。

这道鸿沟来自推理系统里的“执行间隙”。GPU 本身并不缺理论算力，但在真实推理链路中，不同计算任务之间会出现等待，通信和计算也很难充分并行。尤其在解码阶段，单个 Kernel 的执行时间可能只有微秒级，CPU 与 GPU 之间频繁的启动、调度和同步，反而会成为关键瓶颈。再加上 KV Cache 等推理状态需要在 HBM、DRAM、NVMe 等不同存储层级之间反复搬运，这些都使得算力消耗在等待、同步和数据移动中，而客户最后为这道性能鸿沟买单。

这说明，智能的工业化不能只追求更大的算力规模，也不能只比较更低的 Token 单价。真正重要的是同样的能源和算力投入，能不能生产出更多有效 Token；同样的 Token 消耗，能不能完成更多业务任务。因此，AI 基础设施需要同时回答智能如何计量，以及智能如何生产。

“我们正处于智能工业化时代的拐点，但现在，一个更根本、更现实的考验摆在我们所有人面前：时代所需要的不仅是技术突破，更是‘智能生产力’的突破。”九章云极 DataCanvas 公司创始人、董事长方磊说。

基于AI工厂锻造的新一代智算云舞台演讲

在 6 月 17 日的发布会上，九章云极提出 AI 工厂战略，并发布 Alaya NeW Cloud 3.0。训练工厂负责把通用智能生产为专业模型，Token 工厂负责把专业模型封装为可调用、可计量、可保障的专业 Token。与此同时，九章还提出了 DCU 与 Token 的度量体系，以及围绕推理效率、状态复用、跨集群调度和算电协同展开的一系列底层工程设计。

Alaya NeW Cloud 3.0 AI 双工厂基础设施全景图

成立 13 年来，九章云极经历了 AI 的多轮浪潮，也走过了 PaaS、云、智算平台的多次转型。现在，它试图把自己从算力资源提供者，进一步推向智能工业生产者，组织智能的生产、计量、流通和交付。走进云栈社区，你会发现类似的从底层算力到上层服务的架构演进，正成为技术人热议的焦点。

1 智能工业化的第一步：统一度量衡

智能走向工业化的第一道关卡，是建立统一度量衡，即用什么指标，来衡量智能的生产、交易与交付。

过去，AI 基础设施主要围绕资源计量。企业买算力，看 GPU 数量、显存规模、集群性能；买模型服务，看参数规模、API 调用量、Token 单价。这些指标都重要，但它们描述的主要是供给侧。它们能说明厂商有多少资源、模型有多大、调用有多便宜，却不能回答企业真正关心的问题：一次任务能不能完成，结果是否可靠，响应是否够快，失败和重试会不会把总成本推高。

因此，九章云极提出，AI 基础设施要从“资源计量”转向“智能计量”。

在九章云极看来，Token 是最适合作为智能计量的基础单位。模型接收输入、处理信息、生成输出，都围绕 Token 展开。相比 GPU、参数和 API 调用量，Token 更接近智能被加工和交付的过程。但 Token 只是基础单位，还不是价值单位，更有计量价值的概念是“有效 Token”。一个模型可以生成很多 Token，但如果回答错误、响应超时、无法进入业务流程，这些 Token 对客户来说仍然没有意义。

一个有效 Token，至少要同时满足几个条件：请求成功，质量达标，时延达标，并且能够进入真实业务流程。只有这样的 Token，才构成可交付的智能产出。

胡宗星指出，企业真正关心的不是 Token 单价，而是有效 Token——那些请求成功、质量达标、时延可控、能够进入真实业务流程的 Token。客户买的不是便宜 Token，而是更低的任务完成成本。

基于这一判断，九章云极对 Token 进行了重新分级：将专业 Token 划分为消费级、专业级和前沿级三个层级。消费级 Token 是智能社会的“基础电力”；专业级 Token 封装行业知识与合规逻辑，让企业购买的是效率、风控与决策支持；前沿级 Token 面向高复杂度科研场景。九章云极的战略聚焦，在于企业级与前沿级 Token。

当计量单位发生变化，基础设施的形态也必须发生变化。企业需要的就是一套完整的生产体系：它既要把通用模型训练成能解决具体业务问题的专业模型，也要把这些模型能力封装成稳定、可计量、可调度、可保障的专业 Token。也是在这个背景下，九章云极提出了“训练工厂 + Token 工厂”。

2 打造智能工业化的训练和 Token 工厂

统一度量衡之后，新的问题出现了：有效 Token 从哪里来？

九章云极认为，有效 Token 不能单纯通过通用模型得到，它需要被专业生产。训练工厂负责生产专业模型，Token 工厂负责交付专业 Token。前者解决模型能力是否足够专业，后者解决专业能力能否稳定进入业务。

训练工厂把通用模型加工成能处理具体业务任务的专业模型。这个过程需要领域数据、强化学习、精调、评测反馈和持续优化。通用模型提供基础能力，训练工厂负责把这些基础能力压进具体行业、具体场景、具体任务里。专业模型训练出来之后，还不能直接变成企业可消费的智能商品。企业需要的不是一个模型文件，而是稳定 API、权限管理、版本管理、SLA 保障、成本控制和按需调用能力。Token 工厂要做的，是把专业模型封装成标准化、可计量、可调度、可保障的专业 Token。这样，模型能力才能从一次性项目交付，变成可以反复调用、持续复用、按量计费的智能服务。

训练工厂的算力投入用 DCU 衡量，Token 工厂的智能产出用专业 Token 衡量。DCU 解决算力侧的问题：传统算力计量往往围绕 GPU 卡数、核时或集群规模展开，但这些指标很难反映不同硬件、不同架构、不同调度方式之间的真实效率差异。DCU 的意义，是把复杂的异构算力抽象成更统一的计算单位，让客户不必理解底层硬件拓扑，也能像采购电力一样采购算力。Token 解决智能侧的问题：抽象的模型能力无法直接买卖，必须变成可度量、可定价、可交付的商品。专业 Token 的意义，是把昂贵、复杂、稀缺的模型能力，转化为可以按量调用、持续复用、标准化交付的智能单元。

这就意味着，企业可以按业务需求调用专业智能。AI 服务可以像水电一样，按需接入、按量计费、持续运营。

3 如何通过 AI 工厂，把算力转化为更多有效 Token？

水电之所以能被按需使用，背后有发电、输配、计量、调度和运维系统。专业智能也一样。一个模型能力要变成企业可以稳定购买和使用的专业 Token，背后要先经过接入、训练、封装、推理、缓存、调度和计费。九章云极这次发布的产品体系，正是沿着这条链路展开。

最前端的 Aladdin 处理算力入口问题。过去，算力大多藏在后台。客户买 GPU、开实例、配环境、调集群，再把模型和应用部署上去。算力已经存在，但离开发者、Agent 和业务流程还有距离。每一次接入、调试、迁移、部署，都会消耗工程时间，也会拉长 AI 应用进入生产的周期。Aladdin 要把算力推到使用者手边。通过 IDE 插件、CLI、SDK、Skills Hub 等入口，开发者和 Agent 可以更直接地调用算力、工具和模型能力。算力不再只是后台资源池里的配额，而变成开发链路和任务链路中的可调用能力。这一步影响的是智能生产的起点：企业要使用专业 Token，首先要让算力和模型能力进入业务系统。如果每次调用都要从环境配置、资源申请、接口适配开始，智能服务就很难像水电一样即插即用。Aladdin 缩短的是从算力资源到业务任务的距离。

第二层是训练工厂。它处理的是专业能力来源问题。通用模型具备基础能力，但企业场景里的问题通常更具体。金融、制造、政务、科研，对数据结构、行业知识、业务流程、合规边界和结果稳定性都有要求。模型能生成一段流畅文本，不代表它能完成一个生产任务。训练工厂负责把通用模型加工成专业模型。它通过大规模训练底座、领域精调、强化学习、评测反馈和持续优化，把模型能力压进具体行业、具体场景、具体任务里。这一步决定专业 Token 的质量基础。模型越懂业务，越能减少无效回答、失败重试和人工兜底。客户消耗的 Token 数量未必最低，但更大比例会变成可用结果。对企业来说，重要的不是一次调用生成多少内容，而是一个任务最终花了多少成本完成。

第三层是 Token 工厂。它处理的是专业能力的商品化问题。专业模型训练出来之后，还不能直接成为企业可消费的智能商品。企业需要稳定 API、权限体系、版本管理、密钥管理、计量计费、SLA 保障和成本控制。模型能力只有经过这层封装，才能进入企业系统，成为可以采购、调用和结算的服务。Token 工厂把专业模型封装成专业 Token。一方面，它完成服务封装：专业模型通过 API、SDK、权限、版本和计量体系进入企业应用，客户可以按任务、按服务等级、按调用规模使用模型能力。另一方面，它完成推理优化：不同任务需要的模型、上下文长度、响应速度和成本约束不同。简单任务调用大模型，会浪费算力；复杂任务交给小模型，会带来失败和重试。Token 工厂通过量化、动态路由、KV 缓存、弹性伸缩等机制，为不同任务选择更合适的模型和推理路径。

胡宗星介绍，目前 Alaya NeW 平台预制了 DeepSeek、GLM、Kimi、Minimax、Qwen 等 50 余款主流大模型，并且还在此基础上沉淀了 100 多款精调版本，覆盖金融、制造、政务、科研等真实行业场景。

再往下，是 Inference OS。它处理的是推理过程中的状态管理和执行调度。

Inference OS 下一代推理系统的产品形态

Agent 时代的推理中，一个任务可能包含多轮对话、长上下文、多次工具调用、失败重试和中间结果。成本也不只发生在 Token 生成本身，还发生在上下文重算、状态搬运、工具等待和跨节点同步里。Inference OS 管理 KV cache、会话状态、历史上下文、工具调用结果、prefill/decode 分工、模型路由、内存层级和跨节点状态迁移。在长上下文和 Agent 任务中，这些状态会直接影响推理成本。已经计算过的上下文，需要尽量复用；需要长期保留的会话状态，需要放在合适的内存或存储层级；prefill 和 decode，需要根据硬件条件、任务类型和服务等级拆开调度；工具调用结果和中间状态，也需要被记录、复用和管理。Inference OS 提升的是整条推理链路的执行效率。它压低等待、同步、搬运和重复计算，让更多算力进入真正的 Token 生成。

DingoFS Connector 则进一步处理 KV cache 的跨请求、跨节点复用。KV cache 是长上下文和多轮任务里的重要状态资产。上下文越长，工具调用越多，重复 prefill 的成本越高。如果每次请求都重新计算相同上下文，推理成本会被不断放大。如果 KV cache 只能留在单卡、单节点、单请求里，复用范围也会受限。DingoFS Connector 把已经计算过的 KV cache 纳入统一管理，让它可以跨请求、跨节点复用。这对 Agent 任务尤其重要。多轮对话、长文档处理、复杂工具链调用，都会产生大量可复用的上下文和中间状态。KV cache 复用做得越好，专业 Token 的交付成本越低，响应也越稳定。

最底层是全栈智算底座。它处理的是生产和交付的稳定性。训练需要大规模集群，推理需要精细调度，缓存需要高性能存储，模型需要版本和权限，跨地域资源需要统一管理，计费系统也要跟着每一次调用发生。这些能力分散在算力、存储、网络、数据库、调度和运维系统里，任何一层不稳定，都会影响上层专业 Token 的交付。Alaya NeW Cloud 3.0 纳管英伟达、AMD、昇腾等异构算力，把不同地域、不同架构、不同集群放进统一调度体系。同时，DingoStack 负责承接底层算力和网络资源，DingoFS 和 DingoDB 承接训练和推理中不断流动的数据、模型、状态和缓存。当资源分布在多个智算中心，调度还要跨地域发生。当 Token 成本越来越接近能源成本，计算任务也要和电力条件联动。九章云极还提供算电协同，任务根据资源空闲度、电力价格和能源供给，被安排到更合适的时间和地点运行。底座的价值最终体现在资源组织效率上。工业化的智能竞争走到最后，不再只拼单个模型、单块芯片或单次推理请求，而是拼能源、算力、存储、网络、模型和调度之间的协同效率。在智能 & 数据 & 云板块，你可以看到更多关于异构算力调度与模型服务化的深度讨论。

4 从能力和资源供给，到交付智能

算力仍是 AI 的底座，但企业购买 AI 的理由正在变化。它们需要的，已经不只是更大的集群、更便宜的调用，而是能进入业务流程的模型能力，更低的任务成本，以及可持续保障的服务结果。这也意味着，AI 基础设施的竞争正在向中间层深入。训练、推理、缓存、调度、计量、计费和 SLA，不再只是后台工程，而会直接影响客户每一次任务的成本、成功率和稳定性。

九章云极提出 AI 工厂战略，正试图回应这个变化。训练工厂负责把通用智能加工成专业模型，Token 工厂负责把模型能力封装成可计量、可调度、可交付的专业 Token。两者连接起来，指向的是算力到可用智能的转换效率。“同样的 DCU，能不能生产出更多、更稳定、更高价值的专业 Token，这就是工厂效率，也是客户价值。”胡宗星说。这也意味着，Result as a Service 的压力，正从 SaaS 平台延伸到 AI 基础设施。AI 基础设施供应商要面对更高标准。资源规模和调用价格之外，行业会继续追问：客户购买的 Token，能在多大程度上转化为可验证的业务结果。

上一篇：OpenClaw SecSkills：红蓝队AI Agent安全技能合集
下一篇：Pinterest 百万级域名去重实践：用内容指纹自动识别关键查询参数

AI基础设施, Token工厂, 训练工厂, 智能工业化, 推理OS