找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3880

积分

0

好友

514

主题
发表于 3 小时前 | 查看: 5| 回复: 0

作者 | Sergio De Simone
译者 | 明知山  

在大模型能力突飞猛进的当下,模型背后智能的生产与交付却远未实现工业化。  

九章云极副总裁胡宗星曾给出一个让人警醒的数字:顶级 8 卡 GPU 服务器的聚合内存带宽,理论上每秒可生成约 1000 个 Token;但在现实工程里,主流推理框架的解码速度往往只有几十 Token/s,中间存在超过 10 倍的性能鸿沟。  

这道鸿沟的根源是推理系统中的“执行间隙”。GPU 本身的算力并不缺,但在真实的推理链路上,不同计算任务之间会频繁出现等待,通信与计算也很难彻底并行。尤其解码阶段,单个 Kernel 的执行时间可能只有微秒级,CPU 与 GPU 之间密集的启动、调度和同步,反而成了关键瓶颈。再加上 KV Cache 等推理状态需要在 HBM、DRAM、NVMe 等不同存储层级之间倒来倒去,大量算力被消耗在等待、同步和数据搬移上,最终由客户为这道性能黑洞买单。  

这说明,智能的工业化不能只看算力规模或者更低的 Token 单价。真正决定价值的是:同样的能源和算力投入,能不能产出更多有效 Token;同样的 Token 消耗,能不能完成更多业务任务。  

因此,AI 基础设施必须同时回答两个根本问题:智能如何计量,以及智能如何生产。  

“我们正处在智能工业化时代的拐点,但一个更根本、更现实的考验已经摆在眼前——时代需要的不仅是技术突破,更是‘智能生产力’的突破。”九章云极 DataCanvas 公司创始人、董事长方磊这样判断。  

发布会现场  

在 6 月 17 日的发布会上,九章云极正式提出 AI 工厂战略,并发布 Alaya NeW Cloud 3.0。训练工厂负责将通用智能加工为专业模型,Token 工厂则把专业模型封装为可调用、可计量、可保障的专业 Token。同时,九章云极还推出了 DCU 与 Token 的度量体系,以及围绕推理效率、状态复用、跨集群调度和算电协同的一系列底层工程。  

AI 双工厂基础设施全景  

成立 13 年,九章云极经历过 AI 的多轮热潮,也完成了从 PaaS、云到智算平台的多次转身。现在,它试图把自己从算力资源提供者,进一步推向智能工业生产者,组织智能的生产、计量、流通和交付。  

1. 智能工业化的第一步:统一度量衡

智能走向工业化的第一道关卡,就是建立统一的度量衡——用怎样的指标来衡量智能的生产、交易与交付。  

过去,AI 基础设施主要围着资源打转。企业买算力,盯的是 GPU 数量、显存规模、集群性能;买模型服务,看参数规模、API 调用量、Token 单价。  

这些指标当然重要,但它们描述的只是供给侧。它们能说明厂商有多少资源、模型有多大、调用有多便宜,却回答不了企业真正关心的问题:一次任务能不能完成,结果靠不靠谱,响应快不快,失败和重试会不会把总成本抬上去。  

于是九章云极提出,AI 基础设施要从“资源计量”转向“智能计量”。  

Token 被看作最适合作为智能计量的基础单位。模型接收输入、处理信息、生成输出,都围绕 Token 展开。比起 GPU 卡数、参数规模这类指标,Token 更靠近智能被加工和交付的过程。  

但 Token 只是基础单位,还不是价值单位。更有计量意义的概念是“有效 Token”。  

一个模型能生成很多 Token,如果回答错误、超时、无法进入业务流程,这些 Token 对客户来说照样没有意义。一个有效 Token,至少要同时满足几个条件:请求成功,质量达标,时延可控,并且能够进入真实业务流程。只有这样的 Token,才算可交付的智能产出。  

胡宗星指出,企业真正关心的不是 Token 单价,而是有效 Token——那些稳定进入业务、完成任务、时延可控的 Token。客户要的不是便宜 Token,而是更低的“任务完成成本”。  

基于这个判断,九章云极对 Token 进行了分级。专业 Token 被划分为三个层级:消费级 Token 是智能社会的“基础电力”;专业级 Token 封装行业知识和合规逻辑,让企业买到的是效率、风控与决策支持;前沿级 Token 则面向高复杂度科研场景。而九章云极的战略聚焦,落在企业级与前沿级 Token。  

计量单位一变,基础设施的形态也必须跟着变。企业需要的是一套完整的生产体系:既要能把通用模型训练成解决具体业务问题的专业模型,也要能把模型能力封装成稳定、可计量、可调度、可保障的专业 Token。正是在这个背景下,“训练工厂 + Token 工厂”应运而生。  

2. 打造智能工业化的训练和 Token 工厂

统一度量衡之后,一个新问题立刻浮出水面:有效 Token 到底从哪里来?  

九章云极的答案是,有效 Token 不能指望通用模型直接提供,它必须被专业地“生产”出来。训练工厂负责生产专业模型,Token 工厂负责交付专业 Token。前者解决模型能力是否足够专业,后者解决专业能力能否稳定进入业务。  

训练工厂把通用模型加工成能处理具体业务任务的专业模型。这个过程需要领域数据、强化学习、精调、评测反馈和持续优化。通用模型提供基础能力,训练工厂则把这些基础能力压进具体的行业、场景和任务里。  

但专业模型训练出来之后,依然不能直接变成企业能消费的智能商品。企业需要的不是一个模型文件,而是稳定的 API、权限管理、版本管理、SLA 保障、成本控制和按需调用能力。  

Token 工厂的使命,是把专业模型封装成标准化、可计量、可调度、可保障的专业 Token。这样,模型能力才能从一次性项目交付,变成可以反复调用、持续复用、按量计费的智能服务。  

训练工厂的算力投入用 DCU 衡量,Token 工厂的智能产出用专业 Token 衡量。DCU 衡量的,是算力投入;专业 Token 衡量的,是智能产出。  

DCU 解决算力侧的问题。传统的算力计量往往围绕 GPU 卡数、核时或集群规模,但这些指标很难反映不同硬件、不同架构、不同调度方式之间的真实效率差异。DCU 的意义,就是把复杂的异构算力抽象成更统一的计算单位,让客户不必理解底层硬件拓扑,也能像采购电力一样采购算力。  

Token 解决智能侧的问题。抽象的模型能力无法直接买卖,必须变成可度量、可定价、可交付的商品。专业 Token 的意义,是把昂贵、复杂、稀缺的模型能力,转化为可以按量调用、持续复用、标准化交付的智能单元。  

这就意味着,企业可以像用水电一样,按需接入智能、按量计费、持续运营。  

3. 如何通过 AI 工厂,把算力转化为更多有效 Token?

水电之所以能按需使用,背后有发电、输配、计量、调度和运维一整套系统。专业智能也一样。一个模型能力要变成企业能稳定购买和使用的专业 Token,需要经过接入、训练、封装、推理、缓存、调度和计费这一整条链路。  

九章云极这次发布的产品体系,正是沿着这条链路展开。  

最前端是 Aladdin,它处理的是算力入口问题。  

过去,算力多半藏在后台。客户要买 GPU、开实例、配环境、调集群,再把模型和应用部署上去。算力早就存在,但离开发者、Agent 和业务流程还有距离。每一次接入、调试、迁移、部署,都会消耗大量工程时间,拖长 AI 应用进入生产的周期。  

Aladdin 的目标是把算力推到手边。通过 IDE 插件、CLI、SDK、Skills Hub 等入口,开发者和 Agent 可以直接调用算力、工具和模型能力。算力不再只是后台资源池里的一个配额,而变成开发链路和任务链路中随时可调用的能力。  

这一步影响的是智能生产的起点。要让企业从容使用专业 Token,首先要让算力和模型能力顺畅进入业务系统。如果每次调用都要从环境配置、资源申请、接口适配开始,智能服务就很难像水电那样即插即用。Aladdin 缩短的,就是从算力资源到业务任务的距离。  

第二层是训练工厂,它解决的是专业能力的来源问题。  

通用模型具备基础能力,但企业场景通常更具体。金融、制造、政务、科研,对数据结构、行业知识、业务流程、合规边界和结果稳定性都有苛刻的要求。模型能生成一段流畅文本,不代表它能完成一个生产任务。  

训练工厂通过大规模训练底座、领域精调、强化学习、评测反馈和持续优化,把模型能力压进行业、场景和任务里。这一步决定了专业 Token 的质量基础。模型越懂业务,就越能减少无效回答、失败重试和人工兜底。客户消耗的 Token 数量未必最低,但更大比例会转化为实实在在的可用结果。对企业来说,重要的不是一次调用生成多少内容,而是一个任务最终花了多少成本完成。  

第三层是 Token 工厂,它解决专业能力的商品化问题。  

专业模型训练出来后,还需要经过服务封装才能成为企业可消费的智能商品。企业需要稳定的 API、权限体系、版本管理、密钥管理、计量计费、SLA 保障和成本控制。只有经过这层封装,模型能力才能进入企业系统,成为可以采购、调用、结算的服务。Token 工厂把专业模型封装成专业 Token。  

一方面,它完成服务封装,让专业模型通过 API、SDK、权限、版本和计量体系进入企业应用,客户可以按任务、按服务等级、按调用规模使用模型能力。  

另一方面,它完成推理优化。不同任务需要的模型、上下文长度、响应速度和成本约束不同。简单任务调用大模型会浪费算力,复杂任务交给小模型则带来失败和重试。Token 工厂通过量化、动态路由、KV 缓存、弹性伸缩等机制,为不同任务选择更合适的模型和推理路径。  

胡宗星介绍,目前 Alaya NeW 平台已经预制了 DeepSeek、GLM、Kimi、Minimax、Qwen 等 50 余款主流大模型,并在此基础上沉淀了 100 多款精调版本,覆盖金融、制造、政务、科研等真实行业场景。  

再往下,是 Inference OS,它处理推理过程中的状态管理和执行调度。  

Inference OS 示意图  

在 Agent 时代的推理中,一个任务可能包含多轮对话、长上下文、多次工具调用、失败重试和大量中间结果。成本也不仅仅产生于 Token 生成本身,还累加在上下文重算、状态搬运、工具等待和跨节点同步上。  

Inference OS 管理 KV cache、会话状态、历史上下文、工具调用结果、prefill/decode 分工、模型路由、内存层级和跨节点状态迁移。在长上下文和 Agent 任务里,这些状态会直接决定推理成本。已经计算过的上下文,需要尽量复用;需要长期保留的会话状态,需要被放到合适的内存或存储层级;prefill 和 decode,要根据硬件条件、任务类型和服务等级拆开调度;工具调用结果和中间状态,也需要被记录、复用和管理。  

Inference OS 提升的,是整条推理链路的执行效率。它压低了等待、同步、搬运和重复计算,让更多算力真正用到 Token 生成上去。  

DingoFS Connector 则进一步处理 KV cache 的跨请求、跨节点复用。KV cache 是长上下文和多轮任务里极为重要的状态资产。上下文越长,工具调用越多,重复 prefill 的成本越高。如果每次请求都重新计算相同上下文,推理成本会被不断放大。如果 KV cache 只能留在单卡、单节点、单请求里,复用的范围也会大打折扣。  

DingoFS Connector 把已经计算过的 KV cache 纳入统一管理,让它可以在请求之间、节点之间复用。这对 Agent 任务来说尤为关键。多轮对话、长文档处理、复杂工具链调用,都会产生大量可复用的上下文和中间状态。KV cache 复用做得越好,专业 Token 的交付成本就越低,响应也越稳定。  

最底层是全栈智算底座,它处理生产和交付的稳定性。  

训练需要大规模集群,推理需要精细调度,缓存需要高性能存储,模型需要版本和权限,跨地域资源需要统一管理,计费系统也要紧跟着每一次调用。这些能力分散在算力、存储、网络、数据库、调度和运维系统里,任何一层不稳定,都会拖累上层专业 Token 的交付。  

Alaya NeW Cloud 3.0 纳管英伟达、AMD、昇腾等异构算力,把不同地域、不同架构、不同集群放进统一调度体系。同时,DingoStack 承接底层算力和网络资源,DingoFS 和 DingoDB 承接训练和推理中不断流动的数据、模型、状态和缓存。  

当资源分布在多个智算中心,调度还要跨地域进行。当 Token 成本越来越接近能源成本,计算任务也需要和电力条件联动。九章云极提供的算电协同,就是根据资源空闲度、电力价格和能源供给,把任务安排到更合适的时间和地点运行。  

底座的价值最终体现在资源组织效率上。智能工业化走到最后,竞争不再只发生在单个模型、单块芯片或单次推理请求上,而会发生在能源、算力、存储、网络、模型和调度之间的协同效率上。  

4. 从能力和资源供给,到交付智能

算力仍是 AI 的底座,但企业购买 AI 的理由正在变化。它们需要的,已经不只是更大的集群、更便宜的调用,而是能进入业务流程的模型能力,更低的任务成本,以及持续可保障的服务结果。  

这也意味着,AI 基础设施的竞争正在向中间层深入。训练、推理、缓存、调度、计量、计费和 SLA,不再仅仅是后台工程,它们会直接影响客户每一次任务的成本、成功率和稳定性。  

九章云极提出的 AI 工厂战略,正是对这种变化的回应。训练工厂负责把通用智能加工成专业模型,Token 工厂负责把模型能力封装成可计量、可调度、可交付的专业 Token。两者的连接,指向的是“从算力到可用智能”的转换效率。  

“同样的 DCU,能不能生产出更多、更稳定、更高价值的专业 Token,这就是工厂效率,也是客户价值。”胡宗星总结道。  

这也释放出一个信号:Result as a Service 的压力,正从 SaaS 平台延伸到 AI 基础设施。AI 基础设施供应商要面对更高标准——除了资源规模和调用价格,行业会继续追问:客户购买的 Token,到底能在多大程度上转化为可验证的业务结果。  

在智能工业化这场长跑中,谁能把算力更高效地转化为有效 Token,谁就握住了下一张门票。更多关于算力与智能生产的技术趋势,可在云栈社区深入交流。  

声明:本文由 InfoQ 翻译,未经许可禁止转载。




上一篇:TDSQL 三形态数据库如何选?一套内核覆盖中小型到金融核心全场景
下一篇:RX 7900 XTX 实战 FSR 4.1:画质飞跃,性能妥协有多大?
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-25 07:28 , Processed in 0.757765 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表