找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5400

积分

0

好友

738

主题
发表于 1 小时前 | 查看: 3| 回复: 0

最近,中国最大的独立AI算力集群公司,要上市了。

在这一轮全球AI浪潮里,跑出了一批独立AI云公司,也就是所谓的 Neocloud。比较典型的代表,就是CoreWeave和Nebius。

它们做的事情很简单:把最稀缺的GPU算力资源,从传统云厂商体系里“拆”出来,再以更高效率直接卖给AI客户。

但这事在中国没有跑通,因为国内太缺GPU了。可也正因为如此,反而催生出了另一门生意:AI算力集群建设。

GPU短缺只是问题的一部分,更大的问题是,如何让有限的算力资源,以更高效的方式跑起来。而这,恰恰给了基流科技机会。靠着帮客户建设AI 数据中心,公司在过去三年里快速增长。

招股书显示,2023年、2024年和2025年,公司营收分别为3180万元、3.25亿元和5.20亿元,两年时间翻了超过16倍。更夸张的是,这家公司成立于2023年2月。

也就是说,只用了3年多时间,它就已经走到了港股IPO门口。某种程度上,这家公司本身,就是这一轮中国AI基础设施狂飙的缩影。

今天,我们就来聊聊这家“AI集群包工头”。

做AI数据中心建设的“包工头”

很多人对 AI 算力有一个误解:只要买到足够多的高端 GPU,大模型训练就能顺利跑起来。

但其实并非如此,即使单卡算力再强,如果不能把成千上万张 GPU 高效连接起来,那也只是“纸面算力”。因为大模型训练,本质上是一个极其复杂的分布式系统问题。尤其随着GPU数量增长,复杂度还会呈现非常明显的非线性上升。

原因很简单,今天的大模型训练,本质上是在疯狂增加 GPU 之间的通信。无论是数据并行、张量并行、流水线并行,还是 MoE(混合专家),核心都离不开一件事——GPU 之间不断同步参数、交换数据。

于是,一个问题开始越来越突出:GPU 算得越来越快,但网络却没跟上。

在AI 集群里,有一个非常经典的问题:“带宽墙(Bandwidth Wall)”。也就是说,数据传输速度,开始跟不上 GPU 算力增长。最终结果就是,大量 GPU 空转。哪怕是 NVIDIA、OpenAI 这样的顶级玩家,大规模训练时,MFU(模型浮点运算利用率)很多时候也只有 40%—50%。所谓 MFU 就是,到底有多少算力真正被模型训练利用了。

MFU 差10%,背后可能就是数亿美元级别的算力成本差距。从这个角度上说,能不能把成千上万张 GPU 真正稳定、高效地跑起来,也是大模型竞争变得越来越重要。

而基流科技想做的,本质上就是解决这个问题。

从招股书来看,基流科技的业务主要分成两块:AI 算力集群产品,以及 AI 数据中心运营服务。

前者,可以理解成“帮客户建 AI 数据中心”。它的核心目标,是把原本分散的 GPU、网络、存储与调度能力,整合成“一台超级计算机”。

其中,在硬件层,基流科技自研了 AI 算力网络系统 Mercury,里面包括超高带宽交换机、RDMA 网卡、光模块,以及网络操作系统 MercuryNOS。你可以把它理解成 AI 集群里的“高速公路系统”。因为在今天的大模型训练里,真正的瓶颈很多时候已经不是 GPU 算力,而是 GPU 之间能否高速、稳定地通信。如果通信效率不够,大量 GPU 就会处于等待状态,最终导致昂贵的算力资源被浪费。Mercury 的价值,本质上就是提升 GPU 间的数据传输效率、网络稳定性和故障可观测性,让整个 AI 集群在高并发负载下依然能够稳定运行。

而在软件层,基流科技则构建了 AI 算力操作系统 Venus。它负责 GPU 调度、通信优化、存储缓存、资源隔离,以及训练与推理优化等能力。整个系统最大的特点,是“跨层协同”。传统方案里,网络、存储、计算、调度往往是割裂的,各个组件只做局部优化。但基流科技希望把算力、网络、存储、软件调度以及 AI 框架统一协同优化。比如在大模型训练中,VenusCL 会尽可能让“计算”和“通信”重叠执行,减少 GPU 空等时间,从而提升训练效率。

除了帮助客户建设 AI 集群,基流科技另一块重要业务,则是 AI 数据中心运营服务。简单来说,就是依托 Mercury 和 Venus,对整个 AI 集群进行统一调度、监控与运维。

其中一个核心能力,是“全栈可观测”。从 GPU、网络、存储,到任务调度,系统都可以实时监控与故障定位,帮助客户发现隐藏的性能问题,降低大规模 AI 集群的运维门槛。

另一方面,Galaxy Service 还会通过智能调度与动态资源分配,提升 GPU 利用率,减少算力空转,并支持存量 GPU 复用、集群平滑扩展,以及更精细化的成本管理。

总的来说,基流科技更像是一个AI计算集群建设的“包工头”。

国内最大的独立AI算力供应商,三年收入翻了16倍

从财务数据看,基流科技过去三年的增长速度非常夸张。

招股书显示,2023年、2024年和2025年,公司营收分别为3180万元、3.25亿元和5.20亿元,两年时间翻了超过16倍。其中,AI算力集群产品是最核心的收入来源。

2023—2025年,该业务收入从0.32亿元增长到4.37亿元,翻了超过10倍,占总收入比例也一路提升至 83.9%。

截至目前,基流科技累计交付和服务的AI算力集群已经包含超过 9万 张GPU,并提供超过 34,000 PFLOPS算力能力。公司累计完成 66 个AI算力集群项目,其中包括两个万卡级超大规模AI集群。按收入规模来算,基流科技已经是国内最大的独立AI算力集群供应商。

更重要的是,国内AI算力集群的规模还在快速增长。根据招股书数据,2025年,中国AI算力集群市场规模为454亿元;预计到2030年,市场规模将进一步增长至3891亿元,未来五年复合增速超过53%。

而且,公司已经实现盈利。2025年,基流科技经调整利润达到3112万元。之所以能盈利,一个很重要的原因是,公司没有太多的研发投入。2025年,公司研发支出只有0.37亿元,占收入比例仅 7.2%。这个数字远远低于绝大部分AI公司。

但另一方面,这门生意天然也有两个问题。第一个问题,是客户相对集中。公司的主要客户,基本都是头部大模型公司、云服务商、科研机构和电信运营商。虽然客户数量已经从2023年的4家增长至2025年的48家,但真正有能力建设大规模AI计算集群的客户,其实始终是少数。2024年,公司前五大客户收入占比仍高达 98.9%;即便到了2025年,这一比例也还有56.6%。

第二个问题,则是硬件业务天然毛利率不高。2025年,公司AI算力集群产品毛利率只有16.8%。原因很简单,绝大部分成本都被交换机、光模块等硬件吃掉了。

受限于这两个原因,公司在2024年开始大力发展AI数据中心运营服务。相比16.8%的硬件毛利率,运营服务毛利率已经达到 47.7%。这个业务之所以能成立,是因为并不是所有有AI算力需求的客户,都具备自行部署、优化和运营AI算力集群的能力。所以,客户会更倾向于选择那些能够以更灵活、更轻资产方式,提供“开箱即用”高性能AI算力资源的外部服务商。这也让公司具备了较强的服务溢价能力。

总结

总的来看,过去几年突然爆发的 AI 需求,加上国内 GPU 资源紧张、系统架构割裂,以及大模型训练对稳定性和效率越来越高的要求,正在让 AI 算力集群建设,变成一个快速增长的新生意。

而基流科技恰好踩中了这个窗口。只用了短短三年时间,公司就把收入做到了超过5亿元,并走到了港股IPO的门口。

但问题也同样存在。和海外那些 Neocloud 公司一样,基流科技最终仍然需要回答一个更核心的问题:当 AI 基础设施逐渐成熟、硬件供给开始改善之后,今天这门高速增长的生意,究竟能否变成一项长期、可持续的需求。

你怎么看基流科技的发展?欢迎来云栈社区一起聊聊。




上一篇:免费LLM API资源合集:21k星,正规合法开箱即用
下一篇:Codex vs Claude Code 浏览器自动化实测:免费模型调用Chrome到底谁更强?
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-5-15 04:55 , Processed in 0.640679 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表