云栈社区»论坛 › 站务中心「 Forum Service 」 › 百亿纯推理GPU独角兽曦望诞生：推理成本定胜负 ...

5391 积分	0 好友	744 主题

发消息

百亿纯推理GPU独角兽曦望诞生：推理成本定胜负

发表于 3 小时前 | 查看: 3| 回复: 0

云栈社区的开发者们这两天发现，“杭州速度”的含金量还在上升。一家纯推理 GPU 公司，分拆独立仅1年多，竟已完成七轮融资，累计40亿元。前几天最新一轮融资曝光，更以10亿元拿下今年该赛道最大单笔融资，一举成为国内首家估值超百亿的纯推理GPU独角兽——它就是曦望。

推理正在成为 AI 算力竞速的新风口。今年英伟达 GTC ，干脆用收购来的 Groq 推出 LPU ，而国内版 Groq 也在狂飙突进。在几乎所有国产 GPU 都在卷训推一体、拼峰值算力的时候，曦望凭什么靠 All in 推理 的路线，受到资本如此青睐？

带着这个问题，量子位与曦望联席CEO 王湛进行了一场深度对话。这位百度创始团队出身、亲历中国互联网从泡沫到繁荣的老兵，不仅一语道破资本追捧的核心逻辑，更从行业趋势、技术路线、团队组织与未来判断四个维度，勾勒出一幅清晰的 AI 推理时代新蓝图。

算力需求的结构反转了

时间拨回一两年，百模大战打得火热时，市场最关心的还是大模型参数量和训练集群规模。但在 2026 年的当下，风向彻底变了。访谈伊始，王湛就定调：

谁掌握最低的推理成本，谁就是赢家。

Agent 的本质是让 AI 不再只是一问一答的聊天机器人，而是能自主分析、学习并执行复杂任务的智能实体。驱动这一切的底层燃料，就是推理算力——更直白地说，就是 Token。这带来了一个巨大的行业拐点：算力需求的结构性反转。

市场上最热的就是推理算力需求，指数级增长。训练算力的需求当然还在，但就我们目前看到的数据，2026 年 AI 推理计算的需求量将达到训练算力需求的 4-5 倍。

这是推理算力第一次全面超越训练算力，而且超越得极其迅猛。为什么会出现这种反转？答案就藏在 Agent 的运行机制里。过去人跟 AI 交互是单次对话，但在 Agent 时代，为了完成一个任务，智能体会高频、多次地多轮调用和循环思考。就像前几天国外一个小哥，只是跟龙虾说了句“Hi”，就烧掉了 80 美元的 Token。

（此为AI生成示意图）

对此，王湛强调：

这种方式让 Token 的消耗达到过去人机交互的几十倍甚至上百倍。在这个背景下，单位 Token 的成本变得非常引人注目。

换句话说，过去企业关心大模型“能不能用”，现在最关心的是“好不好用”以及“用不用得起”。这也解释了为什么从英伟达 GTC 上强调“每瓦 Token 吞吐量”，到国内云厂商因成本压力接连调整算力价格，成本已经倒逼成为技术演进的核心推手。

王湛认为，降成本不仅是商业诉求，更是技术普及的前提：

只有把单位 Token 的成本大幅度降低，才能真正激活海量 Agent 的使用。不然哪怕再好用，成本极高，大家照样用不起。

这正是曦望从一开始就毅然决然选择 All in 推理的根本原因——推理，才是真正的 AI 工业化。

百万 Token 一分钱，怎么做到？

如果说 All in 推理是方向，那如何在技术层面把成本真正打下来，就是对团队工程能力和供应链洞察力的极致大考。

面对那些既要训练又要推理的客户疑问，曦望的态度非常明确：

通用 GPU 做大集群训练挺好，但大规模推理场景下性价比往往不足。另外，智能体一普及，推理算力还要扛得住高频调用的极低延迟、支撑长上下文的极致稳定，以及持续下降的单位 Token 成本。除了少数不计商业回报的特殊场景，从正常商业化角度看，推理 GPU 的性价比优势更明显。

在市场印证了前瞻性之后，曦望亮出底牌：新一代推理 GPU 芯片——启望 S3。

这不仅仅是一次性能升级，更是一次对 AI 推理成本曲线的系统级重构：彻底放弃训练能力，专为大模型推理做原生深度定制。剪掉训练态所需的模块，把省下的晶体管和功耗预算全部砸向推理，让单位面积有效算力效率提升 5 倍以上。曦望给 S3 定下的目标极具野心：把百万 Token 的成本压到一分钱。

为了应对 Agent 时代 KV Cache 暴增、控制流复杂、多模型协同等痛点，S3 在架构上做了大刀阔斧的革新。

首先是计算层的深度定制。通用 GPU 经常面临算力用不满的尴尬，而 S3 专为推理设计的 AI Core 架构，把 GEMM 和 Flash Attention 等核心算子的利用率硬生生拔高到了约 99% 和 98%。同时，S3 原生支持从 FP16 到 FP4 的全链路低精度运算，在模型效果接近无损的情况下，吞吐量翻了数倍。

其次是系统层的大胆创新，两个国内第一，专门为长上下文和智能体准备：

S3 是国内第一个用 LPDDR6 的推理 GPU ，也兼容 LPDDR5X ，显存最大可接近 600GB ，是国内显存容量最大的 GPU。
也是目前已发布的国产 GPU 里，第一个用上 PCIe Gen6 的，系统通信带宽翻了一倍。

这两个技术加在一起，直接解决了长上下文记忆的瓶颈：S3 能同时存放更多用户的对话记忆，处理更长的上下文，速度快、成本也大幅降低。

王湛解释道：“我们的目标非常明确，把单位 Token 的成本降 90% ，做出普惠的推理算力。”

当然，把 LPDDR6 和 PCIe Gen6 这两个业界最前沿的技术顺利调通、用出极致性能，极度依赖全栈自研和超群的工程能力。王湛自豪地表示，曦望的硬件 AI Core 和软件全栈都是 100% 自研。

GPU 要真正发挥效能，必须是均衡的。你不能某个点极强，中间却卡着瓶颈。正因为我们有全栈自研能力，才能基于 LPDDR6 和 PCIe Gen6 做深度调配与优化，把它的效能真正压榨出来。

坚持底层自主可控的同时，曦望并没有封闭自己，而是实现了对 CUDA 生态 99%+ 的兼容。在外界看来，自主可控与兼容 CUDA 似乎天然矛盾。但在王湛看来，这完全是路线选择问题。

我们选择的是通用计算架构（ GPU ），而不是专用架构（ ASIC ）。通用架构保证了对各种客户需求、不同 Agent 的极强适配性。在此基础上，我们通过自己写底层代码来兼容 CUDA 生态。这既保证了客户零迁移成本，又守住了底层的自主可控。两者并不矛盾。

曦望目前保持了每一代芯片都一次性流片成功并点亮。背后是一支极其庞大且低调的验证团队在默默支撑。据说，曦望团队自主开发了全套仿真验证工具，在芯片真正送流片前，就已在仿真平台上跑过海量算子，哪里是瓶颈、该怎么修，早已胸有成竹。

六边形战士和三位一体

任何一次现象级融资的背后，最核心的标的永远是人。与王湛对话，能强烈感受到他每天上班时那种肾上腺素飙升的兴奋感。这种兴奋，源于他身处一个极度同频且强大的铁血战队之中。

曦望的顶层架构被业界戏称为“三位一体”：

董事长徐冰（商汤联合创始人）：把控战略方向与融资，拥有极强的 AI 发展趋势洞察力；
联席CEO王勇（前 AMD、昆仑芯核心架构师）：专注芯片研发，手握 20 多年硬核半导体经验，是实打实的技术灵魂；
联席CEO王湛（前百度资深副总裁）：操盘商业化、运营与市场，将互联网大厂的敏锐嗅觉与产品打法注入硬科技的土壤。

不过，做 AI 基础设施，光靠三个人远远不够。正如王湛所说：

AI 芯片的竞争是一个全能赛，就像体操里的全能项目，吊环、双杠什么都要行。没有一个人能各方面都超强，我们必须靠好的组织管理，把优秀的人聚在一起，打造我们的六边形战士网络。

目前曦望团队规模已达 400 余人，研发人员占比超 80% ，核心技术骨干来自英伟达、 AMD 、华为海思、阿里、商汤等，平均行业经验超过 15 年。为了留住这些顶尖人才，曦望在组织机制上做出了中国创企中极为罕见的让步。王湛透露了一个极具魄力的细节：

我们在所有中国 GPU 公司里，给了团队和员工最大的 ESOP （员工持股计划）池。徐冰拉我入伙时就说过，要拿出最大的 ESOP 池来招募最优秀的人才。只要把这件事做成，人才的价值就会巨大。

这种类似早期华为、阿里的分享机制，爆发出了极强的组织战斗力。

Agent 是泡沫还是工业革命？

拿下百亿估值、超 10 亿融资，置身于这股 AI 资本热潮，曾亲历 2000 年互联网泡沫破裂的王湛，显得既清醒又坚定。

现在一二级市场对硬科技的估值确实非常乐观。不光是芯片公司，那些大模型公司的估值和收入比，确实夸张。面对划时代的技术突破机会，资本愿意去赌、去搏，这是资本的特性。

但这一次， AI 和当年的互联网泡沫有本质不同。王湛回忆， 2000 年互联网喊得震天响时，全中国网民才几百万；即使发展了十年， PC 网民也不过一亿多，需要漫长的时间去渗透。

可是 AI 呢？ ChatGPT 一出来，迅速成为人类历史上最快破亿的应用。而且它不是大家尝个鲜就走的淄博烧烤，这几年来用户量在急速增加，且越用越离不开。

王湛认为， AI 底层的基础价值正以远超以往任何一次产业革命的速度迅速上升。

如果说工业革命花了百年，信息革命花了二三十年，那 AI 智能革命可能把社会巨变压缩到短短几年。在这个时代，或许上个月还是很大的泡沫，下个月就变成小泡沫了，底层价值正飞速填补这些估值。

对于今年下半年乃至更长时间的算力市场，王湛的判断只有四个字：供不应求。

限制算力规模增长的根本不是市场需求，而是生产工具。光模块造不过来，内存被抢光涨了十倍，服务器都在抢。 Seedance 2.0 生成视频如果能把排队时间从 4 小时缩短到 1 分钟，使用量会暴增多少倍？只要瓶颈被打开，体验一好，需求就会成十倍、百倍地暴涨。

在商业化落地上，曦望瞄准了要求最苛刻的互联网大厂。

大厂对产品要求极其苛刻，但我要求团队必须去找最难服务、标准最高的客户。只有在最大压力下打磨出来的产品，才能真正立住根基。

依托 S3 海量的交付能力和团队生态布局，这块最难啃的骨头，正是曦望的主攻方向。

访谈最后，作为中国科技发展的见证者和亲历者，王湛表示：

在这个时代， AI 本质上是在分发智能，它给了人类一个机会去抹平信息鸿沟。只要你想清楚你要干嘛， AI 就能给你前所未有的助力。而我们曦望要做的，就是把这个极其厉害的东西，成本彻底降下来。

先知己，再知 AI ，方能百战不殆。

这不仅是王湛给迷茫于 AI 时代中的年轻人的建议，或许也正是这家年轻独角兽在算力红海中精准破局、一路狂奔的真实写照。

上一篇：飞书多维表格 AI 升级：零门槛数据分析，工人与编导的实战实录
下一篇：英特尔发布至强600与ARC PRO B70：高性能工作站平台深度解析

GPU, 推理, Agent, 曦望, 独角兽