找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5391

积分

0

好友

744

主题
发表于 3 小时前 | 查看: 3| 回复: 0

云栈社区 的开发者们这两天发现,“杭州速度”的含金量还在上升。一家纯推理 GPU 公司,分拆独立仅1年多,竟已完成七轮融资,累计40亿元。前几天最新一轮融资曝光,更以10亿元拿下今年该赛道最大单笔融资,一举成为国内首家估值超百亿的纯推理GPU独角兽——它就是曦望。

推理正在成为 AI 算力竞速的新风口。今年英伟达 GTC ,干脆用收购来的 Groq 推出 LPU ,而国内版 Groq 也在狂飙突进。在几乎所有国产 GPU 都在卷训推一体、拼峰值算力的时候,曦望凭什么靠 All in 推理 的路线,受到资本如此青睐?

带着这个问题,量子位与曦望联席CEO 王湛 进行了一场深度对话。这位百度创始团队出身、亲历中国互联网从泡沫到繁荣的老兵,不仅一语道破资本追捧的核心逻辑,更从行业趋势、技术路线、团队组织与未来判断四个维度,勾勒出一幅清晰的 AI 推理时代新蓝图。

算力需求的结构反转了

时间拨回一两年,百模大战打得火热时,市场最关心的还是大模型参数量和训练集群规模。但在 2026 年的当下,风向彻底变了。访谈伊始,王湛就定调:

谁掌握最低的推理成本,谁就是赢家。

Agent 的本质是让 AI 不再只是一问一答的聊天机器人,而是能自主分析、学习并执行复杂任务的智能实体。驱动这一切的底层燃料,就是推理算力——更直白地说,就是 Token。这带来了一个巨大的行业拐点:算力需求的结构性反转。

市场上最热的就是推理算力需求,指数级增长。训练算力的需求当然还在,但就我们目前看到的数据,2026 年 AI 推理计算的需求量将达到训练算力需求的 4-5 倍。

这是推理算力第一次全面超越训练算力,而且超越得极其迅猛。为什么会出现这种反转?答案就藏在 Agent 的运行机制里。过去人跟 AI 交互是单次对话,但在 Agent 时代,为了完成一个任务,智能体会高频、多次地多轮调用和循环思考。就像前几天国外一个小哥,只是跟龙虾说了句“Hi”,就烧掉了 80 美元的 Token。

(此为AI生成示意图)

对此,王湛强调:

这种方式让 Token 的消耗达到过去人机交互的几十倍甚至上百倍。在这个背景下,单位 Token 的成本变得非常引人注目。

换句话说,过去企业关心大模型“能不能用”,现在最关心的是“好不好用”以及“用不用得起”。这也解释了为什么从英伟达 GTC 上强调“每瓦 Token 吞吐量”,到国内云厂商因成本压力接连调整算力价格,成本已经倒逼成为技术演进的核心推手。

王湛认为,降成本不仅是商业诉求,更是技术普及的前提:

只有把单位 Token 的成本大幅度降低,才能真正激活海量 Agent 的使用。不然哪怕再好用,成本极高,大家照样用不起。

这正是曦望从一开始就毅然决然选择 All in 推理的根本原因——推理,才是真正的 AI 工业化。

百万 Token 一分钱,怎么做到?

如果说 All in 推理是方向,那如何在技术层面把成本真正打下来,就是对团队工程能力和供应链洞察力的极致大考。

面对那些既要训练又要推理的客户疑问,曦望的态度非常明确:

通用 GPU 做大集群训练挺好,但大规模推理场景下性价比往往不足。另外,智能体一普及,推理算力还要扛得住高频调用的极低延迟、支撑长上下文的极致稳定,以及持续下降的单位 Token 成本。除了少数不计商业回报的特殊场景,从正常商业化角度看,推理 GPU 的性价比优势更明显。

在市场印证了前瞻性之后,曦望亮出底牌:新一代推理 GPU 芯片——启望 S3

这不仅仅是一次性能升级,更是一次对 AI 推理成本曲线的系统级重构:彻底放弃训练能力,专为大模型推理做原生深度定制。剪掉训练态所需的模块,把省下的晶体管和功耗预算全部砸向推理,让单位面积有效算力效率提升 5 倍以上。曦望给 S3 定下的目标极具野心:把百万 Token 的成本压到一分钱。

为了应对 Agent 时代 KV Cache 暴增、控制流复杂、多模型协同等痛点,S3 在架构上做了大刀阔斧的革新。

首先是计算层的深度定制。通用 GPU 经常面临算力用不满的尴尬,而 S3 专为推理设计的 AI Core 架构,把 GEMM 和 Flash Attention 等核心算子的利用率硬生生拔高到了约 99% 和 98%。同时,S3 原生支持从 FP16 到 FP4 的全链路低精度运算,在模型效果接近无损的情况下,吞吐量翻了数倍。

其次是系统层的大胆创新,两个国内第一,专门为长上下文和智能体准备:

  • S3 是国内第一个用 LPDDR6 的推理 GPU ,也兼容 LPDDR5X ,显存最大可接近 600GB ,是国内显存容量最大的 GPU。
  • 也是目前已发布的国产 GPU 里,第一个用上 PCIe Gen6 的,系统通信带宽翻了一倍。

这两个技术加在一起,直接解决了长上下文记忆的瓶颈:S3 能同时存放更多用户的对话记忆,处理更长的上下文,速度快、成本也大幅降低。

王湛解释道:“我们的目标非常明确,把单位 Token 的成本降 90% ,做出普惠的推理算力。”

当然,把 LPDDR6 和 PCIe Gen6 这两个业界最前沿的技术顺利调通、用出极致性能,极度依赖全栈自研和超群的工程能力。王湛自豪地表示,曦望的硬件 AI Core 和软件全栈都是 100% 自研。

GPU 要真正发挥效能,必须是均衡的。你不能某个点极强,中间却卡着瓶颈。正因为我们有全栈自研能力,才能基于 LPDDR6 和 PCIe Gen6 做深度调配与优化,把它的效能真正压榨出来。

坚持底层自主可控的同时,曦望并没有封闭自己,而是实现了对 CUDA 生态 99%+ 的兼容。在外界看来,自主可控与兼容 CUDA 似乎天然矛盾。但在王湛看来,这完全是路线选择问题。

我们选择的是通用计算架构( GPU ),而不是专用架构( ASIC )。通用架构保证了对各种客户需求、不同 Agent 的极强适配性。在此基础上,我们通过自己写底层代码来兼容 CUDA 生态。这既保证了客户零迁移成本,又守住了底层的自主可控。两者并不矛盾。

曦望目前保持了每一代芯片都一次性流片成功并点亮。背后是一支极其庞大且低调的验证团队在默默支撑。据说,曦望团队自主开发了全套仿真验证工具,在芯片真正送流片前,就已在仿真平台上跑过海量算子,哪里是瓶颈、该怎么修,早已胸有成竹。

六边形战士和三位一体

任何一次现象级融资的背后,最核心的标的永远是。与王湛对话,能强烈感受到他每天上班时那种肾上腺素飙升的兴奋感。这种兴奋,源于他身处一个极度同频且强大的铁血战队之中。

曦望的顶层架构被业界戏称为“三位一体”:

  • 董事长徐冰(商汤联合创始人):把控战略方向与融资,拥有极强的 AI 发展趋势洞察力;
  • 联席CEO王勇(前 AMD、昆仑芯核心架构师):专注芯片研发,手握 20 多年硬核半导体经验,是实打实的技术灵魂;
  • 联席CEO王湛(前百度资深副总裁):操盘商业化、运营与市场,将互联网大厂的敏锐嗅觉与产品打法注入硬科技的土壤。

不过,做 AI 基础设施,光靠三个人远远不够。正如王湛所说:

AI 芯片的竞争是一个全能赛,就像体操里的全能项目,吊环、双杠什么都要行。没有一个人能各方面都超强,我们必须靠好的组织管理,把优秀的人聚在一起,打造我们的六边形战士网络。

目前曦望团队规模已达 400 余人,研发人员占比超 80% ,核心技术骨干来自英伟达、 AMD 、华为海思、阿里、商汤等,平均行业经验超过 15 年。为了留住这些顶尖人才,曦望在组织机制上做出了中国创企中极为罕见的让步。王湛透露了一个极具魄力的细节:

我们在所有中国 GPU 公司里,给了团队和员工最大的 ESOP (员工持股计划)池。徐冰拉我入伙时就说过,要拿出最大的 ESOP 池来招募最优秀的人才。只要把这件事做成,人才的价值就会巨大。

这种类似早期华为、阿里的分享机制,爆发出了极强的组织战斗力。

Agent 是泡沫还是工业革命?

拿下百亿估值、超 10 亿融资,置身于这股 AI 资本热潮,曾亲历 2000 年互联网泡沫破裂的王湛,显得既清醒又坚定。

现在一二级市场对硬科技的估值确实非常乐观。不光是芯片公司,那些大模型公司的估值和收入比,确实夸张。面对划时代的技术突破机会,资本愿意去赌、去搏,这是资本的特性。

但这一次, AI 和当年的互联网泡沫有本质不同。王湛回忆, 2000 年互联网喊得震天响时,全中国网民才几百万;即使发展了十年, PC 网民也不过一亿多,需要漫长的时间去渗透。

可是 AI 呢? ChatGPT 一出来,迅速成为人类历史上最快破亿的应用。而且它不是大家尝个鲜就走的淄博烧烤,这几年来用户量在急速增加,且越用越离不开。

王湛认为, AI 底层的基础价值正以远超以往任何一次产业革命的速度迅速上升。

如果说工业革命花了百年,信息革命花了二三十年,那 AI 智能革命可能把社会巨变压缩到短短几年。在这个时代,或许上个月还是很大的泡沫,下个月就变成小泡沫了,底层价值正飞速填补这些估值。

对于今年下半年乃至更长时间的算力市场,王湛的判断只有四个字:供不应求

限制算力规模增长的根本不是市场需求,而是生产工具。光模块造不过来,内存被抢光涨了十倍,服务器都在抢。 Seedance 2.0 生成视频如果能把排队时间从 4 小时缩短到 1 分钟,使用量会暴增多少倍?只要瓶颈被打开,体验一好,需求就会成十倍、百倍地暴涨。

在商业化落地上,曦望瞄准了要求最苛刻的互联网大厂

大厂对产品要求极其苛刻,但我要求团队必须去找最难服务、标准最高的客户。只有在最大压力下打磨出来的产品,才能真正立住根基。

依托 S3 海量的交付能力和团队生态布局,这块最难啃的骨头,正是曦望的主攻方向。

访谈最后,作为中国科技发展的见证者和亲历者,王湛表示:

在这个时代, AI 本质上是在分发智能,它给了人类一个机会去抹平信息鸿沟。只要你想清楚你要干嘛, AI 就能给你前所未有的助力。而我们曦望要做的,就是把这个极其厉害的东西,成本彻底降下来。

先知己,再知 AI ,方能百战不殆。

这不仅是王湛给迷茫于 AI 时代中的年轻人的建议,或许也正是这家年轻独角兽在算力红海中精准破局、一路狂奔的真实写照。




上一篇:飞书多维表格 AI 升级:零门槛数据分析,工人与编导的实战实录
下一篇:英特尔发布至强600与ARC PRO B70:高性能工作站平台深度解析
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-25 10:36 , Processed in 0.832467 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表