找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2435

积分

0

好友

329

主题
发表于 昨天 22:42 | 查看: 5| 回复: 0

被Marvell收购的Celestial AI利用光在数据中心AI计算中构建了一种全新的架构,从而在AI加速器和内存之间创建超高速、高能效的数据链路。他们的目标并非仅仅是性能的渐进式提升,而是要彻底消除限制整个行业发展的根本性性能瓶颈——AI内存墙。这项颠覆性解决方案的实现,部分得益于imec在硅光子学领域的领先研究成果。

Celestial AI的Photonic Fabric™平台解决了现代AI基础设施中最紧迫的瓶颈之一:数据传输。将这一概念转化为可制造的硅基解决方案,不仅需要技术专长,还需要一个能够支持多年深度技术研发的生态系统——这为Marvell在2024年2月收购Celestial AI奠定了完美的基础。

在本文中,Marvell的高管Preet Virk和Subal Sahni探讨了光学结构为何对规模化人工智能系统至关重要,他们必须克服的技术挑战,以及与imec的合作如何加速了从概念到可制造技术的转化。

最初是什么问题促使你创办了Celestial AI?

Preet: 当我们创立Celestial AI时,我们发现人工智能系统受到的限制不是计算能力,而是数据传输能力。

随着模型参数从数千亿增长到数万亿,处理器和内存之间交换的数据量呈爆炸式增长。GPU经常因为等待数据而停滞不前,而不是执行计算。与此同时,数据中心仅仅为了传输信息就消耗了大量电力。

电气互连存在一些根本性的限制。要么追求更高的带宽但传输距离有限,要么追求更长的传输距离但带宽有限——二者不可兼得。使用高性能DSP进行铜互连也会导致更高的延迟和更高的功耗。另一个问题是有限的“前沿”空间:所有输入/输出都必须经过硅芯片的边缘。这片“前沿”空间是有限的,而对内存和带宽的需求却在不断增长。

与主要客户的早期对话证实,我们专注于数据传输正是我们团队的正确方向。随着人工智能模型的不断增长,构建更大规模的XPU集群所需的扩展网络日益成为最关键的瓶颈。XPU之间、XPU与交换机之间以及XPU与内存之间的互连都存在不足。研究表明,AI数据中心超过60%的能源消耗在数据传输上,而其中大部分数据传输都发生在扩展阶段。这种低效的副作用是XPU利用率极低。如果我们能够提高这方面的效率,就能直接提高XPU利用率,降低数据传输所需的功耗,并提高每瓦特的可用计算能力。这一洞察成为了Celestial AI的基石。

当时光学技术领域的竞争格局如何?

Preet: 2020年和2021年,大多数光纤创新都集中在横向扩展网络、连接服务器和机架顶部交换机的可插拔收发器以及数据中心互连方面。这仍然是一个重要的领域,但我们已将重点转移到数据传输的最大瓶颈:纵向扩展领域。

AI集群正迅速向紧密耦合的多GPU架构转变。性能取决于处理器之间以及处理器与pod内部内存交换数据的速度。这与远距离网络问题截然不同。

我们决定构建优先考虑带宽、带宽密度、延迟和每比特能耗的纵向扩展链路。由于纵向扩展网络通常部署在封闭的XPU-交换机-XPU生态系统中,因此与传统的基于标准的可插拔架构相比,我们拥有更大的架构自由度。

时机也至关重要。人工智能模型的扩展速度远超大多数基础设施路线图的预期。单加速器工作负载迅速从数千个XPU的集群发展到数万个,如今更是发展到数十万个XPU协同工作。这极大地提升了处理器间高效连接的重要性。

你们与竞争对手相比有何不同?

Preet: 我们的差异化始于系统级问题解决的意图。我们专门针对可扩展的人工智能架构进行了优化,这些环境热强度高、空间受限,并且对延迟和功耗极其敏感。

这促使我们专注于三个核心指标:

  • 带宽密度:最大化芯片边缘每毫米的比特数
  • 能量效率:最大限度地降低每比特皮焦耳数
  • 延迟:减少处理器之间的同步开销

Subal: 器件的选择至关重要。在光调制中,通常会考虑马赫-曾德尔调制器、环形调制器或电吸收调制器(EAM)。

马赫-曾德尔调制器具有良好的热稳定性,但体积相对较大。环形调制器结构紧凑,但对温度高度敏感。在规模化的人工智能系统中,温度波动迅速且幅度显著。

我们选择EAM是因为它们在保持优异热稳定性的同时,还能提供高带宽密度所需的紧凑尺寸。作为我们整体技术方案的一部分,我们借鉴了imec在集成EAM技术方面的研究成果。虽然EAM已广泛应用于大批量光学应用,但如何以适用于AI封装环境的可制造方式将其集成到硅光子器件中,仍然是一项关键挑战。

Preet: 除了器件选择之外,我们还参与了整个链路的共同设计,从高速模拟电路到光子电路再到封装。我们的目标不仅仅是让光学器件正常工作,而是要让光学器件能够在超大规模数据中心环境中实现可制造、可测试和可批量生产。

当时最大的风险或未知因素是什么?

Preet: 市场需求并非风险所在。到2021年,人工智能基础设施投资加速增长已成定局。

真正的风险在于同时在多个工程领域执行:用于高速模拟的先进CMOS、硅光子器件、异构集成、封装、测试和供应链。

早期,我们务实地决定不追求“完美集成”方案。其他光子公司试图将光子学和先进CMOS工艺集成到单个晶圆上。而我们则针对每项功能采用最合适的工艺节点——混合信号电子器件采用先进节点,光子学则采用容错性更高的几何形状,并专注于解决集成和封装难题。

另一个主要的未知数是产能爬坡能力。超大规模数据中心可以非常迅速地从初步评估过渡到大规模部署。仅仅展示一个实验室原型是不够的。我们必须展示一条通往高良率、高产量制造和供应链能力的可靠路径。

这项技术最初是什么样的?

Subal: 硅光子学生态系统不如CMOS成熟。你不能总是直接走进一家代工厂,然后根据完全标准化的工艺库进行设计。通常,器件性能、材料优化和工艺参数都需要改进——而这正是我们与imec合作的关键所在,它帮助我们顺利完成了这一过程。

我们早期工作的一个重要部分是将光子学从一种仅能用于原型制作的技术转变为一种适合批量生产的技术。这需要器件工程、工艺开发和封装设计之间的紧密合作。

封装设计尤为重要。该架构必须支持高密度光I/O,能够在晶圆和封装级别进行测试,并且能够经济高效地扩展。理论上有很多封装配置方案;我们早期就经过深思熟虑,在性能、可靠性和可制造性之间取得了平衡,并且我们基本上一直坚持这些决策。

团队早期规模有多大?具备哪些能力?

Subal: 到2021年底,我们大约有25人,并以此为基础进行了战略性发展。

Preet: 我们特意让核心团队专注于我们必须创新和拥有的差异化能力,例如混合信号设计、硅光子器件、封装架构和系统集成。

在我们不具备差异化优势的领域,我们寻求合作伙伴。我们早期就将部分设计工作外包,收购非战略性知识产权,并与大学合作建立专门的测试基础设施。这使我们能够在保持资本效率的同时,专注于差异化领域。

解决数据传输问题需要跨多个工程领域的卓越能力。这不仅仅是设备问题或网络问题,它涵盖了芯片、光子学、固件和系统架构等多个层面。组建一支能够跨越这些层面开展工作的团队是我们最重要的成就之一。

这个名字是怎么来的?

Preet: 我们曾短暂地将公司命名为“Inorganic Intelligence,”,但这个名字没用多久就被我们放弃了。它太难打了,而且也不能完全反映我们正在开发的产品。

当我们把公司名称改为Celestial AI时,感觉它更符合我们的发展方向。光是我们互连技术的媒介,从一开始,我们就专注于构建能够远超渐进式改进的可扩展基础设施。

名称保留了下来,使命也未变。人工智能的发展越来越依赖于数据传输的效率。仅仅依靠计算能力的提升已远远不够。未来人工智能基础设施互连的发展将取决于带宽、延迟、能源效率以及大规模制造和部署的能力。

这就是我们在Celestial AI着手解决的挑战,也是我们今天继续利用Marvell® Photonic Fabric平台大规模开展的工作。从行业核心问题的发现到具体技术路线的选择,再到与顶级研究机构的紧密合作,每一步都体现了深度技术创业的系统性思考。如果您对这个领域的技术演进感兴趣,欢迎来云栈社区的讨论区分享您的见解。

尽早建立正确的合作伙伴关系

随着Celestial AI不断完善其早期架构,其管理团队在全球范围内寻找能够实现公司理念的构建模块。Imec的先进硅光子平台迅速脱颖而出,因为它具备以下三个优势:

  • Celestial AI需要的高性能设备
  • 验证雄心勃勃的架构决策所需的工程严谨性
  • 对于一家进入竞争激烈且新兴领域的深度科技公司而言,信誉至关重要。



上一篇:x402协议如何成为AI代理支付标准:Google、Cloudflare、Stripe等巨头的采纳之路
下一篇:Habby新作《Dicero!》前瞻:骰子驱动的Roguelike设计有何不同?
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-26 02:27 , Processed in 0.794719 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表