3520 积分	0 好友	483 主题

发消息

Rebellions AI：CGRA架构AI芯片如何挑战Nvidia，解析Rebel Quad大模型推理性能

发表于 2025-12-30 22:37:07 | 查看: 78| 回复: 0

Rebellions自诩为“第二只吃到奶酪的老鼠”。相比于Groq、Cerebras等第一代AI芯片公司在架构灵活性与生态上的挣扎，这家韩国公司战略性地把握了进入时机：

资源垄断力：它是全球唯一同时获得Samsung和SK Hynix（两大HBM巨头）注资并保障供应的初创企业。
韩国举国体制支持：整合了韩国电信巨头KT和SK Telecom的资源，通过合并Sapeon Korea成为韩国首家AI芯片独角兽。

技术架构：CGRA粗粒度可配置阵列

Rebellions的核心竞争力在于其Rebel系列芯片采用的CGRA（Coarse-Grained Reconfigurable Array）架构。

可编程的硬件逻辑：借鉴了FPGA的可编程性但剔除了其冗余损耗。芯片内部的“神经核心”路由可随推理作业动态调整。
场景自适应：
- 预填充阶段（Prefill）：配置为计算密集型的脉动阵列。
- 解码阶段（Decode）：重新编程为注重内存带宽的模式，优化大语言模型生成效率。这种动态调整能力使其在复杂的推理场景中更高效。
先进工艺与封装：采用Samsung 4nm工艺及ICube-S封装（性能对标TSMC CoWoS-S），深度绑定Samsung生态。

图1：针对不同工作负载（如LLM预填充与解码）的可调网络架构示意图

核心产品：Rebel Quad的市场冲击力

目前的旗舰产品Rebel Quad旨在对标Nvidia H200：

核心规格：单插槽集成四个Rebel Single芯片，FP8性能达2PFLOPS，配有4.8TB/s带宽的HBM3E。
竞争优势：
- 能效比：在原始性能对标H200的基础上，功耗控制（600W）更优，每瓦特算力领先约20.7%。
- 韩国本地化与主权AI：由于不依赖美国供应链的部分受限环节，正成为亚洲、非洲及中东地区“主权AI”中心避开出口管制的替代方案。

生态联盟：Arm Total Design与软件栈

Arm+Samsung 2nm愿景：加入Arm生态，利用Neoverse CPU核心与自身加速器集成，目标直指未来的2nm混合计算平台。
软件兼容性：基于PyTorch原生开源栈，开发RBLN CCL通信库（对标Nvidia NCCL），并接入主流的分布式推理框架（如Ray、vLLM）。

Rebellions AI硬件产品关键规格表

规格维度	ATOM™ (边缘与通用推理)	ATOM™-Max (数据中心增强)	REBEL-Quad (旗舰级大模型加速)
工艺节点	Samsung 5nm EUV	Samsung 5nm EUV	Samsung 4nm (ICube-S封装)
计算引擎	8x神经核心(CGRA架构)	16x神经核心(双芯片集群)	256x神经核心(4xChiplet)
半精度算力(FP16)	32TFLOPS	64TFLOPS	1PFLOPS
低精度算力(FP8)	/	/	2PFLOPS
整数算力(INT8/4)	128TOPS/256TOPS	256TOPS/512TOPS	支持多精度混合计算
显存容量	16GB GDDR6 (ECC)	最高32GB GDDR6	144GB HBM3E (12层堆叠)
显存带宽	256GB/s	512GB/s	4.8TB/s (有效带宽~2.8TB/s)
片上SRAM	64MB NoC互连	128MB 线性扩展	256MB 分布式L1缓存
芯片间互连	PCIe 5.0	PCIe 5.0 / 自研总线	UCIe-Advanced (1TB/s)
典型功耗(TDP)	60W-150W (可调)	300W	600W
产品形态	单槽FHFL PCIe卡	双插槽或定制模块	PCIe全高全长卡 / 定制OAM

全球AI推理芯片初创公司众多，但只有Rebellions同时获得了三大HBM制造商中两家（Samsung和SK Hynix）的注资，并得到本土两大电信巨头的支持。鉴于获得HBM配额是制造数据中心级AI加速器的先决条件，其切入市场的时机堪称完美。

“我常说，第一只老鼠掉进陷阱，第二只老鼠才能吃到奶酪，”Rebellions首席业务官Marshall Choy表示。“作为第二代参与者，我们战略性地把握进入各类市场的时机，显著降低了创新风险。”

公司背景与资源整合

Rebellions总部位于首尔，其四位联合创始人拥有KAIST、MIT、IBM Research等顶尖机构背景。公司通过多轮融资及与Sapeon Korea的合并，获得了Samsung、SK集团（SK Telecom、SK Hynix）、Arm、沙特阿美等重磅投资者的支持，成为韩国首家AI芯片独角兽，估值达到15亿美元或更高。

图2：Rebellions AI 芯片实物图，型号为AT347E3-A133

这种紧密的产业联盟意味着Rebellions在HBM供应、先进制程（Samsung 4nm及未来2nm）以及芯片架构设计上获得了强大的本土化支持。

Rebel 芯片的架构细节

随着Nvidia GPU等基本锁定AI训练市场，而推理才是真正盈利的领域，Rebellions明智地将Rebel系列芯片的重心放在了推理市场。Rebel芯片采用了基于CGRA和软件定义片上网络（NoC）的设计。

图3：神经核心、神经核心集群及基于Chiplet的扩展平台架构图

通过该方案，Rebel芯片上任意两个“神经核心”之间的路由均可编程，其片内及跨芯片的路由调度能根据推理任务的实时流量模式进行动态调整。在LLM推理的Prefill阶段，神经核心可被配置为计算密集型的脉动阵列；而在Decode阶段，则可重新编程为更注重内存带宽的模式。

图4：REBEL-Single Chiplet架构图，展示了神经核心、共享内存及互连接口

每组8个神经核心通过SRAM块与网格互连耦合，一对这样的分组构成了一个名为Rebel Single的Chiplet。Rebel Single配备PCIe 5.0 x16接口、三个UCIe-A互连端口以及HBM3E内存控制器。

图5：芯片控制模块架构，包含任务DMA、命令处理器和同步管理器

在Rebel Single芯片的左上角，包含了一个独立的控制模块，由任务DMA、命令处理器和同步管理器组成，确保计算单元在恰当的时间获取数据。

构建更强大的计算复合体：Rebel Quad

为了构建更强大的计算复合体，可将四颗Rebel Single互连，形成Rebel Quad。

图6：四芯片（Chiplet）封装解决方案架构图

该加速器采用Samsung ICube-S封装技术，集成了四个12层HBM3E堆栈（总带宽4.8TB/s）和两个PCIe 5.0 x16通道。芯片间通过UCIe-A互连。

图7：采用ICube-S封装的Rebel Quad芯片规格详图

图8：基于UCIe-A的多芯片扩展架构，支持高带宽、低延迟互连

所有这些努力的结果是，Rebel Quad在FP16精度下提供1 PFLOPS算力，FP8精度下提供2 PFLOPS，功耗为600W。

与市场主流产品的对比

在原始性能上，Rebel Quad与Nvidia H200基本持平，但能效比（每瓦算力）更高。虽然Nvidia B200的峰值性能是其2.2倍，但后者的带宽需求和功耗也成比例增加。

图9：Rebel Quad与Nvidia H200、B200，AMD MI325X，Intel Gaudi 3的规格对比表

实际性能由于架构差异可能大不相同，我们期待看到真实推理场景下的基准测试对比。Rebel Single已于2024年11月流片，Rebel Quad目前正向核心客户提供样片。

软件栈与开发生态

在硬件架构之上，Rebellions构建了完整的软件栈。它采用基于PyTorch的开源方案，支持Triton推理引擎和vLLM库，并开发了高性能集合通信库RBLN CCL。

图10：RBLN SDK软件栈架构图，展示其对PyTorch、vLLM、Triton等主流框架的支持

Rebellions还有一个推理服务层称为Raise，并已完成与Red Hat OpenShift及Ray分布式框架的对接。对于希望深入探索此类前沿技术的开发者，不妨关注专业的开发者社区，那里常有关于AI硬件、人工智能模型优化及云原生部署的深度讨论。

参考文章：Morgan, T. P. (2025, December 23). Rebellions AI puts together an HBM and Arm alliance to take on Nvidia. The Next Platform. https://www.nextplatform.com/2025/12/23/rebellions-ai-puts-together-an-hbm-and-arm-alliance-to-take-on-nvidia/

上一篇：通过UUID可预测性实现IDOR漏洞：从云平台报告接管实例分析
下一篇：朝鲜网络战基础设施与Lazarus等组织的共享模式解析

AI芯片, CGRA, 大语言模型推理, Rebel-Quad, Nvidia