云栈社区»论坛 › 开发者广场「Dev Plaza」 › 掩模ROM AI推理芯片：Taalas HC1实现每秒17000 Token的亚毫秒级 ...

发回帖发新帖

4320 积分	0 好友	566 主题

发消息

掩模ROM AI推理芯片：Taalas HC1实现每秒17000 Token的亚毫秒级推理

发表于 2026-2-22 08:03:47 | 查看: 216| 回复: 0

在追求极致AI推理性能的赛道上，一家仅有24人的初创公司向巨头发起了挑战。Taalas公司推出的首款芯片HC1，声称其峰值推理速度高达每秒17000个token，将大模型的响应速度推入了亚毫秒级的即时时代。

这个数字是什么概念？对比当前性能领先的专用AI芯片，例如Cerebras的WSE-3，其速度约为每秒2000个token。HC1的速度直接快了近10倍。与此同时，其宣称的成本和功耗也大幅降低，分别为传统方案的1/20和1/10。

这背后是一家怎样的公司？并非英伟达或AMD，而是成立仅两年、团队精悍的Taalas。他们的首战产品HC1，选择了一条极为激进的技术路线。

Taalas HC1 芯片实物图

性能对比：速度与能效的飞跃

HC1目前搭载的是 Llama 3.1 8B 模型。根据Taalas公布的性能对比图，在“每用户每秒Token数”这一关键指标上，HC1（代号Taalas HC1）以16960的数值一骑绝尘。

AI芯片推理性能对比柱状图

如图所示，其他竞争对手的数据分别为：Cerebras (1981)、SambaNova (932)、Groq (594)、英伟达B200 (353) 和英伟达H200 (230)。HC1的性能表现超出了主流GPU和ASIC芯片数个量级。

在硬件规格上，HC1采用台积电N6工艺制造，芯片面积815mm²，设计紧凑。其典型功耗仅为250W。这意味着，一个服务器机架即便部署10颗HC1芯片，总功耗也仅为2.5kW，完全可以使用常规的风冷机架进行散热，大幅降低了部署门槛。

技术核心：将模型“刻”入硅片

如此巨大的性能飞跃是如何实现的？关键在于Taalas采用了一种近乎极端的方案：模型不再加载到外部内存中，而是直接固化在芯片的硅片里。换句话说，芯片就是模型，模型即是芯片。

这一设计理念借鉴了早期的“结构化ASIC”思想。HC1没有采用可编程性强的通用架构，而是将模型权重通过掩模ROM调用架构永久性地存储在芯片上。同时，它保留了一小块可编程的SRAM，用于存储微调权重（例如LoRA适配器）和KV缓存，从而保留了最低限度的灵活性。除此之外的所有计算路径，都通过掩模ROM实现了硬件级的固化执行。

传统GPU与Taalas HC1架构原理对比漫画

上图生动地解释了其原理：传统GPU需要频繁在计算核心和外部高带宽内存（HBM）之间搬运数据，过程慢且发热；而HC1则通过硬连线的权重直接访问，实现了瞬时响应，无需大量数据传输。

这种“硅基编译器”式的策略，牺牲了通用芯片的灵活性，换来了极致的速度和能效。它使得从AI模型到定制芯片的转化周期，从传统ASIC的约6个月缩短到了惊人的60天。

从模型文件到芯片的快速生产流程漫画

不止于小模型：扩展至大模型的方案

除了适配Llama 3.1 8B，Taalas也提出了针对超大规模模型的解决方案。以DeepSeek-R1 671B为例，团队设计了多芯片方案：将SRAM部分拆分到独立芯片上，从而将每颗HC1的存储密度提升至约200亿参数。整个系统需要约30颗定制HC1芯片。

在此配置下，整体处理速度预计可达每用户每秒12000个token。据估算，该方案处理每百万token的成本约为7.6美分，不到达到同等吞吐量的GPU方案成本的一半。即使考虑到HC1芯片可能需要每年更新（而GPU更新周期假设为4年），其总持有成本依然具备竞争力。

创始团队：AMD走出的“梦之队”

这家初创公司有何来头？Taalas由三位半导体行业资深老兵联合创立，堪称一支“AMD前高管梦之队”：

Ljubiša Bajić：AMD前集成电路设计总监，也曾是AI芯片公司Tenstorrent的创始人兼首任CEO。
Leila Bajić：曾在AMD/ATI/Altera担任技术经理和工程师。
Drago Ignjatović：AMD前ASIC设计总监。

创始人Ljubiša Bajić在Tenstorrent时，曾吸引“芯片教父”Jim Keller加入并接任CEO，自己则转任CTO专注研发。此后，他再度创业成立Taalas，目标直指通过硅基编译技术彻底改变AI推理硬件。

Taalas公司愿景与技术路径图

目前，这家仅24人的团队已成功推出HC1，据称研发投入约3000万美元。公司目前已筹集2亿美元资金，计划在春季推出HC1的第二代变体，集成一款中等规模的推理模型，并在冬季部署更密集、更快速的HC2芯片。

业界评价：掌声与质疑并存

对于HC1这种激进的设计，业界反响两极分化。

支持者认为，其超低延迟和单芯片低功耗的特性，非常适合对实时性要求极高的机器人和具身智能应用。
关于HC1芯片在机器人领域应用前景的推文截图

然而，质疑声同样存在。有网友实测发现，虽然HC1在简单问答上速度极快，但其“硬编码”模式可能导致推理深度和理解复杂任务的能力受限。
网友测试HC1芯片在简单问题上表现速度的截图

更核心的批评在于，AI模型迭代日新月异，将特定模型固化到芯片中，可能使芯片在模型更新后迅速过时，这与当前追求通用性和灵活性的行业趋势相悖。
关于模型硬编码不利于迭代周期的推文评论截图

这正是大多数芯片厂商选择开发通用型AI加速器的主要原因之一。Taalas的探索无疑是一次大胆的冒险，它用极致的专用化性能，挑战了业界的常规思维。其最终能否在市场中找到稳固的立足点，还有待时间和应用的检验。

这种对底层硬件创新的极致追求，正是推动整个人工智能领域向前发展的核心动力之一。从芯片架构到算法优化，每一环的突破都可能引发链式反应。对于关注智能 & 数据 & 云前沿趋势的开发者而言，这类技术创新值得持续关注与讨论。欢迎在云栈社区分享你的见解。

参考链接：
[1] https://x.com/wildmindai/status/2024810128487096357?s=20
[2] https://taalas.com/the-path-to-ubiquitous-ai/
[3] https://chatjimmy.ai/
[4] https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed

上一篇：谷歌TPU布局AI芯片市场新策略，直面英伟达竞争寻求生态突围
下一篇：2026年OpenClaw替代方案盘点：5款更轻量、更安全的AI智能体框架推荐

人工智能芯片, 掩模ROM, Llama 3．1, 人工智能推理, 硬件加速