在追求极致AI推理性能的赛道上,一家仅有24人的初创公司向巨头发起了挑战。Taalas公司推出的首款芯片HC1,声称其峰值推理速度高达每秒17000个token,将大模型的响应速度推入了亚毫秒级的即时时代。
这个数字是什么概念?对比当前性能领先的专用AI芯片,例如Cerebras的WSE-3,其速度约为每秒2000个token。HC1的速度直接快了近10倍。与此同时,其宣称的成本和功耗也大幅降低,分别为传统方案的1/20和1/10。
这背后是一家怎样的公司?并非英伟达或AMD,而是成立仅两年、团队精悍的Taalas。他们的首战产品HC1,选择了一条极为激进的技术路线。

性能对比:速度与能效的飞跃
HC1目前搭载的是 Llama 3.1 8B 模型。根据Taalas公布的性能对比图,在“每用户每秒Token数”这一关键指标上,HC1(代号Taalas HC1)以16960的数值一骑绝尘。

如图所示,其他竞争对手的数据分别为:Cerebras (1981)、SambaNova (932)、Groq (594)、英伟达B200 (353) 和英伟达H200 (230)。HC1的性能表现超出了主流GPU和ASIC芯片数个量级。
在硬件规格上,HC1采用台积电N6工艺制造,芯片面积815mm²,设计紧凑。其典型功耗仅为250W。这意味着,一个服务器机架即便部署10颗HC1芯片,总功耗也仅为2.5kW,完全可以使用常规的风冷机架进行散热,大幅降低了部署门槛。
技术核心:将模型“刻”入硅片
如此巨大的性能飞跃是如何实现的?关键在于Taalas采用了一种近乎极端的方案:模型不再加载到外部内存中,而是直接固化在芯片的硅片里。换句话说,芯片就是模型,模型即是芯片。
这一设计理念借鉴了早期的“结构化ASIC”思想。HC1没有采用可编程性强的通用架构,而是将模型权重通过掩模ROM调用架构永久性地存储在芯片上。同时,它保留了一小块可编程的SRAM,用于存储微调权重(例如LoRA适配器)和KV缓存,从而保留了最低限度的灵活性。除此之外的所有计算路径,都通过掩模ROM实现了硬件级的固化执行。

上图生动地解释了其原理:传统GPU需要频繁在计算核心和外部高带宽内存(HBM)之间搬运数据,过程慢且发热;而HC1则通过硬连线的权重直接访问,实现了瞬时响应,无需大量数据传输。
这种“硅基编译器”式的策略,牺牲了通用芯片的灵活性,换来了极致的速度和能效。它使得从AI模型到定制芯片的转化周期,从传统ASIC的约6个月缩短到了惊人的60天。

不止于小模型:扩展至大模型的方案
除了适配Llama 3.1 8B,Taalas也提出了针对超大规模模型的解决方案。以DeepSeek-R1 671B为例,团队设计了多芯片方案:将SRAM部分拆分到独立芯片上,从而将每颗HC1的存储密度提升至约200亿参数。整个系统需要约30颗定制HC1芯片。
在此配置下,整体处理速度预计可达每用户每秒12000个token。据估算,该方案处理每百万token的成本约为7.6美分,不到达到同等吞吐量的GPU方案成本的一半。即使考虑到HC1芯片可能需要每年更新(而GPU更新周期假设为4年),其总持有成本依然具备竞争力。
创始团队:AMD走出的“梦之队”
这家初创公司有何来头?Taalas由三位半导体行业资深老兵联合创立,堪称一支“AMD前高管梦之队”:
- Ljubiša Bajić:AMD前集成电路设计总监,也曾是AI芯片公司Tenstorrent的创始人兼首任CEO。
- Leila Bajić:曾在AMD/ATI/Altera担任技术经理和工程师。
- Drago Ignjatović:AMD前ASIC设计总监。
创始人Ljubiša Bajić在Tenstorrent时,曾吸引“芯片教父”Jim Keller加入并接任CEO,自己则转任CTO专注研发。此后,他再度创业成立Taalas,目标直指通过硅基编译技术彻底改变AI推理硬件。

目前,这家仅24人的团队已成功推出HC1,据称研发投入约3000万美元。公司目前已筹集2亿美元资金,计划在春季推出HC1的第二代变体,集成一款中等规模的推理模型,并在冬季部署更密集、更快速的HC2芯片。
业界评价:掌声与质疑并存
对于HC1这种激进的设计,业界反响两极分化。
支持者认为,其超低延迟和单芯片低功耗的特性,非常适合对实时性要求极高的机器人和具身智能应用。

然而,质疑声同样存在。有网友实测发现,虽然HC1在简单问答上速度极快,但其“硬编码”模式可能导致推理深度和理解复杂任务的能力受限。

更核心的批评在于,AI模型迭代日新月异,将特定模型固化到芯片中,可能使芯片在模型更新后迅速过时,这与当前追求通用性和灵活性的行业趋势相悖。

这正是大多数芯片厂商选择开发通用型AI加速器的主要原因之一。Taalas的探索无疑是一次大胆的冒险,它用极致的专用化性能,挑战了业界的常规思维。其最终能否在市场中找到稳固的立足点,还有待时间和应用的检验。
这种对底层硬件创新的极致追求,正是推动整个人工智能领域向前发展的核心动力之一。从芯片架构到算法优化,每一环的突破都可能引发链式反应。对于关注智能 & 数据 & 云前沿趋势的开发者而言,这类技术创新值得持续关注与讨论。欢迎在云栈社区分享你的见解。
参考链接:
[1] https://x.com/wildmindai/status/2024810128487096357?s=20
[2] https://taalas.com/the-path-to-ubiquitous-ai/
[3] https://chatjimmy.ai/
[4] https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed