
最近,一家名为Taalas的芯片初创公司引发了行业广泛关注。这家2023年成立于多伦多的公司,由芯片行业资深人士Ljubisa Bajic等人创立,凭借其HC1芯片提出了一个颠覆性的思路:将AI大模型的权重直接蚀刻到芯片的金属互连层中。这一做法号称能实现极致的存算合一,让芯片的推理速度达到惊人的17000 tokens/秒,远超英伟达H200的约230 tokens/秒和B200的约2000 tokens/秒。这不禁让人思考,将特定大模型“固化”进硅片,究竟是打破AI硬件瓶颈的革命性方向,还是一次受限于快速技术迭代的勇敢尝试?
01 放弃通用性,换取极致的性能与能效
Taalas的HC1芯片,核心设计哲学是彻底抛弃“一颗芯片跑所有模型”的通用路线,转向“为特定模型定制硅结构”。这款芯片采用台积电6nm工艺和Mask ROM技术,将模型权重直接硬编码在硅片上。这种做法从物理层面消除了计算与存储之间的数据搬运,理论上能大幅缓解困扰行业的“内存墙”问题。
同时,HC1摒弃了高功耗的液冷方案和昂贵的HBM显存,转而采用空气冷却。这不仅降低了功耗,也显著减少了硬件成本。由于模型权重和结构已在硬件层面固化,其配套的软件栈也变得极度简化,无需复杂的优化层,从而进一步提升了性能和能效比。
这种极致的定制化带来了显著的性能与成本优势:据称其token处理速度可达英伟达顶级GPU的近10倍,而硬件成本仅为传统GPU方案的1/20,功耗也降至1/10。然而,代价是通用性的完全丧失——HC1芯片目前仅能运行特定的Llama 3.1 8B模型。任何模型更新都意味着芯片需要重新流片。当然,这种思路可以扩展。Taalas曾模拟过对DeepSeek R1 671B大模型的部署方案:大约需要30颗芯片协同工作,每颗承载约20B参数。虽然需要30次增量流片,但创始人Bajic指出,由于每次只改动少数掩模层,增量成本并不高。
这决定了Taalas的市场定位并非成为“下一个英伟达”,而是瞄准AI推理的特定细分环节,成为该领域的专用供应商。其思路与Groq推出的LPU(语言处理单元) 有相似之处,但在专用化的道路上走得更远。
目前,Taalas的商业模式仍在探索中,可能包括自建基础设施提供API服务、直接销售芯片、或与模型开发者合作定制专用芯片。这一方案能否被市场接受,关键在于特定应用场景对延迟的敏感程度,以及所用模型本身的长期稳定性。尽管存在明显局限,但对于高频金融交易、自动驾驶决策、军事装备等对延迟极度敏感且模型相对稳定的场景,HC1所代表的技术路线或许具备独特的价值。
02 推理芯片赛道:多元技术路线的探索
在人工智能硬件领域,GPU在训练环节的优势目前仍难以撼动。但在推理环节,GPU“贵且慢”的短板日益凸显,这也使推理芯片成为众多创新企业的竞技场。除了Taalas的硬编码方案,行业里还涌现出多种技术路线,它们都在通过放弃某些传统设计要素,以换取推理性能的突破。

- Taalas:放弃软件,走硬连线路线。 其设计逻辑是将模型的权重和数据流直接变为物理连线。在其看来,软件是纯粹的开销,指令集是一种浪费,甚至连编译器都无需配备。模型一旦确定便直接流片。这种设计将功耗和成本压至极低,但容错率为零,模型的任何变动都会让芯片报废。
- Etched:把架构刻进芯片。 他们的AI芯片是一种专为Transformer架构设计的ASIC(专用集成电路),声称在LLM推理上击败了英伟达H100。通过将Transformer的计算逻辑(如注意力机制、矩阵乘法)硬编码进芯片电路,实现了效率的指数级提升。但这意味着完全丧失灵活性,无法运行RNN、推荐系统模型等任何非Transformer的任务。
- Groq:推出纯SRAM架构的LPU。 GroqChip 1摒弃了硬件调度器、缓存一致性协议和分支预测等传统设计,其核心是让硬件保持100%的确定性。数据的传输和运算全靠编译器在软件层面进行周期级的精确规划。这使得它在批处理大小为1时的推理速度极快,其核心竞争力实际在于强大的编译器软件。
- Cerebras:跳出芯片切割思路。 其WSE(晶圆级引擎)系列产品直接将整块晶圆作为一颗大芯片,集成了海量的SRAM和计算核心。该设计从物理层面试图解决芯片间数据传输的瓶颈,获得了极高的带宽,但制造、散热和容错的工程难度也达到了极致。
- Tenstorrent:拥抱开源与解耦。 由芯片大师Jim Keller创立的Tenstorrent,选择RISC-V开源指令集搭配专用的矩阵计算单元,打造高度可编程的数据流架构。他们认为AI算法仍在快速迭代,硬件绝不能写死,因此采用灵活的RISC-V处理控制流,再通过异构网络连接大量小芯片。其赌注在于未来的AI将是包含大量条件判断的复杂软件工程,而非单一的Transformer架构。
03 回望历史:固化硬件的教训与不同层级的风险
将程序“刻”进硬件的思路并非Taalas首创,科技史上的先例为其提供了重要参考,也揭示了不同层级绑定所带来的风险。
上世纪90年代末,3dfx的Voodoo显卡曾是3D图形领域的霸主。它的成功与失败都源于同一设计:将3D渲染的“固定管线”直接硬件化。专款专用的设计使其在运行3D游戏时速度碾压对手,但当开发者开始追求更复杂的光影、质感效果时,硬件固化的Voodoo无法支持这些新功能,最终被搭载“可编程着色器”的英伟达GeForce GPU取代。
2016-2018年,CNN(卷积神经网络) 是AI视觉领域的主流算法。许多芯片创业公司针对CNN设计了专门的“卷积加速引擎”。这些芯片在处理人脸识别等任务时速度快、能耗低。然而,随着《Attention Is All You Need》论文的发布和BERT模型的兴起,大模型的底层逻辑从“局部卷积”转向“全局自注意力机制”。那些将CNN逻辑刻死在芯片里的公司,因硬件缺乏强大的通用矩阵计算能力,运行Transformer架构的效率极低,大部分黯然退场。
对比这两个案例与Taalas的方案,可以发现硬件固化的层级存在本质差异:
- Voodoo显卡固化的是渲染管线。技术迭代后,它仍能运行3D游戏,只是画面效果落后。
- CNN芯片固化的是算法。在传统视觉场景中它仍有用,但适用场景大幅收窄。
- Taalas HC1固化的是特定的模型。一旦模型更新,芯片便直接报废。
这种极致的绑定带来了最大的风险——它赌的是AI算法已进入“平台期”,架构难以再有突破。但现实是,当前大模型的迭代周期甚至以周计。只要行业竞争持续,技术标准就难以统一,快速的技术变化始终是悬在这类专用芯片头上的达摩克利斯之剑。
04 并非普适方案,却在特定场景中闪光
从前沿AI研发的角度看,将大模型刻进芯片显然不是普适性方案。但这并不意味着它毫无价值。恰恰相反,在大量模型需求相对固定、对延迟或离线能力有极致要求的场景中,它能解决大模型推理延迟过长的核心痛点。
- 工业领域:大模型下车间成为趋势,许多场景不需要顶尖模型,蒸馏后的轻量模型(如Qwen2.5)即可解决传统定制化开发问题。这类场景对模型稳定性要求远高于迭代速度,将轻量模型固化进芯片,能完美解决推理延迟问题。
- 政务系统:部署后常需断开外网,模型无法在线更新。此时将模型固化为硬件,后续更新只需替换硬件,反而比复杂的软件更新更便捷。
- 消费电子:翻译、TTS等小模型若做成专用芯片集成进手机,能为设备提供可靠的离线智能能力。即使未来有更优模型,也能满足用户基础需求,同时相比手机直接运行软件模型,能大幅提升设备续航。
而在对延迟和离线能力有极致要求的特殊场景中,该方案的优势更加不可替代:
- 智能驾驶:面对临时修路、交警指挥等突发状况,需要低于1毫秒的“本能级”逻辑推理。传统自动驾驶芯片擅长图像识别,难处理复杂逻辑;云端大模型又有延迟。固化了大模型的专用芯片,能实现本地的极速推理。
- 高频量化金融:面对美联储讲话、非农数据等引起的市场快速波动,专用芯片能以极高速度解析信息、判断市场走向并生成交易信号,为量化策略提供速度优势。
- 军工领域:无需联网、固化在物理硬件中的大模型芯片,即使在断网的“信息孤岛”中,也能凭借出厂时内置的庞大参数,独立进行快速的战术分析和保密决策。
值得注意的是,固化在芯片中的大模型,其逻辑推理和知识检索能力依然保持顶级。它虽无法通过迭代自我进化,但并非失去联网获取最新信息进行分析的能力,只是“底座”能力不再升级。
05 争议与未来:一场关于迭代周期的博弈
将大模型刻进芯片这一方案的未来发展,核心将围绕 “迭代周期” 与 “成本” 的博弈展开,这也是行业的主要争议点。
Taalas宣称其竞争力在于能将“大模型转化为定制芯片”的周期从传统的一年缩短至两个月,同时因抛弃HBM、采用6nm工艺,硬件成本仅为英伟达H100等方案的1/20。从成本角度看,优势显著。若以其17000 tokens/秒的速度计算,单颗HC1芯片的处理能力堪比英伟达8卡服务器,只要单芯片总成本控制得当,市场竞争力很强。
真正的问题在于迭代周期。即便两个月流片已算神速,但当前AI模型的迭代基本以月为单位。两个月的“空窗期”足以让竞争对手推出新一代模型,导致芯片刚量产就面临“落后”的局面。这是该方案最致命的短板。此外,将迭代最快、最不稳定的软件(模型),绑定到迭代最慢、最稳定的硬件上,本质上是牺牲了技术的抽象性与灵活性,换取短期内的性能数据,这也是其主要受质疑之处。
当然,Taalas为芯片设计了LoRA挂载能力,可在一定程度上进行微调,弥补模型无法迭代的短板。同时,这本质上也是一个经济学问题:随着大模型技术发展逼近极限,其更新周期可能逐步变长。当模型迭代速度慢于芯片流片速度时,该方案的经济价值便会凸显。Taalas的长期赌注,正是大模型技术会进入一个相对稳定的发展停滞期。
06 结语
把大模型直接刻进芯片,并非能颠覆整个AI硬件市场的普适性技术路线。在前沿研发领域,面对模型的快速迭代,其局限性被无限放大,难以成为主流。但不可否认,Taalas的尝试为AI芯片的发展提供了全新的视角。它牺牲通用性以换取极致性能与能效的思路,精准切中了AI推理细分市场的特定需求,为存算合一、定制化硬件的设计方向提供了重要参考。
这条技术路线的未来,终究取决于AI模型的迭代速度与行业场景需求的动态平衡。当大模型技术进入稳定期,那些对延迟、离线运行有极致要求的固定场景,或将成为专用芯片的沃土。而即便技术持续高速迭代,这种极致的创新思路,也将持续推动行业探索更高效的AI硬件设计,促使整个生态朝着多元化、场景化的方向不断演进。对于这类深度的硬件与算法交叉话题,开发者们也可以在云栈社区的智能 & 数据 & 云或人工智能板块进行更深入的交流与探讨。