5592 积分	0 好友	756 主题

芯片即模型：Taalas将Llama 3.1 8B蚀刻入ASIC，推理速度突破17K tokens/s

发表于 2026-2-24 03:59:46 | 查看: 171| 回复: 0

加拿大芯片初创公司 Taalas 近日宣布完成1.69亿美元的新一轮融资，使其总融资额超过2.19亿美元。与此同时，这家位于多伦多的公司正式走出“隐身模式”，向外界展示了其一项颠覆性的核心技术：将大型语言模型直接“蚀刻”到定制化的硅芯片电路中。

传统上，无论使用GPU还是其他专用AI加速器，运行AI模型都需要先将模型参数（权重）从存储设备加载到内存中，计算单元再反复从内存中读取数据进行运算。这个过程会产生大量的数据搬运开销和功耗。

Taalas 的做法则截然不同。他们通过定制化的芯片架构，将特定模型（如 Llama 3.1 8B）的权重和计算逻辑永久性地固化在芯片的晶体管与金属连线中。简单来说，芯片通电后，其电路结构本身就是模型。数据流沿着预设的固定路径行进，无需反复存取权重，从而实现了极高的计算效率和能效比。

其首款演示芯片 Taalas HC1 在单用户推理任务中，速度达到了惊人的 每秒17，000个以上Tokens（Tokens/s）。

Taalas HC1 技术演示平台，运行Llama 3.1 8B模型，采用台积电6nm工艺

传统GPU/加速器：模型像是放在书架（内存）上的书籍。每次计算，芯片（读者）都需要走到书架前，取出书（读取权重），进行计算思考，然后再把书放回去。这个过程耗时耗力。
Taalas HC1芯片：书籍的内容被直接雕刻在了房间的墙壁（芯片电路）上。芯片（读者）只需走进房间，目光所及之处即是知识，计算（理解）瞬间完成，省去了所有取书放书的步骤。

这种“芯片即模型”的思路，让人联想到上世纪90年代的门阵列（Gate Array）技术。Taalas的创新之处在于，他们利用现代工艺和设计方法，将这种“硬连线”逻辑应用于处理大型语言模型中参数稀疏性和量化带来的复杂性。

这项技术的核心基于结构化ASIC和定制掩膜工艺。其实现路径可以概括为以下几个步骤：

预制芯片基底：Taalas首先设计并制造了一个接近完成的通用芯片基底。这个基底已经包含了约100层的晶体管和金属互联结构，完成了大部分通用逻辑和存储电路。
保留定制层：最后两层金属层（掩膜）被预留出来，用于实现最终的功能定制。
模型写入：通过设计最后两层金属层的连接图案，将目标模型（如Llama 3.1 8B）的权重值和特定的数据流路径永久性地“编写”进芯片。这类似于PCB设计中，最后两层铜箔的走线决定了电路板的具体功能。
硬编码计算：权重值并非存储于可读写的内存中，而是像ROM（只读存储器）一样，通过晶体管是否导通的物理状态来硬编码。计算时，输入数据流过这些固化好权重的电路，乘法和加法运算直接在电流流经特定路径时完成，无需传统的“读取-计算-写回”流程。
灵活性的保留：为了处理模型推理中的动态部分（如不断变化的上下文），芯片中仍集成了小容量的SRAM，专门用于缓存当前的对话上下文。

Taalas HC1芯片特写，中央为大型定制ASIC，周围未见传统内存模块
（图中可见芯片核心区域，周围并未配备传统形式的大容量内存模块）

优势：

挑战（劣势）：

模型不可变：这是最根本的制约。一颗蚀刻了Llama 3.1 8B的芯片，将永远只能运行这个特定版本的模型，无法通过软件升级来适配Llama 3.2、GPT-4或任何新兴模型。
迭代成本与周期：要更换模型，就必须重新设计掩膜并流片生产新的芯片。尽管Taalas表示其利用最后两层金属定制的流程可将周期缩短至约2个月，但这相比软件更新仍显漫长，且会产生新的硬件成本。
适用场景：该技术更适合模型架构稳定、需要极致性能且对成本不敏感的场景，或在AI模型发展进入平台期后，针对主流固化模型进行部署。

Taalas的这项技术为AI计算提供了一条另辟蹊径的思路。在当前AI模型快速迭代的阶段，其适用性可能受到限制。然而，如果未来出现某些“统治性”的稳定模型架构，或者在某些对延迟、功耗有极端要求且功能固定的边缘计算场景中，“模型即芯片”的方案可能会找到其独特的生态位。

随着芯片制程工艺的持续进步，未来在单颗芯片上蚀刻参数量更大（如800亿参数）的模型也将成为可能。这引发了业界对于计算范式的重新思考：在软硬件协同设计的道路上，我们是否正在见证一次从“通用计算”向“功能固化”的螺旋式回归？

你对这种硬件固化的AI计算方式有何看法？是未来方向还是特定场景的补充？欢迎在云栈社区与更多开发者交流探讨。