
英伟达正用AI设计下一代AI芯片
AI芯片的尽头,是AI设计AI芯片
4月14日,英伟达首席科学家Bill Dally公开了一项震撼业界的进展:他们已经开始在真实的生产环境中,使用 人工智能 来设计自家的GPU芯片。
这并非停留在概念验证阶段。一个过去需要8名工程师耗费10个月才能完成的“标准单元库迁移”工作,现在交给一块GPU,一个晚上就能全部搞定。更关键的是,由AI设计出的芯片,其性能比人工设计的版本还要高出20-30%。
这彻底改变了游戏规则。
从80人月到一夜:NB-Cell是什么怪物?
首先,我们需要理解“标准单元库迁移”这项工作的性质。
在芯片设计领域,“标准单元”指的是像逻辑门、触发器、加法器这类最基础的电路模块。每当台积电等代工厂推出新的制程工艺(例如从5nm升级到3nm),这些标准单元就必须根据新的物理规则进行重新设计和适配。
这项任务过去通常需要一个8人团队奋战10个月,总计高达80人月的工作量。如今,英伟达内部一个名为 NB-Cell 的工具,基于强化学习技术迭代了两三代之后,已经能够独立完成这项工作。
Dally的原话是:“一块GPU运行一夜,完成上述工作。”
这不是辅助设计,也不是提供优化建议,而是直接生成可用的设计结果。而且,生成的单元在面积、功耗、延时这三个核心指标上,全部达到甚至超越了人工设计的水平。
这意味着什么?这意味着当台积电发布新一代制程时,英伟达能比竞争对手提前数月完成芯片流片。在日新月异的半导体行业,时间就是一切。

AI生成的芯片布局(左)与人工设计(右)对比
Prefix RL:设计出人类意想不到的方案
NB-Cell的威力只是一个开始。Dally还提到了另一个内部工具:Prefix RL。
这个工具旨在解决芯片设计中的一个经典难题——进位超前链的超前级布局。简单来说,就是在加法器中如何最优地安排进位信号的传递路径,以实现最快的运算速度和最低的功耗。工程师们对此问题已经研究了几十年,形成了一套成熟的经验法则。
然而,Prefix RL给出的布局方案,用Dally的话说,是“人类工程师永远无法想到的。” 并且,在关键的性能指标上,它比人工设计高出20-30%。
这一点尤其引人深思。AI的优势不仅在于速度,更在于它能够跳出人类经验与直觉的框架,发现全新的、更优的解决方案。在某些领域,人类的既有认知反而可能成为一种局限。
Chip Memo和Bug Nemo:初级工程师的AI导师
除了直接参与物理设计,英伟达还在内部部署了两款大型语言模型:Chip Memo和Bug Nemo。
这两款模型使用英伟达多年积累的GPU设计数据(包括RTL代码、架构文档和Bug报告)进行了微调。Dally表示,现在初级工程师遇到问题时,可以直接询问这些模型,而不再需要频繁打扰资深设计师。
更具实用价值的是,这些模型能够自动汇总Bug报告,并将其精准分配到对应的功能模块或负责的工程师。
想象一下,一个大型芯片项目可能产生成千上万个Bug。以往需要专人进行繁琐的分类和指派工作,现在可以由AI自动完成。这让资深工程师得以从“救火队员”的角色中解放出来,专注于更具战略性和创造性的工作。

英伟达内部用于芯片设计的AI工具矩阵示意图
Dally的冷水:端到端自动化尚需时日
读到这里,你可能会想:芯片设计师是不是要失业了?
对此,Dally特意泼了一盆冷水。他强调:“使用AI进行完全端到端的自动化芯片设计,依然为时尚早。”
目前的AI工具只是在特定环节替代人类,例如标准单元迁移、局部布局优化、Bug分类等。然而,从架构定义、RTL编码、功能验证、物理实现到最终流片的完整芯片设计流程,涉及成千上万个相互关联的决策点。
AI擅长局部优化,但系统级的权衡、颠覆性的架构创新、对复杂需求的理解,这些核心工作仍然需要人类工程师来完成。就像NB-Cell能设计出优秀的标准单元,但它无法决定“这块GPU需要配备多少个CUDA核心、多少显存控制器,以及如何全局平衡性能与功耗”。
因此,Dally不愿意预测实现端到端全自动设计的具体时间表。可能是5年,10年,或者更久。
一个值得注意的对比:增强而非替代
这里有一个有趣的观察点。
许多公司在引入AI时,首要目标是替代人力、降低成本。但英伟达似乎采取了不同的策略。
Dally提到,他们并没有因为AI工具带来的效率提升而裁减初级工程师。相反,他们利用这些工具,以更高效的方式加速初级工程师的成长。
有了Chip Memo,新人能更快上手;借助NB-Cell,他们能从重复性的单元迁移工作中解放出来,去接触更具挑战性和创造性的任务。
这或许揭示了AI更理想的用途——不是简单地替代人类,而是增强人类的能力。
行业影响:这可能是一个分水岭
平心而论,这项进展对整个半导体行业的影响,无论怎么评估都不过分。
首先,新制程的落地速度将大大加快。 过去,从台积电发布3nm工艺到各家完成设计流片,可能需要一年时间。现在,借助AI工具,这个周期可能被压缩到几个月。谁能率先流片,谁就占据了市场的先发优势。
其次,芯片设计的门槛在降低,但天花板在升高。 入门级、重复性的工作(如绘制标准单元、运行基础验证)将被AI接管。然而,对系统架构师和具备创新能力的设计师的需求将会更加强烈。未来的芯片工程师,要么深耕AI难以涉足的顶层架构设计,要么成为驾驭这些强大AI工具的专家。
最后,英伟达的护城河可能进一步拓宽。 他们本就主导着AI训练芯片(如H100/B100)市场,现在又利用AI来优化自身的芯片设计流程。这形成了一个强大的正反馈循环:设计出更好的芯片 → 训练出更强的AI → 开发出更高效的设计工具 → 设计出更好的芯片。对于追赶者而言,这个循环构成了巨大的挑战。
在云栈社区的开发者们看来,AI取代工作的逻辑从来不是“一夜间全部消失”,而是“一部分重复性工作被自动化,剩下的工作变得更复杂、更有价值”。如果你的工作内容重复性较高,现在或许是时候思考如何提升自己了。但如果你能主动利用AI作为杠杆,将注意力聚焦于更高层次的架构与创新问题,那么AI将成为你最得力的伙伴。