
全同态加密(FHE)堪称数据隐私的“圣杯”,它允许在不解密的情况下直接对加密数据进行运算。然而,这项技术有个致命弱点:在普通CPU和GPU上运行起来太慢了,性能损失高达数千甚至上万倍,这严重阻碍了其实用化。
为了解决这个瓶颈,无论是学术界、初创公司还是芯片巨头,都在积极研发专用硬件。在最近于旧金山举办的IEEE国际固态电路会议(ISSCC)上,英特尔展示了其名为Heracles的全同态加密加速芯片。根据官方数据,这款芯片能将FHE计算速度提升高达5000倍,远超其顶级的至强(Xeon)服务器CPU。
专用硬件,为何如此必要?
多家初创公司正与英特尔赛跑,希望率先实现商业化。不过,英特尔安全电路研究负责人Sanu Mathew认为,英特尔凭借其芯片的算力规模拥有显著优势。他指出,Heracles是首款能够规模化运行的FHE硬件。
这里的“规模化”体现在两方面:物理尺寸和计算性能。与通常面积在10平方毫米以下的其他研究芯片相比,Heracles的面积达到了其20倍左右,它采用了英特尔目前最先进的3纳米FinFET工艺制造。为了支撑海量的加密数据吞吐,芯片采用了液冷封装,并集成两颗总容量达48GB的高带宽内存(HBM),这一配置通常只在AI训练GPU上才会见到。
在ISSCC的现场演示中,Heracles展示了一个典型的安全隐私查询场景:模拟选民查询自己的选票是否已被正确登记,且整个过程无需解密任何数据。
在英特尔至强(Xeon)服务器CPU上,完成一次这样的查询需要15毫秒。而Heracles仅需14微秒,速度提升了三个数量级。单次查询的差异或许难以感知,但如果将这个数字放大到验证1亿张选票:
- 使用CPU需要耗时超过17天。
- 使用Heracles则仅需23分钟。
该项目的核心参与者之一、现已任教于加州大学欧文分校的Ro Cammarota回顾了Heracles长达五年的研发历程,他表示:“我们已经兑现并实现了所有承诺。”
攻克数据膨胀与计算精度的挑战
全同态加密本质上是一种数学变换。它使用抗量子算法加密数据,其精妙之处在于,可以对加密后的数据直接执行特定的数学运算,得到的结果与对原始明文进行相同运算后再加密的结果一致。
英特尔电路研究实验室的研究科学家Anupam Golder在ISSCC上指出,制约FHE发展的主要因素之一是数据加密后的体积会急剧膨胀。“在FHE中,密文要比原始明文大好几个数量级。”
庞大的数据量本身已是难题,而FHE所需的计算类型则更为棘手。它处理的是超大数值,且必须进行高精度计算。CPU虽然能处理,但效率极低——FHE中的一次整数加法和乘法所需的时钟周期大约是普通情况下的1万倍。此外,CPU也并非为这种大规模的并行计算而设计。GPU虽擅长并行,但其强项在于低精度计算,与FHE的高精度需求背道而驰。
FHE还涉及到一些特殊的运算,如“旋转”(twiddling)和“自同构”(automorphism),并且依赖一个名为“重加密”(bootstrapping)的高算力降噪流程。这些操作在通用处理器上效率都非常低下。
因此,尽管已经有了精巧的算法和软件优化库,但要处理大规模的实际问题,硬件加速器依然是不可或缺的一环。Heracles项目正是在五年前,由美国国防高级研究计划局(DARPA)的一项旨在加速FHE的专项计划中启动的。Cammarota表示,这是一次从理论、算法到电路设计的完整系统级工程。
研发团队面临的首要难题之一是如何处理远超64位字长的超大数值。他们大胆决定采用更小的32位分块来处理这些大数,同时保证所需精度。这一决策显著提升了Heracles的速度和并行度,因为32位运算电路比64位电路要小巧得多。
Heracles的核心是64个被称为“磁贴对”的计算核心,以8×8的网格排列。它们是单指令多数据(SIMD)引擎,专门用于并行执行FHE所需的多项式运算、旋转等操作。一个片上2D网状网络通过512字节宽的极宽总线将这些计算单元连接起来。
为了让加密计算高效运转,关键在于如何快速地向这些计算核心输送海量数据。为此,Heracles配备了总容量48GB的HBM,并以高达819GB/s的带宽与芯片相连。
数据进入芯片后,会暂存于64MB的片上缓存中——这个容量甚至略高于英伟达Hopper架构的GPU。随后,数据能以9.6TB/s的速度在计算单元间高速流转。Golder解释道,为了平衡计算与数据传输,Heracles同时运行三条同步指令流:一条负责数据进出芯片,一条负责芯片内部搬运,第三条则专职执行运算。
英特尔称,这些设计共同带来了惊人的性能提升。主频为1.2 GHz的Heracles,完成FHE的关键数学变换仅需39微秒,比主频3.5 GHz的至强(Xeon)CPU快2355倍。在七项核心FHE运算中,Heracles的加速比在1074倍到5547倍之间。Mathew解释说,加速幅度的差异主要取决于运算中的数据搬运量,关键在于平衡“数据传输”与“数值计算”。
FHE竞赛:AI与安全的新战场
FHE软件公司Duality Technology的首席技术官Kurt Rohloff评价道:“这是一项非常出色的工作。”在同一个DARPA计划下,Duality也曾是英特尔的竞争对手。Rohloff认为:“一旦英特尔开始谈论规模化,通常就意味着分量十足。”
目前,Duality更专注于软件产品,以实现类似英特尔演示的加密查询功能。Rohloff表示,在当前的应用规模下,对专用硬件的需求尚未完全爆发。真正的需求将来自更复杂的机器学习应用,例如运行经过全同态加密的神经网络、大语言模型或语义搜索。
去年,Duality曾展示过一款经过FHE加密的BERT语言模型。尽管其规模只有最小巧的大语言模型的十分之一,但这指明了方向。
另一家从DARPA竞争中脱颖而出的初创公司Niobium Microsystems也认为,加密AI是FHE芯片的关键目标。该公司产品副总裁John Barrus表示:“有很多中小型模型,即便经过FHE加密导致数据膨胀,在加速硬件上依然可以流畅运行。”
英特尔尚未公布Heracles的具体商用计划。而Niobium则希望其芯片能成为全球首款具备商用价值的FHE加速器,并已与韩国芯片设计公司Semifive合作,计划采用三星8纳米工艺进行研发制造。
此外,Fabric Cryptography、Cornami和Optalysys等初创公司也在研发各自的FHE加速方案。Optalysys公司甚至另辟蹊径,采用光子芯片来处理FHE中计算最密集的变换步骤,并计划未来通过3D集成技术将其与负责其他运算的专用芯片结合。
Mathew表示,在竞争对手奋力追赶的同时,英特尔也在持续迭代:一方面通过软件优化挖掘硬件潜力,另一方面尝试处理更大规模的FHE任务,并探索下一代硬件的升级方向。他将此比作微处理器的诞生:“这是一整个全新征程的起点。”
随着数据隐私日益成为全球关注的焦点,能够在加密状态下直接处理数据的技术变得愈发重要。从保护个人医疗基因数据到实现真正隐私安全的云端AI交互,全同态加密及其专用硬件的发展,正为我们勾勒出一个更加安全可信的数字未来蓝图。对这类前沿硬件安全技术感兴趣的开发者,欢迎在云栈社区的安全技术板块深入交流,共同探讨从密码学基础到专用计算机体系结构的更多可能性。