一夜之间,英伟达(NVIDIA)构建多年的CUDA护城河,是否真的被AI终结了?
这几天,一位名为johnnytshi的开发者在Reddit上分享了一个震撼的操作:他仅借助Claude Code,便在30分钟内成功将一个完整的CUDA后端代码移植到了AMD的ROCm平台上。
整个过程,他没有手动编写一行内核代码。

更关键的是,这次移植完全没有依赖传统的“中间转换工具”,例如Hipify这类翻译层,而是通过智能体命令行(CLI)一气呵成。
就连AMD的软件副总裁Anush Elangovan也为此感到惊讶,并断言:GPU编程的未来,属于AI智能体。

消息一出,整个科技圈为之沸腾。许多网友惊呼,英伟达的CUDA生态壁垒可能即将被攻破。


Claude手撕CUDA,仅30分钟
Claude Code运行在一个智能体框架中,这意味着它具备自主“思考”和决策的能力。在执行任务时,它不会机械地进行关键字替换,而是尝试理解代码,特别是特定核函数(kernel)的底层逻辑。
开发者johnnytshi介绍,在这次移植过程中,最棘手的部分——CUDA与ROCm之间数据布局的差异——也被AI妥善解决了,从而确保了核心计算逻辑的一致性。

令人惊叹的是,johnnytshi在短短30分钟内就完成了整个CUDA后端到AMD ROCm的移植,并且没有使用任何中间翻译层。另一个显著的好处是,开发者无需再费力搭建像Hipify那样复杂的翻译环境,一切都可以在命令行(CLI)中直接完成。
如今,全网都充斥着“CUDA护城河被攻破”的呼声。

毕竟,英伟达在AI计算领域的霸主地位,很大程度上建立在CUDA这个几乎成为行业标准的编程生态之上。无数的AI框架、深度学习库和科学计算工具都深度依赖它。

而AMD的ROCm平台虽然功能强大,却一直面临着生态兼容性差、开发者迁移成本高的痛点。现在,一个Claude Code以极短的时间踢碎了这道门槛,未来或许会有更多CUDA代码能够轻松地在AMD GPU上运行起来。
实现细节
在GitHub上,johnnytshi本人也更新了详细的日志和说明。他成功为AMD GPU实现了完整的ROCm后端,从而在RDNA 3.5及其他AMD架构上支持基于注意力机制的现代国际象棋神经网络。

GitHub地址:https://github.com/LeelaChessZero/lc0/pull/2375
主要变更包括:
- 在
src/neural/backends/rocm/ 目录中添加了完整的ROCm后端。
- 实现了注意力网络架构,包括多头自注意力、前馈网络(FFN)和嵌入层。
- 使用rocBLAS进行GEMM运算,使用MIOpen进行卷积运算。
- 针对RDNA 3.5架构上的FP16性能,优化了NCHW数据布局。
- 提供了三种后端变体:
rocm (FP32)、rocm-fp16 (FP16)、rocm-auto (自动检测)。
- MIOpen是必选依赖(类似于CUDA中的cuDNN)。
- 通过
rocm_agent_enumerator 工具自动检测AMD GPU架构。
- 编译选项示例:
-Drocm=true -Damd_gfx=gfx1151(也可使用自动检测)。

性能说明:
- FP16性能:在Strix Halo平台(集成Radeon 8060S,架构代号gfx1151)上,每秒节点数(nps)超过2000。
- 支持自动Batch Size调优(在RDNA 3.5上最小批次设为64)。
- 测试过rocWMMA,但发现rocBLAS性能更优。
验证情况(基于Strix Halo - Radeon 8060S, gfx1151):
- 测试模型:
768x15x24h-t82-swa-7464000.pb.gz 和 maia-1900.pb.gz。
- 后端:
rocm-fp16 功能正常,能生成正确的象棋走法。
- 环境:ROCm 7.2.53150, MIOpen 3.5.1。
- 注:目前仅在RDNA 3.5架构上进行了测试;其他AMD架构暂未验证。
GPU未来,是AI智能体主场
当然,这次演示也存在一定的局限性。
对于简单或中等复杂度的内核,Claude Code表现非常出色。然而,编写高性能核函数的核心在于进行深度的硬件优化。一部分观点认为,Claude Code在这方面目前还略有不足——当遇到那些针对特定硬件缓存层级、内存访问模式做过极致优化的复杂内核时,AI可能还难以完全取代人类专家。
即便如此,这一事件释放出的信号已经足够强烈。过去几个月,ZLUDA项目以及微软内部的尝试,都旨在打破CUDA的垄断。

但这些尝试大多依赖于规则映射或中间转换层,自动化程度和智能水平有限。而Claude Code所代表的智能体式编程,直接跳过了这些环节,用“理解代码逻辑+自主决策”的方式来填平不同硬件生态之间的鸿沟。正如AMD软件副总裁所言,GPU编程的未来,将是AI智能体的主场。
全员AI编程,浓度高达100%
如今的Claude Code已经让整个硅谷为之着迷(甚至被戏称为“Claude-Pilled”)。
两天前,Anthropic的CEO Dario Amodei在达沃斯论坛上再次发表惊人言论:软件工程师们的时间不多了。未来6到12个月,AI将能够端到端地完成大部分软件工程师的工作!

甚至,Anthropic内部的工程师已经不再手动编写代码,全部交由Claude完成。
别不信,这是真的。在《连线》(Wired)杂志的最新采访中,Claude Code的负责人Boris Cherny坦诚道:“我自己100%的代码都是AI写的。”

或许Anthropic的工程师们也没有想到,一个起初的“副业项目”竟能让硅谷如此狂热。Boris Cherny回忆说:“一年前我们发布Claude Code时,甚至不确定‘智能体编程’这个概念能否成立,但火爆来得太快了。”
Cherny个人的经历就是最好的缩影:
- 刚发布时,他只有5%的代码是用Claude Code写的。
- 到了去年5月,随着Opus 4和Sonnet 4模型的发布,这个比例上升到了30%。
- 而现在,借助Opus 4.5,他在过去两个月里100%的代码都是由Claude Code完成的。
在Anthropic内部,这种全员AI化的趋势更是达到了极致。几乎100%的技术员工都在使用Claude Code,甚至连Claude Code团队本身95%的代码也是由Claude Code自身生成的。

斯坦福AI教授都在用了
不得不说,AI编程的进化速度令人咋舌。
回望2021到2024年,大多数编程辅助工具不过是高级版的“自动补全”,在开发者打字时卑微地建议几行代码。但到了2025年初,随着Cursor和Windsurf等初创公司发布早期的智能体编程产品,游戏规则彻底改变了——开发者只需用自然语言描述功能需求,剩下的脏活累活全都扔给AI智能体完成。
Claude Code也正是在这个时间点诞生的。Boris Cherny坦承,早期版本也曾跌跌撞撞,甚至陷入死循环。但Anthropic下了一步狠棋:不为当下AI已有的能力开发产品,而要为了AI即将抵达的未来而构建。
这一赌注押对了。随着Anthropic下一代旗舰模型Claude Opus 4.5的发布,AI编程迎来了真正的“拐点”。

斯坦福大学AI讲师、Workera公司的CEO Kian Katanforoosh最近就将公司全员迁移到了Claude Code。他直言,对于高级工程师来说,Claude Code比Cursor、Windsurf等工具更强大。
Katanforoosh感叹道,最近唯一让他看到编程能力有阶跃式提升的模型,就是Claude Opus 4.5。“它给人的感觉不像是在模仿人类写代码,而是它真的找到了一种更聪明的解决路径。”
据传,微软内部也在大规模采用Claude Code。

年入超10亿美金的“副业”
Claude Code的巨大成功,给Anthropic带来了最直观的经济效益。
去年,AI编程智能体业务彻底爆发。11月,Anthropic宣布Claude Code在上线不到一年内,其年度经常性收入(ARR)就突破了10亿美元。到2025年底,ARR至少又增长了1亿美元。

彼时,该产品约占Anthropic总ARR(约90亿美元)的12%。虽然比起向大企业提供AI系统的核心业务来说还算“小弟”,但它已是公司增长最快的板块之一。
尽管Anthropic在AI编程领域看似独孤求败,但Claude Opus 4.5的光环其实照亮了整个赛道。竞争对手Cursor也在11月达到了10亿美元ARR,OpenAI、谷歌和xAI更是磨刀霍霍,试图用自研模型分一杯羹。
但Anthropic没打算停下。前几天,他们又发布了Cowork——这是一款面向非编程领域的AI智能体。它能管理你电脑里的文件、操作各种软件,而且完全不需要你在代码终端里敲命令。

不是取代,是进化
提及Cowork时,Cherny透露自己已经用“疯”了。比如在项目管理中,他会让Cowork盯着工程师的任务表格,如果谁没填名字,AI就会自动在Slack上发消息催促。
Cherny感慨道:“这是我当工程师以来最爽的时候,因为我不再需要做那些枯燥乏味的脏活了。”
面对那些因不再需要亲自写代码而感到失落的工程师,Cherny给出了他的建议:这个行业一直在变化。我的祖父在苏联用穿孔卡片编程;后来变成了机器码;再后来是C语言、Java、Python。这是一条不断抽象化的连续谱,而AI智能体只是这条谱线上的最新一个点。

如今,Cherny每天早上起床会在手机上启动3到4个编程智能体,到了公司再在终端里开几个。任何时候,他都有五到十个智能体在并行处理任务。
Cherny总结道:“AI智能体将接管生活中所有繁琐的事——填表、搬运数据、发邮件。这会具有颠覆性,我们必须适应。”
话又说回来,Anthropic能不能先解决一下Claude的使用量限制问题?这或许是许多开发者在云栈社区讨论技术趋势时,同样会遇到的甜蜜烦恼。
