云栈社区»论坛 › 开发者广场「Dev Plaza」 › 开发者利用Claude Code在30分钟内将CUDA后端移植到AMD ROCm ...

发回帖发新帖

2232 积分	0 好友	296 主题

发消息

开发者利用Claude Code在30分钟内将CUDA后端移植到AMD ROCm

发表于 2026-1-25 12:53:48 | 查看: 74| 回复: 0

一夜之间，英伟达（NVIDIA）构建多年的CUDA护城河，是否真的被AI终结了？

这几天，一位名为johnnytshi的开发者在Reddit上分享了一个震撼的操作：他仅借助Claude Code，便在30分钟内成功将一个完整的CUDA后端代码移植到了AMD的ROCm平台上。

整个过程，他没有手动编写一行内核代码。

Reddit用户分享Claude Code移植CUDA到ROCm的帖子截图

更关键的是，这次移植完全没有依赖传统的“中间转换工具”，例如Hipify这类翻译层，而是通过智能体命令行（CLI）一气呵成。

就连AMD的软件副总裁Anush Elangovan也为此感到惊讶，并断言：GPU编程的未来，属于AI智能体。

AMD软件副总Anush Elangovan关于GPU编程未来的推文截图

消息一出，整个科技圈为之沸腾。许多网友惊呼，英伟达的CUDA生态壁垒可能即将被攻破。

网友评论CUDA护城河可能在6个月内消失

网友评论这将彻底改变游戏规则

Claude手撕CUDA，仅30分钟

Claude Code运行在一个智能体框架中，这意味着它具备自主“思考”和决策的能力。在执行任务时，它不会机械地进行关键字替换，而是尝试理解代码，特别是特定核函数（kernel）的底层逻辑。

开发者johnnytshi介绍，在这次移植过程中，最棘手的部分——CUDA与ROCm之间数据布局的差异——也被AI妥善解决了，从而确保了核心计算逻辑的一致性。

Reddit对话截图，讨论如何指导Claude进行代码移植

令人惊叹的是，johnnytshi在短短30分钟内就完成了整个CUDA后端到AMD ROCm的移植，并且没有使用任何中间翻译层。另一个显著的好处是，开发者无需再费力搭建像Hipify那样复杂的翻译环境，一切都可以在命令行（CLI）中直接完成。

如今，全网都充斥着“CUDA护城河被攻破”的呼声。

社交媒体关于CUDA护城河被攻破的讨论截图

毕竟，英伟达在AI计算领域的霸主地位，很大程度上建立在CUDA这个几乎成为行业标准的编程生态之上。无数的AI框架、深度学习库和科学计算工具都深度依赖它。

NVIDIA CUDA标志图

而AMD的ROCm平台虽然功能强大，却一直面临着生态兼容性差、开发者迁移成本高的痛点。现在，一个Claude Code以极短的时间踢碎了这道门槛，未来或许会有更多CUDA代码能够轻松地在AMD GPU上运行起来。

实现细节

在GitHub上，johnnytshi本人也更新了详细的日志和说明。他成功为AMD GPU实现了完整的ROCm后端，从而在RDNA 3.5及其他AMD架构上支持基于注意力机制的现代国际象棋神经网络。

GitHub Pull Request截图，显示为LeelaChessZero项目添加ROCm后端

GitHub地址：https://github.com/LeelaChessZero/lc0/pull/2375

主要变更包括：

在 src/neural/backends/rocm/ 目录中添加了完整的ROCm后端。
实现了注意力网络架构，包括多头自注意力、前馈网络（FFN）和嵌入层。
使用rocBLAS进行GEMM运算，使用MIOpen进行卷积运算。
针对RDNA 3.5架构上的FP16性能，优化了NCHW数据布局。
提供了三种后端变体：rocm (FP32)、rocm-fp16 (FP16)、rocm-auto (自动检测)。
MIOpen是必选依赖（类似于CUDA中的cuDNN）。
通过 rocm_agent_enumerator 工具自动检测AMD GPU架构。
编译选项示例：-Drocm=true -Damd_gfx=gfx1151（也可使用自动检测）。

AMD RDNA 3.5架构产品宣传图

性能说明：

FP16性能：在Strix Halo平台（集成Radeon 8060S，架构代号gfx1151）上，每秒节点数（nps）超过2000。
支持自动Batch Size调优（在RDNA 3.5上最小批次设为64）。
测试过rocWMMA，但发现rocBLAS性能更优。

验证情况（基于Strix Halo - Radeon 8060S, gfx1151）：

测试模型：768x15x24h-t82-swa-7464000.pb.gz 和 maia-1900.pb.gz。
后端：rocm-fp16 功能正常，能生成正确的象棋走法。
环境：ROCm 7.2.53150， MIOpen 3.5.1。
注：目前仅在RDNA 3.5架构上进行了测试；其他AMD架构暂未验证。

GPU未来，是AI智能体主场

当然，这次演示也存在一定的局限性。

对于简单或中等复杂度的内核，Claude Code表现非常出色。然而，编写高性能核函数的核心在于进行深度的硬件优化。一部分观点认为，Claude Code在这方面目前还略有不足——当遇到那些针对特定硬件缓存层级、内存访问模式做过极致优化的复杂内核时，AI可能还难以完全取代人类专家。

即便如此，这一事件释放出的信号已经足够强烈。过去几个月，ZLUDA项目以及微软内部的尝试，都旨在打破CUDA的垄断。

关于微软开发工具包以打破CUDA垄断的新闻截图

但这些尝试大多依赖于规则映射或中间转换层，自动化程度和智能水平有限。而Claude Code所代表的智能体式编程，直接跳过了这些环节，用“理解代码逻辑+自主决策”的方式来填平不同硬件生态之间的鸿沟。正如AMD软件副总裁所言，GPU编程的未来，将是AI智能体的主场。

全员AI编程，浓度高达100%

如今的Claude Code已经让整个硅谷为之着迷（甚至被戏称为“Claude-Pilled”）。

两天前，Anthropic的CEO Dario Amodei在达沃斯论坛上再次发表惊人言论：软件工程师们的时间不多了。未来6到12个月，AI将能够端到端地完成大部分软件工程师的工作！

达沃斯论坛上关于AI编写代码的讨论视频截图

甚至，Anthropic内部的工程师已经不再手动编写代码，全部交由Claude完成。

别不信，这是真的。在《连线》（Wired）杂志的最新采访中，Claude Code的负责人Boris Cherny坦诚道：“我自己100%的代码都是AI写的。”

《连线》杂志关于Claude Code的报道截图

或许Anthropic的工程师们也没有想到，一个起初的“副业项目”竟能让硅谷如此狂热。Boris Cherny回忆说：“一年前我们发布Claude Code时，甚至不确定‘智能体编程’这个概念能否成立，但火爆来得太快了。”

Cherny个人的经历就是最好的缩影：

刚发布时，他只有5%的代码是用Claude Code写的。
到了去年5月，随着Opus 4和Sonnet 4模型的发布，这个比例上升到了30%。
而现在，借助Opus 4.5，他在过去两个月里100%的代码都是由Claude Code完成的。

在Anthropic内部，这种全员AI化的趋势更是达到了极致。几乎100%的技术员工都在使用Claude Code，甚至连Claude Code团队本身95%的代码也是由Claude Code自身生成的。

Claude负责人Boris Cherny引用“噩梦”一词形容开发难度的配图

斯坦福AI教授都在用了

不得不说，AI编程的进化速度令人咋舌。

回望2021到2024年，大多数编程辅助工具不过是高级版的“自动补全”，在开发者打字时卑微地建议几行代码。但到了2025年初，随着Cursor和Windsurf等初创公司发布早期的智能体编程产品，游戏规则彻底改变了——开发者只需用自然语言描述功能需求，剩下的脏活累活全都扔给AI智能体完成。

Claude Code也正是在这个时间点诞生的。Boris Cherny坦承，早期版本也曾跌跌撞撞，甚至陷入死循环。但Anthropic下了一步狠棋：不为当下AI已有的能力开发产品，而要为了AI即将抵达的未来而构建。

这一赌注押对了。随着Anthropic下一代旗舰模型Claude Opus 4.5的发布，AI编程迎来了真正的“拐点”。

软件工程基准测试SWE-bench各模型准确率柱状图

斯坦福大学AI讲师、Workera公司的CEO Kian Katanforoosh最近就将公司全员迁移到了Claude Code。他直言，对于高级工程师来说，Claude Code比Cursor、Windsurf等工具更强大。

Katanforoosh感叹道，最近唯一让他看到编程能力有阶跃式提升的模型，就是Claude Opus 4.5。“它给人的感觉不像是在模仿人类写代码，而是它真的找到了一种更聪明的解决路径。”

据传，微软内部也在大规模采用Claude Code。

关于Claude Code在微软内部普及的新闻截图

年入超10亿美金的“副业”

Claude Code的巨大成功，给Anthropic带来了最直观的经济效益。

去年，AI编程智能体业务彻底爆发。11月，Anthropic宣布Claude Code在上线不到一年内，其年度经常性收入（ARR）就突破了10亿美元。到2025年底，ARR至少又增长了1亿美元。

Anthropic收购Bun及Claude Code收入达里程碑的公告截图

彼时，该产品约占Anthropic总ARR（约90亿美元）的12%。虽然比起向大企业提供AI系统的核心业务来说还算“小弟”，但它已是公司增长最快的板块之一。

尽管Anthropic在AI编程领域看似独孤求败，但Claude Opus 4.5的光环其实照亮了整个赛道。竞争对手Cursor也在11月达到了10亿美元ARR，OpenAI、谷歌和xAI更是磨刀霍霍，试图用自研模型分一杯羹。

但Anthropic没打算停下。前几天，他们又发布了Cowork——这是一款面向非编程领域的AI智能体。它能管理你电脑里的文件、操作各种软件，而且完全不需要你在代码终端里敲命令。

Claude推出Cowork非技术任务智能体的推文截图

不是取代，是进化

提及Cowork时，Cherny透露自己已经用“疯”了。比如在项目管理中，他会让Cowork盯着工程师的任务表格，如果谁没填名字，AI就会自动在Slack上发消息催促。

Cherny感慨道：“这是我当工程师以来最爽的时候，因为我不再需要做那些枯燥乏味的脏活了。”

面对那些因不再需要亲自写代码而感到失落的工程师，Cherny给出了他的建议：这个行业一直在变化。我的祖父在苏联用穿孔卡片编程；后来变成了机器码；再后来是C语言、Java、Python。这是一条不断抽象化的连续谱，而AI智能体只是这条谱线上的最新一个点。

Cowork整理6个月收据为电子表格的演示截图

如今，Cherny每天早上起床会在手机上启动3到4个编程智能体，到了公司再在终端里开几个。任何时候，他都有五到十个智能体在并行处理任务。

Cherny总结道：“AI智能体将接管生活中所有繁琐的事——填表、搬运数据、发邮件。这会具有颠覆性，我们必须适应。”

话又说回来，Anthropic能不能先解决一下Claude的使用量限制问题？这或许是许多开发者在云栈社区讨论技术趋势时，同样会遇到的甜蜜烦恼。

关于Claude使用量达到上限的幽默梗图

上一篇：PolarDB进化：打造AI就绪数据库，破解异构数据管理难题
下一篇：2026年TIOBE编程语言排行榜解读：C#涨幅最高夺冠，Python榜首地位稳固

CUDA, ROCm, Claude, GPU编程, AI智能体