找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2102

积分

0

好友

298

主题
发表于 2025-12-25 17:59:39 | 查看: 34| 回复: 0

Raspberry Pi eGPU vs PC GPU

将AMD、英特尔和英伟达的显卡成功连接到树莓派后,一个核心问题浮现出来:这种配置的实际价值是什么?

树莓派仅有一条PCIe Gen 3通道用于连接外接显卡(eGPU),带宽有限。相比之下,现代台式机通常拥有具备16条PCIe Gen 5通道的插槽,带宽差距悬殊,分别为8 GT/s和512 GT/s。

但带宽是否总是性能的决定性因素?为了探寻树莓派eGPU的实际效用,我们通过四种不同的应用场景,对比了树莓派5与现代台式电脑的性能表现:

  • Jellyfin媒体转码
  • 纯GPU图形渲染性能(通过GravityMark测试)
  • 大语言模型/人工智能性能(包括预填充和推理)
  • 多显卡应用(以大语言模型运行为例)

本次测试不局限于单显卡。借助在超级计算大会25上获得的Dolphin ICS PCIe Gen 4外部交换机和3槽背板,我们可以轻松同时运行两块显卡:

Two GPUs in Dolphin PCIe Interconnect board - Nvidia RTX A400 and A4000

结论是:在许多场景下,树莓派都能胜任工作——如果你愿意牺牲2%-5%的峰值性能,它在能效上甚至经常大幅领先!

四卡并行:树莓派的潜力

更令人惊讶的是,在测试期间,GitHub用户mpsparrow成功将四块英伟达RTX A5000显卡连接至一块树莓派。

图片

运行Llama 3 70b模型时,该配置的性能与使用相同显卡的现代参考服务器相差不到2%:

Raspberry Pi 5 with 4x Nvidia RTX A5000 GPUs - LLM benchmark

树莓派配置每秒生成11.83个文本标记,而服务器为每秒12个。这如何实现?关键在于,当使用多块支持通过PCIe总线共享内存访问的英伟达显卡时,树莓派本身并非瓶颈。外部PCIe交换机可能允许显卡以Gen 4或Gen 5的速度直接通过总线共享内存,无需经过树莓派有限的PCIe Gen 3通道。

即便不依赖多卡和PCIe交换技术,树莓派在部分场景下的性能仍可媲美甚至偶有超越现代PC。

成本与能效考量

除了性能,成本与能效也是重要因素(以下配置均不含显卡价格):

树莓派eGPU配置 英特尔PC配置
总价:350-400美元 总价:1500-2000美元
树莓派CM5(16GB)+ IO板 英特尔酷睿Ultra 265K
Minisforum eGPU扩展坞 华硕ProArt主板
M.2转Oculink适配器 Noctua Redux散热器
USB固态硬盘 64GB DDR5内存
850W电源 M.2 NVMe固态硬盘
测试平台/机箱 850W电源

若不对峰值性能有极致追求,树莓派的空闲功耗仅4-5瓦,而PC空闲功耗约为30瓦(未连接显卡,仅连接基础键鼠)。

单显卡对决:树莓派 vs 英特尔酷睿Ultra

本次测试聚焦于原始GPU性能,暂未包含游戏测试。我们通过三项基准测试来考验每个系统:Jellyfin转码、GravityMark渲染和大语言模型推理。

基准测试结果:Jellyfin媒体转码

首先从最实用的应用开始:将树莓派作为媒体转码服务器。

使用编码器基准测试工具时,PC凭借其高I/O吞吐量大幅领先。树莓派的PCIe总线最高速度约850 MB/秒,且通过USB 3.0固态硬盘持续读写约300 MB/秒。而PC的PCIe Gen 4 x4固态硬盘速度可达2 GB/秒。

然而,对于典型的家庭媒体库(存储H.264/H.265文件),转码所需带宽并不极端。安装Jellyfin并启用NVENC硬件编码后,树莓派表现流畅。

图片

在对1080p影片进行转码或切换比特率模拟远程播放时,均无卡顿。即使是4K H.265文件也能在各种比特率下流畅播放。

Jellyfin transcoding two videos on the fly with nvtop showing Pi 5 in foreground

同时处理两个转码任务(如4K和1080p影片)也运行顺畅。虽然解码引擎负载较高,但未造成卡顿。

尽管PC在原始吞吐量上获胜,适合构建全功能转码服务器,但对于大多数家庭流媒体场景(如OBS、Plex或Jellyfin),在Debian Trixie上运行的树莓派已足够使用。

基准测试结果:GravityMark图形渲染

为了测试纯3D渲染性能,我们运行了GravityMark基准测试(目前仅在AMD显卡上完成)。

GravityMark Pi vs PC - AMD Ryzen AI Pro R9700

PC速度更快,但优势微弱。渲染工作完全由GPU承担,不依赖树莓派CPU或PCIe通道,因此性能得以较好发挥。

更令人惊讶的是在老款AMD RX 460显卡上的测试结果:

GravityMark RX460 - Pi vs PC

这款老显卡运行在PCIe Gen 3上,与树莓派带宽匹配,树莓派性能甚至略微反超PC。但真正突出的是每瓦性能得分:

GravityMark performance per watt RX 460 - Pi vs PC

该得分衡量系统整体能效,树莓派在此展现了明显优势。

基准测试结果:人工智能与大语言模型

我们测试了多款显卡的AI性能。以拥有32GB显存的AMD Radeon AI Pro R9700为例,预期适合运行大模型,但实际在树莓派上表现未达预期,可能与驱动或内存支持有关。

转而测试经典的英伟达RTX 3060 12GB显卡,结果更符合预期:

Nvidia RTX 3060 AI LLM Performance Pi vs PC

树莓派表现良好。对于部分中型模型,性能与PC相差无几,甚至在Llama 2 13B模型上实现反超。更令人惊讶的是能效对比:

Nvidia RTX 3060 AI LLM Efficiency Pi vs PC

在几乎达到同等性能的同时,树莓派的能效更高。

那么,更大、更新的显卡呢?以顶级的RTX 4090为例:

Nvidia RTX 4090 on Raspberry Pi CM5

Nvidia RTX 4090 AI LLM Performance Pi vs PC

对于大多数模型,树莓派依然能应对,例如Qwen3 30B模型速度慢不到5%。能效方面:

Nvidia RTX 4090 AI LLM Efficiency Pi vs PC

对于大多数大型模型测试,树莓派能效依然略微领先。

双显卡测试

我们使用Dolphin PCIe互连板测试了双显卡配置。理想情况下,PCIe的P2P(点对点)通信功能可让显卡直接交换数据,绕过CPU和树莓派的带宽瓶颈。但此功能通常需要相同型号的显卡。

使用不同型号显卡(如RTX 4070 Ti和RTX A4000)时,虽无法池化显存,但仍可通过llama.cpp等工具利用多显卡运行更大模型。

Nvidia Dual GPU setup on Pi 5

双卡并行并未提升小模型的速度(因存在数据搬运开销),但允许运行单卡显存无法容纳的更大模型,例如约18GB的Qwen 3 30B模型。

在PC上运行相同的双卡测试,性能自然更快,但树莓派在部分场景下仍展现了竞争力。

最终结论

那么,谁是赢家?

Raspberry Pi vs PC power usage measured by Home Assistant ThirdReality Zigbee Smart Outlets

  • 追求极致性能与简易设置:传统PC是明确选择。
  • 关注能效与特定负载:如果你并非持续满负荷运行,且工作负载主要由GPU驱动(如AI推理、利用NVENC进行媒体转码),那么树莓派eGPU配置是一个高能效、低成本的替代方案,其空闲功耗始终比PC低20-30瓦。

最终,探索树莓派的极限、GPU计算和PCIe技术本身充满了乐趣与启发,这或许就是最大的意义所在。




上一篇:内部威胁防护新挑战:黑客高价招募员工绕过企业安全防线
下一篇:SGLang RBG 与 Mooncake 集成:打造高性能、可运维的云原生大模型推理平台
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-11 17:53 , Processed in 0.194336 second(s), 38 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表