云栈社区»论坛 › 技术文档「 Note & Doc 」 › 树莓派5外接显卡实战评测：eGPU在AI推理与媒体转码中的性能表现 ...

发回帖发新帖

996在工位累趴

5710 积分	0 好友	754 主题

发消息

树莓派5外接显卡实战评测：eGPU在AI推理与媒体转码中的性能表现

发表于 2025-12-25 17:59:39 | 查看: 436| 回复: 0

Raspberry Pi eGPU vs PC GPU

将AMD、英特尔和英伟达的显卡成功连接到树莓派后，一个核心问题浮现出来：这种配置的实际价值是什么？

树莓派仅有一条PCIe Gen 3通道用于连接外接显卡（eGPU），带宽有限。相比之下，现代台式机通常拥有具备16条PCIe Gen 5通道的插槽，带宽差距悬殊，分别为8 GT/s和512 GT/s。

但带宽是否总是性能的决定性因素？为了探寻树莓派eGPU的实际效用，我们通过四种不同的应用场景，对比了树莓派5与现代台式电脑的性能表现：

Jellyfin媒体转码
纯GPU图形渲染性能（通过GravityMark测试）
大语言模型/人工智能性能（包括预填充和推理）
多显卡应用（以大语言模型运行为例）

本次测试不局限于单显卡。借助在超级计算大会25上获得的Dolphin ICS PCIe Gen 4外部交换机和3槽背板，我们可以轻松同时运行两块显卡：

Two GPUs in Dolphin PCIe Interconnect board - Nvidia RTX A400 and A4000

结论是：在许多场景下，树莓派都能胜任工作——如果你愿意牺牲2%-5%的峰值性能，它在能效上甚至经常大幅领先！

四卡并行：树莓派的潜力

更令人惊讶的是，在测试期间，GitHub用户mpsparrow成功将四块英伟达RTX A5000显卡连接至一块树莓派。

运行Llama 3 70b模型时，该配置的性能与使用相同显卡的现代参考服务器相差不到2%：

Raspberry Pi 5 with 4x Nvidia RTX A5000 GPUs - LLM benchmark

树莓派配置每秒生成11.83个文本标记，而服务器为每秒12个。这如何实现？关键在于，当使用多块支持通过PCIe总线共享内存访问的英伟达显卡时，树莓派本身并非瓶颈。外部PCIe交换机可能允许显卡以Gen 4或Gen 5的速度直接通过总线共享内存，无需经过树莓派有限的PCIe Gen 3通道。

即便不依赖多卡和PCIe交换技术，树莓派在部分场景下的性能仍可媲美甚至偶有超越现代PC。

成本与能效考量

除了性能，成本与能效也是重要因素（以下配置均不含显卡价格）：

树莓派eGPU配置	英特尔PC配置
总价：350-400美元	总价：1500-2000美元
树莓派CM5（16GB）+ IO板	英特尔酷睿Ultra 265K
Minisforum eGPU扩展坞	华硕ProArt主板
M.2转Oculink适配器	Noctua Redux散热器
USB固态硬盘	64GB DDR5内存
850W电源	M.2 NVMe固态硬盘
测试平台/机箱	850W电源

若不对峰值性能有极致追求，树莓派的空闲功耗仅4-5瓦，而PC空闲功耗约为30瓦（未连接显卡，仅连接基础键鼠）。

单显卡对决：树莓派 vs 英特尔酷睿Ultra

本次测试聚焦于原始GPU性能，暂未包含游戏测试。我们通过三项基准测试来考验每个系统：Jellyfin转码、GravityMark渲染和大语言模型推理。

基准测试结果：Jellyfin媒体转码

首先从最实用的应用开始：将树莓派作为媒体转码服务器。

使用编码器基准测试工具时，PC凭借其高I/O吞吐量大幅领先。树莓派的PCIe总线最高速度约850 MB/秒，且通过USB 3.0固态硬盘持续读写约300 MB/秒。而PC的PCIe Gen 4 x4固态硬盘速度可达2 GB/秒。

然而，对于典型的家庭媒体库（存储H.264/H.265文件），转码所需带宽并不极端。安装Jellyfin并启用NVENC硬件编码后，树莓派表现流畅。

在对1080p影片进行转码或切换比特率模拟远程播放时，均无卡顿。即使是4K H.265文件也能在各种比特率下流畅播放。

Jellyfin transcoding two videos on the fly with nvtop showing Pi 5 in foreground

同时处理两个转码任务（如4K和1080p影片）也运行顺畅。虽然解码引擎负载较高，但未造成卡顿。

尽管PC在原始吞吐量上获胜，适合构建全功能转码服务器，但对于大多数家庭流媒体场景（如OBS、Plex或Jellyfin），在Debian Trixie上运行的树莓派已足够使用。

基准测试结果：GravityMark图形渲染

为了测试纯3D渲染性能，我们运行了GravityMark基准测试（目前仅在AMD显卡上完成）。

GravityMark Pi vs PC - AMD Ryzen AI Pro R9700

PC速度更快，但优势微弱。渲染工作完全由GPU承担，不依赖树莓派CPU或PCIe通道，因此性能得以较好发挥。

更令人惊讶的是在老款AMD RX 460显卡上的测试结果：

GravityMark RX460 - Pi vs PC

这款老显卡运行在PCIe Gen 3上，与树莓派带宽匹配，树莓派性能甚至略微反超PC。但真正突出的是每瓦性能得分：

GravityMark performance per watt RX 460 - Pi vs PC

该得分衡量系统整体能效，树莓派在此展现了明显优势。

基准测试结果：人工智能与大语言模型

我们测试了多款显卡的AI性能。以拥有32GB显存的AMD Radeon AI Pro R9700为例，预期适合运行大模型，但实际在树莓派上表现未达预期，可能与驱动或内存支持有关。

转而测试经典的英伟达RTX 3060 12GB显卡，结果更符合预期：

Nvidia RTX 3060 AI LLM Performance Pi vs PC

树莓派表现良好。对于部分中型模型，性能与PC相差无几，甚至在Llama 2 13B模型上实现反超。更令人惊讶的是能效对比：

Nvidia RTX 3060 AI LLM Efficiency Pi vs PC

在几乎达到同等性能的同时，树莓派的能效更高。

那么，更大、更新的显卡呢？以顶级的RTX 4090为例：

Nvidia RTX 4090 on Raspberry Pi CM5

Nvidia RTX 4090 AI LLM Performance Pi vs PC

对于大多数模型，树莓派依然能应对，例如Qwen3 30B模型速度慢不到5%。能效方面：

Nvidia RTX 4090 AI LLM Efficiency Pi vs PC

对于大多数大型模型测试，树莓派能效依然略微领先。

双显卡测试

我们使用Dolphin PCIe互连板测试了双显卡配置。理想情况下，PCIe的P2P（点对点）通信功能可让显卡直接交换数据，绕过CPU和树莓派的带宽瓶颈。但此功能通常需要相同型号的显卡。

使用不同型号显卡（如RTX 4070 Ti和RTX A4000）时，虽无法池化显存，但仍可通过llama.cpp等工具利用多显卡运行更大模型。

Nvidia Dual GPU setup on Pi 5

双卡并行并未提升小模型的速度（因存在数据搬运开销），但允许运行单卡显存无法容纳的更大模型，例如约18GB的Qwen 3 30B模型。

在PC上运行相同的双卡测试，性能自然更快，但树莓派在部分场景下仍展现了竞争力。

最终结论

那么，谁是赢家？

Raspberry Pi vs PC power usage measured by Home Assistant ThirdReality Zigbee Smart Outlets

追求极致性能与简易设置：传统PC是明确选择。
关注能效与特定负载：如果你并非持续满负荷运行，且工作负载主要由GPU驱动（如AI推理、利用NVENC进行媒体转码），那么树莓派eGPU配置是一个高能效、低成本的替代方案，其空闲功耗始终比PC低20-30瓦。

最终，探索树莓派的极限、GPU计算和PCIe技术本身充满了乐趣与启发，这或许就是最大的意义所在。

上一篇：内部威胁防护新挑战：黑客高价招募员工绕过企业安全防线
下一篇：SGLang RBG 与 Mooncake 集成：打造高性能、可运维的云原生大模型推理平台

RaspberryPi5, eGPU, 人工智能, 大语言模型, Jellyfin

相关帖子

收藏0 回复显示全部楼层举报

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-7-18 00:59 , Processed in 0.619224 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表