云栈社区»论坛 › 技术文档「 Note & Doc 」 › FPGA千兆以太网UDP传输：协议处理与高带宽应用实践 ...

发回帖发新帖

5202 积分	0 好友	733 主题

发消息

FPGA千兆以太网UDP传输：协议处理与高带宽应用实践

发表于 2026-3-12 06:23:32 | 查看: 258| 回复: 0

在FPGA数据处理中，常用的一些IP核包括网口（ETH）核、DDR核、CORDIC核、DDS核、加法器、乘法器、滤波器IP、FFT等。熟练使用这些IP核不仅能显著减少工作量，还能提高代码的稳定性。这些IP核的配置过程本身并不复杂，但如何正确地驱动和使用它们，往往是一个更关键也更棘手的问题。最近的项目中，我密集地使用了网口、DDR、DDS和CORDIC这些IP。一下子把所有IP的用法讲清楚比较困难，后续我会逐一进行详细介绍。

1、网口IP的框架结构与配置验证

我使用的是Xilinx的Virtex-5系列芯片，这里就以该型号的配置为例。配置方法主要参考了官方的UG340文档。

首先，我们需要对Tri-Mode Ethernet MAC IP有一个全局的、直观的把握，这对于理解IP核的层次结构和代码逻辑有很好的指导作用。

Tri-Mode Ethernet MAC IP核示例设计架构图

从这张图来看，这是一个网口数据回环的例程结构。从外到内大致可以分为四个层次：

外部接口层：主要包括IP核的输入输出信号、时钟以及复位接口。由于这是一个回环传输的例程框架，这个模块还包含了一个“地址交换模块”（Address Swap Module）。
LocalLink封装层：这部分实质上是将几个独立的模块实例化到同一个顶层模块下，形成一个相对完备的功能单元。它主要由两个大模块构成：一个是用于数据收发的缓存FIFO，另一个是实现MAC层数据收发转换的核心模块。
模块级封装层：这一层主要负责对第四层（核心层）的两个核心模块进行实例化和连接。
MAC核心层：这是整个网络IP核的核心，主要负责实现从PHY芯片接收数据的IDDR/ODDR转换，以及网络链路层（MAC层）协议的转换。这部分是整个IP核功能实现的关键。

通过这个结构图，我们可以清晰地对Tri-Mode Ethernet MAC IP核进行直观的描述，了解数据流向和各模块的作用。具体到IP核的配置，其实步骤相当简单。

Virtex-5嵌入式三模式以太网MAC封装器配置界面

这里有三个主要选项，用于选择共享接口类型、主机类型，以及决定启用一个还是两个网口。

DCR（设备控制寄存器）：主要通过总线桥接来对不同的MAC模块进行控制。
在无特殊要求的情况下，通常选择NONE模式。

EMAC 0物理接口与速度配置界面
这部分主要用于配置PHY的接口类型（如RGMII）和传输速度（10/100/1000 Mbps）。这个配置必须严格依据硬件设计来决定。

EMAC 0流控制与收发器配置界面
这部分通常用于配置输入/输出控制流以及MAC地址过滤等高级功能。

以上就是Tri-Mode Ethernet MAC IP核的基本配置流程。然而，完成基本配置只是实现网络传输的一小步。要想灵活运用这个IP核，还需要深入理解其底层代码，明确各个模块的具体功能。

打开仿真源码，并结合上面的结构框图，可以清晰地看到IP核的四层结构框架。

IP核仿真源码文件结构图

这部分代码需要仔细研读，理解数据的流向、ODDR和IDDR之间的转换。其中最关键的是要弄清接收和发送时钟的来源与去向。这里就不深入讲解具体代码了，这部分必须亲自阅读和实践，否则听来的知识很难真正掌握。

ModelSim仿真波形截图

从ModelSim的仿真波形中，可以看到完成了一个UDP数据包的回环收发。通过以上一系列操作，我们不仅完成了IP核的配置，还通过仿真验证了数据能够正确传输。

2、基础的网络传输协议

利用FPGA实现UDP数据传输，首先需要理解UDP是一种无连接的传输层协议。这意味着数据传输是单向的，不像TCP协议那样包含复杂的握手和确认机制。同时，UDP位于TCP/IP五层模型中的传输层（第四层），处于IP协议之上。因此，在传输时，发送方必须知道接收方的MAC地址和IP地址；反之，上位机（如PC）也需要知道FPGA板卡的MAC地址和IP地址。

解决这个问题通常有两种方式：

静态绑定（点对点）：在FPGA内部固件中，预先初始化目标计算机的MAC地址、IP地址、端口号等必要信息。同时，在计算机端修改网络协议栈，将对应的IP地址由动态获取改为静态绑定，即进行IP-MAC绑定。
- 操作步骤：
  - 以管理员权限运行命令提示符（CMD）。
  - 运行命令 netsh i i show in，查看要进行ARP绑定的网卡的Idx编号。
  - 运行命令 netsh -c “i i” add neighbors Idx IP MAC 进行绑定。其中，Idx 是上一步查到的编号，IP和MAC是目标地址。例如：netsh -c “i i” add neighbors 12 192.168.1.1 D0-27-88-C9-7C-A4。
  - 使用 arp -a 命令查看添加的ARP项是否在列表中且标记为“静态”。
  - 解除绑定：运行 netsh -c “i i” delete neighbors Idx 并重启系统。
动态解析（使用ARP）：通过ARP协议动态获取对方的IP-MAC地址映射。这种方式更加灵活，实现起来也并不困难。

要想灵活地实现UDP数据传输，不仅需要实现UDP协议本身，通常还需要实现ARP协议来获取必要的地址信息。然而在实际调试和应用中，我们不仅需要知道网络是否连通，还需要一种简单的方法来检测连接是否正常。这时，ICMP协议（通常通过ping命令实现）就派上了用场。我们可以让上位机ping下位机（FPGA）的IP地址，通过是否收到回复来判断物理链路和基础协议栈是否工作正常。

综上所述，要实现相对灵活可靠的UDP传输，通常需要一并实现ARP和ICMP这两个辅助协议。而这些协议的实现，又离不开对网络OSI模型或TCP/IP模型的理解。虽然整个网络体系非常复杂，但就实现UDP传输所需的部分而言，可以相对简化。下图展示了网络的层级结构和一些基础常用协议。

OSI与TCP/IP模型对比图

每一层在实际中都是一个复杂的体系。这里我根据自己的理解，简要说明一下在UDP传输场景下各层的主要作用：

应用层：处理最终的用户数据，决定数据如何使用。
传输层：区分数据包属于哪一个应用程序，实现数据从端到端的传递（即应用程序到应用程序）。
网络层：实现数据在不同主机之间的传递。它规定了主机的IP地址格式，以及如何在IP地址和MAC地址之间进行映射（即ARP协议）。
链路层：主要规定了数据帧能被网卡接收的条件，最常见的方式是利用网卡的MAC地址进行识别和过滤。
物理层：规定了传输所需的物理电平标准、电缆和接口特征。

了解各层功能后，还需要知道数据包是如何被层层封装的。其封装格式如下图所示：

TCP/IP五层模型数据封装格式

上面概述了各层的功能，下面将具体描述需要用到的ARP、ICMP和UDP协议的组成。

ARP协议（地址解析协议）
每台主机或网络设备都维护着一个ARP高速缓存，其中存储了所在局域网内其他主机和路由器的IP地址到硬件地址（MAC地址）的映射表。这个表是动态更新的，但也可以将特定条目设置为静态。

ARP请求与响应过程示意图

这里需要注意几点：

网络上其他主机不响应非指向自己的ARP询问，只有目标主机收到请求后才会做出回应。
ARP解决的是同一局域网内的地址映射问题。如果目标主机不在同一局域网，则需要通过ARP找到本局域网出口路由器的MAC地址，由路由器进行转发。
IP地址到MAC地址的解析是自动、透明进行的。
当主机需要与同一网络上已知IP地址的另一台主机通信时，ARP协议会自动完成地址解析。

对于FPGA而言，通常只需要实现ARP响应功能即可。当接收到ARP请求时，FPGA应记录下请求方的MAC和IP地址；在回应时，则上报自身的MAC和IP地址。ARP报文的格式如下：

以太网帧与ARP报文格式

我们可以使用Wireshark等工具抓取一个完整的ARP请求包进行分析，其结构如下图所示：

Wireshark捕获的ARP请求包详情

ICMP协议
在FPGA中实现ICMP协议（主要指ICMP Echo Reply，用于响应ping）的目的有两个：1. 确保物理链路连接通畅，便于调试；2. 提高IP数据包交付的成功率（作为网络诊断工具）。当上位机对FPGA执行ping操作时，上位机能获得两方面信息：1. 网络是否通畅、延迟时间及数据包生存时间（TTL）；2. 获得目标IP对应的MAC地址（这个地址实际上是通过ARP响应获得的）。

获取目标MAC地址的过程体现了ICMP和ARP的协同工作，其步骤简化如下：

PC1在应用层发起一个目标IP为FPGA（假设为192.168.1.2）的ping请求。
该请求直接使用网络层的ICMP协议进行封装。
网络层封装ICMP报文，添加源IP（PC1）和目标IP（FPGA），然后下传至链路层。
链路层需要封装目标MAC地址。PC1先查询自己的ARP缓存表，如果表中没有FPGA的IP对应的MAC地址，PC1就会发出一个ARP广播请求，询问“谁有IP地址192.168.1.2？请告诉你的MAC地址”。
FPGA收到这个ARP广播后，发现询问的是自己，于是将PC1的MAC地址存入自己的ARP表，并向PC1发送一个ARP单播应答，内容为“我是192.168.1.2，我的MAC地址是XX:XX:XX:XX:XX:XX”。
PC1收到FPGA的ARP应答后，将FPGA的MAC地址存入ARP缓存，并用此MAC地址作为目标地址封装ICMP数据帧，发送出去。
FPGA收到数据帧，在链路层检查目标MAC地址是否匹配，确认后去掉帧头，将IP数据包上传至网络层。
FPGA的网络层检查目标IP地址是否匹配，确认后解封装，发现是ICMP Echo请求。
FPGA随后构造一个ICMP Echo Reply报文，按照类似的反向路径（此时已知道PC1的MAC地址）发送回PC1。

这个过程对于作为从机的FPGA来说并不复杂。FPGA只需要回复ARP请求和ICMP请求即可，并且通常是先完成ARP回应，才能进行后续的ICMP回应。在功能调试阶段，成功ping通是验证硬件和基础协议栈的第一步。

网络Ping测试成功结果截图

UDP协议
在FPGA内部实现UDP协议，其报文组装和发送的逻辑与ARP、ICMP是类似的，主要区别在于有效载荷数据的长度和内容。UDP数据包的格式如下图所示：

UDP数据包头部与数据部分结构

在进行UDP传输时需要注意：在标准的以太网MTU（1500字节）限制下，考虑到IP头部（20字节）和UDP头部（8字节），UDP数据载荷建议控制在1472字节以内，以避免分片。

3、高速可靠传输的设计挑战与解决方案

简单地实现ARP、ICMP和UDP的响应功能并不算太难。真正的挑战在于，如何在较高的数据传输速率下实现稳定、可靠的传输。在数据传输过程中，可能会遇到以下几种因协议交互产生的时序冲突：

UDP发送与ARP请求冲突的三种状况时序图

合理地处理这几种情况，是保证数据高速、连续、无断点传输必须面对的。要解决这个问题，首先要明确数据接收和发送的特性：数据接收（如收到ARP请求）是完全随机、不可控的事件；而数据发送（UDP数据流）是由FPGA主动发起的，是可控的。同时，ARP回应和ICMP回应并不要求像实时音视频那样极低延迟，它们允许有一定的响应时间。

因此，为了保证UDP数据包的传输不被随机的ARP/ICMP响应请求打断，一个有效的策略是在发送UDP数据包的前后预留出“保护间隔”，在此期间禁止响应ARP请求，将ARP/ICMP的响应安排到UDP数据包发送的间隙中进行。如下图所示：

带禁止响应窗口的UDP数据发送与ARP响应时序图

UDP数据包前端预留时间：是为了解决当UDP发送即将开始时，如果恰好收到一个ARP请求，可能没有足够的时间窗口来立即组织回复，因此预留一段时间来确保UDP数据流能及时启动。
UDP数据包后端预留时间：是为了预防PHY芯片在连续发送后过于“繁忙”，可能导致尾部数据出错或影响下一周期时序，预留一段时间让链路恢复到稳定状态。

通过这种“时间片”调度机制，可以实现UDP数据流与协议管理报文的有序、可靠传输。

FPGA内部协议处理模块代码结构

千兆以太网UDP数据传输模块框图

当然，上述方法只是其中一种实现思路。另一种常见且优雅的思路是使用一个公共的FIFO队列：将所有需要发送的数据（无论是UDP应用数据、ARP响应还是ICMP响应）都按照产生的先后顺序写入同一个发送FIFO，然后由发送模块从FIFO中顺序读出并发送。这种方法同样可以完美解决多类数据包发送的冲突问题，本质上与时间片调度是异曲同工的。

4、实际调试中的问题与解决

即使我们完成了上述所有协议和调度逻辑的设计，在实际测试中仍可能遇到网络传输不稳定或复位后自动断开连接等问题。解决FPGA网络连接不稳定问题需要从多方面排查，主要包括三个方面：1. 硬件链路完整性；2. FPGA代码的时序设计与约束；3. 上位机网卡的配置。

FPGA与PC网络连接硬件架构图

在实际调试中，我曾遇到过以下现象：

现象一：相同FPGA程序，通过同一根网线连接两台不同电脑。一台Win10电脑能自动协商成千兆（1000Mbps）连接，并能正常进行ARP、ICMP交互及UDP数据传输；而另一台Win7电脑只能协商成百兆（100Mbps）连接，且无法与FPGA进行任何数据交互。
现象二：将上述Win7电脑的网卡强制设置为1000Mbps全双工模式后，连接FPGA，网络连接直接显示“电缆被拔出”。

Windows网络连接断开提示

这类现象通常是由于网线质量不达标（不支持千兆）、上位机网卡驱动问题或硬件兼容性问题导致的。解决方法包括更换高质量的超五类或六类网线、更新网卡驱动等。在实际调试中，通过“控制变量”的对比实验来定位问题根源是非常有效的手段。

现象三：FPGA与PC机能通信，但PC机下发的ARP或ICMP请求，FPGA接收到的数据经常出现错误。这个问题需要分层排查：既然每次都能收到数据，只是数据错误，那么问题可能出在FPGA的接收路径上。使用ChipScope或Vivado硬件调试器抓取FPGA的RX引脚数据，如果引脚数据正确，则问题可能出在Tri-Mode Ethernet MAC IP核的例化或与FPGA逻辑的接口时序上。Xilinx官方的IP核本身出错的概率极低，因此重点应检查用户自定义逻辑与IP核接口之间的时序约束。

IP核的时序约束主要涉及周期约束、输入/输出延迟约束和多周期路径约束等方面。这里需要将IP核自身产生的约束文件（.xdc）与用户设计的约束结合起来，并根据编译后的时序分析报告进行针对性调整。精确的时序约束是保证高速接口稳定的基石。

FPGA设计中时钟网络的时序约束示例

FPGA设计中数据路径的时序约束示例

IO延迟约束示例

通过对时钟、数据路径和IO接口施加正确的时序约束，不仅可以解决数据错误问题，还能极大地减少因时序违例导致的随机性连接断开故障。

此外，上位机网卡的配置也会对数据传输产生显著影响。例如，网卡属性中的“大量传送减负 (LSO)”、“接收端调整 (RSS)”、“ARP减负”等功能，在某些特定场景下可能与FPGA的自定义协议栈产生兼容性问题。调整“接收缓冲区”的大小也可能影响大数据流的稳定接收。电源管理中的“允许计算机关闭此设备以节约电源”选项，则可能导致网卡在空闲时进入休眠状态，造成连接中断。

Windows网卡高级属性设置界面

在进行网络通信调试时，适当调整这些设置（如暂时关闭节能和减负选项）有助于排除软件层面的干扰因素。

总结

通过上述的整体设计、协议实现、时序约束和系统调试，基本可以实现FPGA与PC之间基于UDP的稳定高速数据传输。在我的一个实际项目中，数据速率要求约为600MB/s，在PC机持续接收数据并间歇性发送ping请求的测试条件下，系统能够连续稳定运行超过10小时，满足了设计需求。当然，每个具体应用场景都有其特殊性，后续的改进和优化还需要根据实际的性能瓶颈和可靠性要求来持续进行。对于更深入的计算机基础原理和优化技巧，开发者们可以在云栈社区这样的技术论坛中进行交流和探讨。

上一篇：大模型调用工具原理详解：从字节面试题“怎么查天气”到Function Calling机制
下一篇：黄仁勋万字长文解读AI产业：从五层蛋糕基础设施到未来软件范式

FPGA, UDP, 以太网, 高速数据传输, 网络协议