如果你也曾对着 candump 上刷屏的错误帧怀疑人生,因为一个 EMSGSIZE 把整个周末 debug 进去,或者在客户的产线上顶着 60 分贝噪音查 CAN 总线——恭喜你,你就是本文要拯救的对象。
我也曾蹲在实验台前,左手示波器探头,右手敲 candump can0,试图让一块汽车网关和 Linux 主机正常对话。代码在虚拟 CAN 上跑得丝滑无比,一切到真实 MCP2515 就疯狂报错。三天后才发现,内核配置忘了打开 SPI 中断合并……那时我发了个誓:一定要把所有坑都趟一遍,然后写篇文章,让后面的兄弟别再跳。
今天,我来还愿。
这篇文章不打算教你“CAN 2.0 协议有几种帧格式”,那种基础你应该在昨天就搞定。我们直接切入工程实践:从 SocketCAN 架构讲到 FD 帧收发,从过滤器调优到掉线重传状态机,所有代码都能在 ARM/ARM64 上编译运行。这些年的血泪教训,全浓缩在这里了。
SocketCAN 内核架构

Linux 的 CAN 子系统把 CAN 控制器抽象为普通的网络接口(比如 can0),并通过 SocketCAN 提供一套套接字 API。这意味着你可以用 socket()、bind()、read()、write()、select() 等系统调用来操作 CAN 总线,就跟处理 UDP 数据包一样自然。
内核负责完成 CAN 帧的拆包、ID 过滤、错误帧上报等硬件相关的底层脏活。协议族 PF_CAN 支持 SOCK_RAW、SOCK_DGRAM(广播管理器)等多种类型。对应用层来说,最核心的就是 CAN_RAW 套接字,它能收发原始的 CAN 帧数据。
瑞士军刀:can-utils
没有这套工具,SocketCAN 编程跟裸泳没区别。
candump:抓取 CAN 帧,可加时间戳、过滤 ID。
cansend:从命令行发送单帧。
cangen:随机生成 CAN 帧用于压力测试。
canplayer:回放 candump 记录的日志。
canbusload:统计总线负载率。
安装:sudo apt install can-utils(Debian系) 或从源码编译(https://github.com/linux-can/can-utils)。
vcan 虚拟 CAN
真实硬件调试太麻烦?vcan 让你在没有物理 CAN 控制器的情况下跑完整代码逻辑。
# 加载 vcan 内核模块(通常已内置)
sudo modprobe vcan
# 创建虚拟 CAN 接口 vcan0
sudo ip link add dev vcan0 type vcan
sudo ip link set vcan0 up
# 验证
ip link show vcan0
candump vcan0 &
cansend vcan0 123#DEADBEEF
你会立刻在终端看到 vcan0 123 [4] DE AD BE EF。任何代码先在这上面跑通,再切真硬件,这是无数前辈用加班换来的铁律。
SocketCAN 编程核心流程
创建套接字
int s = socket(PF_CAN, SOCK_RAW, CAN_RAW);
if (s < 0) {
perror("socket");
return -1;
}
为什么是 PF_CAN?
最新内核同时支持 PF_CAN(29 号协议族)和 AF_CAN 别名,推荐用 PF_CAN 明确宣示 CAN 子系统。
为什么 SOCK_RAW?
SOCK_RAW 允许我们自己组装/解析 CAN 帧头部(ID、DLC 等),这是 CAN 应用的标准模式。CAN_BCM(广播管理器)才会用到 SOCK_DGRAM,用于周期性发送等特殊场景,我们后面再提。
第三个参数 CAN_RAW:
代表原始协议,除此之外还有 CAN_BCM、CAN_ISOTP(ISO 15765-2 传输层)等。对于汽车诊断(UDS),你可能会用到 CAN_ISOTP,但先吃透 CAN_RAW 的底层逻辑是必经之路。
获取接口索引
我们需要把套接字绑定到具体的 CAN 接口(比如 can0),首先要拿到接口的索引号。
#include<net/if.h>
unsigned int ifindex = if_nametoindex("can0");
if (!ifindex) {
perror("if_nametoindex");
return -1;
}
和 ioctl 比哪个好?
ioctl(fd, SIOCGIFINDEX, ...) 更通用,但需要临时套接字和复杂的 struct ifreq 填充。if_nametoindex 专为此事而生,代码量少 80%,不易出错。选它,别纠结。
绑定接口
struct sockaddr_can addr;
memset(&addr, 0, sizeof(addr));
addr.can_family = AF_CAN; // 必须是 AF_CAN
addr.can_ifindex = ifindex; // 用上一步拿到的索引
if (bind(s, (struct sockaddr *)&addr, sizeof(addr)) < 0) {
perror("bind");
close(s);
return -1;
}
bind() 之后,这个套接字就只能收发 can0 接口上的帧。如果你想同时监听多个 CAN 接口,每个接口必须创建独立的套接字(或者使用 SO_BINDTODEVICE 加辅助手段,但不推荐,管理起来一团乱麻)。
如果你需要发完就关闭套接字,bind 不是必须的;可以用 sendto 直接指定目标接口地址。但长连接通信最好绑定,否则接收时你永远不知道帧来自哪个接口(除非检查消息元数据)。
发送帧:write / send / sendto 的区别与细节
构造一个经典 CAN 2.0 帧:
struct can_frame frame;
frame.can_id = 0x123; // 标准帧 11 位 ID
frame.can_dlc = 4; // 数据长度 4 字节
frame.data[0] = 0xDE;
frame.data[1] = 0xAD;
frame.data[2] = 0xBE;
frame.data[3] = 0xEF;
ssize_t nbytes = write(s, &frame, sizeof(frame));
if (nbytes != sizeof(frame)) {
perror("write");
}
三种发送方式的细微差别:
write(s, &frame, CAN_MTU):最简单,前提是你已经 bind() 了套接字。它直接发给绑定的接口。适合 99% 的场景。
send(s, &frame, CAN_MTU, flags):比 write 多一个 flags 参数,可以设置 MSG_DONTWAIT 实现非阻塞发送,但很少需要。
sendto(s, &frame, CAN_MTU, 0, (struct sockaddr*)&addr, sizeof(addr)):不需要预先 bind,每次指定目的接口。适合一次性发送或要向不同接口发数据的特殊工具程序。
注意:write() 返回的字节数 nbytes 应当等于 CAN_MTU(经典 CAN 为 16 字节),如果不相等说明发送失败或部分写入,立即排查 errno。
接收帧:从阻塞到一拖多的高效模型
阻塞接收,能不用就尽量不用:
ssize_t n = read(s, &frame, sizeof(struct can_frame));
除非你有独立线程专职阻塞读,否则这行代码会卡死你的主循环。
设置非阻塞:
int flags = fcntl(s, F_GETFL, 0);
if (flags < 0) { perror("fcntl get"); }
flags |= O_NONBLOCK;
if (fcntl(s, F_SETFL, flags) < 0) { perror("fcntl set"); }
之后 read() 无数据时返回 -1,errno 为 EAGAIN 或 EWOULDBLOCK,你的线程可以腾出手干别的事。
select/poll/epoll 多路复用实战(推荐):
下面是一个标准的 poll 接收循环,结构清晰,跨平台性好。
#include<poll.h>
struct pollfd pfd;
pfd.fd = s;
pfd.events = POLLIN;
while (running) {
int ret = poll(&pfd, 1, 1000); // 超时 1000ms
if (ret < 0) {
perror("poll");
break;
}
if (ret == 0) {
// 超时,可借此机会做些心跳检测
printf("can rx timeout\n");
continue;
}
if (pfd.revents & POLLIN) {
struct can_frame frame;
ssize_t n = read(s, &frame, sizeof(frame));
if (n == sizeof(frame)) {
// 处理帧
printf("Received ID 0x%X DLC %d\n", frame.can_id, frame.can_dlc);
} else if (n < 0 && errno != EAGAIN) {
perror("read error");
}
}
}
进阶:epoll 边缘触发。对于高负载 CAN 总线(比如 >5000 帧/秒),epoll 配合非阻塞 I/O 和 recvmmsg 可以大幅减少系统调用次数,后续性能优化章节会细讲。
过滤器
如果不设过滤器,每一个在 can0 上出现的帧都会唤醒你的接收线程。想象一下车辆上有 60 个 ECU 每秒吼上千帧,你的应用只关心其中 3 个 ID,却全部被叫醒——CPU 负载徒增,可能引发调度抖动进而丢帧。
设置 CAN ID 过滤器(白名单):
struct can_filter rfilter[2]; // 最多可以配置 512 条规则(内核默认值)
// 规则1:只接收 ID 0x123 ~ 0x124
rfilter[0].can_id = 0x123;
rfilter[0].can_mask = CAN_SFF_MASK; // 先匹配标准帧,再精细掩码
// 实际上我们常用完整掩码:掩码位=1 表示必须匹配
rfilter[0].can_mask = 0x7FF; // 标准帧低11位全部参与匹配
// 若要包含 0x124,可以设置范围性掩码,或再加一条规则
// 规则2:接收扩展帧 ID 0x18F00100
rfilter[1].can_id = 0x18F00100 | CAN_EFF_FLAG; // 必须设置 EFF 标志
rfilter[1].can_mask = (CAN_EFF_MASK | CAN_EFF_FLAG | CAN_RTR_FLAG); // 掩码覆盖扩展位
setsockopt(s, SOL_CAN_RAW, CAN_RAW_FILTER, &rfilter, sizeof(rfilter));
关键要点:
can_id 字段需要带上帧格式标志:标准帧用 0(默认)或 CAN_SFF_MASK 区域,扩展帧必须或上 CAN_EFF_FLAG。
can_mask 位为 1 的 bit 在 can_id 中必须一致;为 0 的 bit 忽略。标准帧只比较低 11 位,扩展帧比较 29 位。
- 过滤器是内核里硬件卸载的吗? 对大多数 SPI 或 PCI CAN 控制器,过滤在硬件完成,完全不消耗 CPU。对没有硬件过滤的控制器,内核也会软件过滤,保证只有匹配帧才唤醒用户态。设置过滤器后性能提升显著。
CAN FD 支持
CAN FD 一帧能带 64 字节数据,速率可切换至 5 Mbps 甚至更高。SocketCAN 通过 CANFD_MTU(72 字节)和 canfd_frame 结构来支持。
第一步:创建套接字后立即开启 FD 模式。
int can_fd = 1;
setsockopt(s, SOL_CAN_RAW, CAN_RAW_FD_FRAMES, &can_fd, sizeof(can_fd));
第二步:用 canfd_frame 收发。
struct canfd_frame fdframe;
fdframe.can_id = 0x100 | CAN_EFF_FLAG; // 扩展帧
fdframe.flags = CANFD_BRS | CANFD_ESI; // BRS 位速率切换,ESI 错误状态指示(可选)
fdframe.len = 64; // 长度,最大 64
memset(fdframe.data, 0xA5, 64);
// 发送时注意长度是 canfd_frame 大小
ssize_t n = write(s, &fdframe, sizeof(struct canfd_frame));
if (n != sizeof(struct canfd_frame)) {
perror("FD write");
}
接收时要区分帧类型:
if (n == CAN_MTU) {
// 经典 CAN 帧
struct can_frame *cf = (struct can_frame *)&buffer;
} else if (n == CANFD_MTU) {
struct canfd_frame *fd = (struct canfd_frame *)&buffer;
} else {
// 不可能,除非驱动有 bug
}
常见大坑:忘记启用 CAN_RAW_FD_FRAMES,导致发送 FD 帧返回 EMSGSIZE(Message too long)。另一个坑:你的 CAN 控制器驱动可能压根没编译进内核,赶紧检查 ip -details link show can0 是否显示 CAN-FD。
错误帧与容错策略
当总线发生错误(位错误、填充错误、CRC 错误等),内核会把错误帧转发给开启错误报告的套接字。要接收错误帧:
int recv_err = 1;
setsockopt(s, SOL_CAN_RAW, CAN_RAW_RECV_OWN_MSGS, &recv_err, sizeof(recv_err)); // 可选,接收自己发出的错误帧
can_err_mask_t err_mask = CAN_ERR_MASK; // 接收所有错误类型
setsockopt(s, SOL_CAN_RAW, CAN_RAW_ERR_FILTER, &err_mask, sizeof(err_mask));
接收到的帧 can_id 会带有 CAN_ERR_FLAG (0x20000000U),具体的错误类型编码在 data 字段中(参考 include/uapi/linux/can/error.h)。
if (frame.can_id & CAN_ERR_FLAG) {
if (frame.can_id & CAN_ERR_BUSERROR) {
// 总线错误,data[0] 可能包含位位置等信息
}
if (frame.data[1] & CAN_ERR_CRTL_TX_WARNING) {
// 发送错误警告,控制器进入被动错误状态
}
// 实际产品中应当计数并报警,达到阈值尝试重启控制器或告警
}
容错设计要点:
- 监听错误帧,如果连续出现
CAN_ERR_CRTL_TX_PASSIVE 或 CAN_ERR_BUSOFF,说明硬件连接、终端电阻或波特率配置出问题了。
- 总线关闭(Bus-Off)时,内核会自动尝试恢复(如果开启自动重启),但你应当监视
CAN_ERR_RESTARTED 事件并做好记录。
- 千万不要把错误帧误认作普通数据帧,每个接收循环优先判断
CAN_ERR_FLAG。
其他套接字选项:回环、三重采样、one-shot
- 回环控制:
CAN_RAW_RECV_OWN_MSGS,默认开启(你能收到自己发的帧),如果想关闭,设为 0。
- 三重采样:
CAN_RAW_TX_TRIES(仅对某些驱动生效),设定发送重试次数。硬件可能不支持,设置前检查。
- 单次发送(one-shot):
CAN_RAW_ONE_SHOT,仅在支持的控制器上,帧只发一次不重试,用于时间敏感场合。
- 接收滤波器杂项:
CAN_RAW_JOIN_FILTERS 允许多个套接字共享硬件过滤槽。
场景举例:诊断设备发送 UDS 请求后期望应答,自己发的请求可以屏蔽回环,以免干扰应答处理。
调试与问题排查指南
三板斧:candump / cansend / dmesg
遇到问题先别急着翻技术文档里复杂的说明,也别改代码,先用这仨工具定位。
# 查看接口状态
ip -details link show can0
# 实时抓取所有帧(包括错误帧)
candump -e any,0:0,#FFFFFFFF
# 从另一个终端发送一帧
cansend can0 123#AABBCCDD
如果 cansend 报 write: No such device 或 Network is down,先 ip link set can0 up。如果报 permission denied,请往下看。
权限问题
CAN 套接字操作需要 CAP_NET_ADMIN 权限。长期 sudo 是慢性自杀。正确的做法:
- 把你的用户加入
can 组(如果存在),或更改 udev 规则。
创建 /etc/udev/rules.d/80-can.rules:
ACTION=="add", SUBSYSTEM=="net", KERNEL=="can*", RUN+="/usr/bin/ip link set %k up", MODE="0666"
然后 sudo udevadm control --reload-rules && sudo udevadm trigger,重新插拔 CAN 设备即可让普通用户访问。
丢帧怎么办?
SO_RCVBUF 默认 128KB 左右,对于高速 CAN FD 总线(如 5Mbps 仲裁段 + 8Mbps 数据段),瞬间微突发可能打爆接收缓冲区。
int rcvbuf_size = 1024 * 1024; // 1MB
setsockopt(s, SOL_SOCKET, SO_RCVBUF, &rcvbuf_size, sizeof(rcvbuf_size));
设置后可通过 /proc/net/can/stats 查看各组丢帧统计。如果 rx_dropped 仍在增长,考虑使用 recvmmsg 减少系统调用开销。
发送失败常见 errno
| errno |
原因 |
解决办法 |
EINVAL |
帧格式错误(FD长度>64但没设置FD标志等) |
检查 can_dlc / len |
EMSGSIZE |
经典 CAN 套接字发送了 canfd_frame |
开启 CAN_RAW_FD_FRAMES |
ENOBUFS |
软件发送队列满 |
增大 SO_SNDBUF 或降低发送速率 |
ENETDOWN |
canX 接口未 up |
ip link set canX up |
EADDRNOTAVAIL |
未 bind 接口且未用 sendto 指定 |
调用 bind() 或使用 sendto() |
推荐定位法:所有发送失败后立即 perror("write to CAN"),日志若显示对应的英文描述,搜索内核源码树找根本原因。
内核日志与溢出告警
dmesg | grep can 能看到控制器报出的警告,比如:
flexcan 2090000.can can0: Error FIFO overflow
这一类告警说明收发中断不及时,软件跟不上硬件。得从调整中断优先级、CPU 亲和性或者优化应用层接收效率这几方面入手了。
性能优化
批量接收
recvmmsg 一次系统调用就能从内核拉取多条 CAN 帧,大幅降低上下文切换的开销。
#define VLEN 16
struct mmsghdr msgs[VLEN];
struct iovec iovecs[VLEN];
struct can_frame frames[VLEN];
int i;
memset(msgs, 0, sizeof(msgs));
for (i = 0; i < VLEN; i++) {
iovecs[i].iov_base = &frames[i];
iovecs[i].iov_len = sizeof(struct can_frame);
msgs[i].msg_hdr.msg_iov = &iovecs[i];
msgs[i].msg_hdr.msg_iovlen = 1;
}
int ret = recvmmsg(s, msgs, VLEN, MSG_DONTWAIT, NULL);
if (ret > 0) {
for (i = 0; i < ret; i++) {
// 处理 frames[i]
}
}
设置合理的过滤器,降低无效唤醒
前面已经详细讲解过,务必加上过滤器。如果业务只关心几个 ID,绝不要让成百上千无关帧去激活你的接收线程。
线程与 CPU 亲和性
把 CAN 接收线程绑定到专用的 CPU 核心(isolcpus),可以有效防止调度抖动导致缓冲区溢出。
cpu_set_t cpuset;
CPU_ZERO(&cpuset);
CPU_SET(1, &cpuset); // 绑定到 CPU1
pthread_setaffinity_np(thread, sizeof(cpuset), &cpuset);
同时配合实时调度策略:
struct sched_param param = { .sched_priority = 45 };
pthread_setschedparam(thread, SCHED_FIFO, ¶m);
注意:实时线程不能无限期霸占 CPU,必须在 poll/recvmmsg 里用超时或阻塞来短暂释放。
调整内核发送队列和合并
SO_SNDBUF 可以适当增大,tx_queue_len 也可通过 ip link set can0 txqueuelen 1000 来调节。
如果使用 SocketCAN 的广播管理器 (CAN_BCM) 进行周期发送,完全可以交给内核定时器触发,从而避免用户态定时器的精度抖动问题。
聊了这么多,从创建套接字到收发、过滤、再到性能调优,基本覆盖了 SocketCAN 开发中的典型场景和常见陷阱。说到底,技术问题大多是“细节问题”,而本文最想传递的,就是那些隐藏在细节里的坑。
关于更多嵌入式 C/C++ 开发的实战技巧,云栈社区也是一个不错的交流地,欢迎有空来转转。