找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5155

积分

0

好友

672

主题
发表于 3 小时前 | 查看: 5| 回复: 0

如果你也曾对着 candump 上刷屏的错误帧怀疑人生,因为一个 EMSGSIZE 把整个周末 debug 进去,或者在客户的产线上顶着 60 分贝噪音查 CAN 总线——恭喜你,你就是本文要拯救的对象。

我也曾蹲在实验台前,左手示波器探头,右手敲 candump can0,试图让一块汽车网关和 Linux 主机正常对话。代码在虚拟 CAN 上跑得丝滑无比,一切到真实 MCP2515 就疯狂报错。三天后才发现,内核配置忘了打开 SPI 中断合并……那时我发了个誓:一定要把所有坑都趟一遍,然后写篇文章,让后面的兄弟别再跳。

今天,我来还愿。

这篇文章不打算教你“CAN 2.0 协议有几种帧格式”,那种基础你应该在昨天就搞定。我们直接切入工程实践:从 SocketCAN 架构讲到 FD 帧收发,从过滤器调优到掉线重传状态机,所有代码都能在 ARM/ARM64 上编译运行。这些年的血泪教训,全浓缩在这里了。

SocketCAN 内核架构

SocketCAN分层架构示意图

Linux 的 CAN 子系统把 CAN 控制器抽象为普通的网络接口(比如 can0),并通过 SocketCAN 提供一套套接字 API。这意味着你可以用 socket()bind()read()write()select() 等系统调用来操作 CAN 总线,就跟处理 UDP 数据包一样自然。

内核负责完成 CAN 帧的拆包、ID 过滤、错误帧上报等硬件相关的底层脏活。协议族 PF_CAN 支持 SOCK_RAWSOCK_DGRAM(广播管理器)等多种类型。对应用层来说,最核心的就是 CAN_RAW 套接字,它能收发原始的 CAN 帧数据。

瑞士军刀:can-utils

没有这套工具,SocketCAN 编程跟裸泳没区别。

  • candump:抓取 CAN 帧,可加时间戳、过滤 ID。
  • cansend:从命令行发送单帧。
  • cangen:随机生成 CAN 帧用于压力测试。
  • canplayer:回放 candump 记录的日志。
  • canbusload:统计总线负载率。

安装:sudo apt install can-utils(Debian系) 或从源码编译(https://github.com/linux-can/can-utils)。

vcan 虚拟 CAN

真实硬件调试太麻烦?vcan 让你在没有物理 CAN 控制器的情况下跑完整代码逻辑。

# 加载 vcan 内核模块(通常已内置)
sudo modprobe vcan
# 创建虚拟 CAN 接口 vcan0
sudo ip link add dev vcan0 type vcan
sudo ip link set vcan0 up

# 验证
ip link show vcan0
candump vcan0 &
cansend vcan0 123#DEADBEEF

你会立刻在终端看到 vcan0 123 [4] DE AD BE EF任何代码先在这上面跑通,再切真硬件,这是无数前辈用加班换来的铁律。

SocketCAN 编程核心流程

创建套接字

int s = socket(PF_CAN, SOCK_RAW, CAN_RAW);
if (s < 0) {
    perror("socket");
    return -1;
}

为什么是 PF_CAN?
最新内核同时支持 PF_CAN(29 号协议族)和 AF_CAN 别名,推荐用 PF_CAN 明确宣示 CAN 子系统。

为什么 SOCK_RAW?
SOCK_RAW 允许我们自己组装/解析 CAN 帧头部(ID、DLC 等),这是 CAN 应用的标准模式。CAN_BCM(广播管理器)才会用到 SOCK_DGRAM,用于周期性发送等特殊场景,我们后面再提。

第三个参数 CAN_RAW
代表原始协议,除此之外还有 CAN_BCMCAN_ISOTP(ISO 15765-2 传输层)等。对于汽车诊断(UDS),你可能会用到 CAN_ISOTP,但先吃透 CAN_RAW 的底层逻辑是必经之路。

获取接口索引

我们需要把套接字绑定到具体的 CAN 接口(比如 can0),首先要拿到接口的索引号。

#include<net/if.h>

unsigned int ifindex = if_nametoindex("can0");
if (!ifindex) {
    perror("if_nametoindex");
    return -1;
}

和 ioctl 比哪个好?
ioctl(fd, SIOCGIFINDEX, ...) 更通用,但需要临时套接字和复杂的 struct ifreq 填充。if_nametoindex 专为此事而生,代码量少 80%,不易出错。选它,别纠结。

绑定接口

struct sockaddr_can addr;
memset(&addr, 0, sizeof(addr));
addr.can_family  = AF_CAN;                 // 必须是 AF_CAN
addr.can_ifindex = ifindex;                // 用上一步拿到的索引

if (bind(s, (struct sockaddr *)&addr, sizeof(addr)) < 0) {
    perror("bind");
    close(s);
    return -1;
}

bind() 之后,这个套接字就只能收发 can0 接口上的帧。如果你想同时监听多个 CAN 接口,每个接口必须创建独立的套接字(或者使用 SO_BINDTODEVICE 加辅助手段,但不推荐,管理起来一团乱麻)。

如果你需要发完就关闭套接字,bind 不是必须的;可以用 sendto 直接指定目标接口地址。但长连接通信最好绑定,否则接收时你永远不知道帧来自哪个接口(除非检查消息元数据)。

发送帧:write / send / sendto 的区别与细节

构造一个经典 CAN 2.0 帧:

struct can_frame frame;
frame.can_id  = 0x123;                     // 标准帧 11 位 ID
frame.can_dlc = 4;                         // 数据长度 4 字节
frame.data[0] = 0xDE;
frame.data[1] = 0xAD;
frame.data[2] = 0xBE;
frame.data[3] = 0xEF;

ssize_t nbytes = write(s, &frame, sizeof(frame));
if (nbytes != sizeof(frame)) {
    perror("write");
}

三种发送方式的细微差别

  • write(s, &frame, CAN_MTU):最简单,前提是你已经 bind() 了套接字。它直接发给绑定的接口。适合 99% 的场景
  • send(s, &frame, CAN_MTU, flags):比 write 多一个 flags 参数,可以设置 MSG_DONTWAIT 实现非阻塞发送,但很少需要。
  • sendto(s, &frame, CAN_MTU, 0, (struct sockaddr*)&addr, sizeof(addr))不需要预先 bind,每次指定目的接口。适合一次性发送或要向不同接口发数据的特殊工具程序。

注意:write() 返回的字节数 nbytes 应当等于 CAN_MTU(经典 CAN 为 16 字节),如果不相等说明发送失败或部分写入,立即排查 errno

接收帧:从阻塞到一拖多的高效模型

阻塞接收,能不用就尽量不用

ssize_t n = read(s, &frame, sizeof(struct can_frame));

除非你有独立线程专职阻塞读,否则这行代码会卡死你的主循环。

设置非阻塞

int flags = fcntl(s, F_GETFL, 0);
if (flags < 0) { perror("fcntl get"); }
flags |= O_NONBLOCK;
if (fcntl(s, F_SETFL, flags) < 0) { perror("fcntl set"); }

之后 read() 无数据时返回 -1,errnoEAGAINEWOULDBLOCK,你的线程可以腾出手干别的事。

select/poll/epoll 多路复用实战(推荐)

下面是一个标准的 poll 接收循环,结构清晰,跨平台性好。

#include<poll.h>

struct pollfd pfd;
pfd.fd = s;
pfd.events = POLLIN;

while (running) {
    int ret = poll(&pfd, 1, 1000); // 超时 1000ms
    if (ret < 0) {
        perror("poll");
        break;
    }
    if (ret == 0) {
        // 超时,可借此机会做些心跳检测
        printf("can rx timeout\n");
        continue;
    }

    if (pfd.revents & POLLIN) {
        struct can_frame frame;
        ssize_t n = read(s, &frame, sizeof(frame));
        if (n == sizeof(frame)) {
            // 处理帧
            printf("Received ID 0x%X DLC %d\n", frame.can_id, frame.can_dlc);
        } else if (n < 0 && errno != EAGAIN) {
            perror("read error");
        }
    }
}

进阶:epoll 边缘触发。对于高负载 CAN 总线(比如 >5000 帧/秒),epoll 配合非阻塞 I/O 和 recvmmsg 可以大幅减少系统调用次数,后续性能优化章节会细讲。

过滤器

如果不设过滤器,每一个在 can0 上出现的帧都会唤醒你的接收线程。想象一下车辆上有 60 个 ECU 每秒吼上千帧,你的应用只关心其中 3 个 ID,却全部被叫醒——CPU 负载徒增,可能引发调度抖动进而丢帧

设置 CAN ID 过滤器(白名单):

struct can_filter rfilter[2];  // 最多可以配置 512 条规则(内核默认值)

// 规则1:只接收 ID 0x123 ~ 0x124
rfilter[0].can_id   = 0x123;
rfilter[0].can_mask = CAN_SFF_MASK;  // 先匹配标准帧,再精细掩码
// 实际上我们常用完整掩码:掩码位=1 表示必须匹配
rfilter[0].can_mask = 0x7FF;        // 标准帧低11位全部参与匹配
// 若要包含 0x124,可以设置范围性掩码,或再加一条规则

// 规则2:接收扩展帧 ID 0x18F00100
rfilter[1].can_id   = 0x18F00100 | CAN_EFF_FLAG; // 必须设置 EFF 标志
rfilter[1].can_mask = (CAN_EFF_MASK | CAN_EFF_FLAG | CAN_RTR_FLAG); // 掩码覆盖扩展位

setsockopt(s, SOL_CAN_RAW, CAN_RAW_FILTER, &rfilter, sizeof(rfilter));

关键要点

  • can_id 字段需要带上帧格式标志:标准帧用 0(默认)或 CAN_SFF_MASK 区域,扩展帧必须或上 CAN_EFF_FLAG
  • can_mask 位为 1 的 bit 在 can_id 中必须一致;为 0 的 bit 忽略。标准帧只比较低 11 位,扩展帧比较 29 位。
  • 过滤器是内核里硬件卸载的吗? 对大多数 SPI 或 PCI CAN 控制器,过滤在硬件完成,完全不消耗 CPU。对没有硬件过滤的控制器,内核也会软件过滤,保证只有匹配帧才唤醒用户态。设置过滤器后性能提升显著。

CAN FD 支持

CAN FD 一帧能带 64 字节数据,速率可切换至 5 Mbps 甚至更高。SocketCAN 通过 CANFD_MTU(72 字节)和 canfd_frame 结构来支持。

第一步:创建套接字后立即开启 FD 模式

int can_fd = 1;
setsockopt(s, SOL_CAN_RAW, CAN_RAW_FD_FRAMES, &can_fd, sizeof(can_fd));

第二步:用 canfd_frame 收发

struct canfd_frame fdframe;
fdframe.can_id = 0x100 | CAN_EFF_FLAG;   // 扩展帧
fdframe.flags  = CANFD_BRS | CANFD_ESI;  // BRS 位速率切换,ESI 错误状态指示(可选)
fdframe.len    = 64;                     // 长度,最大 64
memset(fdframe.data, 0xA5, 64);

// 发送时注意长度是 canfd_frame 大小
ssize_t n = write(s, &fdframe, sizeof(struct canfd_frame));
if (n != sizeof(struct canfd_frame)) {
    perror("FD write");
}

接收时要区分帧类型

if (n == CAN_MTU) {
    // 经典 CAN 帧
    struct can_frame *cf = (struct can_frame *)&buffer;
} else if (n == CANFD_MTU) {
    struct canfd_frame *fd = (struct canfd_frame *)&buffer;
} else {
    // 不可能,除非驱动有 bug
}

常见大坑:忘记启用 CAN_RAW_FD_FRAMES,导致发送 FD 帧返回 EMSGSIZE(Message too long)。另一个坑:你的 CAN 控制器驱动可能压根没编译进内核,赶紧检查 ip -details link show can0 是否显示 CAN-FD

错误帧与容错策略

当总线发生错误(位错误、填充错误、CRC 错误等),内核会把错误帧转发给开启错误报告的套接字。要接收错误帧:

int recv_err = 1;
setsockopt(s, SOL_CAN_RAW, CAN_RAW_RECV_OWN_MSGS, &recv_err, sizeof(recv_err)); // 可选,接收自己发出的错误帧
can_err_mask_t err_mask = CAN_ERR_MASK; // 接收所有错误类型
setsockopt(s, SOL_CAN_RAW, CAN_RAW_ERR_FILTER, &err_mask, sizeof(err_mask));

接收到的帧 can_id 会带有 CAN_ERR_FLAG (0x20000000U),具体的错误类型编码在 data 字段中(参考 include/uapi/linux/can/error.h)。

if (frame.can_id & CAN_ERR_FLAG) {
    if (frame.can_id & CAN_ERR_BUSERROR) {
        // 总线错误,data[0] 可能包含位位置等信息
    }
    if (frame.data[1] & CAN_ERR_CRTL_TX_WARNING) {
        // 发送错误警告,控制器进入被动错误状态
    }
    // 实际产品中应当计数并报警,达到阈值尝试重启控制器或告警
}

容错设计要点

  • 监听错误帧,如果连续出现 CAN_ERR_CRTL_TX_PASSIVECAN_ERR_BUSOFF,说明硬件连接、终端电阻或波特率配置出问题了。
  • 总线关闭(Bus-Off)时,内核会自动尝试恢复(如果开启自动重启),但你应当监视 CAN_ERR_RESTARTED 事件并做好记录。
  • 千万不要把错误帧误认作普通数据帧,每个接收循环优先判断 CAN_ERR_FLAG

其他套接字选项:回环、三重采样、one-shot

  • 回环控制CAN_RAW_RECV_OWN_MSGS,默认开启(你能收到自己发的帧),如果想关闭,设为 0。
  • 三重采样CAN_RAW_TX_TRIES(仅对某些驱动生效),设定发送重试次数。硬件可能不支持,设置前检查。
  • 单次发送(one-shot)CAN_RAW_ONE_SHOT,仅在支持的控制器上,帧只发一次不重试,用于时间敏感场合。
  • 接收滤波器杂项CAN_RAW_JOIN_FILTERS 允许多个套接字共享硬件过滤槽。

场景举例:诊断设备发送 UDS 请求后期望应答,自己发的请求可以屏蔽回环,以免干扰应答处理。

调试与问题排查指南

三板斧:candump / cansend / dmesg

遇到问题先别急着翻技术文档里复杂的说明,也别改代码,先用这仨工具定位。

# 查看接口状态
ip -details link show can0

# 实时抓取所有帧(包括错误帧)
candump -e any,0:0,#FFFFFFFF

# 从另一个终端发送一帧
cansend can0 123#AABBCCDD

如果 cansendwrite: No such deviceNetwork is down,先 ip link set can0 up。如果报 permission denied,请往下看。

权限问题

CAN 套接字操作需要 CAP_NET_ADMIN 权限。长期 sudo 是慢性自杀。正确的做法:

  • 把你的用户加入 can 组(如果存在),或更改 udev 规则。

创建 /etc/udev/rules.d/80-can.rules

ACTION=="add", SUBSYSTEM=="net", KERNEL=="can*", RUN+="/usr/bin/ip link set %k up", MODE="0666"

然后 sudo udevadm control --reload-rules && sudo udevadm trigger,重新插拔 CAN 设备即可让普通用户访问。

丢帧怎么办?

SO_RCVBUF 默认 128KB 左右,对于高速 CAN FD 总线(如 5Mbps 仲裁段 + 8Mbps 数据段),瞬间微突发可能打爆接收缓冲区。

int rcvbuf_size = 1024 * 1024; // 1MB
setsockopt(s, SOL_SOCKET, SO_RCVBUF, &rcvbuf_size, sizeof(rcvbuf_size));

设置后可通过 /proc/net/can/stats 查看各组丢帧统计。如果 rx_dropped 仍在增长,考虑使用 recvmmsg 减少系统调用开销。

发送失败常见 errno

errno 原因 解决办法
EINVAL 帧格式错误(FD长度>64但没设置FD标志等) 检查 can_dlc / len
EMSGSIZE 经典 CAN 套接字发送了 canfd_frame 开启 CAN_RAW_FD_FRAMES
ENOBUFS 软件发送队列满 增大 SO_SNDBUF 或降低发送速率
ENETDOWN canX 接口未 up ip link set canX up
EADDRNOTAVAIL 未 bind 接口且未用 sendto 指定 调用 bind() 或使用 sendto()

推荐定位法:所有发送失败后立即 perror("write to CAN"),日志若显示对应的英文描述,搜索内核源码树找根本原因。

内核日志与溢出告警

dmesg | grep can 能看到控制器报出的警告,比如:

flexcan 2090000.can can0: Error FIFO overflow

这一类告警说明收发中断不及时,软件跟不上硬件。得从调整中断优先级、CPU 亲和性或者优化应用层接收效率这几方面入手了。

性能优化

批量接收

recvmmsg 一次系统调用就能从内核拉取多条 CAN 帧,大幅降低上下文切换的开销。

#define VLEN 16
struct mmsghdr msgs[VLEN];
struct iovec iovecs[VLEN];
struct can_frame frames[VLEN];
int i;

memset(msgs, 0, sizeof(msgs));
for (i = 0; i < VLEN; i++) {
    iovecs[i].iov_base = &frames[i];
    iovecs[i].iov_len  = sizeof(struct can_frame);
    msgs[i].msg_hdr.msg_iov = &iovecs[i];
    msgs[i].msg_hdr.msg_iovlen = 1;
}

int ret = recvmmsg(s, msgs, VLEN, MSG_DONTWAIT, NULL);
if (ret > 0) {
    for (i = 0; i < ret; i++) {
        // 处理 frames[i]
    }
}

设置合理的过滤器,降低无效唤醒

前面已经详细讲解过,务必加上过滤器。如果业务只关心几个 ID,绝不要让成百上千无关帧去激活你的接收线程。

线程与 CPU 亲和性

把 CAN 接收线程绑定到专用的 CPU 核心(isolcpus),可以有效防止调度抖动导致缓冲区溢出。

cpu_set_t cpuset;
CPU_ZERO(&cpuset);
CPU_SET(1, &cpuset); // 绑定到 CPU1
pthread_setaffinity_np(thread, sizeof(cpuset), &cpuset);

同时配合实时调度策略:

struct sched_param param = { .sched_priority = 45 };
pthread_setschedparam(thread, SCHED_FIFO, ¶m);

注意:实时线程不能无限期霸占 CPU,必须在 poll/recvmmsg 里用超时或阻塞来短暂释放。

调整内核发送队列和合并

SO_SNDBUF 可以适当增大,tx_queue_len 也可通过 ip link set can0 txqueuelen 1000 来调节。

如果使用 SocketCAN 的广播管理器 (CAN_BCM) 进行周期发送,完全可以交给内核定时器触发,从而避免用户态定时器的精度抖动问题。

聊了这么多,从创建套接字到收发、过滤、再到性能调优,基本覆盖了 SocketCAN 开发中的典型场景和常见陷阱。说到底,技术问题大多是“细节问题”,而本文最想传递的,就是那些隐藏在细节里的坑。

关于更多嵌入式 C/C++ 开发的实战技巧,云栈社区也是一个不错的交流地,欢迎有空来转转。




上一篇:OpenAI 成立 40 亿美元部署公司:企业级 AI 落地的咨询+资本+FDE 公式
下一篇:KEIL MDK调试时如何利用Set Program Counter绕过看门狗复位?
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-5-13 22:36 , Processed in 0.658422 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表