小红

3785 积分	0 好友	521 主题

发消息

ASIC实时图像去噪：基于非局部均值算法的多层自适应滤波与ISP芯片实现

发表于 2025-12-25 05:13:18 | 查看: 81| 回复: 0

在ASIC实时图像处理场景中，图像去噪是一项关键的预处理技术，广泛应用于识别、跟踪、分类等高级图像处理任务。经过级联的时空去噪后，视频图像仍会残留斑块和结构性噪声，同时在复杂的ASIC设计中还需严格兼顾硬件资源开销与实时处理需求。

本文介绍了一种基于非局部均值（NLM）算法和金字塔框架的多层自适应阈值去噪方法（MRNLM）。其核心创新在于融合拉普拉斯金字塔分层、自适应DCT阈值计算与硬件优化的NLM算法，在高效抑制结构性噪声的同时，实现了ASIC的低资源占用与实时处理，为端侧图像处理提供了高效解决方案。

本文方法发表于IEEE Transactions on Circuits and Systems–I: Regular Papers（2025年第72卷第12期），原文链接：https://doi.org/10.1109/TCSI.2025.3573084

背景介绍

图像去噪的应用价值

图像去噪是众多高级图像处理应用的重要前置步骤，尤其在基于ASIC的实时处理中，既需要稳健的噪声抑制能力，又要满足芯片资源占用少、处理延迟低的硬件实现要求。硬件降噪方案能够显著降低软件方案的CPU资源消耗，实时高效地完成去噪、锐化、增强等多种任务，因此被广泛应用于视频传感器采集原始数据的ISP（图像信号处理）系统中。

现有方法的局限性

现有图像去噪方法主要分为空间域去噪和变换域去噪两类，但均存在明显不足：

空间域去噪（如中值滤波、均值滤波、高斯滤波）虽计算速度快，但在处理图像边缘和纹理细节时易导致模糊；双边滤波虽能保留边缘，但在噪声标准差超过边缘对比度时会失效；传统NLM算法能有效滤除高斯噪声并保留细节，但块匹配计算复杂度高，硬件实现难度大。
变换域去噪（如小波变换、基于DCT的BM3D算法）噪声抑制效果较好，但存在硬件资源占用多、处理延迟高的问题，难以满足ASIC实时处理的严苛要求。
此外，经过多级时空去噪后，图像噪声常呈现结构性斑块，现有方法对此抑制效果有限。

算法原理

核心设计思路

MRNLM算法针对YUV域的Y通道图像数据进行空间噪声去除。其核心思路是通过拉普拉斯金字塔实现多层分辨率分解，结合DCT计算自适应滤波强度，对各层进行优化的NLM去噪后融合输出。该设计既最大化NLM的去噪潜力，又通过硬件优化策略降低资源开销，实现实时处理。

关键技术模块

1. 拉普拉斯金字塔分层

拉普拉斯分解图

2. NLM算法优化

NLM算法利用自然图像的冗余信息，通过搜索相似区域并加权平均实现去噪。MRNLM对其进行两方面优化：

自适应滤波强度：摒弃传统固定阈值，通过DCT实时计算各区域滤波强度，实现更精准的局部降噪判断。
硬件计算优化：各层采用不同尺寸的搜索窗口和补丁，具体参数如下表所示：

通过算子复用、流水线计算、无效数据周期复用等策略，大幅降低计算复杂度与硬件资源占用。例如，第一层NLM通过巧妙的流水线设计，仅用一组5个绝对值减法算子完成25点的计算，节省了4/5的算子面积。

3. 自适应DCT算法

通过DCT变换提取图像局部特征，动态调整滤波强度：

对每个8×8像素块进行DCT变换，划分DC（平均亮度）、L（低频）、E（边缘）、H（高频）四个区间。
累加各区间绝对值得到振幅，经寄存器移位、偏移校正后查询增益表，结合水平高斯滤波（核为[1,4,6,4,1]）与垂直IIR滤波（公式如下）得到NR Level（降噪等级）：
通过双线性插值将NR Level映射到各层NLM的像素级，生成自适应滤波阈值SigmaR，实现对噪声、纹理、亮度不同区域的差异化滤波。

4. 多层融合与硬件实现

各层NLM去噪后，从最顶层（LV2）开始，通过上采样恢复至前一层尺寸，与该层去噪结果融合并进行拉普拉斯逆变换，最终得到原始尺寸的去噪图像。
硬件设计采用共享线缓冲SRAM、并行数据供给、查找表替代插值寻址等策略，优化资源利用率与处理延迟。各层线缓冲使用情况如下表所示：

算法流程

原始Y通道图像经高斯下采样生成三层金字塔图像。
自适应DCT模块计算各区域NR Level，插值后得到各层NLM的滤波阈值。
各层执行优化后的NLM去噪，计算步骤如下：
A. 对搜索范围内所有点为中心的补丁与中心补丁进行绝对值减法操作。
B. 累加并归一化步骤A的结果，得到各补丁与中心补丁的绝对差和（sad）。
C. 基于DCT计算的NR Level插值得到SigmaR，进而获取sad mul和sad sthift参数。
D. 利用sad、sad mul和sad sthift计算各补丁的权重，通过查表得到对应权重值。
E. 对搜索窗口内所有中心像素值进行加权求和，除以权重总和得到当前滤波点的滤波值。
从顶层至底层依次上采样、融合，输出最终去噪图像。

实验对比

去噪效果对比

选取双边滤波、BM3D（仅实现Step1并优化参数）作为基线方法，在不同噪声场景下进行测试：

静态YUV图像（添加σ=15和σ=40的高斯白噪声）：MRNLM（固定阈值）的PSNR在σ=15时达到40.7560，SSIM达0.9712；σ=40时PSNR达34.2454，SSIM达0.9166，均优于双边滤波和BM3D。
ISP处理后的静态含噪RAW图像（σ=25）：MRNLM（自适应阈值）的PSNR达29.4622，SSIM达0.9187，优于固定阈值版本及基线方法。
ISP 3D去噪后的动态含噪视频（σ=50）：MRNLM（自适应阈值）的PSNR达31.9311，SSIM达0.8743，在静态和动态区域均能实现高效降噪，且时间一致性更优。

不同高斯噪声下静态YUV图像去噪效果对比

主要实验数据如下表所示：
表1：静态YUV图像（σ=15、σ=40）的PSNR、MSE和SSIM对比
表1数据
表2：ISP处理后静态含噪RAW图像（σ=25）的PSNR、MSE和SSIM对比
表2数据
表3：ISP 3D去噪后动态含噪视频（σ=50）的PSNR、MSE和SSIM对比
表3数据

硬件性能对比

基于TSMC 6nm工艺库，在600MHz主频、4K@60fps性能目标下，MRNLM与BM3D的硬件资源对比如下表所示：
硬件资源对比表

局限性

资源与功耗：定制化SRAM面积过大可能导致功耗增加，需进一步优化各层NLM的搜索窗口、补丁尺寸及时序对齐用SRAM数量。
伪影问题：DCT自适应滤波强度提取存在固有伪影和边缘效应，需提升插值计算精度以消除该影响。
架构潜力：当前算法架构仍有优化空间，未来可探索存算一体硬件架构及更高效的算法性能优化融合方案。

结语

MRNLM算法通过拉普拉斯金字塔分层、自适应DCT阈值计算与NLM硬件优化的创新融合，在抑制时空噪声方面表现优于双边滤波和BM3D算法。其ASIC实现不仅将芯片面积和功耗降低近一半，还能满足4K@60fps的实时视频去噪需求，无需外部内存访问且片上资源占用最小。该方法为ASIC端实时图像处理提供了高效、低耗的去噪解决方案，适用于视频传感器、ISP系统等场景，具有广泛的工程应用价值。未来通过进一步优化网络结构与硬件设计，有望在降噪性能与资源开销之间实现更优平衡。

上一篇：Tiny Core Linux模块化设计解析：轻量级桌面与嵌入式开发指南
下一篇：Vue3 ECharts性能优化：模块化按需加载减少打包体积实战

图像去噪, ASIC, 非局部均值, 硬件优化, 图像信号处理