在ASIC实时图像处理场景中,图像去噪是一项关键的预处理技术,广泛应用于识别、跟踪、分类等高级图像处理任务。经过级联的时空去噪后,视频图像仍会残留斑块和结构性噪声,同时在复杂的ASIC设计中还需严格兼顾硬件资源开销与实时处理需求。
本文介绍了一种基于非局部均值(NLM)算法和金字塔框架的多层自适应阈值去噪方法(MRNLM)。其核心创新在于融合拉普拉斯金字塔分层、自适应DCT阈值计算与硬件优化的NLM算法,在高效抑制结构性噪声的同时,实现了ASIC的低资源占用与实时处理,为端侧图像处理提供了高效解决方案。
本文方法发表于IEEE Transactions on Circuits and Systems–I: Regular Papers(2025年第72卷第12期),原文链接:https://doi.org/10.1109/TCSI.2025.3573084
背景介绍
图像去噪的应用价值
图像去噪是众多高级图像处理应用的重要前置步骤,尤其在基于ASIC的实时处理中,既需要稳健的噪声抑制能力,又要满足芯片资源占用少、处理延迟低的硬件实现要求。硬件降噪方案能够显著降低软件方案的CPU资源消耗,实时高效地完成去噪、锐化、增强等多种任务,因此被广泛应用于视频传感器采集原始数据的ISP(图像信号处理)系统中。
现有方法的局限性
现有图像去噪方法主要分为空间域去噪和变换域去噪两类,但均存在明显不足:
- 空间域去噪(如中值滤波、均值滤波、高斯滤波)虽计算速度快,但在处理图像边缘和纹理细节时易导致模糊;双边滤波虽能保留边缘,但在噪声标准差超过边缘对比度时会失效;传统NLM算法能有效滤除高斯噪声并保留细节,但块匹配计算复杂度高,硬件实现难度大。
- 变换域去噪(如小波变换、基于DCT的BM3D算法)噪声抑制效果较好,但存在硬件资源占用多、处理延迟高的问题,难以满足ASIC实时处理的严苛要求。
此外,经过多级时空去噪后,图像噪声常呈现结构性斑块,现有方法对此抑制效果有限。
算法原理
核心设计思路
MRNLM算法针对YUV域的Y通道图像数据进行空间噪声去除。其核心思路是通过拉普拉斯金字塔实现多层分辨率分解,结合DCT计算自适应滤波强度,对各层进行优化的NLM去噪后融合输出。该设计既最大化NLM的去噪潜力,又通过硬件优化策略降低资源开销,实现实时处理。
关键技术模块
1. 拉普拉斯金字塔分层

2. NLM算法优化
NLM算法利用自然图像的冗余信息,通过搜索相似区域并加权平均实现去噪。MRNLM对其进行两方面优化:
- 自适应滤波强度:摒弃传统固定阈值,通过DCT实时计算各区域滤波强度,实现更精准的局部降噪判断。
- 硬件计算优化:各层采用不同尺寸的搜索窗口和补丁,具体参数如下表所示:

通过算子复用、流水线计算、无效数据周期复用等策略,大幅降低计算复杂度与硬件资源占用。例如,第一层NLM通过巧妙的流水线设计,仅用一组5个绝对值减法算子完成25点的计算,节省了4/5的算子面积。


3. 自适应DCT算法
通过DCT变换提取图像局部特征,动态调整滤波强度:
- 对每个8×8像素块进行DCT变换,划分DC(平均亮度)、L(低频)、E(边缘)、H(高频)四个区间。
- 累加各区间绝对值得到振幅,经寄存器移位、偏移校正后查询增益表,结合水平高斯滤波(核为[1,4,6,4,1])与垂直IIR滤波(公式如下)得到NR Level(降噪等级):

- 通过双线性插值将NR Level映射到各层NLM的像素级,生成自适应滤波阈值SigmaR,实现对噪声、纹理、亮度不同区域的差异化滤波。
4. 多层融合与硬件实现
- 各层NLM去噪后,从最顶层(LV2)开始,通过上采样恢复至前一层尺寸,与该层去噪结果融合并进行拉普拉斯逆变换,最终得到原始尺寸的去噪图像。
- 硬件设计采用共享线缓冲SRAM、并行数据供给、查找表替代插值寻址等策略,优化资源利用率与处理延迟。各层线缓冲使用情况如下表所示:



算法流程
- 原始Y通道图像经高斯下采样生成三层金字塔图像。
- 自适应DCT模块计算各区域NR Level,插值后得到各层NLM的滤波阈值。
- 各层执行优化后的NLM去噪,计算步骤如下:
A. 对搜索范围内所有点为中心的补丁与中心补丁进行绝对值减法操作。
B. 累加并归一化步骤A的结果,得到各补丁与中心补丁的绝对差和(sad)。
C. 基于DCT计算的NR Level插值得到SigmaR,进而获取sad mul和sad sthift参数。
D. 利用sad、sad mul和sad sthift计算各补丁的权重,通过查表得到对应权重值。
E. 对搜索窗口内所有中心像素值进行加权求和,除以权重总和得到当前滤波点的滤波值。
- 从顶层至底层依次上采样、融合,输出最终去噪图像。
实验对比
去噪效果对比
选取双边滤波、BM3D(仅实现Step1并优化参数)作为基线方法,在不同噪声场景下进行测试:
- 静态YUV图像(添加σ=15和σ=40的高斯白噪声):MRNLM(固定阈值)的PSNR在σ=15时达到40.7560,SSIM达0.9712;σ=40时PSNR达34.2454,SSIM达0.9166,均优于双边滤波和BM3D。
- ISP处理后的静态含噪RAW图像(σ=25):MRNLM(自适应阈值)的PSNR达29.4622,SSIM达0.9187,优于固定阈值版本及基线方法。
- ISP 3D去噪后的动态含噪视频(σ=50):MRNLM(自适应阈值)的PSNR达31.9311,SSIM达0.8743,在静态和动态区域均能实现高效降噪,且时间一致性更优。

主要实验数据如下表所示:
表1:静态YUV图像(σ=15、σ=40)的PSNR、MSE和SSIM对比

表2:ISP处理后静态含噪RAW图像(σ=25)的PSNR、MSE和SSIM对比

表3:ISP 3D去噪后动态含噪视频(σ=50)的PSNR、MSE和SSIM对比

硬件性能对比
基于TSMC 6nm工艺库,在600MHz主频、4K@60fps性能目标下,MRNLM与BM3D的硬件资源对比如下表所示:

局限性
- 资源与功耗:定制化SRAM面积过大可能导致功耗增加,需进一步优化各层NLM的搜索窗口、补丁尺寸及时序对齐用SRAM数量。
- 伪影问题:DCT自适应滤波强度提取存在固有伪影和边缘效应,需提升插值计算精度以消除该影响。
- 架构潜力:当前算法架构仍有优化空间,未来可探索存算一体硬件架构及更高效的算法性能优化融合方案。
结语
MRNLM算法通过拉普拉斯金字塔分层、自适应DCT阈值计算与NLM硬件优化的创新融合,在抑制时空噪声方面表现优于双边滤波和BM3D算法。其ASIC实现不仅将芯片面积和功耗降低近一半,还能满足4K@60fps的实时视频去噪需求,无需外部内存访问且片上资源占用最小。该方法为ASIC端实时图像处理提供了高效、低耗的去噪解决方案,适用于视频传感器、ISP系统等场景,具有广泛的工程应用价值。未来通过进一步优化网络结构与硬件设计,有望在降噪性能与资源开销之间实现更优平衡。
|