云栈社区»论坛 › 站务中心「 Forum Service 」 › 卷积神经网络CNN详解：从LeNet到图像识别的核心原理 ...

发回帖发新帖

3106 积分	0 好友	423 主题

发消息

卷积神经网络CNN详解：从LeNet到图像识别的核心原理

发表于 13 小时前 | 查看: 0| 回复: 0

在深入学习卷积神经网络（Convolutional Neural Networks, CNN）之前，我们已经走过了深度学习的基础阶段：掌握了如何将图像转为张量、如何用参数化模型进行预测、如何用损失函数评估模型，并通过反向传播与梯度下降优化参数。

深度学习的核心在于，通过前向计算和反向传播，让模型自动学习从输入到输出的映射关系。那么，面对具有强烈空间结构的图像数据，模型该如何高效且可靠地“观察”并提取有用信息？这正是今天的主角——卷积神经网络（CNN）所要解决的核心问题。

一、计算机视觉的新篇章：从特征工程到端到端学习

在深度学习成为主流之前，计算机视觉长期依赖人工特征工程。研究者需要根据经验手动设计颜色直方图、梯度方向直方图(HOG)、SIFT等特征，再交给传统机器学习模型去分类。这种方式高度依赖人的直觉，难以应对复杂多变的真实场景，一旦场景变化，特征往往失效。

颜色直方图示意图：展示图像颜色分布统计

梯度方向直方图(HOG)特征提取过程

卷积神经网络的出现，正是为了解决这一核心矛盾：能否让模型自己从数据中学习“什么是有用的视觉特征”，而不是由人事先设定？

对比传统机器学习与深度学习（端到端学习）流程

CNN的思想渊源可以追溯到上世纪50年代对生物视觉系统的研究，揭示了视觉皮层中“局部感受野”和“层级处理”的机制。

1959年HUBEL和WIESEL关于猫视觉皮层感受野的经典论文

真正让CNN成为可用工程模型的是Yann LeCun在1990年代提出的LeNet，用于手写数字识别。但受限于当时的算力和数据规模，CNN并未立即流行。

LeNet-5网络架构及其在手写数字识别中的应用

直到2012年，AlexNet 在ImageNet竞赛中以压倒性优势夺冠，CNN才真正引爆整个计算机视觉领域。AlexNet在结构思想上继承了LeNet，但将其理念放在了更深的网络、更大的数据集、更强的算力之上。从那一刻起，视觉任务的主流范式发生了根本转变：从“先设计特征，再训练模型”变为“端到端地让模型自己学习特征”。

1990-2010年互联网数据增长趋势图

四种经典CNN架构对比：AlexNet, GoogLeNet, VGG Net, ResNet

从2012年到2020年，CNN几乎统治了所有主流计算机视觉任务：

目标检测（Detection）：识别物体并定位。
语义分割（Segmentation）：对图像中每个像素进行分类。
图像描述（Image Captioning）：将图像内容转化为文字描述。
早期生成模型：为Stable Diffusion等系统的早期视觉架构奠定了基础。

可以说，在这八年间，几乎所有主流视觉任务的演进都是围绕CNN展开的。2020年后，随着Transformer从自然语言处理领域被引入视觉建模（Vision Transformer, ViT），视觉领域开始了新的范式迁移。在超大规模数据与算力条件下，Transformer凭借其全局建模能力展现出新的潜力。

Transformer模型在语言和视觉任务中的演进

但这绝不意味着CNN已经“过时”。恰恰相反，理解CNN在今天依然至关重要，原因至少有三点：

它是计算机视觉历史上第一套真正成功、可规模化的建模范式。
现实世界中许多高效的视觉系统，仍然是CNN与Transformer的混合体。
CNN能帮助我们建立对图像空间结构、局部性与层级表示的深刻直觉，这是理解一切视觉模型的基础。

二、卷积神经网络的核心组成

卷积神经网络本质上是一个处理图像的计算图，由四种基本“原语”（构建网络的最基本操作单元）构成。我们已经学过全连接层和激活函数，今天将重点学习另外两个核心层：卷积层和池化层。

CNN核心组成：全连接层、激活函数、卷积层、池化层

在深入卷积层之前，我们先快速回顾一下全连接层。以一张32×32×3的彩色图像（32×32是空间尺寸，3是RGB通道）为例：

全连接层工作原理示意图

操作：将图像展平成一个3072维的向量。
计算：假设有10个输出类别，权重矩阵大小为3072×10，通过矩阵乘法得到10个类别的得分。
本质：可以理解为“模板匹配”，当输入向量的方向与某个权重模板一致时，得分最高。

但这也暴露了全连接层的关键问题：参数量巨大，且完全破坏了图像的空间结构，无法高效利用像素间的局部关联信息。

三、卷积层：局部模板匹配

为了保持空间结构并大幅减少参数，CNN引入了卷积层。其核心思想是局部模板匹配。卷积层保持输入的三维结构（高度×宽度×通道），并引入一个称为滤波器（Filter） 或卷积核（Kernel） 的小矩阵。滤波器的深度与输入通道数一致，空间尺寸（如3×3或5×5）则远小于图像本身。

卷积核（滤波器）与输入图像的卷积操作示意