LeNet-5（1998）：基于梯度的学习方法在文档识别中的应用

LeNet-5（1998）：基于梯度的学习方法在文档识别中的应用

导出时间：2025/11/23 20:18:00

20 世纪 90 年代，计算机已经能识别文本，但图片识别很困难。比如银行支票的手写数字识别，传统方法需要人工设计规则，费时费力且精度不高。于是，Yann LeCun 及其团队提出了 LeNet-5——一种可以自动从图片中提取特征的卷积神经网络。

1、LeNet-5 的总体思路

1.1 一个生活化比喻

想象你是一个验钞员：

拿到一张钞票（输入图片）
先用放大镜找细节（卷积层）
缩小视野，专注主要花纹（池化层）
再看更复杂的组合图案（深层卷积）
大脑分析所有线索，判断真假（全连接层 + 分类器）

1.2 模型的三大核心步骤

特征提取（卷积层 + 池化层）
特征组合（更深的卷积）
分类决策（全连接层 + Softmax）

层编号	类型	输入大小	特征图数量	卷积核大小	输出大小	说明
输入层	-	32×32×1	1	-	32×32×1	灰度图像（MNIST 28×28 会补 0 到 32×32）
C1	卷积层	32×32×1	6	5×5	28×28×6	提取边缘、角点等基础特征
S2	平均池化层	28×28×6	6	2×2	14×14×6	降低分辨率，去掉噪声
C3	卷积层	14×14×6	16	5×5	10×10×16	提取更复杂的组合特征
S4	平均池化层	10×10×16	16	2×2	5×5×16	再次降维
C5	卷积层	5×5×16	120	5×5	1×1×120	全局特征汇总，相当于全连接
F6	全连接层	1×1×120	84	-	84	类似大脑的中间推理层
输出层	全连接	84	10	-	10	Softmax 分类，输出 0-9 概率

2、每一层的作用

2.1 C1 卷积层

目标：找到低级特征（边缘、线条、简单形状）
操作：6 个 5×5 滤镜，每个滤镜学会不同的模式
类比：摄影师用不同滤镜拍摄同一场景，捕捉不同细节

2.2 S2 平均池化层

目标：缩小图像尺寸，保留主要信息，减少计算量
类比：看缩略图——虽然小了，但主体还在

2.3 C3 卷积层

目标：组合前面的低级特征，形成高级特征（曲线、交叉）
特别之处：并不是所有输入都连接到每个输出，减少参数量

2.4 S4 平均池化层

同 S2，再次降维，减少计算量

2.5 C5 卷积层

卷积核大小等于输入大小（5×5），所以每个卷积核看到整个输入
相当于全连接，但参数更少

2.6 F6 全连接层

把提取到的特征重新组合，准备分类
输出 84 个神经元，类似人脑做最后的综合判断

2.7 输出层

Softmax 输出 10 个概率
最高概率对应最终分类结果

3、LeNet-5 的优点与局限

3.1 优点

特征自动提取
参数量小（~6 万），对硬件要求低
思路清晰，是现代 CNN 的模板

3.2 局限

激活函数使用 Sigmoid/tanh，训练容易梯度消失
只能处理小尺寸灰度图像
池化方式是平均池化（现代更常用最大池化）

4、实战项目

📄 A285-lenets5模型实现手写数字识别实时画板手写预测