LeNet-5(1998):基于梯度的学习方法在文档识别中的应用

LeNet-5(1998):基于梯度的学习方法在文档识别中的应用

导出时间:2025/11/23 20:18:00
20 世纪 90 年代,计算机已经能识别文本,但图片识别很困难。比如银行支票的手写数字识别,传统方法需要人工设计规则,费时费力且精度不高。 于是,Yann LeCun 及其团队提出了 LeNet-5——一种可以自动从图片中提取特征的卷积神经网络。

1、LeNet-5 的总体思路

1.1 一个生活化比喻

想象你是一个验钞员
  1. 拿到一张钞票(输入图片)
  2. 先用放大镜找细节(卷积层)
  3. 缩小视野,专注主要花纹(池化层)
  4. 再看更复杂的组合图案(深层卷积)
  5. 大脑分析所有线索,判断真假(全连接层 + 分类器)

1.2 模型的三大核心步骤

  1. 特征提取(卷积层 + 池化层)
  2. 特征组合(更深的卷积)
  3. 分类决策(全连接层 + Softmax)
image.png
层编号
类型
输入大小
特征图数量
卷积核大小
输出大小
说明
输入层
-
32×32×1
1
-
32×32×1
灰度图像(MNIST 28×28 会补 0 到 32×32)
C1
卷积层
32×32×1
6
5×5
28×28×6
提取边缘、角点等基础特征
S2
平均池化层
28×28×6
6
2×2
14×14×6
降低分辨率,去掉噪声
C3
卷积层
14×14×6
16
5×5
10×10×16
提取更复杂的组合特征
S4
平均池化层
10×10×16
16
2×2
5×5×16
再次降维
C5
卷积层
5×5×16
120
5×5
1×1×120
全局特征汇总,相当于全连接
F6
全连接层
1×1×120
84
-
84
类似大脑的中间推理层
输出层
全连接
84
10
-
10
Softmax 分类,输出 0-9 概率

2、每一层的作用

2.1 C1 卷积层

  • 目标:找到低级特征(边缘、线条、简单形状)
  • 操作:6 个 5×5 滤镜,每个滤镜学会不同的模式
  • 类比:摄影师用不同滤镜拍摄同一场景,捕捉不同细节

2.2 S2 平均池化层

  • 目标:缩小图像尺寸,保留主要信息,减少计算量
  • 类比:看缩略图——虽然小了,但主体还在

2.3 C3 卷积层

  • 目标:组合前面的低级特征,形成高级特征(曲线、交叉)
  • 特别之处:并不是所有输入都连接到每个输出,减少参数量

2.4 S4 平均池化层

  • 同 S2,再次降维,减少计算量

2.5 C5 卷积层

  • 卷积核大小等于输入大小(5×5),所以每个卷积核看到整个输入
  • 相当于全连接,但参数更少

2.6 F6 全连接层

  • 把提取到的特征重新组合,准备分类
  • 输出 84 个神经元,类似人脑做最后的综合判断

2.7 输出层

  • Softmax 输出 10 个概率
  • 最高概率对应最终分类结果

3、LeNet-5 的优点与局限

3.1 优点

  • 特征自动提取
  • 参数量小(~6 万),对硬件要求低
  • 思路清晰,是现代 CNN 的模板

3.2 局限

  • 激活函数使用 Sigmoid/tanh,训练容易梯度消失
  • 只能处理小尺寸灰度图像
  • 池化方式是平均池化(现代更常用最大池化)

4、实战项目