A028-引入SE模块和注意力机制解决VGG16过拟合实现新冠肺炎图片多分类

导出时间：2025/12/16 11:32:15

视频课程：https://www.bilibili.com/video/BV1zZezz1E2w/

【购买前必看】

1、关于我们

深度学习乐园是由python哥全职技术团队组建运营【团队成员为：复旦大学博士、华东理工爱丁堡博士、格拉斯哥博士、纽约大学硕士、浙江大学硕士】。

我们只做python业务，精通sklearn机器学习/torch深度学习/django/flask/vue全栈开发。

2、关于项目

我们从2018年开始，就专注于深度学习sci、ei、ccf、kaggle等，至今已有7年，共发表过10多篇顶刊顶会。

官网累积了数百个项目，已有3000多学员付费购买，圈子内有口皆碑：www.zzgcz.com （更多高级私密项目无法对外，联系微信定制：zzgcz_com）

3、售后承诺

包远程安装调试，所有项目均在本地运行通过，大部分都有截图和录屏。

支持二次修改，所有项目都是我们自己写的，改起来也非常容易。

加急定制1-2天可完成，这就是实力证明，远程验收满意后再付全款！

所有客户终身售后。兼职的人家都有主业，谁愿意持续服务你？

1. 项目简介

本项目的目标是通过深度学习模型VGG16，实现对新冠肺炎图像的多分类任务，以帮助医疗人员对患者的影像进行快速、准确的诊断。新冠肺炎自爆发以来，利用医学影像如X光和CT扫描进行疾病诊断已成为重要手段之一。随着数据量的增加，基于人工智能的图像分析方法逐渐显现出其优势，能够有效提高检测效率并减少误诊率。该项目基于预训练的VGG16模型，通过对肺部CT或X光影像进行分类，实现对不同类型的肺部病变的分类识别。VGG16模型是深度卷积神经网络中的经典网络，具有16层网络结构，能够捕捉图像中的细微特征，适用于医学图像分析。本项目通过迁移学习，将VGG16的卷积层权重应用于新冠肺炎图片分类任务，并通过微调模型，使其适应于具体的医学影像数据集。最终目标是构建一个高效且稳定的深度学习模型，帮助医疗人员对肺炎患者进行辅助诊断，提高诊断的准确性和效率，同时减轻医疗系统的负担。

2.技术创新点摘要

迁移学习的应用：该项目利用VGG16模型进行迁移学习，这是该项目的重要创新之一。VGG16是一个预训练模型，已经在大规模图像数据集ImageNet上进行训练，具有强大的特征提取能力。通过冻结预训练模型的卷积层权重，模型可以专注于当前新冠肺炎图像的分类任务，避免从头开始训练，有效缩短了模型的训练时间，并提升了训练的稳定性和准确性。

3. 数据集与预处理

本项目使用的新冠肺炎医学图像数据集主要由CT或X光图像组成，数据集包含了正常、轻度感染及重度感染的肺部影像。这些医学图像具有高分辨率，能够反映患者肺部的病变情况。数据集中的标签对应不同的病理分类，这些标签用于训练模型进行多分类任务。医学影像的特征在于其复杂的结构和细节，因此需要经过严格的预处理，以确保模型能够从中学习到有效的特征。

在数据预处理阶段，首先对原始图像进行统一的尺寸调整。所有图像被缩放到224x224像素，以匹配VGG16模型的输入尺寸。此外，图像通过 transforms.ToTensor() 函数转换为张量，并将像素值从0-255的范围标准化为0-1之间。接着，使用预训练模型ImageNet的均值和标准差对图像进行归一化处理，将像素值调整到(-1,1)的区间。这一步能够确保输入数据的分布与预训练模型的输入分布相一致，进而提高模型的性能。

在数据增强方面，项目引入了多种增强策略，以增强模型的泛化能力。这些增强操作包括随机裁剪、翻转等，这能够有效增加训练数据的多样性，从而防止模型过拟合。同时，这些增强手段能够模拟不同条件下的医学图像变化，使模型更加稳健。

4. 模型架构

4.1、模型结构

本项目使用了VGG16模型，这是一种深度卷积神经网络，具有16个权重层。其模型结构包括卷积层、池化层、全连接层等，具体如下：c

卷积层：VGG16由多个卷积层构成，每一层卷积操作的公式为：

y_{i,j,k} = \sum_{m,n} w_{m,n,k} \cdot x_{i+m,j+n} + b_k

其中，x 是输入图像，w 是卷积核权重，b 是偏置项，y 是输出的特征图。这些卷积操作主要用于提取图像中的局部特征，尤其适合复杂的医学图像。

池化层：卷积后会经过最大池化层（Max Pooling），其公式为：

y_{i,j,k} = \max \{ x_{i+m,j+n,k} \}, \, (m,n) \in S

池化操作减少了特征图的大小，从而降低了模型的计算复杂度，同时保留了重要的特征信息。

全连接层：卷积和池化层的输出最终会通过全连接层，该层将多维的特征映射为一维向量，公式为：

y = W \cdot x + b

其中 W是权重矩阵，x 是输入向量，b是偏置项，y 是输出。这一层用于完成分类任务，将卷积提取到的特征映射到具体的分类结果上。

Softmax层：在最后的输出层，使用Softmax激活函数生成每个类别的概率分布，公式为：

P(y = k | x) = \frac{e^{z_k}}{\sum_{j} e^{z_j}}

其中 zk是类别 k的输出，Softmax函数保证输出结果为概率分布，并用于多分类任务。

4.2、模型结构

第1层卷积模块 `self.layer1`

输入尺寸：224×224×3 （假设输入图像尺寸为 224×224，RGB图像有3个通道）。
操作与输出：
- 第一层卷积：
  - 操作：nn.Conv2d(3, 64, kernel_size=3, padding=1)
  - 计算：输入尺寸224×224×3，经过3×3卷积核后，通道数变为64，填充1像素保证尺寸不变。
  - 输出尺寸：224×224×64
- 批量归一化：
  - 操作：nn.BatchNorm2d(64)
  - 计算：对每个通道的特征图进行归一化。
  - 输出尺寸：224×224×64
- ReLU激活函数：
  - 操作：nn.ReLU(inplace=True)
  - 输出尺寸：224×224×64
- 第二层卷积：
  - 操作：nn.Conv2d(64, 64, 3, padding=1)
  - 输出尺寸：224×224×64
- 批量归一化、ReLU、最大池化：
  - 池化将特征图缩小一半。
  - 输出尺寸：112×112×64

第2层卷积模块 `self.layer2`

输入尺寸：112×112×64
操作与输出：
- 第一层卷积：nn.Conv2d(64, 128, 3, padding=1)，输出尺寸112×112×128
- 批量归一化、ReLU、第二层卷积：nn.Conv2d(128, 128, 3, padding=1)，输出112×112×128
- 池化：输出56×56×128

第3层卷积模块 `self.layer3`

输入尺寸：56×56×128
操作与输出：
- 第一层卷积：nn.Conv2d(128, 256, 3, padding=1)，输出尺寸56×56×256
- 批量归一化、ReLU、第二层卷积：nn.Conv2d(256, 256, 3, padding=1)，输出56×56×256
- 第三层卷积：nn.Conv2d(256, 256, 3, padding=1)，输出56×56×256
- 池化：输出28×28×256

第4层卷积模块 `self.layer4`

输入尺寸：28×28×256
操作与输出：
- 第一层卷积：nn.Conv2d(256, 512, 3, padding=1)，输出尺寸28×28×512
- 批量归一化、ReLU、第二层卷积：nn.Conv2d(512, 512, 3, padding=1)，输出28×28×512
- 第三层卷积：nn.Conv2d(512, 512, 3, padding=1)，输出28×28×512
- 池化：输出14×14×512

第5层卷积模块 `self.layer5`

输入尺寸：14×14×512
操作与输出：
- 第一层卷积：nn.Conv2d(512, 512, 3, padding=1)，输出尺寸14×14×512
- 批量归一化、ReLU、第二层卷积：nn.Conv2d(512, 512, 3, padding=1)，输出14×14×512
- 第三层卷积：nn.Conv2d(512, 512, 3, padding=1)，输出14×14×512
- 池化：输出7×7×512

全连接层 `self.fc`

输入尺寸：7×7×512，展平后为7*7*512 = 25088
操作与输出：
- 第一个全连接层：
  - 操作：nn.Linear(7*7*512, 4096)
  - 输出尺寸：4096
- ReLU、Dropout，保持输出4096
- 第二个全连接层：nn.Linear(4096, 4096)，输出4096
- ReLU、Dropout，保持输出4096
- 第三个全连接层：nn.Linear(4096, 1000)，输出1000
- 输出层：nn.Linear(1000, 4)

4.3、模型训练

训练流程如下：

数据加载：数据集通过自定义 MyDataset 类加载，并应用了标准化和数据增强等预处理步骤。

模型初始化：加载预训练的VGG16模型，并冻结部分卷积层的权重以保留其在ImageNet上的特征提取能力，只对最后几层进行微调。

前向传播：将图像输入到模型中，经过卷积、池化、全连接等层，生成最终的分类结果。

损失计算：使用交叉熵损失函数（CrossEntropyLoss）计算预测结果与真实标签之间的差异： L = -\sum_{i} y_i \log(\hat{y}_i)

其中 yi是真实标签的概率分布，y^i是预测概率分布。

反向传播：通过计算损失函数的梯度，更新可训练的参数，优化目标是最小化损失函数。

优化器：使用Adam优化器进行梯度更新，该优化器结合了动量与自适应学习率的优点： \theta_{t+1} = \theta_t - \eta \cdot \frac{m_t}{\sqrt{v_t} + \epsilon} 其中 mt和 vt分别是一阶和二阶矩估计，η 是学习率。

训练轮次：设定训练轮次（例如20轮），在每一轮中通过前向传播、损失计算、反向传播进行权重更新。

模型评估：在测试集上进行评估，主要使用准确率（Accuracy）、召回率（Recall）等指标：

准确率： Accuracy = \frac{TP + TN}{TP + TN + FP + FN}

召回率： Recall = \frac{TP}{TP + FN}

通过这些步骤，模型能够高效完成新冠肺炎图像的多分类任务，并在实际数据集上进行评估与优化。

5. 核心代码详细讲解

数据预处理与特征工程

pic_transform = transforms.Compose([
    transforms.Resize([224,224]),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

解释：

transforms.Resize([224,224])：这行代码将输入图像的尺寸缩放到224x224像素，以确保输入图像大小一致，符合VGG16模型的输入要求。
transforms.ToTensor()：将PIL图像转换为PyTorch的Tensor类型，并将像素值从0-255的范围归一化为0-1。这是标准的PyTorch数据处理步骤。
transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])：基于ImageNet的均值和标准差进行图像归一化，将像素值调整到(-1,1)的范围。该归一化策略是ImageNet预训练模型的标准配置，有助于提高模型性能。

自定义数据集加载

class MyDataset(Dataset):def init(self, img_path, file_name ,transform=None):
        self.root = img_path
        self.file_name = file_name
        self.csv_root = self.root + '//' + self.file_name
        df = pd.read_csv(self.csv_root)
        rows = df.shape[0]
        imgs = []
        labels = []for row in range(0,rows):
            imgs.append(os.path.join(self.root,df['image_path'][row]))
            labels.append(df['labels'][row])
        self.img = imgs
        self.label = labels
        self.transform = transform
def len(self):return len(self.label)
def getitem(self, item):
        img = self.img[item]
        label = self.label[item]
        img = Image.open(img).convert('RGB')if self.transform is not None:
            img = self.transform(img)
        label = np.array(label).astype(np.int64)
        label = torch.from_numpy(label)return img, label

解释：

init(self, img_path, file_name ,transform=None)：初始化方法，定义了数据集的路径和图像转换方法，并加载图像路径和标签。transform参数用于指定数据增强和预处理步骤。
df = pd.read_csv(self.csv_root)：从指定的CSV文件中读取图像路径和标签，CSV文件包含图像的文件路径及其对应的标签。
self.img = imgs 和 self.label = labels：将图像路径和标签分别存储在两个列表中，以供后续数据加载使用。
len(self)：返回数据集中样本的数量，这是PyTorch自定义数据集的标准实现。
getitem(self, item)：通过索引获取图像和标签。图像通过PIL库打开并转换为RGB格式，然后应用数据预处理（如果有），最终返回Tensor格式的图像和标签。

模型构建与训练

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = models.vgg16(pretrained=True)
for param in model.parameters():
    param.requires_grad = False
model.classifier[6] = nn.Linear(4096, 3)
model = model.to(device)

解释：

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')：这行代码用于检测当前系统是否有可用的GPU，如果有则将计算设备设为GPU（CUDA），否则使用CPU。
model = models.vgg16(pretrained=True)：加载预训练的VGG16模型，这个模型已经在ImageNet上进行过训练，能够有效地提取图像的特征。
for param in model.parameters(): param.requires_grad = False：冻结VGG16模型的所有卷积层权重，使它们在训练过程中不更新。这是典型的迁移学习策略，主要目的是利用预训练模型的特征提取能力，同时减少训练时间和计算资源。
model.classifier[6] = nn.Linear(4096, 3)：替换VGG16模型中的最后一层全连接层，将输出从ImageNet的1000类修改为当前任务的3类（例如：正常、轻度感染、重度感染）。
model = model.to(device)：将模型移动到GPU或CPU上，以加速训练过程。

模型训练与评估

def vgg_train(model, epochs, train_loader, test_loader, log_step_freq):
    model.train()
    optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
    loss_fn = nn.CrossEntropyLoss()for epoch in range(epochs):for step, (x, y) in enumerate(train_loader):
            x, y = x.to(device), y.to(device)
            optimizer.zero_grad()
            pred = model(x)
            loss = loss_fn(pred, y)
            loss.backward()
            optimizer.step()if step % log_step_freq == 0:print(f"[{epoch+1}/{epochs}] Step: {step}, Loss: {loss.item()}")print('训练成功~')

解释：

model.train()：将模型设置为训练模式，这会启用诸如Dropout等正则化技术。
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)：使用Adam优化器进行模型参数的更新，学习率设置为0.001。Adam优化器结合了动量和自适应学习率，能够加快训练过程并减少震荡。
loss_fn = nn.CrossEntropyLoss()：定义交叉熵损失函数，用于计算预测值与真实标签之间的误差，适用于多分类任务。
for epoch in range(epochs)：开始模型的训练循环，每个epoch表示模型对整个数据集的完整遍历。
x, y = x.to(device), y.to(device)：将输入数据和标签移动到GPU（如果有）或CPU，以确保与模型在同一设备上进行计算。
optimizer.zero_grad()：清空优化器中的梯度缓存，避免上一次的梯度对本次计算的影响。
pred = model(x)：前向传播，模型对输入数据x进行预测。
loss = loss_fn(pred, y)：计算预测结果与真实标签之间的损失。
loss.backward()：反向传播计算梯度，更新模型参数。
optimizer.step()：根据反向传播计算得到的梯度更新模型参数。
if step % log_step_freq == 0：每隔log_step_freq步打印一次训练日志，包括当前epoch、step和损失值。
print('训练成功~')：训练结束后的提示信息。

评估指标

def line_plotling(df, metric):import seaborn as snsimport matplotlib.pyplot as plt
    sns.set_theme(style='ticks')
    sns.lineplot(x='epoch', y=metric, data=df, color='r')
    sns.lineplot(x='epoch', y='val_'+metric, data=df, color='b')
    plt.legend(['train_'+metric, 'val_'+metric])

解释：

sns.set_theme(style='ticks')：使用Seaborn库设置绘图主题，风格为ticks。
sns.lineplot(x='epoch', y=metric, data=df, color='r')：绘制训练集的性能指标（例如准确率或损失）的变化曲线，x轴表示epoch，y轴表示指标值，曲线颜色为红色。
sns.lineplot(x='epoch', y='val_'+metric, data=df, color='b')：绘制验证集的性能指标变化曲线，颜色为蓝色。通过对比训练集和验证集的曲线变化，可以观察到模型是否过拟合或欠拟合。
plt.legend(['train_'+metric, 'val_'+metric])：为图形添加图例，区分训练集和验证集的曲线。

6. 模型优缺点评价

模型优点：

迁移学习的有效应用：通过使用VGG16的预训练权重，模型在图像特征提取方面表现出色，同时减少了对大规模数据集的依赖，加速了训练过程。
深度网络的特征提取能力强：VGG16的多层卷积结构能够提取复杂的图像特征，尤其适合医学图像中微小病变的检测。
数据预处理与增强合理：项目采用了图像归一化和标准化，以及图像尺寸调整等预处理措施，有效提高了模型对不同分辨率图像的泛化能力。
准确性高：通过使用交叉熵损失和Adam优化器，模型在分类任务中的表现稳定，能够较好地完成多分类任务。

模型缺点：

计算资源需求大：VGG16网络较深，参数较多，尽管特征提取效果好，但其计算复杂度较高，在推理时可能对计算资源要求较高，不适合实时应用场景。
适应性有限：模型结构未针对医学图像中的特殊结构（如肺部CT的形态学特征）进行专门优化，可能导致在处理非典型病变时表现不佳。
超参数未优化：项目中未对学习率、批量大小等超参数进行深入优化，可能存在进一步提高模型表现的空间。

改进方向：

【改进后的代码见项目文件】

预训练模型：使用预训练的VGG-16作为基础模型，利用已有的特征，提高了模型的泛化能力。

注意力机制：添加了自适应注意力机制，使模型能够聚焦于重要的特征区域。

SE模块：引入Squeeze-and-Excitation模块，增强特征表示能力，提高了准确率。