A014-基于resnet和unet的图像显著性预测

A014-基于resnet和unet的图像显著性预测

导出时间:2025/12/16 16:39:41

1、题目:图像显著性预测

数据文件

  • 训练数据集(共1600幅待检测图像及1600幅对应的显著图):以jpg格式存储在3-Saliency-TrainSet.zip中。
  • 测试数据集(共400幅待检测图像及400幅对应的显著图):以jpg格式存储在3-Saliency-TestSet.zip中。
每个数据集中,待检测图像为人眼直接观察的彩色图像,保存在Stimuli文件夹;对应的显著图(即ground truth)为相同尺寸的灰度图像,颜色越亮的区域代表显著性越强,保存在FIXATIONMAPS文件夹。考虑到图像内容可能对结果产生影响,每个数据集都包括20种不同类型的图像,存放在20个文件夹中(如Action,Affective,Art……),因此分析结果时,既可以给出总体性能,又可以按类型进行分析。
NFZXbclCuolbP2x6fHscv6VInth.png

性能指标

主观指标:预测显著图与ground truth显著图主观上对比。
客观指标:相关系数(CC)、KL散度(指标函数在metric.py文件中,可直接调用,内有使用说明),或其他衡量显著性图像相似程度的指标等。

2、项目说明

项目在做的是一个典型的计算机视觉回归型任务:图像显著性预测(Image Saliency Prediction

一、任务本质(你在解决什么问题)

图像显著性预测的目标是:

给定一张自然彩色图像,预测人类在观察这张图像时最可能注视(关注)的空间位置分布。

换句话说: 让模型学会“人会先看哪里”。
这不是分类、不是检测,而是一个像素级连续值预测问题

二、输入与输出(模型在学什么映射)

1️⃣ 输入(Input)

  • 一张 RGB 彩色图像
  • 形状:3 × H × W
  • 内容:人眼直接观察的自然图像(Action / Art / Affective 等 20 类)

2️⃣ 输出(Output)

  • 一张 显著图(Saliency Map)
  • 形状:1 × H × W
  • 含义:
    • 每个像素是一个连续值(0~1)
    • 数值越大 → 人类越可能注视该位置
这张输出图不是二值的,而是概率密度/强度图

三、监督学习方式(模型怎么学)

Ground Truth 是什么?

  • 数据集中给的 FIXATIONMAPS
    • 灰度图
    • 来源通常是多名被试的眼动轨迹(eye fixation)统计后平滑得到
    • 越亮的地方 = 更多人/更长时间注视

学习范式

这是一个**有监督学习(Supervised Learning)**任务:
image.png
模型通过最小化 预测显著图真实显著图 之间的差异来训练。

四、你这份代码具体在做什么

1️⃣ 模型层面

用的是:

ResNet34 编码器 + U-Net 解码器的全卷积网络(FCN)

模型结构本质是:
  • Encoder:理解“图像里是什么”(语义、物体、中心)
  • Decoder:恢复空间分辨率,输出像素级显著性强度
输出通过 sigmoid
  • 保证显著值 ∈ [0, 1]

2️⃣ 损失函数(训练目标)

训练时用的是组合损失
  • L1 Loss: 让预测显著图整体形状接近 GT
  • KL Divergence: 把显著图当作“注意力分布”,约束概率意义一致性
本质上你在优化:

“预测图在数值和分布上都要像人类注视热图”


3️⃣ 评价指标(不是分类准确率)

你用的指标是显著性领域的标准指标

✅ CC(Correlation Coefficient)

  • 衡量预测图与 GT 的线性相关性
  • 越大越好(理论上 ∈ [-1, 1],实际多为正)

✅ KL 散度(Kullback–Leibler)

  • 衡量两张显著图“分布差异”
  • 越小越好
  • 0 表示完全一致
这正是老师给你的作业要求里的客观指标。

五、按“20 类图像”分析的意义

数据集按 Action / Art / Affective / … 分成 20 类,目的是让你分析:
  • 模型在不同语义场景下是否稳定?
  • 哪些类型更容易预测人类注意力?
    • 人物动作类 → 通常更集中
    • 风景/艺术类 → 注意力更分散
你代码里已经支持:
  • 总体 CC / KL
  • 按类别分别统计 CC / KL
这在实验报告中是一个明显加分点

六、一句话总结(答辩/报告可直接用)

本项目研究的是图像显著性预测任务,目标是利用深度学习模型从自然图像中预测人类视觉注意力分布。模型以彩色图像为输入,输出与人类眼动统计显著图一致的连续显著性热图,并通过相关系数(CC)和 KL 散度等指标对预测结果进行客观评估,同时支持按图像语义类别进行性能分析。


3、代码演示

image.png

image.png