DSen2-CR(2020):利用深度残差神经网络和SAR光学数据融合技术实现Sentinel-2影像的云层消除

DSen2-CR(2020):利用深度残差神经网络和SAR光学数据融合技术实现Sentinel-2影像的云层消除

导出时间:2025/11/24 08:47:10

1、研究背景和动机

为什么要做 DSen2-CR?

  1. 云遮挡太常见,光学遥感“看不清”。 光学卫星图像广泛用于农情、气候、灾害评估等,但云层会严重破坏可用性,云去除一直是长期难题。深度学习时代到来,让这件事有了新机会。
  2. 仅靠光学图像不够,厚云下几乎没有地物信息。 遇到“光学上不透明”的厚云,单看光学多谱段很难“猜”出云下真实地表;作者因此引入 SAR(雷达)先验——雷达能穿云,提供几何/纹理线索,用来指导光学重建。

  1. 要一个稳健、可训练的大模型,而不是易崩的对抗式生成。 早前不少工作用 cGAN 做去云,但在大云量/劣质输入时容易不稳定;作者转而采用深度残差网络(ResNet),在大遮挡场景下更稳、更易优化。

  1. 跨时相训练会引入“地表真实变化”,需要损失函数管住伪影。 去云训练常用“不同日期”的无云图作监督,地物会有季节/作物等真实变化;如果只用常规 L1/L2,网络容易把不该改的地方也改了,于是作者提出云自适应正则化损失(CARL): 在云/云影区域,督促模型向目标无云图学习;在晴空区域,督促模型“别乱改”,贴近输入,降低伪影。

  1. 需要一个大而真实的数据集来验证泛化。 很多早期方法用“模拟云”或小规模数据;作者基于 SEN12MS-CR 做了大规模、全球采样的数据划分,用真实云与对应无云影像训练/测试,确保方法在不同地表类型上可泛化。

这套动机串起来就是:

  • 云多 → 光学受阻 → 引入能穿云的 SAR 提供结构先验;
  • cGAN 易不稳 → 用 ResNet 残差学习 提高训练稳定与重建质量;
  • 跨时相监督会带来“误改” → 设计 CARL 损失,在云区学目标,在晴空区守住输入;
  • 想证明可用、可泛化 → 用全球大数据集 系统验证。
这些动机也被实验支撑:和“无 SAR”相比,SAR+光学融合能显著提升厚云场景结构可辨性与定量指标(但也提示了在无云区可能引入少量伪影,需要损失设计去抑制)。

一句话:DSen2-CR 的初心,是把“看得见云、看不见地”的光学成像,和“能穿云”的 SAR 拼起来,再配合“别乱改晴空区”的损失设计,让去云既可靠稳健


2、模型的核心创新点总结

🚀 一、总体概念回顾

DSen2-CR 是“Deep Sentinel-2 Cloud Removal”的缩写, 它是第一个系统性地把 SAR(雷达)+ 光学多谱段数据融合 用于云去除(Cloud Removal) 的深度学习模型。
之前的模型(如 SpA-GAN、STGAN)几乎都是基于光学数据的图像到图像翻译,而 DSen2-CR 提出了一个跨传感器的思路:

🌈 “当眼睛(光学)看不见时,耳朵(雷达)能告诉我们下面是什么。”


🌟 二、模型的四大核心创新点

🧩 1️⃣ 异构数据融合架构(SAR + 光学)

✨ 创新点:

DSen2-CR 是第一个明确地把 SAR(Sentinel-1)和光学(Sentinel-2) 结合起来用于云去除的深度神经网络。

🧠 原理:

  • 光学图像提供颜色、光谱信息;
  • SAR 图像能穿透云层,提供地表几何和纹理结构;
  • 网络通过多通道输入,将两者融合,获得“云下地物”的完整特征。

🎯 效果:

  • 解决厚云遮挡下信息缺失问题;
  • 避免模型凭空“猜测”;
  • 提升地物边界和结构的恢复精度。

💬 类比: 光学图像像“彩色照片”,SAR 像“摸轮廓的盲文”, 模型学会把两种感觉合并成“既有颜色又有形状”的感知。


🧠 2️⃣ 深度残差网络 DSen2 架构(ResNet-based Cloud Removal)

✨ 创新点:

作者基于 Deep Sentinel-2 网络(DSen2) 构建残差学习架构。 该网络原本是为多光谱超分辨率设计的,他们重新设计卷积层以适配“去云任务”。

💡 原理:

  • 输入是带云的多时相影像 + SAR;
  • 输出是目标时刻的无云图像;
  • 中间通过多个 残差模块(Residual Blocks) 提取多尺度特征;
  • 模型学习残差(即“云造成的偏差”),从而更容易训练、收敛稳定。

🎯 效果:

  • 比 GAN 稳定(不需判别器);
  • 保持光谱一致性;
  • 减少训练噪声和伪影。

🧩 类比: 模型不是“从零画图”,而是“在原图上擦掉云、补细节”,残差结构就像“精修师的橡皮擦”。


⚙️ 3️⃣ 云自适应正则化损失(Cloud-Adaptive Regularization Loss, CARL)

✨ 创新点:

首次提出根据“云区”与“非云区”差异设计的分区损失函数

💡 原理:

  • 云区:用 L1/L2 强约束模型输出与无云目标一致;
  • 晴空区:用弱约束或 identity loss,避免模型误修改;
  • 全图:再用感知一致性损失保证全局视觉协调。
数学上:
LCARL=λcLcloud+λsLclear+λpLperceptual

🎯 效果:

  • 模型“重点修云,不乱动晴空”;
  • 避免传统网络那种“云没去干净,晴空却变色”的问题。

🧠 类比: 就像 AI 修图师有指令:“只修云区,不许动蓝天”, 这让结果自然且可信。


🌍 4️⃣ 大规模真实云数据集 SEN12MS-CR

✨ 创新点:

构建并公开了一个大规模、全球采样的云去除数据集 —— SEN12MS-CR, 每个样本包含:
  • SAR 图像;
  • 云覆盖光学图像;
  • 对应的目标无云图像。

🎯 意义:

  • 提供训练与验证标准;
  • 弥补了以往“模拟云数据集”的局限;
  • 为后续模型(如 SARFusionNet、CloudDiffusion)提供了 benchmark。

💬 类比: 以前大家都用“人造假云”做实验, DSen2-CR 提供了“全球真实云”的训练教材。


📊 三、创新点总结对比表

创新方向
DSen2-CR 解决的问题
技术方案
改进效果
异构融合
光学无法穿透云
融合 SAR + 光学
云下结构更清晰
稳定架构
GAN 不稳、发散
残差网络(DSen2)
训练稳,纹理自然
目标损失
云区/晴空混淆
CARL 分区损失
修云区更精确,减少伪改
数据基础
模拟云不真实
SEN12MS-CR
泛化更强,结果更可信

🧠 四、一句话总结

🌤️ DSen2-CR 的核心创新是: “把能穿云的雷达眼睛(SAR)与彩色光学眼睛(S2)结合, 用残差网络学习‘只修云区’的规律, 并用云自适应损失教模型区分哪里该修、哪里不该动。”

这套机制让它成为“多源数据融合去云”的开山之作, 并直接影响了后续的 SARFusionFormer(2023)、CR-TransSAR(2024)等系列模型。


3、模型的网络结构

image.png

🌈 一、整体思路:

把“看得见云”的光学图像“能穿云”的SAR雷达图像 合起来, 教神经网络学会“在云下复原地表”。


🧠 换个形象的比喻:

你可以把 DSen2-CR 想象成一个 双通道的“盲人修图师”
  • 一只“眼睛”是光学相机(Sentinel-2),能看见颜色,但看不穿云;
  • 另一只“眼睛”是雷达(Sentinel-1),能穿云,却只有黑白的纹理轮廓;
  • 模型的任务,就是把这两种感知合成一张清晰的无云图像

🧩 二、输入数据

在图的最上方可以看到两种输入:
输入类型
维度
作用
SAR 图像(Sentinel-1)
(2, m, m)
提供云下结构、纹理信息
光学图像(Sentinel-2)
(13, m, m)
提供颜色、光谱信息
其中:
  • “2”表示 SAR 的两个极化通道(VV、VH);
  • “13”表示光学的13个光谱波段(从可见光到近红外)。

🧠 可以理解为: SAR 像是“描线稿”,光学像是“上色参考”。


⚙️ 三、特征融合与编码部分(左侧灰蓝区域)

1️⃣ Concat(拼接层)
  • 把两个输入直接拼在一起,形成一个“15通道”的输入块。
  • 这一步实现了 光学+SAR 的早期融合(early fusion)
  • 输出尺寸:(15, m, m)。

类比: 就像把彩色图和雷达图摞在一起,交给模型统一处理。


2️⃣ Conv + ReLU 层
  • 用一个卷积层(Conv)提取融合特征;
  • 激活函数 ReLU 引入非线性,使模型能识别复杂纹理。

🎨 类比: 就像修图师先观察颜色层与轮廓层的关系,找出云下可能的边界。


3️⃣ 多个 ResBlock(Residual Block)
  • 这里堆叠了 B 个残差块(通常 8 个)
  • 每个块都包含:
    • 两个卷积(Conv)层;
    • 一个 ReLU;
    • 以及残差跳连(shortcut)。

👉 功能:

通过残差结构,模型可以:
  • 学习“云区和无云区的差异”;
  • 保持输入输出的整体一致;
  • 减少梯度消失问题,让网络更深也能稳定训练。

💬 类比: 模型不是重新画图,而是“在原图上擦掉云、补上纹理”。


🧱 四、残差块内部结构(右侧橙紫模块)

放大来看,每个 ResBlock 的工作流程是:
输入特征 → 卷积 → ReLU → 卷积 → 残差缩放 → 加回输入 → 输出
也就是“学一点点修正,然后加回原来的特征”:
Output=Input+α⋅f(Input)
其中 α 是缩放系数,用于防止过度修正。

🔧 类比: 修图师每次轻轻修一点,再与原图叠加,避免“修过头”。


🧩 五、输出层与重建部分

1️⃣ 最后的 ResBlock + Conv
  • 再经过一个残差块提炼特征;
  • 最后一层卷积输出 13 个光谱通道;
  • 对应无云的光学图像预测结果。
2️⃣ 残差相加(黄圈“+”部分)
  • 网络输出的是预测残差(即“云的差异”);
  • 与原始带云图像相加,得到最终的无云图像。
Iclean=Icloudy+ΔIpred

🌤️ 类比: 网络输出的“修补层”叠加回原图,就像 PS 的“修复图层”。


📊 六、网络的三大特征总结

模块
功能
通俗理解
融合输入
SAR + 光学拼接
“听觉 + 视觉”双感知
深度残差块
提取局部与全局特征
“多层修图、逐步精修”
残差输出
输出云区修正量
“修云不动晴天”

🌍 七、整体工作流程(总结版)

1️⃣ 输入光学带云图像和对应的 SAR;
2️⃣ 拼接后卷积融合;
3️⃣ 通过多个 ResBlock 逐层提取并修复;
4️⃣ 输出残差特征;
5️⃣ 与原图相加,得到最终的“去云”影像。

💡 八、一句话总结

🧠 DSen2-CR 网络结构 就像一个“懂雷达的图像修复师”: 它一边用雷达摸出云下的地物轮廓, 一边用光学颜色填补细节, 通过残差学习轻柔地修正每一片云, 最终输出一张色彩真实、结构准确、云雾消失的地表图像。



4、模型的核心不足与后续改进方向

🧩 一、DSen2-CR 的核心不足与缺陷

虽然 DSen2-CR 是“第一代SAR-光学融合去云模型”, 但从模型结构和实验结果来看,它仍有以下几方面的局限。

⚠️ 1️⃣ 异构特征融合方式过于“简单粗暴”

问题:
  • DSen2-CR 只是直接把 SAR 与光学影像“拼接(Concatenate)”后送进卷积网络。
  • 这种“早期融合”虽然简单,却忽略了两种数据的本质差异:
    • SAR:几何结构强,但噪声多、非线性高;
    • 光学:光谱信息丰富,但受云干扰大。
后果:
  • 模型难以充分对齐和理解两种模态之间的对应关系;
  • 有时甚至出现“纹理错位”或“光谱不匹配”。

🧠 类比: 就像直接把“声波图”和“彩色照片”叠在一起训练, 模型能学到点规律,但始终“听不懂”SAR的语法。


⚠️ 2️⃣ 缺乏显式的空间配准与几何对齐机制

问题: SAR 和光学图像在拍摄时间、视角、轨道等方面常常不完全对齐。 DSen2-CR 默认输入是像素级对齐的,这在实际遥感中很难保证。
后果:
  • 一旦两者存在位移或形变,融合卷积层会误配位置特征;
  • 导致输出图像边缘模糊、建筑物错位。

💬 换句话说: 模型“假设”两张图重合,但现实中往往不是。


⚠️ 3️⃣ 仅使用卷积建模,感受野有限

问题:
  • 网络核心仍是纯卷积(CNN)结构;
  • 缺乏全局依赖建模能力;
  • 对长距离空间关系或大范围云区处理效果差。
后果:
  • 在大片厚云区域,模型容易“平均化”预测,输出模糊块;
  • 无法像 Transformer 那样捕捉远处地物的上下文信息。

🌥️ 类比: CNN 只能看到局部的“局部图块”, 看不到“整张地图”的全貌。


⚠️ 4️⃣ 光谱一致性仍存在偏差

问题:
  • 虽然使用残差学习稳定了训练,但不同波段间仍可能出现“色偏”;
  • 尤其在近红外和短波红外通道,输出亮度与真实无云图存在差异。
原因: SAR 与光学波段的物理特性差异太大,网络未显式建模其光谱映射。

🔍 结果: 地表结构对了,但颜色“不自然”或“不连贯”。


⚠️ 5️⃣ 时序信息完全缺失

问题:
  • 模型只使用一张带云光学图和对应时刻的 SAR;
  • 没有利用多时相(时间序列)的光学信息。
后果:
  • 对临时云遮挡可以恢复;
  • 但对“持续云覆盖”或“云下动态变化”无能为力。

🧠 类比: 模型只能“凭当前这一帧修图”, 没有时间维度的“前后参考帧”。


⚠️ 6️⃣ 数据驱动强,但物理约束弱

问题:
  • 模型完全依赖学习数据映射;
  • 没有融入物理散射规律或大气辐射模型。
后果:
  • 生成结果虽逼真,但缺乏物理一致性;
  • 在不同地区、季节、传感器组合下泛化能力有限。

🌍 这也是后续物理-引导模型(如 PhysCloudNet, 2023)改进的重点。


🔧 二、论文作者提出的改进方向

在原论文的 Discussion 和 Conclusion 部分,作者提出了几点后续研究建议:
  1. 探索更高级的融合机制 —— 如基于注意力的跨模态特征交互;
  2. 引入时序信息 —— 结合多时相观测提高时空一致性;
  3. 物理与学习融合 —— 加入大气、雷达散射等物理约束;
  4. 优化配准与几何校正 —— 让网络自动对齐异源特征。

🌈 三、后续基于 DSen2-CR 改进的模型

改进模型
年份
改进核心
主要提升
DSen2-CR++
2021
增强残差连接 + 光谱一致性损失
减少波段色偏
CR-TransSAR
2023
引入 Transformer 跨模态注意力,学习 SAR↔Optical 映射
提升厚云区结构恢复
SARFusionNet
2023
多尺度融合 + 空间对齐模块
改善建筑错位问题
PhysCloudNet
2024
加入大气散射模型与光谱物理约束
增强辐射一致性
CloudFusionFormer
2024
基于 Transformer 的多模态长距离依赖建模
云区纹理更清晰、色彩自然
TempSAR-CR
2025
加入多时相序列(Temporal SAR + Optical)
支持持续云覆盖修复

🧭 四、演化总结:从 DSen2-CR 到新一代模型

世代
模型代表
核心机制
主要突破
第一代(2020)
DSen2-CR
CNN + SAR-Optical 融合
首次跨模态融合
第二代(2021-2023)
DSen2-CR++、SARFusionNet
多尺度与几何对齐
改善结构错位
第三代(2023-2024)
CR-TransSAR、CloudFusionFormer
Transformer 注意力
融合特征更精准
第四代(2024-2025)
TempSAR-CR、PhysCloudNet
加入时序与物理约束
提升长期稳定性与物理一致性

🧠 五、一句话总结

🌍 DSen2-CR 的意义在于“开了头”: 它首次让“光学 + SAR”协作解决云去除问题, 但仍是一个“早期融合 + 卷积修复”的方案。 后续研究逐步在它的基础上:

  • 加入注意力机制 → 让两种模态真正对话;
  • 加入时序信息 → 让模型理解时间变化;
  • 加入物理约束 → 让输出更符合大气与辐射规律。
最终形成了从 DSen2-CR → CR-TransSAR → CloudFusionFormer → TempSAR-CR 的技术演进路线, 让去云从“像素修复”走向“时空物理重建”。