遥感影像去云系列

导出时间：2025/11/24 08:44:46

1. 任务背景与研究动机

🌍 一、背景：为什么遥感图像会“被云挡住”？

遥感影像就是“从天上拍地球的照片”——例如卫星拍摄的地表图像。但问题是：云层会像一层白布，挡住地面。

你可以想象一下：

📸 当你想拍一张地面照片，却遇到阴天或厚云，照片中一大片白雾状区域，什么都看不清。

卫星拍地球时也会遇到同样的问题。尤其是光学卫星（像照相机一样依赖可见光），几乎一半以上的影像都受到云的影响。

这意味着很多时候：

农作物、森林、城市、河流等目标被云挡住；
地面反射信息丢失；
图像无法用于后续分析（比如土地分类、灾害监测）。

☁️ 二、问题：云为什么麻烦？

在遥感图像中，云层不是“噪声”，而是不透明的遮挡物。它的存在会造成两个主要问题：

信息缺失：云下面的像素没有真实地表信息；
分析受阻：下游任务（比如土地利用分类、灾情评估）无法正确进行。

就像你想统计一个城市的绿化面积，但云正好挡住了半个城市——数据就不准了。

🧭 三、传统的解决思路

早期人们想到两个办法来“避开”云：

① 用多时相影像（Multi-temporal）

同一个地区，卫星会多次拍摄。在A天有云的地方，可能B天是晴的。于是可以把多张影像“拼”在一起，用别的时刻补上被挡的地方。

缺点是：

不同日期的光照、色调差异大；
拼接可能不自然（像P图没对齐的地方）。

② 用不同类型的传感器（多源数据）

比如SAR雷达影像能“穿云看地”。可以把SAR和光学影像结合起来，用雷达信息推测云下的地表。

这类方法虽然能部分缓解问题，但仍存在配准误差、光谱差异等难题。

🤖 四、现代做法：深度学习来救场

近年来，研究者开始用深度学习来做“智能去云”：

模型从大量有云 / 无云影像中学习规律；
自动“脑补”出云下的地物信息；
可处理多源（光学 + 雷达）或多时相数据；
输出结果更自然、细节更丰富。

可以理解为——让AI学会“云下是什么样”，像修复照片一样恢复清晰的地表。

这种方法被称为：

“遥感影像去云”（Cloud Removal）或 “云去除重建”（Cloud-Free Reconstruction）

2. 理论基础：相关任务与联系

遥感图像去云，其实不是一个“孤立的任务”。它就像是计算机视觉里几个经典图像处理问题的“融合版”，是这些理论在遥感领域的综合应用与升级。下面我们用生活中的例子来看看它与哪些任务最相关👇

🎯 1. 图像复原（Image Restoration）

是什么？ 图像复原的目标是：

把一张“受损的照片”恢复清晰。

比如：

模糊照片 → 变清晰（去模糊）；
噪点太多 → 去噪；
亮度不均 → 校正。

和去云的关系： 去云其实可以看作一种“特殊的复原”：

云层让图像的一部分彻底看不清，就像照片被泼了一团白漆。我们要做的，就是把被挡住的部分“复原”出来。

但比普通复原更难的是：

云不是“轻微模糊”，而是完全遮挡；
被云盖住的区域没有任何地表信息可参考；
所以模型要靠上下文甚至多时相数据来“推测”真实地物。

这就像修复一幅画，不只是擦掉污点，而是重新画出被撕掉的一块内容。

🧱 2. 图像补全（Image Completion / Inpainting）

是什么？ 图像补全就是“给缺了一角的图画补上去”。比如老照片破了、被挖掉一块，AI可以根据周围内容自动补齐，使整张图自然过渡。

和去云的关系： 云遮挡其实就像图像中的“大洞”。去云任务的目标，就是用合理的像素内容把这个洞补上，让图像看起来像从没被挡过。

传统的补全方法（如基于纹理合成或数学模型）在小范围修补时还行，

但云层往往覆盖面积大、形状复杂，传统算法就力不从心。

深度学习的优势在于：

能看懂更大范围的上下文；
能“推理出”云下的内容；
补得更自然、更真实。

👉 所以可以把去云任务理解为一种**“大规模智能修图”**。

🧩 3. 图像分割（Image Segmentation）

是什么？ 图像分割的任务是：

把图像中的每个像素分到不同的类别（如天空、道路、建筑等）。

在去云中，分割有什么用？ 在去云之前，第一步往往要先找出云在哪里，这就叫“云检测”或“生成云掩膜（Cloud Mask）”。分割网络会标出哪些区域是云，哪些是地表。

这样模型就能做到：

只修复有云的地方；
不改动原本清晰的区域；
甚至在去云过程中动态关注云区。

有些先进的去云网络会直接把云检测模块和生成模块结合起来，通过注意力机制专注“有问题的地方”。

🎨 4. 图像翻译（Image Translation）

是什么？ 图像翻译就是让AI把一张图片“变成另一种风格”。比如：

白天 → 黑夜；
下雨 → 晴天；
夏天 → 冬天。

和去云的关系： 可以把“有云影像”看成一个“风格域”（cloudy domain）， “无云影像”则是另一个“风格域”（clear domain）。那么去云任务就是：

把图像从“有云域”翻译到“无云域”。

深度学习中常用的模型包括：

Pix2Pix：有成对训练数据时使用；
CycleGAN：没有配对数据时用“无监督”的方式学习两个域的转换。

不过，去云比风格迁移更复杂，因为云不仅改变外观，还遮住了内容。所以在去云任务中，模型要同时做到：

改变图像的“外观”（去掉云）；
又要保证“内容一致”（云下地物不变形）。

3、通用处理流程（90%项目都差不多）

一、先分清“三种典型场景”

单时相去云（单张有云 → 清晰） 只有一张被云遮挡的光学影像。难点是“云下信息缺失”。常用补全/生成方法（如U-Net、GAN、Diffusion、Transformer）。
多时相去云（同地区多日期） 有时间序列：A天多云、B天晴。思路是“用别的日期补这一天”。常用时序匹配 + 深度模型融合（时序注意力/ConvLSTM/Transformer）。
多源去云（光学 + SAR） 引入能穿云的SAR作为辅助手。思路是“用雷达当拐杖，推断云下纹理/轮廓”。常见做法是跨模态对齐 + 融合网络。

Step 0：数据准备

传感器：Landsat/Sentinel 等多光谱；有条件可加 Sentinel-1 SAR。
预处理：几何配准、重采样到统一分辨率；大气校正（若需要做光谱分析）；切块（如256/512 patch）。

Step 1：云检测/云掩膜（Cloud Mask）

目标：找出“云与云影”的像素，得到二值或软掩膜。
方法：
- 快速工程：用官方/现成云掩膜（如 QA 波段、Fmask）；
- 学术/高精度：U-Net/DeepLab/Transformer 做云分割（薄云、边界更准）。
作用：告诉后续模型“该修哪儿，不该动哪儿”。

Step 2：特征对齐与辐射一致

多时相/多源必须做：
- 配准（几何对齐），避免位移导致“重建重影”；
- 辐射/色调匹配，减少日期间光照差异；
- SAR 融合要做归一化与去斑（如Lee滤波）以稳定训练。

Step 3：核心去云模型（按场景选）

单时相：补全/生成类
- U-Net/Attention U-Net：在云掩膜引导下只改云区；
- cGAN（Pix2Pix 类）：提升真实感；
- Diffusion（扩散）：高保真细节更自然；
- Transformer/Hybrid：全局依赖、薄云更稳。
多时相：时序融合类
- 拼接 + 学习：把最近几期影像与云掩膜一起喂给网络；
- 时序注意力/ConvLSTM/时空Transformer：自动挑“最靠谱时刻”的像素/特征；
- 内容一致约束：保证重建与时序上下文不冲突。
多源（光学+SAR）：跨模态融合类
- 双分支编码器 + 融合模块：光学捕获颜色与纹理，SAR补轮廓与结构；
- 引导型注意力：用SAR引导云区结构恢复；
- 光谱约束：避免用SAR把光学颜色“带偏”。

Step 4：损失函数与训练要点

重建损失：L1/L2（云区加权更大）；SSIM（结构一致）；
感知损失（VGG/LPIPS）：提升细节自然度；
对抗损失（GAN）：减少“塑料感”；
边缘/梯度损失：保轮廓；
时序一致损失（多时相）：防止时间上闪烁；
掩膜引导：只对云区回传强梯度，清晰区尽量保持不动。
小技巧：先做易后做难（薄云→厚云），混合训练（真实云 + 合成云）提升泛化。

Step 5：后处理与颜色一致

轻量色彩/直方图匹配，与周边时相/镶嵌块过渡自然；
云边界羽化减少“补丁”感；
大范围拼接时做接缝优化（mosaic seam leveling）。

Step 6：评估与质检

若有成对真值（同地同日无云影像）：PSNR/SSIM/LPIPS；
若无成对：
- 与清晰日的时序影像比一致性；
- 下游任务增益：如土地分类精度提升、变化检测误报降低；
- 云检测指标（掩膜准确度、IoU）作为辅助。
专业质检：抽查关键点位（道路连续性、河道形态、农田纹理）。

3. 深度学习模型发展历程

遥感图像去云任务的发展大致经历了从传统方法到深度学习、再到深度生成模型的演进过程。深度学习技术在近十年取得突破，为去云问题提供了新的解法。下面系统梳理深度学习在该领域的发展历程，重点介绍各阶段典型模型及其适用场景、创新点和局限性。

（1）起步阶段：CNN 的引入与端到端复原（≈2015–2019）

在深度学习兴起之前，去云主要依赖多时相图像融合、插值和物理模型等方法，难以准确重建细节。约在2015年前后，卷积神经网络开始在遥感图像处理中展露头角。然而由于缺乏成对的有云/无云训练数据，CNN在去云任务中的应用一度受限。直到2019年，Lin等人发布了首个遥感云去除数据集RICE，为训练深度模型提供了数据支持。早期的CNN去云模型通常采用编码器-解码器结构：例如将一张有云影像输入若干卷积层提取特征，再通过解码层输出相同尺寸的无云影像。这类模型端到端地学习从有云到无云的映射关系，标志着深度学习方法正式进入去云领域。一些先导工作（如AoDNet等，针对薄云去除提出的端到端CNN）验证了CNN的可行性，但输出往往过于平滑，难以复原复杂纹理。这是因为仅依靠像素级损失（如均方误差）训练CNN，容易产生模糊的平均效果。

（2）U 型与残差网络：多尺度细节与深层训练稳定（≈2019–2021）

为提升重建的细节和稳定深层网络的训练，研究者引入了U-Net结构和ResNet残差结构。U-Net最初用于图像分割，但其编码-解码对称结构加上跨层跳跃连接，对图像重建也非常有效。跳跃连接允许高分辨率的细节特征直接传递到解码阶段，从而提高复原出的细节质量。许多去云模型借鉴U-Net架构，使输出影像在边缘、纹理处更加清晰。另一方面，ResNet引入的残差连接缓解了深层网络训练困难的问题。典型代表是Meraner等人提出的DSen2-CR模型：他们构建了一个深层残差神经网络，融合Sentinel-2多光谱光学数据和Sentinel-1 SAR数据，实现去云重建。DSen2-CR的创新在于利用SAR辅助和设计云自适应损失函数，提高了对于厚云遮挡区域的复原能力。残差网络保证了即使网络很深，仍能有效学习，不会出现梯度消失。同时，它在一定程度上缓解了仅用L1/L2损失造成的过度平滑。总的来说，U-Net和ResNet的引入，使得网络既能捕获多尺度特征又能稳定收敛，从而生成更高保真的去云结果。

（3）GAN 的引入：真实感与细节锐度（≈2018–2020）

虽然L1/L2损失优化的模型能匹配像素值，但容易得到模糊的结果。为追求更真实生动的细节，研究者将GAN引入了去云任务。GAN包含生成器和判别器两个网络，通过对抗训练使生成图像逼真可信。2018~2020年间出现了多种GAN架构应用于云去除。例如，Chen等提出将GAN用于单幅光学影像的薄云去除，使输出色彩和纹理更接近真实地物。SpA-GAN就是一类有代表性的模型，其生成器引入空间注意力机制，专注于云区的复原。SpA-GAN的创新在于：它设计了一个注意力分支来预测云遮挡的概率图，以此指导生成器在云区域着重学习，同时判别器确保生成影像的逼真度。其损失函数由三部分组成：对抗损失负责提升图像真实性，像素重构损失确保整体正确，特别增加的注意力损失鼓励模型更好地修复云区细节。相比纯CNN，GAN模型能产生更加锐利的纹理和边缘，在视觉效果上有明显提升。然而GAN也有局限：训练不稳定且可能引入伪影（artifact）。针对这些问题，一些改进GAN的策略被提出，如使用多重判别器、谱归一化等来提升训练稳定性。此外，GAN更适合在云遮挡区域纹理多样性较高的情况下使用，如果训练数据有限或云区纹理简单，GAN的优势不明显，反而可能过拟合生成假的细节。

（4）时空序列建模：多时相成为“性价比最高”的路线（≈2019–2022）

上述CNN和GAN多用于单张影像的去云，但仅凭一张有云图像往往无法“猜”出被挡住的地物细节。为提高准确性，学界开始探索多时相序列的深度模型。多时相去云利用同一区域在不同时刻的多张影像，通过时序推理来重建被云遮挡的区域。2019年Sarukkai等人提出了STGAN（Spatio-Temporal GAN）作为开创性的尝试。他们构建了两个新数据集，其中一套是多时相序列数据，并设计了生成对抗网络来同时处理多时序输入。具体而言，STGAN使用分支式多编码器结构，将前三个时刻的影像分别编码，然后在解码阶段融合，生成当前时刻的无云影像。他们的一个实现是Branched U-Net结构：每个输入影像走一套U-Net编码器，编码特征在末端concat融合，再通过公用的解码器生成输出。如此设计可以充分提取每张图的关键信息，又在解码时综合上下文关系。STGAN的损失采用cGAN对抗损失加L1损失的组合，与pix2pix类似。实验表明，多时相GAN相比单时相方法在云去除的准确性和连贯性上有明显提升。在STGAN之后，基于时序的卷积网络、ConvLSTM网络等纷纷出现，用于捕捉时间维度的信息。例如有方法将多时相影像堆叠成序列，用3D卷积或时序注意力来提取动态特征。多时相方法尤其适用于频繁成像的卫星（如哨兵2号每5天重访）以及场景变化不剧烈的情况。这类模型的挑战在于：需要较长的时间序列作为输入，以及假设在时间跨度内地表变化很小。如果目标区域在云期与晴天期发生了显著变化，模型可能难以判断哪些是云造成的差异、哪些是真实变化。另外，长序列输入也增加了模型复杂度和训练难度。

（5）多源多模态融合：SAR×光学协同（≈2020–至今）

随着卫星数据的多样化，利用多模态数据融合进行去云成为新的趋势。其中典型的是光学+雷达融合：雷达(SAR)信号可穿透云层，提供目标的大致形状和反射特征，将其与光学数据结合可辅助重建细节。前文提到的DSen2-CR是早期融合SAR与光学的成功案例。之后，Xu等人提出GLF-CR（Global-Local Fusion for Cloud Removal）方法，引入全局局部特征融合机制，提升了SAR与光学的协同重建效果。最近的Former-CR模型则将Transformer用于融合光学和SAR，实现厚云去除。这类多模态模型的创新点在于：设计专门的网络分支来处理不同模态数据，然后通过注意力机制或特征拼接进行深度融合。例如Former-CR基于U型Transformer架构，允许SAR和RGB影像的特征在编码阶段分别学习，再在解码阶段融合，从而兼顾SAR的穿云信息和光学的细节纹理。多模态融合模型能够应对厚云完全遮挡的情况：当光学影像云下毫无信息时，SAR提供了有价值的线索。其局限是：SAR与光学的成像机制差异大（前者反映物理散射特性，后者是反射光谱），直接映射存在困难，融合不当会引入噪声。此外多模态数据获取和配准成本较高，并非所有地区都有对同期SAR数据。但随着欧空局哨兵计划和商业SAR的普及，多模态去云具有越来越大的实用潜力。一些研究还探索融合**短波红外（SWIR）**等光学波段，因为SWIR对薄云的穿透性更强，可作为辅助信息。

（6）Transformer：全局依赖与跨模态/时序注意力（≈2022–至今）

近年来，Transformer在计算机视觉中崭露头角，也被引入遥感去云任务中。Transformer擅长建模全局依赖关系，这对大范围云遮挡的重建很有帮助。2022年，Wu等提出Cloudformer模型，将Transformer自注意力机制与卷积结合用于单幅影像的云去除。Cloudformer采用U形结构，在浅层用卷积提取局部细节，在深层用窗口多头自注意力捕获全局依赖，并辅以位置编码增强空间感知。这种CNN+Transformer融合的架构充分利用了两者优势，在薄云和厚云场景下都表现出色。据报道，Cloudformer在Landsat8影像上相比传统GAN、CNN基准获得了更高的PSNR和SSIM，视觉上细节更清晰且没有过度伪造。此后，Transformer被广泛应用于各种去云模型：如前述的Former-CR用于多模态厚云去除，以及CloudRuler用于结合物理规则的薄云校正。值得一提的是，CloudRuler引入了半球坐标位置编码和云物理模型规则，解决了Transformer忽视像素实际地理位置和现有物理模型局限的问题。Transformer类模型的优势在于全局上下文：对付大面积云层或需要考虑图像远端相关性的情况非常有利。不过，它们对数据量要求高、计算开销大。此外，Transformer可能在细节局部处理上不如卷积高效，因此很多方法选择两者结合以取长补短。

（7）扩散模型（Diffusion）：高保真细节与不确定性刻画（≈2023–至今）

扩散概率模型是近年兴起的强大生成模型，在图像生成和修复领域表现出色。自2022年以来，一些研究开始尝试将扩散模型用于遥感云去除。扩散模型通过正向向影像添加噪声、反向逐步去噪来生成图像，可生成高度逼真的细节，并天然可以结合条件信息。Zhao等人在2023年提出了SeqDiff方法，将多时相和多模态信息融入扩散模型进行去云。他们设计了一个多模态扩散模型，将SAR数据作为条件注入扩散过程，引导模型恢复光学影像被云覆盖的区域。同时，提出基于序列的训练策略使模型可以处理任意长度的时间序列输入，增强了灵活性。又如2025年，Zhang等人提出DMDiff（双分支多模态条件扩散模型），针对SAR-光学融合去云进行了专门设计。DMDiff通过双分支网络分别提取SAR和光学特征，使用跨注意力融合，引导扩散过程逐步恢复云下光学图像。他们还引入了一种图像自适应预测策略，提升了PSNR近20 dB，取得了优于此前所有方法的效果。扩散模型的创新点在于：一方面，生成过程分多步进行，能够逐层细化图像细节，带来更高质量的重建；另一方面，它可以自然地量化不确定性（通过采样得到不同结果），适合处理云去除这种存在多解的任务。例如对于非常厚的云，同样的输入可能对应多种合理的地物输出，扩散模型可以给出不同采样以及概率估计，从而为用户提供置信度信息。扩散模型的局限主要在于计算成本高，采样过程耗时长（需多次迭代生成影像）。为此，有些工作结合了快速采样策略或模型压缩，以加速推理。另外，当前扩散模型往往需要大量训练数据以学习图像的真实分布，对于遥感去云，如果训练数据分布与测试环境差异较大，生成结果也可能出现不合理之处。因此，如何结合物理先验、约束生成合理性仍是研究难点。

概括而言，深度学习在遥感去云任务中的发展已经历了从卷积网络、对抗生成网络，到Transformer、扩散模型的演进。每一阶段的新模型都带来性能提升和新思路：CNN实现了端到端学习但效果有限，GAN增强了纹理真实性，时序模型利用多源信息提高准确度，Transformer提供全局依赖捕获能力，扩散模型则代表了最新的生成式方向，追求更高保真和不确定度量。当前的前沿方法往往是多种技术的融合，例如结合CNN和Transformer的混合架构、融合GAN和物理先验的模型，等等。在下一节中，我们将进一步介绍当前具有代表性的模型，看看它们如何在实践中实现上述思想并达到SOTA性能。

4. 当前代表性模型和SOTA方法

本节将围绕不同类型的方法，介绍遥感图像去云任务中具有代表性的经典模型和当前最新的SOTA（state-of-the-art）方法。我们将按方法类别归纳，每类中详细说明一个或多个代表性工作的模型结构、输入输出特点、训练策略以及创新之处。

4.1 单时相单幅图像去云方法

代表模型：SpA-GAN（2020）。单幅影像的去云难度最大，因为缺少其它时相或传感器的信息，全凭当前有云图像推断云下内容。SpA-GAN（Spatial Attention GAN）是针对这一场景提出的生成对抗网络方法。其生成器采用U-Net式编码解码结构，并融合了空间注意力机制：具体地，生成器内部引入了一个注意力分支（SPANet），计算出输入影像每个像素属于“云遮挡”的概率图（称为注意力图）。直观上，这个注意力图突出云区、弱化无云区，从而指导生成器专注于修复云覆盖区域。判别器则是一个全卷积网络（PatchGAN风格），用于判别输出图像的真伪。SpA-GAN的输入是一张有云光学图像，输出为对应的无云光学图像。训练时需要成对的有云/无云图像作为监督（例如使用RICE数据集）。其损失函数包含三部分：

GAN对抗损失：提升生成图像的逼真度，由判别器反馈信号，引导生成器产出更趋近真实无云影像的结果。
像素重构损失（L1或L2损失）：保证生成影像与真实无云影像在整体像素值上接近，避免GAN只顾真实感忽略内容正确性。SpA-GAN采用$L_1$损失衡量输出与真值的差异，并对不同通道赋以权重。
注意力损失：这是SpA-GAN的创新之处。利用上述注意力图A，与已知的云掩膜M计算差异，引入约束使模型关注云区域的复原。具体来说，定义$A$为注意力图，$M$为真实云区域掩膜（通过有云影像和无云真值差异得到），设计损失使$A$接近$M$。这样可促进生成器在云遮挡区域投入更多能力修复，而在非云区域保持原状。

通过上述机制，SpA-GAN在高分辨率遥感影像上的去云效果优于无注意力的基线GAN。尤其在云边缘和云阴影处，注意力机制帮助模型更好地区分云与地物，提高复原质量。SpA-GAN代表了一类面向单张图像的GAN方法，适用于那些只有单时相数据、但希望得到较高视觉质量结果的场景。其局限在于对完全被云遮挡的区域依然需要猜测填充，因此结果的真实性依赖于训练数据的多样性；过于复杂的地物细节也可能难以凭借单帧恢复。此外，SpA-GAN需要云掩膜作为监督，可在训练数据中通过真值差分获得，但在实际预测时模型生成的注意力图未必精确。

除了SpA-GAN，单幅去云的代表方法还有Cloudformer（2022）。Cloudformer并非GAN而是Transformer架构。它将卷积和Transformer相结合，利用局部卷积提取细节、全局自注意力建模大范围上下文。Cloudformer输入单张有云影像，多尺度编码后在深层用窗口化Transformer模块处理，再解码输出无云影像。其特点是在U形网络浅层用卷积保存高频信息，深层用Transformer关联云区与远处参考区域的关系。这种设计特别适合同时存在大片厚云和薄云的情况：局部卷积能处理薄云引起的局部光谱偏差，Transformer则能根据云外区域推断被厚云遮盖区域的大致内容。Cloudformer在Landsat和Sentinel数据上的实验显示，无论云层薄厚，都比传统CNN/GAN方法取得更高的PSNR/SSIM。其输出影像在色彩一致性和结构细节上更接近真值，证明Transformer提高了模型对全局语义的把握。当然，Cloudformer也需要大规模数据训练，计算开销较大，但为单幅影像去云提供了新的SOTA基线。

小结：单时相单幅图像去云方法主要依赖生成式模型从有限的信息中恢复内容。GAN类如SpA-GAN注重视觉真实感，通过对抗训练和注意力引导，实现了较细致的云区修复。Transformer类如Cloudformer擅长全局推理，弥补了GAN/CNN关注局部的不足，让模型“看到”更大范围去推测云下被挡住的地物。这类方法适合无辅助时相或其他数据时的去云需求，但因为信息不完整，其预测结果的可信度和准确性是相对有限的。因此在可能情况下，结合多时相或多模态数据通常能进一步提升性能，下一小节将介绍这方面的模型。

4.2 多时相影像去云方法

代表模型：STGAN（Spatio-Temporal GAN, 2020）。STGAN由Sarukkai等提出，是首批利用多时相序列进行云去除的深度模型之一。它针对场景：我们获取了同一区域在相邻时刻的多张影像（例如连续几天/周），其中有的有云、有的无云，能否综合这些信息复原目标时刻的无云影像？为此，作者建立了时空配对数据集，每个样本由三时相影像组成：前一时刻影像、当前时刻有云影像、后一时刻影像，对应的目标是真实当前时刻无云影像。STGAN的生成器采用“分支式”结构，有两个实现变体：分支ResNet和分支U-Net。以分支U-Net为例，其架构如下：

编码阶段：将三时相输入影像($t-1$, $t$, $t+1$)分别送入三套并行的编码器（每套为U-Net的编码部分，含若干卷积下采样层）。这样每时相独立编码出特征表示，捕获各自影像的细节和变化。
融合阶段：在编码末端，将三路特征图在通道维度上拼接（concat）融合，得到综合的多时相特征。
解码阶段：使用一个联合的解码器对融合特征进行上采样重建无云影像。在解码每一层时，还将该层输出与对应尺度下的每个编码器特征通过跳跃连接（skip connection）拼接。也就是说，解码器不仅利用融合后的整体特征，也参考了来自$t-1$、$t$、$t+1$各自编码分支的细节特征。
输出：最后生成与输入尺寸相同的影像，期望是去除了云的当前时刻光学图像。

这样的设计思想在于：编码时分而治之，让模型先从每张图提取“候选信息”（如前时相看清的地物，当前时相的部分清晰区域等），解码时而后合一，将多时相信息汇聚生成最终结果。STGAN还包含一个时序判别器，输入为“(多时相有云序列, 无云真/假图像)”对，用于判别生成的无云图像是否真实。它的训练策略沿用了Pix2Pix的cGAN方案：判别器试图分辨真实和生成结果，生成器则同时优化对抗损失和L1重构损失。超参数$\lambda$平衡两者在总损失中的比重。

STGAN的创新点主要在于：1）首次引入三时相输入，定义了一个多时相去云任务格式，使模型可以利用时间信息；2）分支式生成器架构，有效融合多时相特征，优于将影像简单堆叠后用单一路径CNN处理；3）结合cGAN提高生成像质。实验结果显示，与传统单时相方法相比，STGAN在所提出的数据集上取得了显著更高的PSNR和SSIM。不仅定量指标提升，他们还比较了下游任务（如土地覆盖分类）的性能，发现去云后的影像能带来更准确的分类结果。这说明多时相GAN方法不仅恢复了可视化的清晰影像，也保留了有用的地物信息。

STGAN之后，多时相去云领域继续发展。Temporal Fusion GAN、时序卷积网络等不断出现。有的方法采用ConvLSTM单元，在卷积层中融入时间递归，把多时相序列当作时间序列逐步输入网络，内部累积状态来生成最终清晰图像。还有方法如CloudTran++（2024），利用轴向Transformer处理多时相影像集。CloudTran++将多时相影像及其云掩膜一起输入，使用编码器-解码器结构结合轴向自注意力计算，全并行地考虑多时相关联，然后上采样重建高分辨率结果。这种Transformer融合可以更好地利用长序列，提高质量指标。

适用场景：多时相方法擅长处理那些目标区域云层动态变化但在整个时间段中总有时刻能看到地表的情况。例如，对于植被茂密地区，一个月内总有几天无云，利用这些无云时刻的信息，可以推断有云时刻的情况。它也适合年周期性变化弱的地物，如城市建筑，因为不同日期差别不大。需要注意的是，多时相模型通常假设地表变化主要来自季节或长期过程，短期内除云以外变化不显著。如果现实中地表发生突发变化（如开垦、灾害导致土地覆被变了），模型可能把这些变化当成云去“抹平”，导致误判。

局限：多时相模型需要较高的数据获取频率和配准精度。在卫星观测频率不高或目标区域云雨连绵的情况下，很难凑齐足够的清晰时相。并且多时相影像需要经过辐射校正和空间配准对齐，否则时间序列信息融合会产生伪影或重影。此外，长序列输入使模型参数量和计算量成倍增加，不利于部署。为此，一些最近方法探索了可变长度序列的模型以及对长序列的子采样策略，以在性能和效率间折中。

小结：多时相去云方法通过时间信息的冗余克服了单张图像信息不足的问题，是目前提高去云准确度的主要途径之一。STGAN作为先驱验证了这一思路，其后的各种改进充分利用了深度学习对时序模式的提取能力。可以预见，随着诸如AllClear这样大规模时序数据集的出现（见下一节数据集），多时相方法将继续刷新去云的效果上限。

4.3 多源多模态融合去云方法

代表模型：DSen2-CR（2020）。DSen2-CR由Meraner等人提出，是遥感领域首批融合异构传感数据进行云去除的模型。具体来说，它将Sentinel-2光学影像与Sentinel-1 SAR影像融合，利用SAR的穿云能力辅助重建光学图像。DSen2-CR的基本架构是一个深层残差卷积网络。主要特点包括：

双路输入：对于同一地区，同一天获取的一幅Sentinel-2多光谱光学影像（有云）和对应的Sentinel-1雷达影像作为输入。两者已经过配准，对应像素一一对齐。这样，对于云覆盖区域，SAR提供了该处地表的一些结构信息（尽管没有颜色）。
融合网络：模型前几层采用两个分支分别处理光学和SAR数据，各自由卷积提取低级特征。随后将两路特征图在通道维拼接，送入后续的残差网络部分。残差网络由多个堆叠的残差块组成，逐层提取更高层次的融合特征。通过残差连接确保梯度顺畅传播。网络的输出是重建的无云光学影像。
云自适应损失：DSen2-CR在训练损失函数中引入了一个云掩膜加权机制。具体来说，对于已知的云遮挡区域，给予更高的损失权重，鼓励模型在这些区域尽可能逼近真实值；对无云区域则降低权重。这是因为无云区域原本就清晰，无需大改动，而云区需要重点修复。这样设计使模型更关注云区域的重建，避免出现云区复原差而无云区过拟合的情况。
训练数据：作者构建了专门的数据集，从Sentinel-2长时间序列中筛选出有云和无云配对，以及对应SAR数据。其中云掩膜通过官方提供的云检测算法得到。以这些配对来监督训练网络。

DSen2-CR的实验结果令人瞩目：在哨兵数据上，其生成的无云影像在视觉上与真实清晰影像几乎无异，定量指标PSNR显著优于仅用光学数据的基线方法。特别是在厚云完全遮挡的区域，DSen2-CR凭借SAR辅助仍能重构出大致正确的地物形态，而传统方法往往束手无策。这证明了多模态融合的强大威力。DSen2-CR也因此获得ISPRS期刊优秀论文奖asg.ed.tum.de。

代表模型：Former-CR（2023）。Former-CR由Han等人提出，是将Transformer用于多模态云去除的前沿方法。它基于Uformer架构（一种Transformer版U-Net），能够高效提取并融合SAR和光学信息，实现对厚云区域的卓越重建。Former-CR模型结构如下：

输入：Sentinel-1 SAR影像（双极化VV+VH通道）和对应的RGB光学影像（Sentinel-2的RGB三通道）。将SAR像素值与光学像素值在通道维度进行扩充拼接，形成总共5通道的输入张量（或者理解为将SAR作为额外模态喂入特定Transformer模块）。
编码器：采用多层Transformer编码块，每个编码块对图像块（patch）序列进行自注意力计算。为了融合多模态信息，Former-CR对Transformer结构作了修改：对输入的多通道数据，使用共享的投影层获取初始特征嵌入，并在注意力计算中同时考虑SAR和光学特征。这样，自注意力机制可以自由地把相关的SAR特征和光学特征关联起来。
解码器：对称的Transformer解码块逐步上采样特征。在解码过程中仍然保留了跳跃连接，将编码器对应层的特征传递到解码层。因为输入包括不同模态，所以跳跃连接的特征也是融合的表示，不再区分SAR或光学。
输出：最终输出与光学影像通道一致的RGB图像，即去除了云的光学图像。

Former-CR的创新在于：首次将纯Transformer用于SAR-光学厚云去除，并取得优异效果。Transformer的全球特征建模能力，使其能够应对大面积厚云的重建挑战。例如，对于一片完整云盖的区域，Transformer可以根据云边缘附近或SAR提供的线索，将远处未被云遮挡的同类地物信息传播过来，从而合理推测被云遮盖部分应呈现的特征。这种长距离依赖和跨模态融合正是传统卷积网络难以做到的。Former-CR在公开数据集上的评估显示，相比之前的GAN或CNN方法，生成图像的细节和光谱一致性更好。特别是在云遮挡边界过渡区域，没有出现明显的拼接痕迹或伪影。

代表模型：DMDiff（2025）。前面已在模型发展历程部分介绍了扩散模型应用于多模态去云的案例，这里补充一些细节。DMDiff全称Dual-branch Multimodal Guided Diffusion，由Zhang等提出，针对融合SAR与光学数据的云去除。其架构由两个分支组成：SAR分支和光学分支，分别由各自的卷积网络提取特征图。然后在扩散模型每个去噪步的网络中，设计跨注意力模块将SAR分支特征融入光学分支。扩散模型逐步生成图像的过程中，SAR提供的约束被不断注入，从而引导光学图像朝真实无云方向收敛。DMDiff在一个包含航空影像、WHU-OPT-SAR和LuoJia等数据集上测试，结果表明：相较于最先进的GAN和Transformer方法，它在信号保真度和感知质量上均取得提升。例如在LuoJiaSET-OSFCR数据上，FID指标降低了17%，PSNR和SSIM等指标也有显著提高。这说明扩散模型在跨模态去云任务中大有可为。

适用场景：多模态融合方法非常适用于极端云况（如目标区域长期多云）或者对结果要求高保真的应用场景。例如，在雨林地区全年云雨天气频繁，依靠可见光几乎无法得到无云影像，这时可以借助SAR数据来“透视”云层获取信息。又比如，在军事侦察或重要目标监测中，可能会主动使用多源传感器确保获取数据，无云重建对精度要求高，则应采用多模态融合的最优模型。值得注意的是，不同传感器的数据获取需要统筹，某些发展中国家或地区可能缺乏SAR卫星数据覆盖，因此多模态方法也有应用限制。

局限：首先，多模态模型的实现复杂，调参困难，需要对不同数据的噪声、动态范围差异进行处理才能有效融合。其次，计算和存储成本高：比如Transformer或扩散模型已经很重，再加上多模态输入（多通道、多分支），训练推理耗时更多。另外，如果辅助模态本身也存在缺失（如SAR也可能有数据空缺或低分辨率），模型性能会受影响。还有，当云遮挡区域出现地物变化（比如SAR看到地表有新构筑物，但光学真值无云影像拍摄时尚未出现），多模态模型可能难以及时反映这种变化差异，而简单地混合特征，导致输出不一致。为提高鲁棒性，一些方法引入不确定性估计，让模型对这种模态冲突保持谨慎。

小结：多源多模态融合代表了遥感去云方法向更全面信息利用的发展方向。通过结合不同传感器的互补优势（如光学提供纹理颜色，雷达提供结构形状），这些模型极大提高了去云结果的可靠性和精细度。从DSen2-CR的残差融合、到Former-CR的Transformer融合、再到DMDiff的扩散融合，技术不断进步，实现效果也越来越好。在云层情况复杂、多源数据易获取的场景下，多模态方法无疑是当前的最佳选择之一。

4.4 其它值得关注的方法

除了上述主要类别，还有一些特别的模型和策略：

联合云检测与去云：有研究尝试将云检测（分割）和云去除结合在一个模型内，形成多任务学习。一方面，检测分割支路可以提供精确的云位置，为去除支路提供先验；另一方面，去除支路的输出也可用于辅助校正云遮罩，二者相辅相成。例如Ma等人提出的Cloud-Matting去云模型，先估计云层的透过率（类似抠像的matte），再基于该透过率恢复背景影像。这样隐式地完成了云检测（透过率即云量的反比）和图像复原两个任务。实践表明，该联合方法在云边缘过渡区域能取得更平滑自然的结果，因为将云当作前景半透明层去处理，比简单二值掩膜效果更佳。同样，一些GAN和Transformer模型也内置了注意力或掩膜预测模块，如前述SpA-GAN的注意力图就是一种显式的云区域识别，可以视为轻量的云检测分支。未来模型可能进一步融合这两项任务，实现**“一体化”的云识别与去除**（见后文未来方向）。
不确定性量化方法：由于云去除任务本质上具有不确定性（云下被遮挡的内容可能无法唯一确定），一些最新工作开始重视模型输出的不确定性评估。典型如UnCRtainTS模型：这是2023年提出的一种多时相去云网络，它在生成无云图像的同时，额外输出一张与影像同尺寸的不确定性地图。该不确定性图以像素值表示模型对每个像素预测的置信度或可能误差。使用它，用户可以了解哪些区域的重建结果较为可靠、哪些区域可能存在较大偏差。在实际应用中，如果某区域不确定性高，说明模型“没把握”，那么下游分析时应谨慎处理或参考其他信息来源。UnCRtainTS通过贝叶斯深度学习思想实现不确定性量化：它在网络中引入了Monte Carlo Dropout等技术进行多次采样推断，统计预测方差来衡量不确定性。这种方法虽然增加了计算，但对安全关键的应用（如卫星影像用于航空决策）非常有意义。目前不确定性预测主要见于多时相模型，未来也可能扩展到单时相模型中以评估GAN/扩散输出的可信度。
物理先验融合：除了纯数据驱动，部分研究结合物理模型提高去云效果。例如CloudRuler将大气物理知识引入Transformer，通过求解热红外波段的云辐射传输参数，为模型提供云厚度、透过率等物理量参考。再如有些方法针对薄云场景，采用暗通道先验或Retinex大气校正模型来预处理云区域，使其变得接近真实，从而简化深度网络的任务jiasen.tech。物理融合的方法常对薄云（云下还有部分地表信号）特别有效，可以纠正色偏或减弱云雾。对于厚云则物理模型作用有限，因为厚云下几乎无信息。不过将物理模型与深度学习结合是值得探索的方向，它能够减少训练数据需求并提升模型的可解释性。例如，Han等人在2024年提出SpT-GAN（Sparse Transformer GAN）用于薄云去除，就利用傅里叶变换和稀疏注意力过滤掉云的冗余信息，保存地物频率分量。这种结合先验的策略提高了生成图像的颜色保真度和分辨率。

综上，目前遥感去云领域已经涌现出多种模型流派，每类都有其代表性工作和适用范围。表1总结了不同类别方法及代表模型：

表1：遥感图像去云方法类别及代表模型概览（部分）。

表中所列并非穷尽所有方法，但涵盖了主要流派和最新进展。可以看到，深度学习方法正朝着多源、时序、生成式方向演化，模型复杂度和性能均在提高。下一节我们将介绍支撑这些模型研究的数据集、常用评估指标，随后讨论当前存在的挑战和未来方向。

5. 主流开源数据集

高质量的公开数据集对遥感去云研究至关重要。早期由于缺乏成对的有云/无云数据，深度模型训练受限。近几年，多个团队构建了去云任务的数据集，包括模拟数据和真实数据。以下列出几套常用的公开数据集及其特点：

RICE数据集（Remote sensing Image Cloud rEmoving dataset）：由林道钰等人于2019年发布，是首个专门面向云去除的公开数据集。RICE基于Landsat-8卫星影像（30米分辨率）构建，包含两部分：RICE1有500对图像，每对是512×512像素的有云影像及对应无云影像；RICE2有450组图像，每组包括一幅有云影像、一幅无云影像以及对应的云掩膜。RICE影像涵盖多种地物（城市、水域、沙漠等），其中RICE1主要是薄云场景（有云图和真值比较接近，只是薄云遮挡），RICE2主要是厚云场景（云完全遮挡部分区域，需借助掩膜辨别）。RICE数据可通过作者提供的GitHub链接免费下载。其优点在于配对真实数据，填补了领域空白。缺点是规模较小（总计不到1000张样本）且局限于Landsat8，不同季节区域的多样性有限。
Landsat长期影像：除了专门构建的数据集，不少研究直接利用美国地质调查局（USGS）提供的Landsat影像库。Landsat系列（如Landsat-7/8/9）影像30米分辨率、覆盖全球50年，是云研究的重要资料来源。例如SPARCS (Landsat-8 Cloud Cover Assessment Validation Data) 是一个云检测数据集，包含80个1000×1000像素的局部影像块及对应云标记。又如L8 Biome数据集收集了96景Landsat-8影像及其人工云掩膜，用于评估云检测算法。这些数据主要用于云检测，不过也可间接用于去云：如挑选影像对或用历史清晰影像作为真值进行补全。Landsat公开数据获取方便（通过USGS或Google Earth Engine下载），影像带有质量波段（包括云掩膜信息），为算法评测提供了丰富素材。但Landsat影像通常每景包含大范围区域，云分布零散，需要裁剪对齐才能形成训练对。另外Landsat多光谱影像可以为算法提供更多波段信息（如短波红外SWIR对薄云更敏感）。
Sentinel-2多时相数据集：欧洲哨兵二号(Sentinel-2)提供10米分辨率多光谱影像，重访周期5天，适合多时相去云研究。Patrick Ebel等人于2020年构建了SEN12MS-CR数据集。该数据集从原有SEN12MS多模态数据集筛选出175个全球离散区域，每个区域提供一个有云的Sentinel-2光学影像、对应的无云光学影像，以及配套的Sentinel-1 SAR影像。这些影像按春夏秋冬四季分布于2018年，覆盖多种地理环境。SEN12MS-CR是一个多模态单时相的去云基准数据集，专门用于研究SAR辅助的云去除。在此基础上，作者于2022年发布了扩展版SEN12MS-CR-TS。后缀TS意为time series，多时相序列。它选取了53个ROI，每个区域提供2018年全年30个时刻的观测：包括每个时刻的Sentinel-1双极化雷达图、Sentinel-2多光谱光学图（可能有云）、以及参考的云掩膜。每个ROI都有不同季节、各种云量（从晴空到完全云盖）的情况。研究者在此数据上建立了多个基准方法的测试，例如DSen2-CR、STGAN、CR-TSNet、U-TAE、UnCRtainTS等模型的性能比较表。SEN12MS-CR-TS是第一个提供重复多时相-多模态观测的大规模去云数据集，对于开发和评估序列到序列的去云模型非常有价值。以上SEN12MS系列数据均可在作者的公开库下载。它们的优势是全球覆盖、场景丰富，包含SAR等辅助模态；劣势是影像为小块裁剪（256×256像素左右）且光学影像已经经过一定预处理，对实际整景应用的直接参考性稍低。
AllClear数据集（2024）：AllClear是由Cornell大学 Zhou等人提出的最新超大规模数据集。它针对当前云去除研究缺乏大规模基准的问题，收集了23,742个感兴趣区域(ROI)，总计约400万张影像。每个ROI提供2022年全年完整的时间序列观测，包括：(1) Sentinel-2光学影像和Landsat-8/9光学影像（多光谱，每个ROI全年获得数十张，带有云的），(2) Sentinel-1 SAR影像（对应时间），(3) 辅助产品如云掩膜（来自现有算法）和土地覆盖图等。AllClear可以说是迄今最大最全面的去云数据资源，特点：覆盖全球各种气候和地表类型，时间跨度统一为1年，多源多模态齐备。作者在其基准上测试了不同规模训练集的效果，发现随着数据量从少到多，模型PSNR从28.47dB提高到33.87dB，呈现明显的性能随数据扩大的提升趋势。这证明大数据对云去除深度模型的重要性。AllClear目前论文投稿于NeurIPS 2024数据集与基准轨道。其测试集（约4万张样本）已开放下载，训练集则体量庞大但有望通过cloud平台获取。AllClear的出现为云去除研究提供了一个统一的评测平台，也鼓励模型朝着同时利用多源数据、处理长时间序列的方向发展。
其他数据集：此外还有一些专门的数据集值得一提。如WHU厚云数据集：包含7景Landsat-8影像及对应的历史无云影像、人工标注的云和阴影掩膜，分布在6个不同区域。这主要用于研究利用历史影像（可能跨年份）去除当前厚云。CloudSEN12是2022年发布的全球多时相云检测数据集，提供了49,400个Sentinel-2小图块及其云/阴影标注。虽然是针对检测，但也能用于去云模型训练云掩膜或评估残留云情况。人工模拟云数据：有些研究在没有充分真实数据时，会采用模拟云的方法生成训练对。例如利用Perlin噪声或程序化生成云纹理叠加到清晰影像上，作为合成的有云样本。这种数据获取容易且量大，但云的形态和光学特性未必符合真实分布。通常模型可先在模拟数据上预训练，再在少量真实配对数据上微调，以结合模拟数据量大和真实数据逼真的优势。

数据集特点对比：

分辨率：Landsat数据30m中分辨率，场景大但细节少；Sentinel-2 10m较清晰适中；商业数据（如一些研究使用PlanetScope 3m、高分辨卫星1m）则精细但获取有限。模型需考虑不同分辨率下云的表现（高分辨率下云边界清晰复杂，中低分辨率云多表现为朦胧区域）。
云掩膜：多数数据集提供云掩膜（人工标注或算法生成）。这对模型评估很重要，可用于计算云检测指标（详见下一节）或辅助训练。人工标注的准确但费时，算法掩膜如Fmask可能有误差。AllClear等倾向于提供算法掩膜作为参考。
场景多样性：全球性数据集（AllClear、SEN12MS）涵盖各种气候带，比局部数据集泛化性好。研究显示，如果模型只在单一区域数据上训练，在新区域往往效果较差，因此多样性很关键。
获取方式：多数公开数据可通过论文附录或项目主页下载（例如RICE的GitHub、SEN12MS-CR的TU Munich网站、AllClear的Cornell网站）。也有些如CloudSEN12在Nature子刊附Data Descriptor，可在云平台获取。使用公共数据应注意其许可和引用要求。

总体而言，数据集的不断丰富为云去除算法的训练和公平比较提供了基础条件。当前，从小规模的RICE到大规模的AllClear，研究者已经有工具检验算法在不同场景和数据量下的表现。在这些数据集上涌现的基准成绩，也推动着模型朝更高PSNR/SSIM、更低误差的方向发展。

6. 评估指标

评估云去除算法的效果，需要考虑图像质量和云检测准确性两个方面。因此常用的指标分为两类：一类衡量重建影像与真实影像的相似程度，另一类衡量云区域识别及去除的成效。以下是主要的评估指标及其含义：

峰值信噪比（PSNR）：PSNR是反映重建图像与参考真值图像差异的指标，单位为分贝(dB)。其定义基于均方误差(MSE)。其中MAX是图像像素可能的最大值（例如8位图像为255），MSE是预测与真值在所有像素上的均方误差。PSNR值越高表示预测图与真值越接近。一般遥感图像PSNR能达到30dB以上就属于较好复原。PSNR对整体误差敏感，差异大的像素将大幅拉低PSNR。它的优点是物理意义清晰（基于误差），计算简单，但缺点是未考虑人眼感知，对细节损失或结构错位不够敏感。
结构相似度（SSIM）：SSIM是评价图像结构和感知质量的指标。它从亮度、对比度、结构三个方面比较两张图的相似性，取值范围0到1，1表示完全相同。与PSNR不同，SSIM更关注局部结构信息的一致，如边缘、纹理等。它通过滑动窗口计算图像局部统计量（均值、方差等）来度量结构保真度。SSIM较高表示生成图像在视觉上与真值几乎无差别。遥感去云中，SSIM经常和PSNR一起报告。例如某模型PSNR提升不大但SSIM明显提高，可能说明重建图保持了结构但有整体偏差。这两个指标结合能较全面反映图像质量：PSNR注重像素级准确，SSIM强调感知结构。
云检测准确率（Cloud Detection Accuracy）：这通常指针对云的像素分类准确率。在去云任务评估中，有两种理解方式：其一，如果算法同时输出了云掩膜（或内部计算了云区域，例如注意力图），可以将其与真实云掩膜比对计算准确率=（云区正确识别像素+非云区正确识别像素）/总像素。其二，从结果图像间接评估，即看残余的云是否被完全清除。如果把输出图像与真值影像做差异，对差异区域应用一个阈值，就可以检测输出中是否还有云痕迹。计算准确率即判定算法清除了多少云像素。简单来说，云检测准确率高意味着模型有效识别并去除了云区域，没有把地物误当云抹掉或漏掉云不处理。许多文献在评价去云时，会顺带报告云检测性能，特别是那些联合作云检测模块的模型。例如某模型云检测总体准确率达到98%，表示云像素和非云像素分辨极高。
云检测F1分数（CD-F1）：F1分数是精确率(Precision)和召回率(Recall)的调和平均，用于评价分类结果的平衡表现。对于云检测，通常将“云”作为正类，定义: 精确率 = 检测为云的像素中真正云的比例，召回率 = 真正云像素中被正确检测出来的比例。F1 = 2 * (精确率 * 召回率) / (精确率 + 召回率)。CD-F1即Cloud Detection F1，衡量模型对云的检测综合表现。高F1意味着模型既不错检也不漏检云。在去云评估中，若使用真实云掩膜和去云结果来计算F1，就能知道模型是否有未清除干净的云（漏检，会降低召回）或者错误清除了本不是云的部分（错检，会降低精确率）。一些去云研究引用云检测领域的成果，将F1作为重要指标，因为它比简单准确率更严格。如果F1偏低，可能说明模型输出还残留云或者过度抹去了地物。
其他图像质量指标：包括RMSE（均方根误差，PSNR相关但直观表示误差大小），SAM（光谱角度距离，用于评估光谱失真的一个指标，计算重建像素光谱与真值光谱向量的夹角），ERGAS（综合误差指数，多用于遥感融合评价）等。这些有时在多光谱或高光谱去云评估中使用。例如SAM能反映重建光谱的准确性，特别关注颜色或光谱曲线是否一致。FID（Fréchet Inception Distance）等感知指标也可用来评价生成图像的分布与真实分布差异，DMDiff就报告了FID降低17%。在云去除任务中，如果目标不仅是看像素误差，更要关注感知质量，FID是一种很好的补充指标。
下游任务指标：有些研究还通过下游应用效果来评价去云成果。例如在去云影像上进行土地覆盖分类、变化检测等，比较其准确率提升。也有用变化检测F1（CD-F1在另一语境也可能指Change Detection F1）来评估，在云去除前后变化检测算法性能的变化。一般认为，去云后数据质量提高，下游任务精度应有所提升。如果没有提升甚至下降，说明去云引入伪影，破坏了原有信息。

需要注意，不同指标可能出现矛盾：例如GAN模型可能提高SSIM（结构更真实）但PSNR下降（像素值有所不同，因为GAN倾向于创造更加逼真的纹理而非严格还原真值）。这时需结合肉眼观察判断是否GAN结果更有价值。再如，在非常厚云区域，模型A可能输出了接近真实的内容（提高PSNR），模型B输出了一个平均色块（偏差较大PSNR低）但是B的不确定性更小——如何权衡需要结合应用需求。如果只是要视觉上连贯，可接受一定偏差；但定量研究需要更准确像素，则PSNR更重要。

综上，评估云去除方法应多指标综合考量。通常报告PSNR和SSIM作为基本指标，如果模型涉及云检测则报告准确率和F1。如果用到多光谱数据，也应关注各波段的误差以及整体光谱保真度（如SAM）。同时，配合定性对比（将输出影像与真值视觉比对，看是否存在明显未去除的云痕迹或不合理的复原）。通过定量+定性，才能全面评价模型的优劣。这些评估也为改进模型指明方向：例如发现某模型PSNR高但F1低，说明它存在漏检云，或SSIM高但PSNR低，说明可以在确保结构同时改善像素一致性。研究者应针对薄云、厚云、阴影等不同情形分别评测，以找到模型的短板。

7. 研究挑战

尽管深度学习在遥感图像去云任务中取得了显著进展，但该领域仍面临诸多挑战和困难。以下列出主要的研究挑战：

挑战一：多源数据融合复杂度高。如今最先进的方法往往需要融合多时相、多传感器的数据，但不同数据源之间存在分辨率差异、观测角度不同、成像机理不同等问题。例如，SAR影像有斑点噪声且反映物理散射，与光学纹理差别大；不同日期的光学影像受光照和季节变化影响，直接融合可能产生“不兼容”现象。如何有效对齐和利用多源数据是一大挑战。如果配准不准，融合会导致重影；如果不考虑辐射差异，拼接会造成亮度不连续。当前Transformer、自注意力等可以一定程度自动学习对应关系，但仍需要手工设计很多预处理步骤。未来需要更加鲁棒的跨模态对齐算法，以及自适应融合策略，使模型智能判别何时依赖辅助模态、何时相信当前影像，从而避免错误信息引入。

挑战二：缺乏精确真实标签。训练深度学习去云模型需要大规模的“有云图→无云图”对。然而真实情况下，获取完全同时间同地点的有云影像和无云参考影像几乎不可能（因为要么有云要么无云，不会同时存在）。因此常用替代是真在不同时刻找一张相对无云的当“真值”，但地表可能在这段时间发生变化。这导致训练数据存在标签噪声：模型可能学到的不是云去除，而是把时间变化抹除。例如植被长势变化、本应检测出来但数据误把变化当成云的差异。这种标签不完美限制了模型性能。有时真值影像也不是100%晴空，可能还有薄云余留，进一步增加误差。一些研究改用模拟云数据训练以获取精准真值，但模拟云无法完全代表真实云特性。因此，如何构造高质量的训练数据仍是难题。需要开发弱监督或无监督的方法（后文讨论），减少对精准配对数据的依赖。

挑战三：云形态复杂多变。云有不同类型（积云、层云、卷云等），形态和厚度千差万别。薄云可能仅造成亮度降低、画面泛白，可以通过物理校正或轻微调整恢复；厚云则完全遮挡，需要根据上下文和其他时相信息重建。同一种模型很难同时兼顾薄云和厚云场景。例如许多GAN模型侧重复原被完全遮挡的内容，但对薄云引起的轻微颜色偏移矫正不佳，反之亦然。云还伴随云影问题：云在地表投下的阴影区域也会导致信息缺失或失真，这些阴影位置不一定在云正下方，模型可能需要同时去除云及其阴影才能得到完整场景。有时云和其他明亮地物（如雪、沙漠）很难区分。复杂多样的云形态要求模型具备很强的普适性，能识别不同类型的云并采取不同策略处理。这给模型设计和训练带来挑战，需要在数据集中涵盖各种云情况，并可能引入自适应模块根据云厚度或类型调整处理方式。

挑战四：模型泛化能力差。很多深度模型在某一数据集上效果很好，但换到不同地区或不同卫星数据，性能明显下降。这是域泛化问题：云的外观和背景地物在不同区域可能差异很大，模型容易过拟合训练集分布。例如在热带雨林数据上训练的模型，拿到沙漠地区可能误把明亮沙地当云去掉；或在夏季影像训练的模型，用于冬季积雪地表时也会发生混淆。再比如，模型在Sentinel-2数据训练，直接用于Landsat-8数据由于光谱波段不同、分辨率不同，效果不保证。这种泛化性差限制了实际应用。为提升泛化，常用做法是增加训练数据多样性（如AllClear大数据），或者进行域适配/正则化，让模型更关注云的普遍特征而非场景细节。仍然，这是一个尚未完全解决的问题。尤其对于极端情况（如从未见过的云形态、新地表类型），模型可能完全失效。如何构建鲁棒的、跨地域跨传感器的去云模型，是未来的重要方向。

挑战五：计算成本与时效性。先进的去云模型（如带Transformer或扩散的）往往参数上亿，训练需要大量GPU算力，推理也较慢。这对实际业务部署不利。如果要处理海量卫星数据（例如每天的全球影像），一个很“重”的模型将消耗巨大资源，难以实时更新。尤其扩散模型，一张图可能需要几十到上百步采样，无法高频率处理。即使多时相CNN，输入多帧也比单帧慢很多。对于有边缘计算需求的场景（如卫星在轨实时去云、无人机机载实时去云），当前模型几乎无法直接运行。因此需要研究轻量化网络，通过模型剪枝、蒸馏、量化等手段降低计算量，同时保持精度。此外，也需要平衡模型复杂度和性能：有没有可能找到一种较小模型，在大部分典型场景下效果尚可？目前看，精度和复杂度往往成正比，这对应用提出挑战。训练成本也是问题，AllClear虽好但400万影像训练一次需要耗费极大算力，对于学术研究者不是每次都负担得起。这个领域还缺少一个统一的轻量高效模型作为基准。

挑战六：客观评价与可信度。由于云去除涉及预测未知信息，在实际应用中面临结果可信度的问题。如果模型生成了错误内容，可能对下游决策造成误导。因此如何评估和标注模型的可靠性很重要。前面提到的不确定性预测是一个方向，但目前还不够成熟和直观。在给用户使用时，需要标明哪些部分是算法猜的且不确定，以防止滥用。同时，去云算法可能会破坏原始数据真实性，引起一些科研担忧。例如在环境监测中，合成的数据可能让研究者误以为是真的，影响判断。因此，对算法输出的解释和可信AI也是挑战之一。解决方案可能包括：让模型输出原图哪些部分被改动过的掩膜，让用户清楚变化范围；或开发保留一定云信息的可调节方法，让用户自己权衡清晰度与真实性。

除以上几点，其他挑战还有：多尺度建模（云和地物都有细节和大范围结构，模型需要同时掌握全局与局部信息，这是很多算法尚未完美解决的），评价标准统一（不同论文用的数据和指标不完全一致，难以横向比较），数据获取和隐私（军事卫星或商用高分数据可能不公开，限制了某些应用领域的研究）等等。

概括来说，遥感图像去云任务本质上是一个在不完整信息下的重建推理问题。它受到自然因素（天气、多变性）、技术因素（模型能力、数据质量）和应用需求（实时性、可靠性）的多重挑战。正是这些挑战，激励着研究人员不断改进算法，使模型更智能、更强健，以应对复杂的现实场景。

8. 未来发展方向

针对以上提到的挑战和当前技术趋势，遥感图像去云任务未来有几个值得期待的发展方向：

方向一：自监督和弱监督学习。正如前文所述，标注成对的无云真值非常困难。未来的研究将着重于减少对人工标注的依赖，利用未配对或弱配对的数据进行训练。自监督学习是一条有前景的途径。例如，可以利用晴天影像对云天影像进行重建训练，而不要求两者严格来自同一天。具体想法包括：利用同一地点的不同时相清晰影像作为“老师”，通过设计变换把晴天影像合成有云影像（如加掩膜噪声），让模型去学习还原。或者利用Mask方法：随机遮挡一张影像的部分区域（模拟云），训练模型根据未遮挡部分重建遮挡区。又或者，采取对比学习使模型学习识别云与地物的本质差异，从而在推理时无需标注也能分辨云区域。弱监督方面，如果只有云掩膜而无无云真值，也可以分步训练：先训练云检测，再用检测结果指导影像修补。这样只需标注云的位置，不需真实背景。这些方法能充分利用现有海量未标注遥感数据，一旦突破，将极大拓展可训练的数据范围，使模型泛化能力提升。近期一些工作已尝试无监督薄云去除、GAN循环一致性约束等，取得初步成果，但离完全摆脱真值监督还有距离。

方向二：跨模态学习与多模态协同。未来的去云模型将更充分地利用多源数据，甚至拓展到跨模态的联合建模。一方面，除了光学+SAR，还可结合热红外（TIR）影像。热红外能在一定程度上区分云（温度低）和地表（温度相对高或有日夜周期变化），已有人尝试用TIR改进云检测。将来或许可以把TIR作为辅助模态参与云去除，帮助区分云与其他明亮物体（如雪）。另一方面，云检测与云去除的联合建模也属于跨模态学习的一种（把影像和云掩膜信息作为两模态）。通过多任务学习，让模型在学习去云的同时也学会识别云，互相促进。还有一个新颖的思路是跨领域/跨任务迁移：利用在其他图像修复任务（如去雾、去雨滴）上预训练的模型来初始化去云模型，因为这些任务都有遮挡物去除的共性，可借鉴其特征表示。跨模态学习要求模型能处理异构数据输入并高效融合，这可能需要设计统一的表示或使用Transformers这类天然适合多模态的数据驱动结构。未来或出现**“一种模型解决多种天气干扰”**的框架，如同时去除云、雾、阴影等，通过在不同模态/任务之间迁移学习，提高模型汲取多种知识的能力。

方向三：轻量化模型与部署。为了实际应用，去云模型必须走向轻量、高效、可部署。未来研究会致力于网络结构优化和模型压缩。例如，探索适合移动端或星载的高效网络结构：也许一个深度较浅但利用多尺度金字塔特征的小型CNN，就能在中等精度下实时运行；或者采用TinyTransformer结合混合精度运算，在保证一定效果下将参数量减少一个数量级。另一方向是知识蒸馏：用性能强大的“大模型”指导一个“小模型”学习去云，使小模型在推理时以较低成本达到接近大模型的效果。Edge computing的发展也可能带来协同方案，例如云端大模型与本地小模型配合，本地模型快速粗去云，云端模型精修高细节部分，从而在实时性和精度间取得平衡。针对轻量化，目前文献已有提到需要加强轻量网络研究，但真正的成果还不多。这将是工业界推动的重点，因为遥感卫星、无人机都希望能边采集边处理。有朝一日，也许每颗卫星搭载一个专用AI芯片跑去云算法，直接将无云图像下传，节省带宽的同时提升数据质量。

方向四：云识别与去云联合建模。正如前述，云检测和去云本质上是密不可分的任务。未来可能看到更多联合模型，甚至出现统一的云处理框架，输入原始影像输出无云影像和云图层信息。例如一个模型输出三部分：清晰图像、云不透明度(alpha matte)图、以及置信度图，让用户既得到去云结果又知道云位置和去除质量。联合建模的好处是云检测结果可以直接用于后处理，或供其它应用参考，实现完整的云问题解决方案。学术上可能出现**“云处理Transformer”**之类的大一统架构，把云当成一种可分离的图像层来建模。在这个架构中，云检测是中间可解释的结果，去云是最终结果。这种联合模型需要在训练时同时考虑两个任务的损失，设计多输出分支。挑战在于云检测标签和去云标签的兼容，但可以采用部分监督（有的数据只有云标注、有的有配对影像）共同训练的策略。总之，云检测去除一体化将提高处理效率，避免两个步骤误差累计，也让模型能够通过识别云类型来采用不同去除策略，表现更智能。

方向五：多尺度与分层建模。云和地表都存在显著的多尺度特征：例如大片云层的整体形状需要全局视野，但其中细节（云边缘的纹理、地物的小结构）又要求局部精细处理。未来模型可能通过分层建模来解决这一问题。一种思路是建立金字塔网络，逐级预测无云影像的不同分辨率版本gtzyyg.com。先低分辨率预测大致区域，再高分辨率填充细节。这样既保证全局一致，又能恢复细节。例如扩散模型可以在低分辨率上扩散，然后上采样+细局部扩散，提高速度也兼顾质量hub.baai.ac.cn。另一个思路是显式地分离结构与细节：如使用生成网络+超分网络的组合，先生成云下地物的大概形态，再通过一个精细化网络结合周边信息添加纹理细节。Transformer也可以以多尺度特征图作为输入，通过层次化的自注意力处理局部和全局信息。多尺度建模将使模型对不同大小的云块、不同精度的地物都能胜任，减少目前某些模型对小云有效但大云失效或相反的情况。

方向六：大模型与跨任务迁移。从更宏观看，遥感领域也在受到AI大模型的影响。或许未来会出现遥感影像去云的大型预训练模型，在海量数据上预训练一个通用去云模型，然后针对具体任务微调。这类似于视觉领域的GPT或Vision Transformer。OpenAI等公司的多模态模型如果输入遥感影像+气象数据，说不定也能学会“想象”云下场景。虽然目前还比较超前，但跨任务迁移已有苗头，比如一些GAN同时学会去云和去雾jiasen.tech。基础模型(Foundation Model)的理念或许能在遥感上实现：训练一个模型，让它具备对各种影像退化（云、雾、阴影等）的修复能力，再通过提示或条件让它应用于特定任务。实现这个需要巨量数据和计算，但AllClear这样的数据集正提供可能性。大模型的优势在于知识共享：它可能理解云的生成机制、地物的先验形状，从而比小数据训练的模型更有“常识”，在极端情况下也不致产生荒谬结果。当然，大模型也带来资源占用和黑箱等问题，仍需探索。

方向七：融合气象和模型物理。云是气象现象，未来去云算法可以尝试融入气象模型或者实时气象数据。例如利用数值天气预报提供的大气参数（云高、云厚、湿度场等）作为辅助输入，帮助深度模型判断云层厚度和太阳辐射影响，从而更准确地校正被云削弱的信号。还有，通过物理驱动的方法，比如根据云的光学厚度推断地表透过率，对深度模型输出做校正，使得重建值符合物理约束。类似“物理引导的AI”是值得研究的方向，可提高模型的可解释性和可信度，让模型输出不仅像真的，还满足科学合理性。

综上所述，遥感图像去云任务正朝着更智能、更融合、更高效的方向发展。研究者们将继续攻克数据和模型层面的难题，例如通过半监督、域自适应提升模型泛化，通过轻量化网络实现快速部署，通过引入自注意力、跨模态设计解决复杂云况。可以预见，在不久的将来，我们会看到更加通用的去云算法，可以处理各种卫星影像，在保障真实可靠的前提下，大幅减少云的影响。随着这些技术的成熟，云层带来的困扰将大大降低，人们能够从遥感图像中提取出更全面准确的信息，为地球科学研究和实际应用提供有力支持。