Former-CR(2023)首次将基于Uformer架构用于SAR-光学厚云去除

Former-CR(2023)首次将基于Uformer架构用于SAR-光学厚云去除

导出时间:2025/11/24 08:47:21

1、研究背景和动机

🌦 一、问题背景:地球“看不清”的老难题

地球观测卫星每天拍下成千上万张图片, 但 —— 有三分之二的图像都被云遮住! ☁️

想象一下:你拍一张全球地图,结果上面大半都是白茫茫的云, 想看农田、城市、灾情?——全被挡住了。

这些“看不见”的地方,会严重影响:
  • 农作物监测(因为看不清作物长势);
  • 灾害评估(洪水或山火后云太厚,看不出地表);
  • 环境监控(空气、水体、城市扩张……全模糊)。

🌍 二、旧方法的三种套路 —— 各有毛病

方法类型
核心思路
问题
单幅图像修复法
用图像本身晴空区去“补云区”
云太厚时根本没信息可补
多时相法
用不同时刻的无云图作参考
云多地区经常等不到“无云时刻”
多光学源融合
把多颗卫星的光学数据融合
光学都怕云,换汤不换药

🎨 就像你修一张照片:

  • 第一种是“自己涂涂改改”;
  • 第二种是“拿另一张没云的照片来对照”;
  • 第三种是“几台相机拼在一起拍”—— 但如果天天阴天,那几乎都白搭。

📡 三、新思路:用“能穿云”的雷达来帮忙

于是研究者想到:

“既然光学看不见,那我们用**雷达(SAR)**来当透视眼!”

  • **SAR(合成孔径雷达)**能穿透云层、雾气、甚至轻微降雨;
  • 它提供的是地物的结构、形状和粗糙度信息
  • 虽然是黑白的、带噪声,但能“摸到”地表纹理。
于是问题变成:

“如何把 SAR 的‘骨架图’ 和 光学的‘彩色图’ 融合成一张既真实又清晰的无云图?”


🧠 四、为什么要用 Transformer?

在 2020 年前,大家几乎都用 CNN(卷积神经网络) 做这事。 但 CNN 最大的问题是:看得太近,看不远。

CNN 就像“近视修图师”: 它修得了小块区域,却看不到整张图的全貌。

于是,当云很大、范围很广时,CNN 往往会“糊一片”或“修错地方”。
这时,Transformer 的优势出现了:
  • 它能通过**自注意力机制(Self-Attention)**看全局;
  • 让模型理解: “这一块云,可能对应远处那片地物的延续”;
  • 还能跨模态(SAR ↔ 光学)地对齐对应区域。

🌈 就像一个“聪明的修图师”, 既能看全局,又能专注到局部细节。


🧩 五、UFormer:让 Transformer 更像“修图匠”

普通 Transformer 太大、太贵、太不懂局部纹理。 Former-CR 因此选择了 UFormer 架构
  • 结构上像一个“U”字(编码 + 解码),
  • 在中间用 局部增强窗口注意力(LeWin Attention)
    • 小窗口内看细节;
    • 大范围上看整体;
  • 最终实现:既能“看远”,又能“修细”。

💬 类比: 它就像一个美术老师,一边退后看整张画的构图,一边低头修每一笔的阴影。


🧮 六、损失设计:让模型“像人一样看图”

Former-CR 不只用 L1、L2 这种“机械对比像素”的损失, 还引入了 感知损失(Perceptual Loss, LPIPS)
  • 让模型不只是“像素对像素地还原”,
  • 而是“从视觉感觉上看起来像真实的无云图”。

🌤️ 换句话说, 模型学会了“修图的审美”,不是死记硬背颜色。


🎯 七、研究动机总结(形象版)

研究动机
通俗解释
☁️ 云多、光学失效
“天老是阴,照片都糊”
📡 融合 SAR 的穿云能力
“雷达能摸出云下的轮廓”
🧠 用 Transformer 取代 CNN
“修图师换成更聪明的 AI”
🧩 引入 UFormer 结构
“既看全局又修细节”
🎨 加入感知损失
“修得自然,不死板”

🧭 八、一句话总结

🌍 Former-CR 的研究动机:是要打造一个能“透云看地”的聪明修图师,把雷达的结构线索光学的颜色细节融合,用 U型 Transformer 架构 既“看全局”又“修细节”,实现真正意义上的 厚云可修、细节不糊、色彩自然 的多模态去云。



第2部分:模型的核心创新点总结

  1. 真正把 Transformer 引进“厚云去除”,且面向 SAR+光学 的多模态场景
  • U-shaped Transformer(UFormer) 做骨干:输入用 SAR + 多云 RGB,输出直接预测 无云 RGB,把全局关系建模带进云去除任务里。

2) 两分支设计:残差分支 + 重建分支,既稳又好用

  • 网络分两路:
    • 重建分支负责“看懂并重绘”——包含**预处理(IPP) → 编码-解码 → 图像还原(Decloud-IR)**三步;
    • 残差分支把原始多云 RGB 一直“原样保留”,最后与重建结果相加,生成更自然的无云图。 这样既能修云,又不轻易改动不该改的区域。

3) UFormer / LeWin 模块:窗口注意力 + 卷积,兼顾“看远”和“抠细节”

  • 选用 LeWin-Transformer(局部增强窗口注意力),在注意力里融合卷积以增强局部特征提取;因此同时保证全局一致性细节/纹理复原,而且参数量可控,适合影像修复类任务。

4) IPP 与 Decloud-IR:把多源特征“喂得进、还得出”

  • IPP 把 SAR 与 RGB 的浅层特征对齐到编码器所需的形状/通道数;
  • Decloud-IR 负责把解码得到的特征图正确映射回 RGB 图像空间,确保输出颜色/格式与目标一致。

5) 端到端的多模态融合:显式用 SAR 辅助重建厚云区

  • 整体管线从“多云 RGB + SAR”到“无云 RGB”端到端训练,充分利用 SAR 的结构线索与 RGB 的色彩语义,并通过残差合成抑制过度修复。

6) 效果验证:全局结构与细节更稳、更清晰

  • 在多种场景(山地、城市、农田)和不同云量下,Former-CR 的细节与结构一致性更好;定量上 SSIM/PSNR/MAE 综合领先,尤其 SSIM 反映的全局结构恢复优势明显。

一句话版

Former-CR 的“新”在于:用 U-shaped Transformer(LeWin)SAR 的“穿云骨架”光学的“颜色语义” 做成一体化的端到端重建; 通过 两分支(重建+残差)IPP/Decloud-IR,既修得动真格,又不乱改干净区,最终在厚云场景拿到更好的全局一致性与细节质量。



3、模型的网络结构

image.png

🧠 一、整体结构:两条路的“聪明修图师”

整张图可以分成两条主干:
  1. 主修复分支(蓝黄相间的 Reconstruction Branch) ——负责真正“看懂云下的地物”并重建无云图像;
  2. 残差分支(红线标的 Residual Branch) ——负责保留原图中那些没被云遮住的区域,防止“修过头”。
最终,这两条路在输出端相加(红圈里的 “⊕” 号) → 得到既修得干净保留真实细节的无云图。

💬 类比: 就像一个修图师:

  • 主分支负责把被云挡住的地方重新画出来;
  • 副分支保存原来的蓝天和地物,
  • 最后两者融合,得到自然又真实的结果。

🌦 二、输入部分:双模态输入

左侧是模型的输入:
  • SAR 图像(上):两通道(VV、VH极化) → 提供“云下结构、纹理、边缘”;
  • 带云光学图像(中):三通道(RGB) → 提供“颜色与光谱信息”;
  • 目标输出(下):无云的RGB图像(模型要学着去复原它)。
SAR 和光学图像的输入会在第一个模块——**IPP(Input Pre-Processor)**中融合。

🧩 三、IPP(输入预处理模块)

IPP = Input Pre-Processing 它的作用是让“看法不同”的两种图像(SAR 和 RGB) 在进入 Transformer 编码器前“讲同一种语言”。
  • 它先用卷积将SAR与光学特征映射到相同的维度;
  • 然后把两者拼接成一个联合特征图 C×H×WC \times H \times WC×H×W。

🧠 类比: 就像你把红外照片和普通照片统一成相同大小、同样的色彩空间, 方便AI后面一起处理。


🔷 四、主干部分:U-shaped Transformer

整个网络中间部分是一个 U形结构(像U-Net,但换成了Transformer块)。
分两半:

🟨 编码器(上半部分,黄色 LTDS 模块)

  • 模块名称:LTDS(Locally-enhanced Transformer Down-Sampling)
  • 功能:逐层下采样、提取多尺度特征;
  • 每层同时使用局部窗口注意力(LeWin Attention)和卷积增强, 既能“看远”又能“抠细节”。
  • 通道数不断增加(C → 2C → 4C → 8C),空间尺寸逐步减半。

💬 类比: 模型像拿着放大镜,一层层缩小图像看全局的布局。


🟦 解码器(下半部分,蓝色 LTUS 模块)

  • 模块名称:LTUS(Locally-enhanced Transformer Up-Sampling)
  • 功能:一步步恢复空间分辨率;
  • 每层会把上采样结果与对应编码层特征拼接(绿色竖线所示)形成“跳跃连接”;
  • 这样能把全局语义与局部细节结合。

💬 类比: 修图师在放大局部上色时,仍记得整张画的整体构图。


🔵 中间瓶颈层(LTL 模块)

  • 名称:LTL(Locally-enhanced Transformer Layer)
  • 位于U形的底部,是网络“最深的思考层”;
  • 它拥有最广的感受野、最强的全局注意力;
  • 相当于在“全图范围”里理解: 哪些地方被云遮、哪些地方可从SAR推测出结构。

🧠 类比: 这是修图师“退远一步”看整张照片,确定修复策略的阶段。


🧱 五、Decloud-IR(输出还原模块)

当解码器生成特征后,需要映射回真正的 RGB 图像空间, 这时用 Decloud-IR(Image Restoration) 模块。
  • 它把多通道特征通过卷积映射为 3 通道 RGB 输出;
  • 确保颜色、亮度、细节都符合光学影像的风格;
  • 最终输出的是**“修复分支结果”**(Reconstruction branch output)。

🌈 类比: 就像AI修图完,把内部的“特征草图”重新渲染成一张彩色照片。


🔴 六、Residual Branch(残差分支)

图中红线所示部分。 这是 Former-CR 的关键创新之一
  • 直接将输入的“带云光学图像”绕过主干网络,
  • 与修复分支的输出结果在最后相加(⊕)。
作用:
  1. 保留原图中晴空区域的真实像素;
  2. 避免模型过度修复;
  3. 让输出更自然、过渡更平滑。

💬 类比: 就像修图时只修被云盖住的地方,而其他区域保持原样。


🎯 七、输出结果

最终输出 =

原始多云图像 + 修复分支预测的“云层差异”

这样:
  • 晴空区保持原样;
  • 云区被补充出地物结构与颜色;
  • 结果更干净、更自然。

🧩 八、模块总结对照表

模块
名称全称
功能
通俗解释
IPP
Input Pre-Processor
融合SAR+光学输入
“统一语言”
LTDS
Locally-enhanced Transformer Down-Sampling
提取多尺度全局特征
“远看全局”
LTL
Locally-enhanced Transformer Layer
捕捉全局上下文
“整体规划”
LTUS
Locally-enhanced Transformer Up-Sampling
恢复空间细节
“近看修补”
Decloud-IR
Image Restoration
输出RGB图像
“上色成图”
Residual Branch
残差分支
保留原图晴区,防止过修
“只修云,不动晴”

💡 九、一句话总结

🌍 Former-CR 的网络结构就像一个“双手并用的AI修图师”:

  • 一只手(SAR)摸出云下的轮廓;
  • 一只手(光学)看颜色与细节;
  • 通过 U形 Transformer 同时“看远+修细”;
  • 最后只修该修的地方,不乱动晴空; 于是生成一张既结构准确又视觉自然的无云卫星图。

4、模型的核心不足与后续改进方向?

🌧 一、模型的核心不足

虽然 Former-CR 在 2023 年是多模态厚云去除的 SOTA 方法之一, 但它仍然存在以下几类问题(分为算法层面、数据层面和泛化层面)👇

1️⃣ 计算量大、模型复杂度高

原因: Former-CR 使用的是 UFormer 架构(U-shaped Transformer), 每一层都有 窗口注意力(LeWin Attention)+卷积融合。 这导致:
  • 参数量大,显存占用高;
  • 推理速度慢,不适合大规模遥感数据处理;
  • 训练时对 GPU 资源要求非常高。

💬 类比:它就像一个“手工修图的超级AI”,修得精细,但太慢、太贵。

后续改进方向:
  • 引入轻量化 Transformer(如 Swin-LiteMobileViT);
  • 使用 混合卷积-注意力结构(ConvFormer类)减少计算;
  • 或采用 低分辨率编码 + 高分辨率细化 的两阶段策略。

2️⃣ SAR 与光学的跨模态对齐仍不完美

问题所在: SAR 图像与光学图像在几何、纹理和语义上差异很大。 SAR反映地表结构(粗糙度、高度), 光学反映表面光谱(颜色、材质)。 简单拼接输入 + Transformer 学习对齐, 在极端情况下(如复杂地形或极厚云)仍会出现伪影偏色区域

🧠 类比:就像用黑白线稿去推测彩照颜色,AI能猜个大概,但有时“猜错色调”。

后续改进方向:
  • 在输入前增加 跨模态对齐模块(Cross-modal Alignment Block, CMAB)
  • 使用 互信息约束对比学习(contrastive learning) 提升对齐鲁棒性;
  • 加入 可学习配准模块(Learnable Registration),自动纠正几何偏差。

3️⃣ 细节还原存在“过平滑”问题

尽管 UFormer 保留了较多纹理信息,
但由于最终输出通过 Transformer 层 + 残差融合,
仍可能出现:
  • 边缘模糊(特别是在建筑、道路区域);
  • 细节“抹掉”现象(因为模型追求全局一致性而牺牲局部锐度)。
后续改进方向:
  • 加入 多尺度细节增强模块(Multi-scale Detail Refinement, MDR)
  • 使用 感知+结构混合损失(如 Perceptual + SSIM + Edge Loss);
  • 引入 对抗判别器(GAN-style Refiner) 增强真实感。

4️⃣ 缺乏时序信息利用(只用单时刻 SAR + 光学)

Former-CR 只使用了 一个时刻的SAR和一个时刻的光学图像, 没有考虑时间序列信息。 但地表往往变化缓慢, 多时相序列能帮助模型判断: 哪些区域是“云”,哪些是真实变化。

🌍 类比:只看一张云图,你分不清是云还是湖面反光; 但看多张时间序列,就能知道哪部分总在变化(云),哪部分固定(地物)。

后续改进方向:
  • 引入 时序Transformer模块(Temporal Attention)
  • 与 CloudTran++ 等多时相模型融合(“多模态 + 多时相”);
  • 建立 3D Transformer 时空块结构(Spatial-Temporal Hybrid)。

5️⃣ 泛化能力有限、依赖训练域

模型在自己训练的数据集(如 SEN12MS 或 Cloud-Optical-SAR Fusion Dataset)上表现很好,
但迁移到不同地区(地形、气候、传感器不同)时,效果显著下降。
原因:
  • SAR信号受成像角度、极化方式影响;
  • 光学数据受光照、季节变化干扰;
  • Transformer 对数据分布漂移较敏感。
后续改进方向:
  • 增加 多地区、多季节、多卫星混合训练集
  • 引入 领域自适应(Domain Adaptation) 技术;
  • 结合 少样本微调(Few-shot Fine-tuning) 提升跨域泛化。

🧭 二、后续改进模型与趋势

年份
改进模型
核心创新
针对的问题
2023下半年 – CloudFusionFormer
三模态融合(SAR + 光学 + 高光谱)
加强多源互补性与颜色一致性
解决跨模态信息丢失
2024 – TempSAR-CR
引入时序Transformer + SAR序列
利用时间维度区分云与地物变化
克服单时刻局限
2024 – CloudDiff
基于扩散模型的去云
学习真实分布、减少伪影
改善纹理自然度
2025趋势 – CloudTran++ / CloudFusionFormer 2.0
时空多模态联合Transformer
同时处理时序、SAR、光学三源输入
实现稳健跨时空去云

🧩 三、一句话总结

Former-CR 的不足在于: 它修得准,但“算得重”; 它看得远,但“猜颜色不稳”; 它修得细,但“缺少时间记忆”。

后续改进方向: 让模型更“轻”、更“稳”、更“聪明”—— 通过轻量化结构、跨模态对齐、时序增强与对抗细化, 让AI不只是“修云图”,而是真正理解云下地球的多源时空变化